DeepSeek推出的LLM推理新策略DeepSeek最近發(fā)表的論文DeepSeek-R1中介紹了一種創(chuàng)新的方法,,通過強(qiáng)化學(xué)習(xí)(RL)提升大型語言模型(LLM)的推理能力。這項(xiàng)研究在如何僅依靠強(qiáng)化學(xué)習(xí)而不是過分依賴監(jiān)督式微調(diào)的情況下,,增強(qiáng)LLM解決復(fù)雜問題的能力上,,取得了重要進(jìn)展,。 DeepSeek-R1 技術(shù)概述模型架構(gòu)DeepSeek-R1 不是一個(gè)單獨(dú)的模型,,而是包括DeepSeek-R1-Zero和DeepSeek-R1的模型系列,。 下面我來闡明 DeepSeek-R1 和 DeepSeek-R1-Zero 之間的關(guān)鍵差異: 主要區(qū)別DeepSeek-R1-Zero是團(tuán)隊(duì)初步嘗試僅用純強(qiáng)化學(xué)習(xí)而不進(jìn)行任何監(jiān)督式微調(diào)的實(shí)驗(yàn),。他們從基礎(chǔ)模型出發(fā),直接運(yùn)用強(qiáng)化學(xué)習(xí),,讓模型通過不斷試錯(cuò)來發(fā)展其推理能力,。這種方法雖然取得了較好的成果(在 AIME 2024 測(cè)試中達(dá)到了 71% 的準(zhǔn)確率),但在可讀性和語言連貫性上存在明顯不足,。該模型擁有 6710 億個(gè)參數(shù),使用了混合專家(MoE)架構(gòu),,其中每個(gè)詞觸發(fā)的參數(shù)約為 370 億。此模型展現(xiàn)了一些新興的推理行為,,例如自我核查,、反思和長(zhǎng)鏈推理(CoT)。 與之對(duì)比,,DeepSeek-R1采用了更復(fù)雜的多階段訓(xùn)練方法,。它不僅僅采用強(qiáng)化學(xué)習(xí),而是先在一小組精心挑選的示例(稱為“冷啟動(dòng)數(shù)據(jù)”)上進(jìn)行監(jiān)督式微調(diào),,然后再應(yīng)用強(qiáng)化學(xué)習(xí),。這種方法克服了 DeepSeek-R1-Zero 的局限,同時(shí)取得了更優(yōu)的表現(xiàn),。這個(gè)模型同樣維持了 6710 億的參數(shù)數(shù)量,,但在回答的可讀性和條理性上有所提高。 訓(xùn)練過程對(duì)比訓(xùn)練方法概述:
DeepSeek-R1-Zero 的訓(xùn)練流程:
DeepSeek-R1 的訓(xùn)練流程包含四個(gè)階段:
性能指標(biāo):
局限性及未來發(fā)展該論文指出了若干改進(jìn)領(lǐng)域:
未來的研究將致力于解決這些問題,,并拓展模型在函數(shù)調(diào)用、多輪交互和復(fù)雜角色扮演場(chǎng)景等領(lǐng)域的能力,。 部署與可獲取性開源與許可:DeepSeek-R1及其變體基于 MIT 許可證發(fā)布,,支持開源合作和商業(yè)使用,包括模型蒸餾,。此舉對(duì)促進(jìn)創(chuàng)新和降低人工智能模型開發(fā)門檻具有關(guān)鍵意義,。 模型格式:這些模型及其蒸餾版本支持 GGML、GGUF,、GPTQ 和 HF 等多種格式,,使其在本地部署上具有靈活性。 DeepSeek使用方式我們可以通過三種方式使用DeepSeek:官方web訪問,、API使用,、本地部署。 1. 通過DeepSeek聊天平臺(tái)進(jìn)行網(wǎng)頁訪問:DeepSeek聊天平臺(tái)提供了一個(gè)友好的用戶界面,,允許用戶無需任何設(shè)置即可與DeepSeek-R1進(jìn)行互動(dòng),。
2. 通過 DeepSeek API 訪問:DeepSeek 提供了一個(gè)與 OpenAI 格式兼容的 API,,方便開發(fā)者將其嵌入各種應(yīng)用程序中進(jìn)行程序化訪問。 當(dāng)前注冊(cè)還可以享有10塊錢的贈(zèng)送額度 使用 API 的步驟: a. 獲取 API 密鑰:
b. 配置您的環(huán)境:
c. 發(fā)起 API 調(diào)用:
# 請(qǐng)先安裝 OpenAI SDK:`pip3 install openai`from openai import OpenAIclient = OpenAI(api_key='<DeepSeek API Key>', base_url='https://api.')response = client.chat.completions.create( model='deepseek-chat', messages=[ {'role': 'system', 'content': 'You are a helpful assistant'}, {'role': 'user', 'content': 'Hello'}, ], stream=False)print(response.choices[0].message.content) 3. 在本地部署 DeepSeek-R1:兩種模型(R1 和 R1-Zero):
DeepSeek本地部署步驟:1.Ollama:您可以使用Ollama來在本地部署和運(yùn)行模型:(Ollama 是一個(gè)工具,允許您在個(gè)人計(jì)算機(jī)上本地運(yùn)行開源 AI 模型,。您可以從這里下載它: 2. 驗(yàn)證 Ollama 安裝情況在進(jìn)一步操作之前,,我們需要確保 Ollama 已經(jīng)正確安裝,。請(qǐng)打開您的終端或命令提示符,輸入以下命令:
如果您看到版本號(hào)顯示出來,,說明安裝成功了,!如果沒有顯示,那么請(qǐng)仔細(xì)檢查您是否已按照安裝步驟正確執(zhí)行,。 3.Download Deepseek R1通過 Ollama 下載 DeepSeek R1 非常便捷,。您只需在終端中執(zhí)行以下命令: ollama run deepseek-r1 默認(rèn)版本是:7B 模型(CPU 大概需要4G內(nèi)存,,1.5B大概需要1.7G內(nèi)存),DeepSeek R1 的參數(shù)范圍從 1.5B 到 671B,,可以使用ollama run deepseek-r1:1.5b適合自己的模型版本,,下載時(shí)間可能會(huì)根據(jù)您的網(wǎng)絡(luò)速度而異。下載期間,,可以喝杯水或者活動(dòng)一下身體,,稍作等待吧,? 4. 運(yùn)行 DeepSeek R1下載完成后,,您就可以啟動(dòng) DeepSeek R1 了。使用以下命令:
就這樣,,您已經(jīng)在本地機(jī)器上順利啟動(dòng)了 DeepSeek R1,!感覺如何,是不是so easy,? 本地運(yùn)行試用Deepseek R1現(xiàn)在我們已經(jīng)成功啟動(dòng)了 DeepSeek R1,,接下來就是更加有趣的部分——實(shí)際使用它!讓我們一起探索這款強(qiáng)大的 AI 模型能做些什么神奇的事情,。 1.創(chuàng)意寫作DeepSeek R1 在創(chuàng)意寫作方面非常擅長(zhǎng),。嘗試給它這樣一個(gè)寫作提示: 寫一個(gè)短故事,講述一個(gè)機(jī)器人發(fā)現(xiàn)自己擁有情感的經(jīng)歷,。 您會(huì)對(duì)它輸出的既有創(chuàng)意又條理清晰的故事感到驚喜,! 本地運(yùn)行 DeepSeek R1:探索人工智能的未來可能本文即將結(jié)束,,這次我們講解了在本地環(huán)境中使用 Ollama 運(yùn)行 DeepSeek R1。 DeepSeek R1 這樣的強(qiáng)大 AI 模型運(yùn)行在個(gè)人電腦上,,不僅僅是展示一項(xiàng)引人注目的技術(shù),,更是我們對(duì)未來人工智能發(fā)展方向的一種探索。這樣做讓高級(jí)語言模型的強(qiáng)大功能直接落在我們的手中,,使得個(gè)性化定制,、深入實(shí)驗(yàn)以及更好的隱私保護(hù)成為可能。讓我們想象以下幾種可能:
這一切都指向一個(gè)無限的可能性世界,! |
|