DeepSeek R1 簡(jiǎn)單指南：架構(gòu),、訓(xùn)練、本地部署和硬件要求

創(chuàng)業(yè)情報(bào)局 2025-01-28

展開全文

DeepSeek推出的LLM推理新策略

DeepSeek最近發(fā)表的論文DeepSeek-R1中介紹了一種創(chuàng)新的方法,，通過強(qiáng)化學(xué)習(xí)（RL）提升大型語言模型（LLM）的推理能力。這項(xiàng)研究在如何僅依靠強(qiáng)化學(xué)習(xí)而不是過分依賴監(jiān)督式微調(diào)的情況下,，增強(qiáng)LLM解決復(fù)雜問題的能力上,，取得了重要進(jìn)展,。

DeepSeek-R1 技術(shù)概述

模型架構(gòu)

DeepSeek-R1 不是一個(gè)單獨(dú)的模型,，而是包括DeepSeek-R1-Zero和DeepSeek-R1的模型系列,。

下面我來闡明 DeepSeek-R1 和 DeepSeek-R1-Zero 之間的關(guān)鍵差異：

主要區(qū)別

DeepSeek-R1-Zero是團(tuán)隊(duì)初步嘗試僅用純強(qiáng)化學(xué)習(xí)而不進(jìn)行任何監(jiān)督式微調(diào)的實(shí)驗(yàn),。他們從基礎(chǔ)模型出發(fā)，直接運(yùn)用強(qiáng)化學(xué)習(xí),，讓模型通過不斷試錯(cuò)來發(fā)展其推理能力,。這種方法雖然取得了較好的成果（在 AIME 2024 測(cè)試中達(dá)到了 71% 的準(zhǔn)確率），但在可讀性和語言連貫性上存在明顯不足,。該模型擁有 6710 億個(gè)參數(shù)，使用了混合專家（MoE）架構(gòu),，其中每個(gè)詞觸發(fā)的參數(shù)約為 370 億。此模型展現(xiàn)了一些新興的推理行為,，例如自我核查,、反思和長(zhǎng)鏈推理（CoT）。

與之對(duì)比,，DeepSeek-R1采用了更復(fù)雜的多階段訓(xùn)練方法,。它不僅僅采用強(qiáng)化學(xué)習(xí)，而是先在一小組精心挑選的示例（稱為“冷啟動(dòng)數(shù)據(jù)”）上進(jìn)行監(jiān)督式微調(diào),，然后再應(yīng)用強(qiáng)化學(xué)習(xí),。這種方法克服了 DeepSeek-R1-Zero 的局限，同時(shí)取得了更優(yōu)的表現(xiàn),。這個(gè)模型同樣維持了 6710 億的參數(shù)數(shù)量,，但在回答的可讀性和條理性上有所提高。

訓(xùn)練過程對(duì)比

訓(xùn)練方法概述：

強(qiáng)化學(xué)習(xí)：不同于傳統(tǒng)依賴監(jiān)督學(xué)習(xí)的模型,，DeepSeek-R1 大規(guī)模采用了強(qiáng)化學(xué)習(xí),。此訓(xùn)練方法利用群體相對(duì)策略優(yōu)化（GRPO），重點(diǎn)提升精度和格式化獎(jiǎng)勵(lì),，以增強(qiáng)推理能力,，無需依賴大量標(biāo)注數(shù)據(jù)。
蒸餾技術(shù)：為普及高效能模型,，DeepSeek 也推出了 R1 的蒸餾版本,，參數(shù)規(guī)模從15億到700億不等。這些模型采用了如Qwen和Llama等架構(gòu),，表明即使是較小和更高效的模型也能包含復(fù)雜的推理能力,。蒸餾過程通過使用 DeepSeek-R1 生成的合成推理數(shù)據(jù)對(duì)這些小型模型進(jìn)行微調(diào)，以較低的計(jì)算成本保持高性能,。

DeepSeek-R1-Zero 的訓(xùn)練流程：

起始于基礎(chǔ)模型
直接應(yīng)用強(qiáng)化學(xué)習(xí)
根據(jù)準(zhǔn)確度和格式采用簡(jiǎn)單獎(jiǎng)勵(lì)機(jī)制

DeepSeek-R1 的訓(xùn)練流程包含四個(gè)階段：

初始階段采用數(shù)千個(gè)高品質(zhì)樣本進(jìn)行監(jiān)督式微調(diào)
針對(duì)推理任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí)
通過拒絕抽樣方法收集新的訓(xùn)練數(shù)據(jù)
對(duì)所有類型的任務(wù)進(jìn)行最終強(qiáng)化學(xué)習(xí)

性能指標(biāo)：

推理基準(zhǔn)測(cè)試：DeepSeek-R1 在各種基準(zhǔn)測(cè)試中表現(xiàn)出色： AIME 2024：實(shí)現(xiàn)了 79.8% 的通過率,，高于 OpenAI 的 o1–1217 的 79.2%。 MATH-500：得分高達(dá) 97.3%,，略優(yōu)于 o1–1217 的 96.4%,。 SWE-bench 驗(yàn)證：在編程任務(wù)中表現(xiàn)優(yōu)越,，證明了其編程能力。
成本效率：DeepSeek-R1 的 API 服務(wù)每百萬輸入令牌的成本為0.14美元,，比 OpenAI 的類似模型便宜很多,。

局限性及未來發(fā)展

該論文指出了若干改進(jìn)領(lǐng)域：

模型在處理需要特定輸出格式的任務(wù)時(shí)偶爾會(huì)遇到困難。
軟件工程相關(guān)任務(wù)的性能還有提升空間,。
在多語言環(huán)境下,，語言混合帶來了挑戰(zhàn)。
少樣本提示通常會(huì)導(dǎo)致性能下降,。

未來的研究將致力于解決這些問題,，并拓展模型在函數(shù)調(diào)用、多輪交互和復(fù)雜角色扮演場(chǎng)景等領(lǐng)域的能力,。

部署與可獲取性

開源與許可：

DeepSeek-R1及其變體基于 MIT 許可證發(fā)布,，支持開源合作和商業(yè)使用，包括模型蒸餾,。此舉對(duì)促進(jìn)創(chuàng)新和降低人工智能模型開發(fā)門檻具有關(guān)鍵意義,。

模型格式：

這些模型及其蒸餾版本支持 GGML、GGUF,、GPTQ 和 HF 等多種格式,，使其在本地部署上具有靈活性。

DeepSeek使用方式

我們可以通過三種方式使用DeepSeek：官方web訪問,、API使用,、本地部署。

1. 通過DeepSeek聊天平臺(tái)進(jìn)行網(wǎng)頁訪問：

DeepSeek聊天平臺(tái)提供了一個(gè)友好的用戶界面,，允許用戶無需任何設(shè)置即可與DeepSeek-R1進(jìn)行互動(dòng),。

訪問步驟：瀏覽至DeepSeek聊天平臺(tái) 注冊(cè)一個(gè)賬號(hào)，或者如果您已有賬號(hào),，直接登錄,。登錄后，可以選擇“深度思考”模式,，體驗(yàn)DeepSeek-R1的逐步推理功能,。

DeepSeek R1 簡(jiǎn)單指南：架構(gòu)、訓(xùn)練,、本地部署和硬件要求

2. 通過 DeepSeek API 訪問：

DeepSeek 提供了一個(gè)與 OpenAI 格式兼容的 API,，方便開發(fā)者將其嵌入各種應(yīng)用程序中進(jìn)行程序化訪問。

當(dāng)前注冊(cè)還可以享有10塊錢的贈(zèng)送額度

使用 API 的步驟：

a. 獲取 API 密鑰：

訪問DeepSeekAPI平臺(tái)，注冊(cè)賬號(hào)并生成您的專屬 API 密鑰,。

b. 配置您的環(huán)境：

設(shè)置base_url為https://api./v1,。
使用您的 API 密鑰進(jìn)行認(rèn)證,，通常在 HTTP 頭部通過 Bearer Token 進(jìn)行,。

c. 發(fā)起 API 調(diào)用：

利用 API 向 DeepSeek-R1 發(fā)送指令并接收響應(yīng),。
您可以在DeepSeekAPI文檔中找到詳細(xì)的文檔和示例。

# 請(qǐng)先安裝 OpenAI SDK：`pip3 install openai`from openai import OpenAIclient = OpenAI(api_key='<DeepSeek API Key>', base_url='https://api.')response = client.chat.completions.create(    model='deepseek-chat',    messages=[        {'role': 'system', 'content': 'You are a helpful assistant'},        {'role': 'user', 'content': 'Hello'},    ],    stream=False)print(response.choices[0].message.content)

3. 在本地部署 DeepSeek-R1：

兩種模型（R1 和 R1-Zero）：

**硬件需求：**由于模型規(guī)模龐大,，完整模型需要較強(qiáng)的硬件支持,。推薦使用具有大量視頻內(nèi)存（VRAM）的 GPU，例如 Nvidia RTX 3090 或更高級(jí)別,。如果使用 CPU,，你至少需要 48GB 的 RAM 和 250GB 的磁盤空間，但若不使用 GPU 加速,，性能會(huì)顯著下降,。
**蒸餾模型：**對(duì)于硬件要求不那么高的本地部署，DeepSeek 提供了參數(shù)范圍從 15 億到 700 億的蒸餾版本,，適合硬件配置較低的系統(tǒng),。例如，一個(gè) 7B 參數(shù)的模型可以在至少擁有 6GB VRAM 的 GPU 上運(yùn)行,，或在大約 4GB RAM 的 CPU 上運(yùn)行 GGML/GGUF 格式,。

DeepSeek本地部署步驟：

1.Ollama:

您可以使用Ollama來在本地部署和運(yùn)行模型：（Ollama 是一個(gè)工具，允許您在個(gè)人計(jì)算機(jī)上本地運(yùn)行開源 AI 模型,。您可以從這里下載它：
https:///download）

2. 驗(yàn)證 Ollama 安裝情況

在進(jìn)一步操作之前,，我們需要確保 Ollama 已經(jīng)正確安裝,。請(qǐng)打開您的終端或命令提示符，輸入以下命令：

ollama--version

如果您看到版本號(hào)顯示出來,，說明安裝成功了,！如果沒有顯示，那么請(qǐng)仔細(xì)檢查您是否已按照安裝步驟正確執(zhí)行,。

3.Download Deepseek R1

通過 Ollama 下載 DeepSeek R1 非常便捷,。您只需在終端中執(zhí)行以下命令：

ollama run deepseek-r1

默認(rèn)版本是：7B 模型（CPU 大概需要4G內(nèi)存,，1.5B大概需要1.7G內(nèi)存），DeepSeek R1 的參數(shù)范圍從 1.5B 到 671B,，可以使用ollama run deepseek-r1:1.5b適合自己的模型版本,，下載時(shí)間可能會(huì)根據(jù)您的網(wǎng)絡(luò)速度而異。下載期間,，可以喝杯水或者活動(dòng)一下身體,，稍作等待吧,？

4. 運(yùn)行 DeepSeek R1

下載完成后,，您就可以啟動(dòng) DeepSeek R1 了。使用以下命令：

ollama run deepseek-r1

就這樣,，您已經(jīng)在本地機(jī)器上順利啟動(dòng)了 DeepSeek R1,！感覺如何，是不是so easy,？

本地運(yùn)行試用Deepseek R1

現(xiàn)在我們已經(jīng)成功啟動(dòng)了 DeepSeek R1,，接下來就是更加有趣的部分——實(shí)際使用它！讓我們一起探索這款強(qiáng)大的 AI 模型能做些什么神奇的事情,。

1.創(chuàng)意寫作

DeepSeek R1 在創(chuàng)意寫作方面非常擅長(zhǎng),。嘗試給它這樣一個(gè)寫作提示：

寫一個(gè)短故事，講述一個(gè)機(jī)器人發(fā)現(xiàn)自己擁有情感的經(jīng)歷,。

您會(huì)對(duì)它輸出的既有創(chuàng)意又條理清晰的故事感到驚喜,！

本地運(yùn)行 DeepSeek R1：探索人工智能的未來可能

本文即將結(jié)束,，這次我們講解了在本地環(huán)境中使用 Ollama 運(yùn)行 DeepSeek R1。 DeepSeek R1 這樣的強(qiáng)大 AI 模型運(yùn)行在個(gè)人電腦上,，不僅僅是展示一項(xiàng)引人注目的技術(shù),，更是我們對(duì)未來人工智能發(fā)展方向的一種探索。這樣做讓高級(jí)語言模型的強(qiáng)大功能直接落在我們的手中,，使得個(gè)性化定制,、深入實(shí)驗(yàn)以及更好的隱私保護(hù)成為可能。讓我們想象以下幾種可能：

開發(fā)者可以為特定領(lǐng)域創(chuàng)建出高度定制化的 AI 助手,。
研究人員在沒有云服務(wù)依賴的情況下,，可以更自由地試驗(yàn) AI 模型。
對(duì)于那些注重隱私的用戶,，他們可以利用先進(jìn)的 AI 技術(shù),，而無需擔(dān)心個(gè)人數(shù)據(jù)泄露。

這一切都指向一個(gè)無限的可能性世界,！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：創(chuàng)業(yè)情報(bào)局 > 《電腦技術(shù)》

舉報(bào)/認(rèn)領(lǐng)