久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

十分鐘理解ChatGPT的技術(shù)邏輯及演進(jìn)(前世,、今生)

 mactel 2023-02-14 發(fā)布于山東

0、 前言

11月30日,,OpenAI推出了一個(gè)名為ChatGPT的AI聊天機(jī)器人,,可以供公眾免費(fèi)測(cè)試,短短幾天就火爆全網(wǎng),。

從頭條,、公眾號(hào)上多個(gè)宣傳來看,它既能寫代碼,、查BUG,,還能寫小說、寫游戲策劃,,包括向?qū)W校寫申請(qǐng)書等,,貌似無所不能。

本著科(好)學(xué)(奇)的精神,,抽了一些時(shí)間對(duì)ChatGPT進(jìn)行了了測(cè)試驗(yàn)證,,并且 **梳理了一下ChatGPT為什么能這么"強(qiáng)"**,。

由于筆者并沒有專業(yè)學(xué)過AI,同時(shí)精力受限,,所以 短時(shí)間內(nèi)就不會(huì)再有AI-003類似更深入到技術(shù)的篇章了,,了解 001、002就已經(jīng)超出普通吃瓜群眾的范疇了,。

本篇會(huì)有較多技術(shù)名詞,,我會(huì)盡量降低其理解難度。

同時(shí),,由于非AI專業(yè)出身,,如有錯(cuò)漏、敬請(qǐng)指出,。

致謝:非常感謝X同學(xué),、Z同學(xué)兩位大牛的審稿,尤其感謝X同學(xué)的專業(yè)性堪誤

1,、什么是GPT

ChatGPT?里面有兩個(gè)詞,,一個(gè)是Chat?,指的是可以對(duì)話聊天,。另外一個(gè)詞,,就是GPT。

GPT?的全稱,,是Generative Pre-Trained Transformer(生成式預(yù)訓(xùn)練Transfomer模型),。

可以看到里面一共3個(gè)單詞,Generative?生成式,、Pre-Trained?預(yù)訓(xùn)練,、和Transformer。

有讀者可能會(huì)注意到,,我上面沒有給Transformer翻譯中文,。

因?yàn)門ransformer是一個(gè)技術(shù)專有名詞,如果硬翻譯 ,,就是變壓器,。但是會(huì)容易失去本意,還不如不翻譯,。

在下面第3章節(jié)會(huì)再講解一下Transformer。

2,、GPT之技術(shù)演進(jìn)時(shí)間線

GPT從開始至今,,其發(fā)展歷程如下:

2017年6月,Google發(fā)布論文《Attention is all you need》?,,首次提出Transformer模型,,成為GPT發(fā)展的基礎(chǔ),。 論文地址: https:///abs/1706.03762

2018年6月,OpenAI 發(fā)布論文《Improving Language Understanding by Generative Pre-Training》(通過生成式預(yù)訓(xùn)練提升語言理解能力)?,首次提出GPT模型(Generative Pre-Training),。論文地址: https:///method/gpt ,。

2019年2月,OpenAI 發(fā)布論文《Language Models are Unsupervised Multitask Learners》(語言模型應(yīng)該是一個(gè)無監(jiān)督多任務(wù)學(xué)習(xí)者),,提出GPT-2模型,。論文地址: https:///method/gpt-2

2020年5月,OpenAI 發(fā)布論文《Language Models are Few-Shot Learners》(語言模型應(yīng)該是一個(gè)少量樣本(few-shot)學(xué)習(xí)者,,提出GPT-3模型,。論文地址: https:///method/gpt-3

2022年2月底,OpenAI 發(fā)布論文《Training language models to follow instructions with human feedback》(使用人類反饋指令流來訓(xùn)練語言模型)?,,公布Instruction GPT模型,。論文地址: https:///abs/2203.02155

2022年11月30日,OpenAI推出ChatGPT模型,,并提供試用,,全網(wǎng)火爆。見:AI-001-火爆全網(wǎng)的聊天機(jī)器人ChatGPT能做什么

3,、GPT之T-Transformer(2017)

在第1小節(jié)中,,我們說到Transformer是沒有合適的翻譯的。

但是Transfomer?卻是GPT(Generative Pre-Training Transfomer)中最重要,、最基礎(chǔ)的關(guān)鍵詞,。

(注:GPT的Transformer相比google論文原版Transformer是簡(jiǎn)化過的,只保留了Decoder部分,,見本文4.3小節(jié))

3.1,、重點(diǎn)在好,還是重點(diǎn)在人,?

就像好人,,最關(guān)鍵的是好?,還是人,?

讀者們,,是好嗎?

一個(gè)稍穩(wěn)妥的答復(fù)是:既不是好,,也不是人,;既是好,也是人,。

唔,,有點(diǎn)繞,那么說人話一點(diǎn),,展開: 語義上,,重點(diǎn)在好,; 基礎(chǔ)和前提上,重點(diǎn)在人,。

3.2,、對(duì)不起,你是個(gè)好人

再延展一下,,那"對(duì)不起,,你是個(gè)好人"呢?

語義的重點(diǎn),,變成是對(duì)不起,。但是語義的前提,還是人,。

3.3,、回歸正題,Transfomer是什么

這篇《十分鐘理解Transfomer》( https://zhuanlan.zhihu.com/p/82312421 ) 可以看一下,。

看懂了可以忽略我接下來關(guān)于Transfomer的內(nèi)容,,直接跳到第4章節(jié)。如果沒太看懂,,可以看下我的理解,,對(duì)你或許有一定參考作用。

3.3.1,、上一代RNN模型的重大缺陷

在Transformer模型出來前,,RNN模型(循環(huán)神經(jīng)網(wǎng)絡(luò))是典型的NLP模型架構(gòu),基于RNN還有其他一些變種模型(忽略其名字,,Transformer出來后,,已經(jīng)不再重要了),但是都存在相同的問題,,并沒能很好解決,。

RNN的基本原理是,從左到右瀏覽每個(gè)單詞向量(比如說this is a dog),,保留每個(gè)單詞的數(shù)據(jù),,后面的每個(gè)單詞,都依賴于前面的單詞,。

RNN的關(guān)鍵問題:前后需要順序,、依次計(jì)算??梢韵胂笠幌?,一本書、一篇文章,,里面是有大量單詞的,,而又因?yàn)轫樞蛞蕾囆裕荒懿⑿?,所以效率很低?/p>

這樣說可能大家還是不容易理解,,我舉一個(gè)例子(簡(jiǎn)化理解,和實(shí)際有一定出入):

在RNN循環(huán)中,,You are a good man這句話,,需要如何計(jì)算呢?

1),、You和You are a good man?計(jì)算,,得到結(jié)果集$You

2)、基于$You?的基礎(chǔ)上,,再使用Are和You are a good man?,,計(jì)算得出$Are

3)、基于$You,、$Are?的基礎(chǔ),,繼續(xù)計(jì)算$a

4)、依此類推,,計(jì)算$is,、$good、$man?,,最終完成You are a good man的所有元素的完整計(jì)算

可以看到,,計(jì)算過程是一個(gè)一個(gè)、順次計(jì)算,,單一流水線,,后面的工序依賴前面的工序,所以非常慢

3.3.2,、Transformer之All in Attention

前面我們提到,,2017年6月,Google發(fā)布論文《Attention is all you need》?,,首次提出Transformer模型,,成為GPT發(fā)展的基礎(chǔ)。 論文地址: https:///abs/1706.03762

從其標(biāo)題《Attention is all you need》?你就能知道,,Transfomer其實(shí)主張是"All in Attention",。

那么什么是Attention(注意力)呢?

在《Attention is all you need》論文中,,可以看到其定義如下:

自我注意(self-Attention),,有時(shí)稱為內(nèi)部注意,是一種將單個(gè)序列的不同位置聯(lián)系起來的注意力機(jī)制,,以便計(jì)算序列的表示,。自我注意已成功地應(yīng)用于閱讀理解,、抽象概括、語篇包含和學(xué)習(xí)任務(wù)無關(guān)的句子表示等多種任務(wù)中

簡(jiǎn)單理解,,就是單詞與單詞之間的關(guān)聯(lián)度,,通過注意力(Attention) 這個(gè)向量來描述。

比如說You are a good man?(你是個(gè)好人),,AI在分析You的注意力向量時(shí),,可能是這么分析的:

從Your are a good man?這句話中,通過注意力機(jī)制進(jìn)行測(cè)算,,You和You(自身)的注意力關(guān)聯(lián)概率最高(0.7,70%)?,,畢竟 你(you)首先是你(you);于是You,You的注意力向量是 0.7

You和man(人)的注意力關(guān)聯(lián)其次(0.5,,50%)?,,你(you)是個(gè)人(man),,于是You,man的注意力向量是0.5

You和good(好)的注意力關(guān)聯(lián)度?再次(0.4,40%),,你在人的基礎(chǔ)上,,還是一個(gè)好(good)人。于是You,good的注意力向量值是0.4

You,are?向量值是 0.3,;You,a的向量值是0.2,。

于是最終You的注意力向量列表是【0.7 、 0.3,、0.2,、0.4、0.5】(僅本文舉例),。

1671277699_639dac83ce91e5719500e.png!small?1671277700697

3.4,、論文中對(duì)attention和Transfomer的價(jià)值描述

在論文中,google對(duì)于attention和transfomer的描述,,主要強(qiáng)調(diào)了傳統(tǒng)模型對(duì)順序依賴存在,,Transformer模型可以替代當(dāng)前的遞歸模型,消減對(duì)輸入輸出的順序依賴,。

3.5,、Transformer機(jī)制的深遠(yuǎn)意義

Transformer問世后,迅速取代循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的系列變種,,成為主流的模型架構(gòu)基礎(chǔ),。

如果說 可以并行、速度更快都是技術(shù)特征,,讓行外人士,、普羅大眾還不夠直觀,那么從 當(dāng)前ChatGPT的震憾效果就可以窺知一二。

**Transformer從根本上解決了兩個(gè)關(guān)鍵障礙,,其推出是變革性的,、革命性的**。

3.5.1,、擺脫了人工標(biāo)注數(shù)據(jù)集(大幅降低人工數(shù)量 )

這個(gè)關(guān)鍵障礙就是:過往訓(xùn)練我們要訓(xùn)練一個(gè)深度學(xué)習(xí)模型,,必須使用大規(guī)模的標(biāo)記好的數(shù)據(jù)集合(Data set)來訓(xùn)練,,這些數(shù)據(jù)集合需要人工標(biāo)注,,成本極高。

打個(gè)比方,,就是機(jī)器學(xué)習(xí)需要大量教材,,大量輸入、輸出的樣本,,讓機(jī)器去學(xué)習(xí),、訓(xùn)練。這個(gè)教材需要量身制定,,而且需求數(shù)量極大,。

好比 以前要10000、10萬名老師編寫教材,,現(xiàn)在只需要10人,,降低成千上萬倍。

那么這塊是怎么解決的呢,?簡(jiǎn)單描述一下,,就是通過Mask機(jī)制,遮擋已有文章中的句段,,讓AI去填空,。

好比是一篇已有的文章、詩(shī)句,,擋住其中一句,,讓機(jī)器根據(jù)學(xué)習(xí)到的模型,依據(jù)上一句,,去填補(bǔ)下一句,。

如下圖示例:

這樣,很多現(xiàn)成的文章,、網(wǎng)頁(yè),、知乎問答、百度知道等,,就是天然的標(biāo)注數(shù)據(jù)集了(一個(gè)字,,超省錢)。

3.5.2、化順序計(jì)算為并行計(jì)算,,巨幅降低訓(xùn)練時(shí)間

除了人工標(biāo)注之外,,在3.3.1小節(jié)中提到RNN的重大缺陷,就是順序計(jì)算,,單一流水線的問題,。

Self-Attention機(jī)制,結(jié)合mask機(jī)制和算法優(yōu)化,,使得 一篇文章,、一句話、一段話能夠并行計(jì)算,。

還是以You are a good man舉例,,可以看到,計(jì)算機(jī)有多少,,Transformer就能有多快:

1671277756_639dacbc1a8abafb6d6a9.png!small?1671277756780

4,、GPT(Generative Pre-Training)-2018年6月

接下來,就到了ChatGPT的前世-GPT(1)了,。

2018年6月,OpenAI 發(fā)布論文Improving Language Understanding by Generative Pre-Training》(通過生成式預(yù)訓(xùn)練提升語言理解能力)?,,首次提出GPT模型(Generative Pre-Training)。論文地址: https:///method/gpt ,。

4.1,、GPT模型的核心主張1-預(yù)訓(xùn)練(pre-training)

GPT模型依托于Transformer解除了順序關(guān)聯(lián)和依賴性的前提,提出一個(gè)建設(shè)性的主張,。

先通過大量的無監(jiān)督預(yù)訓(xùn)練(Unsupervised pre-training),,

注:無監(jiān)督是指不需要人介入,不需要標(biāo)注數(shù)據(jù)集(不需要教材和老師)的預(yù)訓(xùn)練,。

再通過少量有監(jiān)督微調(diào)(Supervised fine-tunning),,來修正其理解能力。

4.1.1,、打個(gè)比方

打個(gè)比方,,就好像我們培養(yǎng)一個(gè)小孩,分了兩個(gè)階段:

1),、大規(guī)模自學(xué)階段(自學(xué)1000萬本書,,沒有老師):給AI提供充足的算力,讓其基于Attention機(jī)制,,自學(xué),。

2)、小規(guī)模指導(dǎo)階段(教10本書):依據(jù)10本書,,舉一反"三"

1671277778_639dacd2d1a0cdd724383.png!small?1671277779655

4.1.2,、論文開篇的描述

所謂開宗明義,從開篇introduction中,,也可看到GPT模型對(duì)于監(jiān)督學(xué)習(xí),、手動(dòng)標(biāo)注數(shù)據(jù)的說明。

4.2,、GPT模型的核心主張2-生成式(Generative)

在機(jī)器學(xué)習(xí)里,,有判別式模式(discriminative model)和生成式模式(Generative model)兩種區(qū)別。

GPT(Generative Pre-Training)顧名思義,,采用了生成式模型,。

生成式模型?相比判別式模型更適合大數(shù)據(jù)學(xué)習(xí) ,后者更適合精確樣本(人工標(biāo)注的有效數(shù)據(jù)集),。要**更好實(shí)現(xiàn)預(yù)訓(xùn)練(Pre-Training)**,,生成式模式會(huì)更合適。

注:本小節(jié)重點(diǎn)在于上面一句話(更適合大數(shù)據(jù)學(xué)習(xí)),,如果覺得理解復(fù)雜,本小節(jié)下面可不看,。

在wiki生成式模型的材料里( https://敏pedia感.org/wiki/Generative_model ) ,,舉了一個(gè)如下說明兩者的區(qū)別:

單看上面可能不容易看懂,這里補(bǔ)充解釋下,。

上面的意思是說,,假設(shè)有4個(gè)樣本:

那么生成式(Generative Model)的特征就是概率不分組(計(jì)算樣本內(nèi)概率,除以樣本總和),,以上表為例,發(fā)現(xiàn)x=1,,y=0的總共有1個(gè),所以會(huì)認(rèn)為x=1,y=0的幾率為1/4(樣本總數(shù)為4),。

同樣的,,x=2,y=0的總共有2個(gè),則x=2,y=0的概率 為2/4.

而判別式(Discriminative Model)的特征則是**概率分組計(jì)算(計(jì)算組內(nèi)概率 ,,除以組內(nèi)總和)**,。 以上表為例,x=1,,y=0一共有1個(gè),,同時(shí)x=1的分組一共有2個(gè)sample,所以其概率為 1/2。

同樣的,,x=2,y=0的總共有2個(gè)。且同時(shí)x=2的分組共有2個(gè)sample,,則x=2,y=0的概率 為2/2=1(即100%),。

4.3、GPT相比原版Transfomer的模型改進(jìn)

下面是GPT的模型說明,,GPT訓(xùn)練了一個(gè)12層僅decoder的解碼器(decoder-only,沒有encoder),,從而使得模型更為簡(jiǎn)單。

注1:google論文《Attention is all you need》原版Transformer中,,包含Encoder和Decoder兩部分,,前者(Encoder)對(duì)應(yīng)的是 翻譯,后者(Decoder)對(duì)應(yīng)的是 生成,。

注2:google以Encoder為核心,,構(gòu)建了一個(gè)BERT(Bidirectional Encoder Representations from Transformers,雙向編碼生成Transformer)?模型。里面的雙向(Bidirectional)?,,是指BERT是同時(shí)使用上文和下文預(yù)測(cè)單詞,,因此 BERT 更擅長(zhǎng)處理自然語言理解任務(wù) (NLU)。

注3:本小節(jié)要點(diǎn),,GPT基于Transformer,,但是相比Transformer又簡(jiǎn)化了模型,去掉了Encoder,,只保留了Decoder,。同時(shí),相比BERT的上下文預(yù)測(cè)(雙向),,GPT主張僅使用單詞的上文預(yù)測(cè)單詞(單向),,從而使模型更簡(jiǎn)單、計(jì)算更快,,更適合于極致的生成,,并因此GPT更擅長(zhǎng)處理自然語言生成任務(wù) (NLG),也就是我們?cè)贏I-001-火爆全網(wǎng)的聊天機(jī)器人ChatGPT能做什么發(fā)現(xiàn)的,,ChatGPT很擅長(zhǎng)寫"作文",、編瞎話。 理解本段后,,本小節(jié)后面的可不看,。

注4:從模擬人類來看,GPT的機(jī)制得更像真實(shí)人類,。因?yàn)槿祟愐彩歉鶕?jù)上文(前面說的)來推測(cè)下文(即說后面的),,所謂說出去的話就像潑出去的水,,人類也是沒辦法根據(jù)后面說的話,來調(diào)整前面說的話的,,即使說錯(cuò)了,,惡語傷人心,也只能基說出去的話(上文)進(jìn)行補(bǔ)救,、解釋,。

4.3.1、架構(gòu)圖對(duì)比

下圖為Transfomer模型架構(gòu)和GPT模型架構(gòu)的對(duì)比(分別來自論文《Attention is all you need》和《Improving Language Understanding by Generative Pre-Training》)

4.4,、GPT模型的訓(xùn)練規(guī)模

前面提到生成式模式更有利于大數(shù)據(jù)集的Pre-Training預(yù)訓(xùn)練,,那么GPT使用了多大規(guī)模的data set(數(shù)據(jù)集)呢?

論文中有提到,,它采用了一個(gè)名為BooksCorpus的數(shù)據(jù)集,,包含了超過7000本未發(fā)表書籍。

5,、GPT-2(2019年2月)

2019年2月,,OpenAI 發(fā)布論文《Language Models are Unsupervised Multitask Learners》(語言模型應(yīng)該是一個(gè)無監(jiān)督多任務(wù)學(xué)習(xí)者),提出GPT-2模型,。論文地址: https:///method/gpt-2

5.1,、GPT-2模型相比GPT-1的核心變化

前面提到,GPT的核心主張有Generative(生成式),、Pre-Training。同時(shí),,GPT訓(xùn)練有兩步:

1),、大規(guī)模自學(xué)階段(Pre-Training預(yù)訓(xùn)練,自學(xué)1000萬本書,沒有老師):給AI提供充足的算力,,讓其基于Attention機(jī)制,,自學(xué)。

2),、小規(guī)模指導(dǎo)階段(fine-tuning微調(diào),,教10本書):依據(jù)10本書,舉一反"三"

GPT-2的時(shí)候,,OpenAI將有監(jiān)督fine-tuning微調(diào)階段給直接去掉了,,將其變成了一個(gè)無監(jiān)督的模型。

同時(shí),,增加了一個(gè)關(guān)鍵字**多任務(wù)(multitask)**,,這點(diǎn)從其論文名稱《Language Models are Unsupervised Multitask Learners》(語言模型應(yīng)該是一個(gè)無監(jiān)督多任務(wù)學(xué)習(xí)者)也可看出。

5.2,、為什么這么調(diào)整,?試圖解決zero-shot問題

GPT-2為什么這么調(diào)整,?從論文描述來看,是為了嘗試解決**zero-shot(零次學(xué)習(xí)問題)**,。

zero-shot(零次學(xué)習(xí))是一個(gè)什么問題呢,?簡(jiǎn)單可理解為推理能力。就是指面對(duì)未知事物時(shí),,AI也能自動(dòng)認(rèn)識(shí)它,,即具備推理能力。

比如說,,在去動(dòng)物園前,,我們告訴小朋友,像熊貓一樣,,是黑白色,,并且呈黑白條紋的類馬動(dòng)物就是斑馬,小朋友根據(jù)這個(gè)提示,,能夠正確找到斑馬,。

5.3、multitask多任務(wù)如何理解,?

傳統(tǒng)ML中,,如果要訓(xùn)練一個(gè)模型,就需要一個(gè)專門的標(biāo)注數(shù)據(jù)集,,訓(xùn)練一個(gè)專門的AI,。

比如說,要訓(xùn)練一個(gè)能認(rèn)出狗狗圖像的機(jī)器人,,就需要一個(gè)標(biāo)注了狗狗的100萬張圖片,,訓(xùn)練后,AI就能認(rèn)出狗狗,。這個(gè)AI,,是專用AI,也叫single task,。

而multitask?多任務(wù),,就是主張不要訓(xùn)練專用AI,而是喂取了海量數(shù)據(jù)后,,任意任務(wù)都可完成,。

5.4、GPT-2的數(shù)據(jù)和訓(xùn)練規(guī)模

數(shù)據(jù)集增加到800萬網(wǎng)頁(yè),,40GB大小,。

而模型自身,也達(dá)到最大15億參數(shù),、Transfomer堆疊至48層,。簡(jiǎn)單類比,,就像是模擬人類15億神經(jīng)元(僅舉例,不完全等同),。

6,、GPT-3(2020年5月)

2020年5月,OpenAI 發(fā)布論文《Language Models are Few-Shot Learners》(語言模型應(yīng)該是一個(gè)少量樣本(few-shot)學(xué)習(xí)者),,提出GPT-3模型,。論文地址: https:///method/gpt-3

6.1、GPT-3的突破式效果進(jìn)展

論文中對(duì)于效果是這么描述的:

1,、GPT-3在翻譯 ,、問題回答和完形填空中表現(xiàn)出強(qiáng)大的性能,同時(shí)能夠解讀單詞,、句子中使用新單詞或執(zhí)行3位數(shù)算訂,。

2、GPT-3可以生成新聞文章的樣本,,人類已然區(qū)分不出來,。

如下圖:

6.2、GPT-3相比GPT-2的核心變化

前面提到GPT-2在追求無監(jiān)督,、zero-shot(零次學(xué)習(xí)),,但是其實(shí)在GPT-2論文中,OpenAI也提出結(jié)果不達(dá)預(yù)期,。這顯然是需要調(diào)整的,,于是GPT-3就進(jìn)行了相關(guān)調(diào)整。 從標(biāo)題《Language Models are Few-Shot Learners》(語言模型應(yīng)該是一個(gè)少量樣本(few-shot)學(xué)習(xí)者)也可看出,。

說白了,,zero-shot(零次學(xué)習(xí))不靠譜。

并且,,在訓(xùn)練過程中會(huì)對(duì)比Zero-shot?零次學(xué)習(xí) ;One-shot(單一樣本學(xué)習(xí)),、Few-shot(少量樣本學(xué)習(xí))?,,以及fine-tuning人工微調(diào)的方式。

最后在多數(shù)情況下,,few-shot(少量樣本)?的綜合表現(xiàn),,是在無監(jiān)督模式下最優(yōu)的,但稍弱于fine-tuning微調(diào)模式,。

從下述論文表格,、圖形中,也可看出few-shot?是綜合表現(xiàn)僅弱于fine-tuning微調(diào)的,。

6.3,、GPT-3的訓(xùn)練規(guī)模

GPT-3采用了過濾前45TB的壓縮文本,,并且在過濾后也仍有570GB的海量數(shù)據(jù)。

在模型參數(shù)上,,從GPT-2的15億,,提升到1750億,翻了110多倍,;Transformer Layer也從48提升到96,。

7、Instruction GPT(2022年2月)

2022年2月底,,OpenAI 發(fā)布論文《Training language models to follow instructions with human feedback》(使用人類反饋指令流來訓(xùn)練語言模型)?,,公布Instruction GPT模型。論文地址: https:///abs/2203.02155

7.1,、Instruction GPT相比GPT-3的核心變化

Instruction GPT是基于GPT-3的一輪增強(qiáng)優(yōu)化,,所以也被稱為GPT-3.5。

前面提到,,GPT-3?主張few-shot少樣本學(xué)習(xí),,同時(shí)堅(jiān)持無監(jiān)督學(xué)習(xí)。

但是事實(shí)上,few-shot?的效果,,顯然是差于fine-tuning監(jiān)督微調(diào)的方式的,。

那么怎么辦呢? 走回fine-tuning監(jiān)督微調(diào),?顯然不是,。

OpenAI給出新的答案: 在GPT-3的基礎(chǔ)上,基于人工反饋(RHLF)訓(xùn)練一個(gè)reward model(獎(jiǎng)勵(lì)模型)?,再用reward model(獎(jiǎng)勵(lì)模型,,RM)去訓(xùn)練學(xué)習(xí)模型,。

天啦嚕,夭壽了,。,。要用機(jī)器(AI)來訓(xùn)練機(jī)器(AI)了。,。

7.2,、Insctruction GPT的核心訓(xùn)練步驟

Instruction GPT一共有3步:

1)、對(duì)GPT-3進(jìn)行**fine-tuning(監(jiān)督微調(diào))**,。

2),、再訓(xùn)練一個(gè)Reward Model(獎(jiǎng)勵(lì)模型,RM)

3),、最后通過增強(qiáng)學(xué)習(xí)優(yōu)化SFT

值得注意的是,,第2步、第3步是完全可以迭代,、循環(huán)多次進(jìn)行的,。

7.3,、Instruction GPT的訓(xùn)練規(guī)模

基礎(chǔ)數(shù)據(jù)規(guī)模同GPT-3(見6.3小節(jié)),只是在其基礎(chǔ)上增加了3個(gè)步驟(監(jiān)督微調(diào)SFT,、獎(jiǎng)勵(lì)模型訓(xùn)練Reward Model,,增強(qiáng)學(xué)習(xí)優(yōu)化RPO)。

下圖中l(wèi)abeler是指OpenAI雇傭或有相關(guān)關(guān)系的**標(biāo)注人員(labler)**,。

而customer?則是指GPT-3 API的調(diào)用用戶(即其他一些機(jī)器學(xué)習(xí)研究者,、程序員等)。

本次ChatGPT上線后據(jù)說有百萬以上的用戶,,我們每個(gè)人都是其customer?,,所以可以預(yù)見,未來GPT-4發(fā)布時(shí),,其customer規(guī)模至少是百萬起,。

8、ChatGPT(2022年11月)

2022年11月30日,,OpenAI推出ChatGPT模型,,并提供試用,全網(wǎng)火爆,。

見:AI-001-火爆全網(wǎng)的聊天機(jī)器人ChatGPT能做什么

8.1,、ChatGPT和Instruction GPT

ChatGPT和InstructionGPT本質(zhì)上是同一代際的,僅僅是在InstructionGPT的基礎(chǔ)上,,增加了Chat功能,,同時(shí)開放到公眾測(cè)試訓(xùn)練,以便產(chǎn)生更多有效標(biāo)注數(shù)據(jù),。

8.2,、【重要,建議瀏覽下面推薦的視頻】從人的直觀理解上,,補(bǔ)充解釋一下ChatGPT的核心原理

可參考 臺(tái)大教授李宏毅的視頻《ChatGPT是怎么煉成的,?GPT社會(huì)化過程》,講得很好,。

https://www./article/30032-chatgpt-possible-4-steps-training

GPT是單向生成,,即根據(jù)上文生成下文。

比如說有一句話:

向GPT模型給出輸入 你好,,下面一個(gè)字是接你好嗎?你好帥,?你好高,?你好美?等等,,GPT會(huì)計(jì)算出一個(gè)概率,,給出最高的那個(gè)概率作為回答,。

依此類推,如果給出一個(gè)指令(或稱為Prompt),,ChatGPT也會(huì)依據(jù)上文(prompt)進(jìn)行推算下文(回答),,同時(shí)選擇一個(gè)最大概率的上文進(jìn)行回答。

如下圖:

9,、小結(jié)

總結(jié):

1),、2017年,谷歌發(fā)布論文《Attention is all you need》,,提出Transformer模型,,為GPT鋪就了前提。

2),、2018年6月,,OpenAI發(fā)布了GPT生成式預(yù)訓(xùn)練模型,通過BooksCorpus大數(shù)據(jù)集(7000本書)進(jìn)行訓(xùn)練,,并主張通過大規(guī)模,、無監(jiān)督預(yù)訓(xùn)練(pre-training)+有監(jiān)督微調(diào)(fine-tuning)進(jìn)行模型構(gòu)建。

3),、2019年2月,,OpenAI發(fā)布GPT-2模型,進(jìn)一步擴(kuò)大了訓(xùn)練規(guī)模(使用了40GB數(shù)據(jù)集,,最大15億參數(shù)(parameters)),。同時(shí)在思路上,去掉了fine-tuning微調(diào)過程,,強(qiáng)調(diào)zero-shot(零次學(xué)習(xí))和multitask(多任務(wù)),。但是最終zero-shot效果顯著比不上fine-tuning微調(diào)。

4),、2020年5月,,OpenAI發(fā)布GPT-3模型,進(jìn)一步擴(kuò)大了**訓(xùn)練規(guī)模(使用了570GB數(shù)據(jù)集,,和1750億參數(shù))**,。同時(shí)采取了few-shot(少量樣本)學(xué)習(xí)的模式,取得了優(yōu)異效果,。 當(dāng)然,,在實(shí)驗(yàn)中同步對(duì)比了fine-tuning,比fine-tuning效果略差,。

5),、2022年2月,OpenAI發(fā)布Instruction GPT模型,此次主要是在GPT-3的基礎(chǔ)上,,增加了監(jiān)督微調(diào)(Supervised Fine-tuning)環(huán)節(jié),,并且基于此,進(jìn)一步加入了Reward Model獎(jiǎng)勵(lì)模型,,通過RM訓(xùn)練模型來對(duì)學(xué)習(xí)模型進(jìn)行RPO增強(qiáng)學(xué)習(xí)優(yōu)化,。

6)、2022年11月30日,,OpenAI發(fā)布ChatGPT模型,,可以理解為一個(gè)多輪迭代訓(xùn)練后的InstructionGPT,并在此基礎(chǔ)上增加了Chat對(duì)話聊天功能,。

10,、未來將來(GPT-4 or ?)

從種種跡象來看,GPT-4或許將于2023年亮相,?它會(huì)有多強(qiáng)大呢,?

同時(shí)ChatGPT的效果,牽引了業(yè)界眾多目光,,想必接下來更多基于GPT的訓(xùn)練模型及其應(yīng)用,,會(huì)更加百花齊放。

未來將來,,拭目以待,。

部分參考資料

ai.googleblog.com/2017/08/transformer-novel-neural-network.html

https:///abs/1706.03762

https:///method/gpt

https:///method/gpt-2

https:///method/gpt-3

https:///abs/2203.02155

https://zhuanlan.zhihu.com/p/464520503

https://zhuanlan.zhihu.com/p/82312421

https://cloud.tencent.com/developer/article/1656975

https://cloud.tencent.com/developer/article/1848106

https://zhuanlan.zhihu.com/p/353423931

https://zhuanlan.zhihu.com/p/353350370

https:///post/6969394206414471175

https://zhuanlan.zhihu.com/p/266202548

https://敏pedia感.org/wiki/Generative_model

https://zhuanlan.zhihu.com/p/67119176

https://zhuanlan.zhihu.com/p/365554706

https://cloud.tencent.com/developer/article/1877406

https://zhuanlan.zhihu.com/p/34656727

https://zhuanlan.zhihu.com/p/590311003

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多