久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

ChatGPT為什么這么強(qiáng)

 老林37 2022-12-08 發(fā)布于北京

1. 從周五到周末ChatGPT已經(jīng)瘋傳開(kāi)來(lái),,其對(duì)話(huà)能力讓人驚艷。從玩梗,、寫(xiě)詩(shī),、寫(xiě)劇本,到給程序找bug,,幫人設(shè)計(jì)網(wǎng)頁(yè),,甚至幫你生成AIGC的提示詞,一副無(wú)所不能的樣子,??梢匀witter上看Ben Tossell梳理的一些例子,或者自己去試試,!一位MBA老師讓ChatGPT回答自己的管理學(xué)題目,,結(jié)論是以后不能再布置可以帶回家的作業(yè)了。很多人用了以后無(wú)法自拔,,就如這位所見(jiàn):

圖片

Musk問(wèn)ChatGPT怎么設(shè)計(jì)Twitter(不得不說(shuō)還挺有創(chuàng)意):

圖片

2. 有人讓ChatGPT參加了智商測(cè)試,,得分83; SAT測(cè)試得分1020,對(duì)應(yīng)人類(lèi)考生52%分位,。要知道ChatGPT并沒(méi)有對(duì)數(shù)學(xué)方面做過(guò)優(yōu)化,,已經(jīng)是相當(dāng)不錯(cuò)的結(jié)果了。

圖片

圖片

3. ChatGPT的提升點(diǎn)

圖片

相比之前的GPT-3,,ChatGPT的提升點(diǎn)在于能記住之前的對(duì)話(huà),,連續(xù)對(duì)話(huà)的感覺(jué)讓人舒服。

ChatGPT可以承認(rèn)錯(cuò)誤,,如果你認(rèn)為他的回答不對(duì),,你可以讓他改正,并給出更好的答案,。

ChatGPT可以質(zhì)疑不正確的前提,,GPT-3剛發(fā)布后很多人測(cè)試的體驗(yàn)并不好,因?yàn)锳I經(jīng)常創(chuàng)造虛假的內(nèi)容(只是話(huà)語(yǔ)通順,,但脫離實(shí)際),,而現(xiàn)在再問(wèn)“哥倫布2015年來(lái)到美國(guó)的情景”這樣的問(wèn)題,AI已經(jīng)知道哥倫布不屬于這個(gè)時(shí)代了,。

圖片

ChatGPT還采用了注重道德水平的訓(xùn)練方式,,按照預(yù)先設(shè)計(jì)的道德準(zhǔn)則,對(duì)不懷好意的提問(wèn)和請(qǐng)求“說(shuō)不”,;當(dāng)然,,盡管OpenAI非常小心,這種準(zhǔn)則還是可能被聰明的提問(wèn)方式繞開(kāi),。

4. ChatGPT的訓(xùn)練方法

當(dāng)下大模型的工作范式是“預(yù)訓(xùn)練-微調(diào)”,。首先在數(shù)據(jù)量龐大的公開(kāi)數(shù)據(jù)集上訓(xùn)練,然后將其遷移到目標(biāo)場(chǎng)景中(比如跟人類(lèi)對(duì)話(huà)),,通過(guò)目標(biāo)場(chǎng)景中的小數(shù)據(jù)集進(jìn)行微調(diào),,使模型達(dá)到需要的性能。微調(diào)/prompt等工作從本質(zhì)上對(duì)模型改變并不大,,但是有可能大幅提升模型的實(shí)際表現(xiàn),。人類(lèi)問(wèn)問(wèn)題方式對(duì)于GPT-3而言不是最自然的理解方式,要么改造任務(wù),,要么微調(diào)模型,,總之是讓模型和任務(wù)更加匹配,從而實(shí)現(xiàn)更好的效果,。

ChatGPT是22年1月推出的InstructGPT的兄弟模型,。InstructGPT增加了人類(lèi)對(duì)模型輸出結(jié)果的演示,,并且對(duì)結(jié)果進(jìn)行了排序,在此基礎(chǔ)上完成訓(xùn)練,,可以比GPT-3更好的完成人類(lèi)指令,。ChatGPT新加入的訓(xùn)練方式被稱(chēng)為“從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)”(Reinforcement Learning from Human Feedback,RLHF),。

ChatGPT是基于GPT-3.5模型,,訓(xùn)練集基于文本和代碼,在微軟Azure AI服務(wù)器上完成訓(xùn)練,。原先GPT-3的訓(xùn)練集只有文本,,所以這次新增了代碼理解和生成的能力。

圖片

5. 為什么ChatGPT的提升這么明顯

除了帶有記憶能力,、上下文連續(xù)對(duì)話(huà)能帶給人顯著的交互體驗(yàn)提升,,ChatGPT的訓(xùn)練方式也值得關(guān)注。上述提到的RLHF方法首見(jiàn)于22年3月發(fā)表的論文(Training language models to follow instructions with human feedback),,但根據(jù)業(yè)界的推測(cè),,RLHF并未用到InstructGPT的訓(xùn)練中。InstructGPT所用到的text-davinci-002遇到了一些問(wèn)題,,會(huì)呈現(xiàn)出模式坍塌(mode collapse)現(xiàn)象,,不管問(wèn)他什么問(wèn)題,經(jīng)常收斂到同樣的答案,,比如正面情緒相關(guān)的回答都是跟婚禮派對(duì)相關(guān),。

這次RLHF的方法得以在ChatGPT上應(yīng)用,并取得了很好的效果,。但RLHF實(shí)際上并不容易訓(xùn)練,,強(qiáng)化學(xué)習(xí)很容易遇到模式坍塌,反饋過(guò)于稀疏這類(lèi)問(wèn)題,,訓(xùn)練起來(lái)很困難,。這可能也是為什么論文在3月發(fā)表,ChatGPT在12月才上線(xiàn),,中間需要大量的時(shí)間來(lái)調(diào)優(yōu),。

此外,指令調(diào)整(instruction tuning)的貢獻(xiàn)也很大,。InstructGPT雖然在參數(shù)上比GPT-3少了100倍(13億 vs 1750億),,它的輸出效果比GPT-3以及用監(jiān)督學(xué)習(xí)進(jìn)行微調(diào)的模型都要好得多。

根據(jù)知乎用戶(hù)“避暑山莊梁朝偉”的觀(guān)點(diǎn):“Instruction Tuning和Prompt方法的核心一樣,,就是去發(fā)掘語(yǔ)言模型本身具備的知識(shí),。而他們的不同點(diǎn)就在于,Prompt是去激發(fā)語(yǔ)言模型的補(bǔ)全能力,,比如給出上半句生成下半句,、或者做完形填空,,都還是像在做language model任務(wù),而Instruction Tuning則是激發(fā)語(yǔ)言模型的理解能力,,通過(guò)給出更明顯的指令,,讓模型去理解并做出正確的反饋?!?/em>

參考下圖,以前大模型的提升重心更多放在了大模型(LLM)本身和Prompt Engineering上,,而ChatGPT的迭代重點(diǎn)是右側(cè)的閉環(huán),。

action-driven LLM訓(xùn)練流程圖

圖片

最后,ChatGPT在過(guò)于保守不提供有效回答和提供虛假信息之間做出了較好的權(quán)衡,。之前Meta用于科研的大模型Galactica上線(xiàn)僅3天就被迫下線(xiàn),,因?yàn)樘峁┝诉^(guò)多虛假的信息。這跟Meta的宣傳策略也有關(guān),,其本意是想幫助研究人員整理信息,、輔助寫(xiě)作,但Meta將其模型宣傳為“可以總結(jié)學(xué)術(shù)論文,,解決數(shù)學(xué)問(wèn)題,,生成維基文章,編寫(xiě)科學(xué)代碼,,為分子和蛋白質(zhì)做注解等”,,過(guò)高期望帶來(lái)了反效果,科研人員本來(lái)就是挑剔的,。ChatGPT盡管不能完全避免虛假信息的問(wèn)題,,但可以看出在微調(diào)/Prompt方面做了足夠細(xì)致的工作,一些自相矛盾的提問(wèn)可以被甄別出來(lái),,讓用戶(hù)對(duì)其回答更有信心,。

6. 商業(yè)策略也是重要一環(huán)

這次ChatGPT是免費(fèi)不限量向公眾開(kāi)放,用戶(hù)可以盡情在平臺(tái)上嘗試各種奇異瘋狂的想法,,而此前GPT-3是根據(jù)使用量(token)來(lái)收費(fèi)的,。在使用過(guò)程中,用戶(hù)可以提供反饋,,這些反饋是對(duì)OpenAI最有價(jià)值的信息,。OpenAI并不急于創(chuàng)收也不缺錢(qián),坊間傳言最新一輪估值已經(jīng)達(dá)到數(shù)百億美金,,還有金主爸爸微軟,。

圖片

對(duì)于AI發(fā)展來(lái)說(shuō),工程的重要性實(shí)際上大于科學(xué),,創(chuàng)建一個(gè)迭代反饋的閉環(huán)至關(guān)重要,。OpenAI很注重商業(yè)應(yīng)用,,GPT-3已經(jīng)擁有大量客戶(hù)。這些客戶(hù)跟OpenAI的反饋互動(dòng)也是推動(dòng)進(jìn)步的關(guān)鍵一環(huán),。相比之下,,谷歌的閉門(mén)造車(chē)就顯得不合時(shí)宜,或許是缺乏商業(yè)化的文化,,或許是受限于投入產(chǎn)出比,,谷歌對(duì)于大模型的應(yīng)用一直很“克制”,即便起點(diǎn)很高,,但如果一直像Waymo做自動(dòng)駕駛一樣小規(guī)模迭代,,早晚會(huì)被更為開(kāi)放,獲得更多數(shù)據(jù)的企業(yè)超越,。

圖片

7. 后續(xù)提升點(diǎn)

RLHF是一種較新的方法,,隨著OpenAI不斷摸索,結(jié)合ChatGPT搜集到的用戶(hù)反饋,,模型還有進(jìn)一步提升的空間,。尤其是在道德/alignment層面,需要屏蔽掉這幾天大家試驗(yàn)出來(lái)的繞過(guò)系統(tǒng)限制產(chǎn)生負(fù)面信息的方法,。

當(dāng)然也別忘了,,OpenAI還有WebGPT這樣的工具,可以理解為高階版網(wǎng)頁(yè)爬蟲(chóng),,從互聯(lián)網(wǎng)上摘取信息來(lái)回答問(wèn)題,,并提供相應(yīng)出處。比如下面的問(wèn)題How do neural networks work,,WebGPT利用了GPT-3本身具備的語(yǔ)義理解能力和互聯(lián)網(wǎng)公開(kāi)信息,,自己結(jié)合出了一份答案,不失為一種升級(jí)的搜索能力,。

圖片

在MIT Technology Review對(duì)OpenAI科學(xué)家的采訪(fǎng)中,,他們提到了后續(xù)有可能將ChatGPT和WebGPT的能力結(jié)合起來(lái)。有網(wǎng)友挖掘出了ChatGPT內(nèi)設(shè)的提示詞,,其中包含browsing:disabled,,把瀏覽網(wǎng)頁(yè)能力關(guān)閉了,也就是說(shuō)后續(xù)有可能加入這個(gè)能力,??梢栽O(shè)想,ChatGPT+WebGPT可以產(chǎn)生更為有意思的結(jié)果,,信息可以實(shí)時(shí)更新,,對(duì)于事實(shí)真假的判斷將更為準(zhǔn)確。

圖片

與WebGPT的這種結(jié)合,對(duì)應(yīng)到上面 action-driven LLM訓(xùn)練流程圖 的左半部分,,即連接外部的信息源和工具庫(kù),。事實(shí)上網(wǎng)頁(yè)搜索只是一種可能,還結(jié)合利用各種工具(比如各種辦公軟件,、SaaS軟件),,實(shí)現(xiàn)更豐富的功能。

在產(chǎn)品層面,,是不是有更好的界面和實(shí)現(xiàn)方式也值得討論,。同屏對(duì)話(huà)框形式容易讓人產(chǎn)生過(guò)高的預(yù)期,因?yàn)橐U蠈?duì)話(huà)的流暢性,。在這一點(diǎn)上,,Github Copilot產(chǎn)品就做得很好,Copilot主打的是programming pair,,以伙伴的身份提出建議。從用戶(hù)角度,,這個(gè)建議好就接受,,不好就不接受;即便提出了很多不被接受的建議,,但在隨機(jī)時(shí)間間隔產(chǎn)生的有效建議帶來(lái)的爽感就會(huì)讓用戶(hù)上癮,。如果ChatGPT后續(xù)成為寫(xiě)作助手、編劇助手,、工作助手等等,,類(lèi)似Copilot的產(chǎn)品形態(tài)會(huì)容易讓人接受。

寫(xiě)在最后

很多人驚嘆于ChatGPT的能力,,但其實(shí)真正驚艷的還在后面,。OpenAI最厲害的不是他關(guān)于大模型的理解,而是其工程化,、迭代反饋的能力,,以及alignment(AI跟人類(lèi)目標(biāo)的統(tǒng)一)方面的工作。很欣賞OpenAI CEO Sam Altman的一句話(huà):“Trust the exponential. Flat looking backwards, vertical looking forwards.”  我們就處在即將起飛的這個(gè)點(diǎn)上,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀(guān)點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多