久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

OpenAI出手解決GPT

 秀水巖 2023-06-02 發(fā)布于廣東

明敏 西風(fēng) 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

OpenAI一個(gè)簡(jiǎn)單的動(dòng)作,,讓大模型數(shù)學(xué)能力直接達(dá)到SOTA。

而且直接開(kāi)源論文數(shù)據(jù)集,,包含80萬(wàn)個(gè)人類(lèi)反饋標(biāo)簽,!

這就是OpenAI的最新研究?;贕PT-4,,他們微調(diào)了幾個(gè)模型,分別采用不同的監(jiān)督方法,。

一種是傳統(tǒng)的結(jié)果監(jiān)督,,只對(duì)最終正確答案進(jìn)行獎(jiǎng)勵(lì),。

另一種則是過(guò)程監(jiān)督,區(qū)別在于獎(jiǎng)勵(lì)增加,,對(duì)每一個(gè)正確的推理步驟進(jìn)行獎(jiǎng)勵(lì),。

結(jié)果這一點(diǎn)改變,讓采用過(guò)程監(jiān)督的模型Process Reward Model(PRM),,可以解決MATH測(cè)試集代表子集中78%的問(wèn)題,,達(dá)到SOTA。

英偉達(dá)AI科學(xué)家Jim Fan大膽預(yù)測(cè)說(shuō),,下一步OpenAI大概會(huì)用這種方法微調(diào)GPT-4,。

OpenAI表示:

我們認(rèn)為探索過(guò)程監(jiān)督在數(shù)學(xué)之外領(lǐng)域的表現(xiàn)非常重要。如果這些結(jié)果具有普遍性,,那意味著過(guò)程監(jiān)督將成為比結(jié)果監(jiān)督更有效的方法,。

獎(jiǎng)勵(lì)增多、效果變好

話不多說(shuō),,先看OpenAI給出的具體例子,。

比如這樣一道三角函數(shù)的題:

用過(guò)程監(jiān)督的模型來(lái)算,效果會(huì)是這樣的:

OpenAI表示,,這道題對(duì)于大模型來(lái)說(shuō)還是比較有挑戰(zhàn)性的,,GPT-4也不太能搞定(只有0.1%的情況生成結(jié)果完全沒(méi)問(wèn)題)。而使用過(guò)程獎(jiǎng)勵(lì)是可以算出正確答案的,。

這也是目前大語(yǔ)言模型比較飽受詬病的問(wèn)題,,容易產(chǎn)生邏輯錯(cuò)誤,也被稱為“幻覺(jué)”,。

表現(xiàn)最明顯的領(lǐng)域就是數(shù)學(xué),。

即便是先進(jìn)如GPT-4,這類(lèi)問(wèn)題也難以避免,。

而降低幻覺(jué)的出現(xiàn),,又被視為走向AGI的關(guān)鍵一步。

此前為檢測(cè)幻覺(jué)所使用的是結(jié)果監(jiān)督,,基于最終結(jié)果提供反饋,,僅僅獎(jiǎng)勵(lì)最終正確的答案。

但效果顯然還不太行,,所以O(shè)penAI想了個(gè)新招,,把這種獎(jiǎng)勵(lì)增加會(huì)怎么樣?

于是他們提出了過(guò)程監(jiān)督方法,,針對(duì)思維鏈中的每個(gè)步驟提供反饋,,獎(jiǎng)勵(lì)每個(gè)正確的推理步驟。

結(jié)果表明,用MATH數(shù)據(jù)集進(jìn)行測(cè)試后:

過(guò)程監(jiān)督模型能夠解決MATH測(cè)試集代表子集的78%的問(wèn)題,。效果優(yōu)于結(jié)果監(jiān)督,。

而且隨著每個(gè)問(wèn)題考慮的解決方案的數(shù)量增加,性能差距也逐漸增大,,也說(shuō)明了過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型更加可靠,。

縱軸表示的是已解決的問(wèn)題的百分比,紅色線代表的是過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型(ORM),,藍(lán)色線代表的是結(jié)果監(jiān)督獎(jiǎng)勵(lì)模型(PRM)

在測(cè)試中,,過(guò)程監(jiān)督有一個(gè)明顯的優(yōu)勢(shì):

可以準(zhǔn)確指出解決問(wèn)題的步驟中哪些是正確的,并且給出錯(cuò)誤步驟的具體位置,。

而這點(diǎn)在結(jié)果監(jiān)督中,,是具有挑戰(zhàn)性的。

因此,,在過(guò)程監(jiān)督中,,信用分配(credit assignment)更加容易,。

而且在對(duì)齊方面,過(guò)程監(jiān)督也優(yōu)于結(jié)果監(jiān)督,。

因?yàn)檫^(guò)程監(jiān)督會(huì)直接獎(jiǎng)勵(lì)模型,,按照對(duì)齊的思維鏈進(jìn)行操作,每個(gè)步驟都會(huì)更精確,。

產(chǎn)生的結(jié)果可解釋性也更高,,因?yàn)樗膭?lì)模型遵循經(jīng)過(guò)人類(lèi)批準(zhǔn)的過(guò)程。

相比之下,,基于結(jié)果的監(jiān)督可能會(huì)出現(xiàn)獎(jiǎng)勵(lì)不對(duì)齊的過(guò)程,,而且通常更難進(jìn)行審查。

此外,,大模型還經(jīng)常遇到一個(gè)問(wèn)題叫做對(duì)齊稅(alignment tax),。也就是想讓模型輸出更安全,那性能就會(huì)有所下降,。

而過(guò)程獎(jiǎng)勵(lì),,在數(shù)學(xué)領(lǐng)域能讓這個(gè)對(duì)齊稅,變成負(fù)的,,即模型安全性和性能都保障,。

總之,過(guò)程獎(jiǎng)勵(lì)這個(gè)小竅門(mén),,一次性解決了大模型數(shù)學(xué)推理方面的多個(gè)問(wèn)題,。

在實(shí)驗(yàn)結(jié)果方面,OpenAI還給出了多個(gè)實(shí)例,。

比如有一些情況,,GPT-4會(huì)出錯(cuò),,但是基于過(guò)程獎(jiǎng)勵(lì)的PRM能揪出問(wèn)題。

最近有30名學(xué)生參加了一次考試,。如果有20名學(xué)生考了80分,,8名學(xué)生考了90分,2名學(xué)生得分為100分,,那么這次考試的班級(jí)平均分是多少?

下面是模型的作答結(jié)果:

前面的作答沒(méi)有問(wèn)題,,但是在第7步中,,GPT-4試圖對(duì)表達(dá)式進(jìn)行簡(jiǎn)化,出現(xiàn)了錯(cuò)誤,。

而獎(jiǎng)勵(lì)模型卻察覺(jué)到了這個(gè)錯(cuò)誤。

當(dāng)然也有都不成功的例子,,比如下面這道題GPT-4和PRM都被迷惑了:

來(lái)看一下模型的回答:

在第4步中,GPT-4錯(cuò)誤地認(rèn)為該序列每12項(xiàng)循環(huán)一次,,而事實(shí)上是每10項(xiàng)循環(huán)一次,。

而這種計(jì)數(shù)錯(cuò)誤也迷惑到了獎(jiǎng)勵(lì)模型,。

此外,,OpenAI共給出了10個(gè)問(wèn)題和解決方案。

可以看出,,基于過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型在一些問(wèn)題上也會(huì)被迷惑住,但是在整體上明顯表現(xiàn)得更好,。

網(wǎng)友:再也不用做數(shù)學(xué)證明題了

很快,,OpenAI的最新工作在各個(gè)平臺(tái)上都引發(fā)了熱烈討論,。

有人評(píng)價(jià):

如果這個(gè)方法在非數(shù)學(xué)領(lǐng)域也能奏效,,我們現(xiàn)在或許正處于游戲規(guī)則即將改變的時(shí)刻。

還有人說(shuō),,這項(xiàng)工作如果用在互動(dòng),、教育方面,會(huì)非常令人興奮,,尤其是數(shù)學(xué)領(lǐng)域,。

這不,有人就說(shuō),看來(lái)以后不用再做數(shù)學(xué)家庭作業(yè)和證明題了(doge),。

用一張圖來(lái)總結(jié),,大概就是醬嬸兒的:

也有人提出了自己的擔(dān)心:這種密集的獎(jiǎng)勵(lì)信號(hào)是否會(huì)導(dǎo)致模型更容易陷入局部最小值。

但是如果能夠足夠隨機(jī)化,、全局搜索,,或許模型的魯棒性更高。

值得一提的是,,這種step by step的方法,,不止一次在提升大模型性能上奏效。

之前,,東京大學(xué)和谷歌的研究人員發(fā)現(xiàn),,只要在對(duì)話中加一句“Let’s think step by step”,GPT-3就能回答出以前不會(huì)的問(wèn)題,。

比如提問(wèn):

16個(gè)球中有一半是高爾夫球,,這些高爾夫球中有一半是藍(lán)色的,一共有幾個(gè)藍(lán)色的高爾夫球,?

(問(wèn)題不難,,但要注意這是零樣本學(xué)習(xí),也就是說(shuō)AI訓(xùn)練階段從沒(méi)見(jiàn)過(guò)同類(lèi)問(wèn)題,。)

如果要求GPT-3直接寫(xiě)出“答案是幾”,,它會(huì)給出錯(cuò)誤答案:8,。

但加上讓我們一步一步地思考這句“咒語(yǔ)”后,GPT-3就會(huì)先輸出思考的步驟,,最后給出正確答案:4,!

而與之相呼應(yīng)的是,這回OpenAI最新研究的論文題目就叫做《Let’s Verify Step by Step》,。

論文地址:
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

數(shù)據(jù)集:
https://github.com/openai/prm800k

參考鏈接:
[1]https://twitter.com/OpenAI/status/1663957407184347136[2]https://twitter.com/DrJimFan/status/1663972818160332800[3]https://twitter.com/_akhaliq/status/1663981726647894027

—  —

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多