文心一言的理性思維能力距離 GPT-4 差多少,？我們第一時間測試了一下

平常心 2023-03-18 發(fā)布于北京

展開全文

背景

如果將大語言模型想象成一個人，那么,，通過對它的人格,、智商、理性與社會情緒能力進行心理測量,，是不是可以清晰地描繪出大語言模型的心智成熟程度,。這就是新興的人工智能心理測量學(xué),。只是，在人工智能心理測量學(xué)中,，我們不再測查人類,，而是測查大語言模型以及各類機器人。

在 GPT-4 發(fā)布之后,，我們第一時間測查了它在理性思維能力測驗上的表現(xiàn),，并將其與 GPT-3.5 的結(jié)果、253 位受過高等教育的進行對比,。結(jié)果發(fā)現(xiàn),，GPT-4 實現(xiàn)了大躍遷，達(dá)到了一個超越人類的水準(zhǔn),。

詳情參見：理性思維超越人類？GPT-4真正大殺八方的是這項能力

測試流程

在百度文心一言發(fā)布之后,，我們第一時間獲得邀請碼,，選擇了在前文中測試 GPT-3.5 與 GPT-4 一致的題目、流程,。詳細(xì)說明請參考前文,。這里不再啰嗦。

簡而言之,，我們挑選了認(rèn)知科學(xué)家用來評定人類理性思維的四類經(jīng)典測試任務(wù)：語義錯覺類任務(wù)；認(rèn)知反射類任務(wù),；證偽選擇類任務(wù),；心智程序類任務(wù)。四類任務(wù)總計 26 道題目,。

在測試之前,，我們已經(jīng)預(yù)估文心一言的表現(xiàn)會不如 GPT-4，但最終實際測試結(jié)果還是令人大跌眼鏡,，可能與百度開發(fā)團隊的認(rèn)知有關(guān)系,。在下文中，我會略作分析,。

需要提醒的是,，本報告僅僅是一個早期工作，并不完善,。測試流程有無數(shù)可以改善之處,。結(jié)論未來隨時可能被修正、被推翻,。各位讀者請理解,。

現(xiàn)在，讓我們來詳細(xì)看看測試結(jié)果。

分項測試結(jié)果

語義錯覺類任務(wù)

在語義錯覺類任務(wù)這里,，我們挑選了 4 個任務(wù),。測試結(jié)果如下圖所示：

文心一言全部答錯。其中,，第四題未指出錯誤,，只說蒙娜麗莎是達(dá)·芬奇的，在盧浮宮,。應(yīng)該是通過百度百科獲得了該事實性數(shù)據(jù),。如下圖所示：

認(rèn)知反射類任務(wù)

在認(rèn)知反射類任務(wù)這里，我們挑選了三類任務(wù),。

直覺減法操作,，測試結(jié)果如下圖所示：

文心一言答對第一題，其他都答錯,。尤其是第三題,，沒讀懂題目，在做加法,。如下圖所示：

直覺序列操作,，測試結(jié)果如下圖所示：

文心一言全部答錯。尤其是第一題,，沒讀懂題目,，解的是 3 名研究人員發(fā)表 1 篇論文要多久。如下圖所示：

直覺除法操作,，測試結(jié)果如下圖所示：

文心一言全部答錯,。如下圖所示：

證偽選擇類任務(wù)

在這里，我選擇了經(jīng)典的沃森四卡片測驗,。這是一個對于人類來說,，超級困難的題目。能夠很好地完成這項任務(wù),，意味著這個人的理性思維能力很不錯,。

同樣，對于 AI 來說,，也是同等困難,。GPT-3.5 與 GPT-4 均無法很好完成，同樣,，文心一言也無法很好完成,。測試結(jié)果如下圖所示：

心智程序類任務(wù)

這部分，我挑選了九道題目,。這九道題目,，是一個更龐大的人類理性思維測驗中的一部分,。

這九道題目，相對來說較有代表性,，代表了人類理性思維知識的方方面面,，能夠較好地區(qū)分理性思維低下與理性思維較高的人。

三個模型測試結(jié)果,，如下圖所示：

文心一言唯一答對的是第二題,，但答得也不夠好。如下圖所示：

而有三道題,，要么是答案正確,，但是解釋錯誤；要么是同樣的提示語,，但有時答案正確,，有時答案不正確，并且解釋不夠?qū)?。這類測試結(jié)果,，我們都統(tǒng)一判為錯。

而人類被試測試結(jié)果如下：

這些統(tǒng)計數(shù)據(jù)來自 253 位人類,。他們普遍受過高等教育,，不少擁有碩博學(xué)歷，屬于較為典型的高學(xué)歷高收入高認(rèn)知群體,。

大語言模型有多么像人,？

整體測試結(jié)果，如下圖所示：

26 道題目,，GPT-3.5 答對 15 道,；GPT-4 答對 23 道；文心一言答對 2 道,。

需要提醒的是，這僅僅是一項早期,，測試流程,、測試方法都有很多可以完善之處，未來結(jié)論隨時會被推翻,。

由于時間緣故,，我們并沒有前三類任務(wù)人類的測試結(jié)果數(shù)據(jù)，但按照過往的經(jīng)驗數(shù)據(jù),，大約在 40%-60%左右的正確率,，如果我們略微高估，前三類任務(wù) 17 道題總計估算為答對 10 道題,，加上第四類任務(wù),，人類大約答對 6 道,。最終將人類的正確率估算為 26 道題目，答對 16 道,。正確率大約為 62%,。

62%，這也許就是什么時候,，你覺得一個大語言模型像是一個真正的人一樣的臨界值,。GPT-3.5 接近這個數(shù)值，所以人們被它大大地震驚住了,。而 GPT-4 遠(yuǎn)遠(yuǎn)超越了這個值,。

而百度的文心一言，只有 8%,。路漫漫其修遠(yuǎn)矣,。

給百度研發(fā)團隊的一點小建議

不懂 NLP 的吃瓜群眾，其實對百度 NLP 團隊做出的努力,，一無所知,。我說個事實，大家就明白了,。在中文自然語言處理領(lǐng)域,，百度提供的 NLP 開源項目是數(shù)量最多的、維護最勤奮的,、質(zhì)量最好的,。包括我?guī)ш犙邪l(fā)的寫匠項目，調(diào)用的也是百度 NLP 團隊開發(fā)的分詞開源包,。

但是,，文心一言表現(xiàn)這樣，我覺得還是無法簡簡單單地用研發(fā)時間不足來解釋,、產(chǎn)品是第一版上線來敷衍,。這類話可能是拿來敷衍李老板可以，但是敷衍全球同行是非常危險的,。

我深深懷疑,，百度該項目的研發(fā)團隊，極可能走錯路線了,。作為一名既懂認(rèn)知科學(xué)又懂 NLP 的從業(yè)者,，我覺得，以百度的技術(shù)實力,，表現(xiàn)不至于這樣,。極可能是團隊領(lǐng)導(dǎo)者定錯目標(biāo)了：拿到盡可能多的知識單元。

所以,，新品發(fā)布會上,，從 CEO 到 CTO,，兩位專家，還在拿百度擁有全球最大的中文知識單元說事,。

但是,，這壓根不是 GPT-4 令人震驚的原因啊?。,。?/p>

GPT-4 這類產(chǎn)品真正令人震驚的是,，從 GPT-3.5 開始,，它真的像一個人類了。

這才是形成全球性碾壓式傳播的根本,。

這是完全不同的另一種開發(fā)目標(biāo),。也就是，如何讓 GPT-3.5 更像是一個人類,，能夠更快地自我學(xué)習(xí),、自我糾錯。

中文知識單元的數(shù)量,，在這個事情上毫無意義啊,。

好比，我們要教會一個三歲的小朋友盡快學(xué)會說話,，這個時候,，有兩個重要任務(wù)：

1）生命：讓她盡快明白語義、語音之間的各類規(guī)則以及如何用語義,、語音表達(dá)一個物理世界,。

2）生態(tài)：我們是想方設(shè)法給她在家里創(chuàng)造一個有助于孩子學(xué)說話的生態(tài)。比如,，我雇傭阿姨帶小美妞的時候,，第一考慮就是這阿姨愛不愛說話，外不外向,。顯然,，一個喜歡說話、外向的阿姨,，更容易帶動小美妞說話。

結(jié)果,，百度該項目團隊的做法好比是,，直接給一個三歲的小朋友扔了一千萬噸詞典，你背著詞典走路吧,。

生命何在,？生態(tài)何在,？

如果始終沿著這條技術(shù)路線走下去，我懷疑在 OpenAI 團隊開源之前,，不可能產(chǎn)生一個近似于數(shù)字生命的產(chǎn)品,。

而 OpenAI 團隊是將大語言模型當(dāng)作真正的生命來對待，從構(gòu)建一個數(shù)字生命的基本機制開始設(shè)計,，一切工作都是圍繞兩個基本出發(fā)點：

1）生命：盡量促進“智能”的自發(fā)涌現(xiàn),；

2）生態(tài)：盡量設(shè)計一個促進有助“智能”誕生并發(fā)育的生態(tài)。

在早期,，這個數(shù)字生命很幼稚,，但過了千億參數(shù)級別之后，很多早期打好的良好基礎(chǔ),，就會帶來極其多的“智能”涌現(xiàn),。好比小朋友從三歲學(xué)說話，長大之后,，流利使用語言完成諸多大事,。

我們不能在還沒有涌現(xiàn)“智能”之前，就急匆匆地去賣應(yīng)用,、搞數(shù)據(jù)對接,。那壓根與 GPT-4 不是一類產(chǎn)品啊。

我們究竟要的是一個數(shù)字生命,，以及這個新興的數(shù)字生命與生態(tài)帶來的新世界,；還是又多了一個更方便地查詢知識單元的工具。

我相信答案不言而喻,。

正如我七年前在文章：認(rèn)知科學(xué)看人工智能文末所寫的一樣：

其實,，不可思議之事才是硅谷與中關(guān)村的區(qū)別。創(chuàng)業(yè)者生來當(dāng)作不可思議之事,，而非可以看見未來的事,。

這份小小報告及建議，希望對如今蜂擁而入大語言模型研發(fā)領(lǐng)域的團隊,，略有啟發(fā),。也期待中國誕生足夠多、足夠好的數(shù)字生命,，帶著國人一起步入新世界,。

陽志平
本文使用寫匠創(chuàng)作，2023-03-18

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：平常心 > 《新興產(chǎn)業(yè)》

舉報/認(rèn)領(lǐng)