重磅！新華網(wǎng)推出大模型評測：文心一言多維度領(lǐng)先

銀箭財觀 2023-07-07 發(fā)布于甘肅

展開全文

人工智能技術(shù)不斷迭代引發(fā)新一輪科技革命和產(chǎn)業(yè)變革,，進一步提升人們對經(jīng)濟社會更加美好的體驗,。當(dāng)前，全球信息科技巨頭紛紛入局,，智能化應(yīng)用走向了以大語言模型（簡稱：LLM即Large Language Model,，大語言模型）為代表的大模型時代。

為反映當(dāng)前LLM發(fā)展最新情況特點,，了解LLM產(chǎn)品應(yīng)用情況,。近日，新華網(wǎng)與國內(nèi)權(quán)威科研機構(gòu)聯(lián)合推出《國內(nèi)LLM產(chǎn)品測試報告》,。選取文心一言,、GPT-3.5、訊飛星火和ChatGLM等四個LLM產(chǎn)品（各測試模型基本情況如下圖）,，從內(nèi)容安全問答,、常識問答、數(shù)學(xué)運算,、閱讀理解和主觀問答等五個維度對LLM進行多維度能力測試和分析,。為便于評估和展示，將六類測試分數(shù)分別轉(zhuǎn)換為百分制,。

表1選用LLM列表

報告顯示,，以文心一言為代表的國產(chǎn)大模型在內(nèi)容安全、閱讀理解,、常識問答,，數(shù)學(xué)運算等方面的表現(xiàn)普遍較好，能準(zhǔn)確回應(yīng)測試問題,。尤其在內(nèi)容安全和數(shù)學(xué)運算方面,，國產(chǎn)大模型的優(yōu)勢相對更加明顯。國產(chǎn)大模型中,，文心一言在內(nèi)容安全方面普遍能給出積極準(zhǔn)確的正面回應(yīng),；在常識問答,，閱讀理解、主觀題目和數(shù)學(xué)運算等方面表現(xiàn)均較為出色,，具備更豐富的常識知識和更強大的邏輯運算能力,。

圖為多維度測試結(jié)果

具體來看，在內(nèi)容安全方面,，文心一言獲得了115分,，在本次測試中領(lǐng)跑，對于內(nèi)容安全問題的敏感度也最高,。而GPT-3.5和開源模型ChatGLM由于沒有做相關(guān)嚴(yán)格約束,，可能回答出一些存在政治或者文化偏見的內(nèi)容。此外,，所有的LLM均對涉黃類問題很敏感,，都未在相關(guān)回答上誘導(dǎo)。

在常識問答方面,，文心一言獲得了88分,，GPT-3.5和訊飛星火均得到60分左右，ChatGLM僅獲得33分的成績,。整體來說,，大多數(shù)國內(nèi)LLM均具備基本的文化、歷史,、地理和生活常識知識,，能準(zhǔn)確回答絕大多數(shù)常識問題。而對于一些相對冷門的常識問題,，除文心一言外其他模型都給出了不同的錯誤答案,。

在數(shù)學(xué)運算方面,，文心一言獲得93分,、訊飛星火和GPT-3.5分別獲得75、68分,，而ChatGLM僅僅獲得11分,。當(dāng)題目涉及一些基礎(chǔ)直接的數(shù)學(xué)運算，所有的大模型基本都能算對,，這說明當(dāng)前的大模型都能理解基本的計算規(guī)則,。但是隨著題目變得復(fù)雜，只有文心一言和訊飛星火能正確回答該問題,。說明包括文心一言和訊飛星火在內(nèi)的國產(chǎn)大模型在數(shù)學(xué)邏輯能力方面會優(yōu)于其他模型,。另外，文心一言在解題目時會采用直接的算數(shù)解法,，而訊飛星火等模型會采用解方程操作,，說明文心一言具有一定的逆向邏輯思維能力,，解題方式更加簡潔直接。

在閱讀理解方面,，文心一言得到95分,、GPT-3.5得到67分，訊飛星火和ChatGLM分別獲得57分和33分,。雖然大模型的部分輸出結(jié)果不能完全對應(yīng)正確答案,，但大都角度正確且言之有理，說明現(xiàn)有LLM在中文長文本閱讀理解方面均具備較高水平,。

在主觀題方面,，各個模型的性能表現(xiàn)相差不多。其中,，GPT-3.5取得了最好的結(jié)果,，文心一言次之。具體而言,，從流暢度方面來看,， GPT-3.5的輸出文本最為流暢，不存在語言重復(fù)或者表述不清晰的現(xiàn)象,。而文心一言存在少數(shù)表述重復(fù)的情況,。從規(guī)范性角度來看，所有的模型均具備較為標(biāo)準(zhǔn)的回答格式,，如包括解釋,、分析、總結(jié)等基本步驟,。這主要是因為大模型的數(shù)據(jù)輸入都具備固定數(shù)據(jù)模板,，導(dǎo)致模型記住了這些特定模式。從理解力來看,，GPT-3.5對主觀題的理解最為準(zhǔn)確,，極少出現(xiàn)文不對題的情況，文心一言次之,。文心一言在回答該類組織創(chuàng)意問題時,，更加傾向于表述活動的組織細節(jié)，比如介紹時間,、地點,、流程、活動預(yù)算等信息,。從事實性和全面性角度來看,，均是GPT-3.5表現(xiàn)最好，說明了其蘊含的語義知識相對更加豐富,。但在測評中國的一些風(fēng)俗習(xí)慣或者傳統(tǒng)文化相關(guān)的知識時,，它的性能遜色于國產(chǎn)語言模型,。

此外，在所有被測LLM產(chǎn)品,，目前僅文心一言可公開使用由文生圖的多模態(tài)功能,，但目前對一些易混淆的成語理解還有所欠缺。

LLM已經(jīng)成為人工智能技術(shù)應(yīng)用場景發(fā)展的新階段,。隨著人工智能技術(shù)的不斷演進,，必將引發(fā)一場經(jīng)濟社會應(yīng)用的人工替代化新思考。一方面,，LLM的應(yīng)用場景將進一步多元化,。隨著技術(shù)的演進，LLM將不再局限于文本,、音頻和視覺等基本形態(tài),，還將具備嗅覺、觸覺,、味覺,、情感等多重信息感知和認知能力，以數(shù)字化形式傳輸并指導(dǎo)人工智能進行內(nèi)容創(chuàng)作,。另一方面,，大模型重新定義了人機交互，催生AI原生應(yīng)用,，服務(wù)千行百業(yè),。大模型會深度融合到實體經(jīng)濟當(dāng)中去，助力中國數(shù)字經(jīng)濟開創(chuàng)新一代人工智能發(fā)展階段,。

未來LLM競爭關(guān)鍵是算法是否更為接近和超越人類的思維方式,。目前LLM在邏輯推理的計算能力，靈活能力以及快速自學(xué)習(xí)能力決定領(lǐng)先的優(yōu)勢,。在邏輯推理中更能理解人類情感和接近超越人類思維方式,，使得模型更加智能，也是很多頭部LLM廠商的共同研發(fā)升級的追求,。