國內(nèi)10款大語言模型測評-競品分析

你好122 2024-06-29

展開全文

國內(nèi)大公司現(xiàn)在基本上都研發(fā)了自己的大模型，都支持很多功能,。之前也有不少人對這些模型進行了分析,，但都是單一的產(chǎn)品。這篇文章,，我們從多個維度,，以競品分析的方式對國內(nèi)的幾個大模型進行比較一下,。

一、競品分析目的與意義

AI 大模型的英文含義是：Large AI Models,。他的的定義通常指的是具有大量參數(shù)和復(fù)雜結(jié)構(gòu)的人工智能模型,，這些模型利用深度學(xué)習(xí)技術(shù)，通過大規(guī)模的數(shù)據(jù)訓(xùn)練,，能夠在多個任務(wù)上表現(xiàn)出優(yōu)越的性能,。

由于市面上涌現(xiàn)了各種各樣的大模型，對于我們用戶來說,，并不知道哪種大模型比較適合我們,，或者說哪種比較好用，這次我用六個維度來測評一下國內(nèi)十款大模型,，讓大家可以根據(jù)自己的需求,，來選擇適合自己的模型來使用。

二,、在研究大模型之前,，讓我們來簡單了解一下這些大模型里面的一些基本的定義

1）大語言模型（Large Language Model, LLM）是一種專門用于處理和生成自然語言文本的人工智能模型，它有大量參數(shù)和復(fù)雜結(jié)構(gòu),，能夠理解,、生成和翻譯自然語言。大語言模型通常通過在大規(guī)模文本數(shù)據(jù)上進行訓(xùn)練,，學(xué)習(xí)語言的各種模式和特征,。

2）多模態(tài)大模型（Multimodal Models）是指能夠處理和理解多種類型數(shù)據(jù)（如文本、圖像,、音頻,、視頻等）的人工智能模型。這些模型通過集成不同模態(tài)的數(shù)據(jù),，能夠更全面地理解和生成復(fù)雜信息,。這種能力使多模態(tài)大模型在各種應(yīng)用場景中表現(xiàn)出色，例如自然語言處理,、圖像識別,、語音識別和生成、以及多模態(tài)交互等,。

3）通用語言模型（General Language Models）是一個廣泛的術(shù)語,，通常用來描述能夠處理多種語言任務(wù)的模型，而不論其規(guī)模大小,。GLM可以包含從小型到大型的各種模型,，關(guān)鍵在于它們具備處理自然語言的通用能力。這些模型可能專注于特定類型的任務(wù),，如問答系統(tǒng),、文本分類或語言生成,，但它們通常設(shè)計得足夠靈活，以適應(yīng)多種不同的應(yīng)用場景,。

三,、競品分析

1、模型選擇

本次主要分析國內(nèi)使用率比較高的通義千問,、文心一言,、kimi等10個左右的大模型，通過日常生活,、工作流程等方式做對比和總結(jié)說明,，分析出幾款相對比較好用的大模型。

2,、調(diào)研維度

為了更直觀測試這些模型在實際場景下的表現(xiàn),，我們收集整理一套場景數(shù)據(jù)集，主要包括：

是否能夠聯(lián)網(wǎng)獲取信息,、知識理解,、上傳文本分析、文生圖,、邏輯推理,、休閑問答（多倫對話能力）等六個方向進行調(diào)研

3、調(diào)研過程

給每個分析角度一個規(guī)則,，分析這些模型的回答是否能按照這些規(guī)則輸出相對穩(wěn)定的回答,，并對這些回答給出一個相對合理的分?jǐn)?shù)。

基本的規(guī)則為：

由于已經(jīng)上線的大模型已經(jīng)屬于相對完善的模型,，所以我根據(jù)模型的回答,，分析回答后得出：回答是否“不滿足預(yù)期”、“符合預(yù)期”和“高于預(yù)期”

不滿足預(yù)期的標(biāo)準(zhǔn)為：需求不滿足（包括：部分滿足和部分不滿足）,、內(nèi)容質(zhì)量相關(guān)（包括：內(nèi)容不全面,、語句前后不通、信息前后不一致,、有危害性的信息,、還有一些不太符合要求的格式）
高于預(yù)期的標(biāo)準(zhǔn)為：語意正確、格式美觀,、沒有那些危險有害偏激的信息,、有提煉的總結(jié)、有一些推理的過程等等,。

評分標(biāo)準(zhǔn)：（滿分10分）

不滿足預(yù)期：需求不滿足的比如回答與問題無關(guān)的直接0分,、有高危害信息內(nèi)容：0分,、內(nèi)容不全面：-1分,、語句前后不通順：-1分,、信息前后不一致：-1分、有偏見性的行為：-1分,、格式不符合：-1分
高于預(yù)期：語意正確：+1分,、格式分段/分點合理美觀：+1分、有提煉總結(jié)：+1分,、有推理過程等：+1分

1）是否能夠聯(lián)網(wǎng)獲取信息

總結(jié)：在進行了一系列的測試之后,，測試結(jié)果顯示，除了百小應(yīng)未能聯(lián)網(wǎng)外,，其他所有模型都有聯(lián)網(wǎng)功能,，豆包、文心一言,、萬知在格式是也比較美觀合理,。豆包在需求之外還進行了問題拓展，所以分?jǐn)?shù)較高,。

2）知識理解

總結(jié)：在進行了一系列的測試之后,，測試結(jié)果顯示，所有模型均能回答出所提出的問題,，但是,，智普AI和萬知可以在需求滿足，分段分點有總結(jié)的情況下,，全面的回答出了問題,。所以分?jǐn)?shù)較高

3）上傳文本分析

總結(jié)：在進行了一系列的測試之后，測試結(jié)果顯示,，除了訊飛星火,、智普AI、萬知,、360智腦基本都能滿足需求,，而kimi大模型邏輯清晰、分段分點回答,、結(jié)尾也有對全文的總結(jié),，所以分?jǐn)?shù)較高。

4）文生圖

總結(jié)：在進行了一系列的測試之后,，測試結(jié)果顯示,，除了通義千問、文心一言,、豆包和騰訊元寶其余模型均不能直接生成圖片,。

5）邏輯推理

總結(jié)：在進行了一系列的測試之后，測試結(jié)果顯示，所有模型均能回答正確,，通義千問,、文心一言、訊飛星火,、騰訊元寶的答案既滿足需求答案正確,、也有推理過程格式分點、分段有合理性,，所以分?jǐn)?shù)較高,。

6）休閑問答（多倫對話能力）

總結(jié)：在進行了一系列的測試之后，測試結(jié)果顯示,，大多數(shù)模型都能滿足需求,，有很多模型都自稱AI，非常有AI感,，少數(shù)模型,，比如文心一言、豆包與之對話,，讓人感覺對面是您的朋友,，沒有AI的距離感，讓人感覺很舒適,。所以得分較高,。

四、總結(jié)分析

總的排名為：

1,、文心一言（8.2） 2,、騰訊元寶（7.8） 3、豆包（7.7） 4,、通義千問（7.5） 5,、kimi（6.5） 6、智譜AI（5.3） 7,、訊飛星火（5.2）萬知（5.2） 9,、白小應(yīng) 360智腦。（4.5）

以上排名均為本人對大模型的主觀判斷,，謹(jǐn)代表自己,。不代表任何官方和別人哈。

最后,，我們期待國內(nèi)AI企業(yè)能持續(xù)引領(lǐng)技術(shù)創(chuàng)新,，深化行業(yè)應(yīng)用，為社會創(chuàng)造更多價值,。展望未來,，讓我們共同期待AI技術(shù)帶來的無限可能，攜手開啟智能新時代的大門。

本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,。

題圖來自Unsplash,，基于CC0協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：你好122 > 《Av》

舉報/認(rèn)領(lǐng)