趕超GPT-4的階段性升級,,可以看作是國產(chǎn)大模型有序迭代部署、不斷拉近差距的標志,,切莫像手機跑分那樣,,在過度營銷的作用下,淪為被群嘲的對象,。 | 稍微留意下近期的新聞,,“趕超GPT-4”正在成為國產(chǎn)大模型的新熱點。百度文心一言、商湯日日新以及阿里云剛剛發(fā)布的通義千問2.5,,均已邁入“全面趕超GPT-4”陣營,。把時間線稍微拉長一些的話,過去大半年時間里,,“超越GPT-4”的消息可謂屢見不鮮,,即使在報道中刻意加上了多項基準、部分指標等前綴,,依然賺足了眼球,,成為國產(chǎn)大模型佐證自身能力的有力指標。簡單做個復盤的話,,國產(chǎn)大模型對GPT-4的追趕已經(jīng)進行了400多天,,其中“趕超進程”可以粗分為三個階段。2023年3月14日,,OpenAI正式推出了GPT-4,,彼時大多數(shù)國產(chǎn)大模型還未開放,少數(shù)內測大模型的比較對象還是GPT-3,。作為業(yè)界標桿的GPT-4,,就像是科幻照進了現(xiàn)實,被無數(shù)人捧上神壇,。但在短短半年后,,GPT-4就出現(xiàn)在了國產(chǎn)大模型廠商的比較名單里。2023年8月底,,商湯科技對外公布了一則新進展:擁有1230億個參數(shù)的“書生·浦語”,在全球51個知名評測集共計30萬道問題集合上,,測試成績排名全球第二,,并在綜合考試agieval、知識問答commonsenseqa,、閱讀理解和推理的十項評測中位列第一,,分數(shù)超過風頭正盛的GPT-4。2023年10月17日的“生成未來”發(fā)布會上,,百度正式發(fā)布了文心大模型4.0版本,,李彥宏在現(xiàn)場依次演示了大模型的理解、生成,、邏輯和記憶四大核心能力的特點與應用場景,。盡管沒有給出評測數(shù)據(jù),李彥宏卻自信地表示:文心大模型4.0的綜合水平,,“與GPT-4相比毫不遜色”,。國產(chǎn)大模型趕超GPT-4的序幕正式拉開,此后一兩個月里,不少大模型給了這樣的營銷口徑:整體能力已經(jīng)不輸于GPT-3.5,,并且在部分性能指標上開始超越GPT-4,。時間來到2024年初,國內的“百模大戰(zhàn)”進入收斂期,,一些不被資本市場認可的大模型,,漸漸成了一個數(shù)字,只有幾家科技大廠和獨角獸仍活躍在大模型一線,?!盎钕聛怼钡拇竽P停瑒荼匾谀芰ι献C明自己,。2024年1月中旬的智譜AI技術開放日上,,正式發(fā)布了新一代基座大模型GLM-4,。按照智譜AI官方的說法:在權威的英文測試榜單中,GLM-4已經(jīng)整體逼近GPT-4,,平均能達到GPT-4 90%以上的水平,,在個別項目上表現(xiàn)持平;而在國內企業(yè)更加看重的中文任務上,,GLM-4的表現(xiàn)全面超過GPT-4,。同樣是在2024年1月,科大訊飛發(fā)布了星火認知大模型V3.5,,在邏輯推理,、語言理解、文本生成,、數(shù)學答題,、代碼、多模態(tài)等核心能力均顯著提升,,其中語言理解,、數(shù)學能力已經(jīng)超過GPT-4 Turbo,代碼能力達到GPT-4 Turbo 96%,,多模態(tài)理解達到GPT-4V 91%,。“在中文理解方面,,甚至遙遙領先,。”回頭來看,,智譜AI和科大訊飛的營銷策略還是有些“保守”,,百川智能在同一時間段發(fā)布的Baichuan 3,對外表示已經(jīng)在CMMLU、GAOKAO等中文評測中超越GPT-4,。2023年11月的OpenAI首屆開發(fā)者大會,,GPT-4 Turbo可以說整個活動的焦點,不僅比GPT-4更聰明,,文本處理的上限更高,,推理的速度更快,價格也更便宜,,國產(chǎn)大模型隨即迎來了新的比較對象,。先是2024年4月份發(fā)布的日日新5.0,擁有6000億參數(shù),,并在發(fā)布會上引用了OpenCompass的評測數(shù)據(jù):日日新5.0達到或超越了GPT-4 Turbo版本,,幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。再然后就是阿里云剛剛發(fā)布的通義千問2.5,,根據(jù)媒體報道中的說法:模型性能全面趕超GPT-4-Turbo,,成為“地表最強”中文大模型;通義千問1100億參數(shù)開源模型在多個基準測評收獲最佳成績,,超越Meta的Llama-3-70B,,成為開源領域最強大模型。可以篤定的是,,日日新5.0和通義千問2.5只是個開始,,后續(xù)將有更多國產(chǎn)大模型在能力上超越GPT-4-Turbo。畢竟科大訊飛早已預熱了上半年發(fā)布星火認知大模型V4.0的消息,,將全面對標GPT-4系列,;文心一言4.0的發(fā)布已經(jīng)超過半年,不排除新版本正在準備中,,且大概率會在性能上再上一個臺階……不管是一開始的“部分性能超越”,還是現(xiàn)在進行中的“全面趕超”,,依據(jù)都是第三方評測結果,或者說大模型廠商的主觀判斷,。比如商湯和阿里云爭相引用的OpenCompass,,就是上海人工智能實驗室開源的大模型評測平臺。對于一些大模型沉迷于刷榜,、跑分的現(xiàn)象,,上海人工智能實驗室領軍科學家林達華教授曾在媒體采訪中直言:通過題海戰(zhàn)術提高大模型成績,對于模型實際能力的反應是失真的,,影響了模型研發(fā)團隊的改進方向和模型的商業(yè)落地,,“高分低能”傷害的是機構本身;榜單上任何具體的名字只是大模型成長過程中無數(shù)次測試中的一次,一時的排名高低并不真正反映模型的能力,。何況很多大模型測試集為了公開透明,,測試題目或者提綱都是公開的,大模型廠商不難通過“針對性的訓練”來提高分數(shù),。只要將足夠的的測試題喂給大模型,,在開卷考試的機制下,分數(shù)總不會太低,。也就是說,,分數(shù)高并不一定代表大模型的能力強?!芭芊帧钡囊饬x僅僅是讓客戶或開發(fā)者對大模型能力有一個初步的認識,,最終的評估因素永遠是“能不能解決問題”,“能不能在場景中帶來實實在在的生產(chǎn)力”,。特別是在大模型走向落地應用的趨勢下,,一味炒作“超越GPT-4”、“跑分第一”,,妄顧落地應用的實效,,可能會適得其反。以大模型應用中比較常見的財報分析為例,,如果大模型連一家企業(yè)的財報都看不懂,,再高的計算分數(shù)也不會讓客戶信服,反而會被排除在合作名單外,。而參考中信證券等機構的研究報告,,目前OpenAI的GPT-5正處于紅隊測試階段,有望在今年夏天正式發(fā)布,,可能在多模態(tài)理解,、長文本輸入、zero-shot學習等方面實現(xiàn)重大突破,,且性能將遠超GPT-4,。即使國產(chǎn)大模型花費400多天追平了GPT-4,在相當長一段時間里,,仍將處于追趕的姿態(tài),。大模型的價值是解決日常問題的生產(chǎn)力工具,趕超GPT-4的階段性升級,,可以看作是國產(chǎn)大模型有序迭代部署,、不斷拉近差距的標志,切莫像手機跑分那樣,,在過度營銷的作用下,,淪為被群嘲的對象,。
|