【原】最強中文大模型來了！通義千問2.5追上GPT-4,？

雷科技 2024-05-10 發(fā)布于廣東

展開全文

從 ChatGPT（GPT-3.5）發(fā)布至今的一年多,，大語言模型的迭代速度之快、進步幅度之大,，時刻刷新著我們的認知,。最近一段時間，各家更是密集發(fā)布了新版的大模型,，都在追趕和超越最新領先的大模型,，甚至逼得 OpenAI 進一步取消了 GPT-4 的限制。

現(xiàn)在阿里云最新的通義千問 2.5 版本也來了,，不僅在中文語境下追上了 GPT-4 Turbo,，更讓人期待的是：在開源和免費的發(fā)展策略下，通義千問 2.5 會不會成為大模型落地的分水嶺,，加速 AI 應用的全面爆發(fā),？

這一點還需要我們拭目以待，但至少,，通義千問的這一輪升級中再次證明自己的能力和潛力,。

通義千問全面升級，

中文性能追平 GPT-4 Turbo

5 月 9 日,，阿里云正式發(fā)布通義千問 2.5,，這是其旗下的通義大模型系列的最新版本。與此同時,，阿里云還開源通義千問 1100 億參數(shù)模型,。

按照阿里云方面的說法,，得益于全方位的能力提升，在中文語境下,，通義千問 2.5 的文本理解,、文本生成、知識問答及生活建議,、閑聊及對話,、安全風險等多項能力趕超 GPT-4。

圖/阿里

而據(jù)權威基準測評 OpenCompass 的結果顯示,，通義千問 2.5 的得分也追平了 GPT-4 Turbo,，是第一個做到的國產(chǎn)大模型。

在 LMSYS 最新的大模型對戰(zhàn)排行榜中,，通義千問（Qwen-Max）暫時位居總榜第 10,，中文場景下與 GPT-4 Turbo 并列第 2，僅僅略遜于排在第一的 Claude 3 Opus 和 GPT-4（1106）,。

圖/ LMSYS

當然,，跑分和排行榜很難完全說明大模型的實際性能表現(xiàn)，更遑論最終落到實處的用戶體驗,。

根據(jù)介紹,，通義千問 2.5 采用了阿里云自研的「問天」架構，并通過大量數(shù)據(jù)和算法的訓練,，使得模型的核心性能得到了大幅提升,。相比 2.1 版本，2.5 版本通義千問的理解能力,、邏輯推理,、指令遵循、代碼能力分別提升 9%,、16%,、19%、10%,。

簡單來說,，你可以認為通義千問 2.5 能夠更準確地理解自然語言的語義，并識別出其中的細微差別,；也能進行更復雜的邏輯推理,，并解決更具挑戰(zhàn)性的問題等。此外,，通義千問版本升級后還新增了文檔處理,、音視頻理解、智能編碼等多種能力。

在文檔處理上,，通義千問 2.5 支持單次最長 1000 萬字,、100 個文檔，覆蓋 PDF,、Word,、Excel，甚至 Markdown 和 EPUB 等多種文件格式,。同時不只是正文內(nèi)容,，還可以解析標題、段落,、圖表等多種數(shù)據(jù)格式,。

圖/通義千問

另外在音視頻理解上，通義千問 2.5 也支持了實時語音識別,、說話人分離等能力,，能夠提取全文摘要、總結發(fā)言,、提取關鍵詞等,，且支持最多同時上傳處理 50 個音視頻文件,。

這些升級或許看上去沒有核心性能的提升來得「性感」,，但從實際使用的角度，不管是能一次塞給大模型更大,、更多,、更多格式的文檔，還是音視頻的多種能力,，其實都在大幅擴展大模型的真實使用場景,。

從這個角度來看，通義千問 2.5 的意義就遠不只是在性能上追平 GPT-4 Turbo,。

另一方面,，AI 算力成本的高昂已經(jīng)廣為人知，不管是海外的 ChatGPT Plus（GPT-4）,、Gemini Advanced,、Claude Pro，還是國內(nèi)的文心一言會員（文心一言 4.0）,、WPS AI 等服務,，都有不低的收費。

而面向 C 端用戶,，通義千問主打一個全功能「免費」,。同時通義千問 APP 還升級為「通義 APP」，集成文生圖,、智能編碼,、文檔解析,、音視頻理解、視覺生成等全棧能力,，想成為用戶的「全能 AI 助手」,。

不難理解，阿里還是通過免費迅速擴大 C 端用戶規(guī)模,。但在現(xiàn)階段,，B 端用戶可能更為關鍵。

大模型生態(tài)落地,，

開源路線加速

「從 2022 年 9 月發(fā)布通義系列模型以來,，如今我們的 API 日調(diào)用量已經(jīng)過億?！? 月 9 日,，阿里云 CTO 周靖人在總結通義千問過去一年時指出。

不僅如此,，阿里云還透露通義系列大模型已經(jīng)服務包括新浪微博,、小米、中國一汽在內(nèi)的 9 萬家企業(yè)用戶,。發(fā)布活動上,，阿里云還邀請微博和小米分享了他們對于通義千問的落地應用。

其中微博作為最早的用戶,，就基于通義千問打造了出圈的官方評論機器人「評論羅伯特」,。小米的小愛同學同樣也是基于通義千問，強化了在圖片生成,、圖片理解等方面的多模態(tài) AI 生成能力,，包括在小米汽車、手機,、音箱等硬件上,。

事實上，上個月聯(lián)想發(fā)布了內(nèi)嵌個人智能體的「真 AI PC」,，其背后也是通義系列大模型,。

圖/聯(lián)想

開源，毋庸置疑是阿里在大模型生態(tài)上發(fā)展迅猛的關鍵因素之一,。「大到整個產(chǎn)業(yè)落地 AI,，小到每個企業(yè)開發(fā)應用，開源技術都至關重要,，這一點在全球范圍內(nèi)已經(jīng)被多次證明,，」周靖人在財新的采訪中說道。

去年 8 月，阿里宣布通義千問加入開源生態(tài),，隨著沿著「全模態(tài),、全尺寸」的開源路線陸續(xù)推出十多款模型，參數(shù)規(guī)模橫跨 5 億到 1100 億,，并且迅速成為開源大模型社區(qū)最受歡迎的開源大模型之一,。

圖/阿里

其中，1.8B,、4B,、7B、14B 等小尺寸的通義千問,，可以直接在手機,、PC 等設備端側(cè)部署運行；72B,、110B 等大尺寸模型則更多運行在服務器和數(shù)據(jù)中心,，支持更大規(guī)模、更專業(yè)的 AI 應用,。

而隨著通義千問 2.5 的發(fā)布,，其落地應用還有望得到進一步加速。在開源大模型中,，通義千問擁有全尺寸的參數(shù)規(guī)模,，還有目前最強的性能，開發(fā)者自然會更傾向基于通義千問的大模型生態(tài)進行開發(fā),。

更何況,，即使相比最領先的閉源大模型,，通義千問的差異也拉得很小了,。

寫在最后

「我們?nèi)蕴幱?AI 發(fā)展的初期階段」，谷歌 CEO 桑達爾·皮查伊在最近一次采訪中說道,。

過去一年多,，AI 世界幾乎是一天一變，頭部廠商的大模型之爭也愈演愈烈,，實質(zhì)也帶動了整個生態(tài)的前進,。事實上，今天打開手機,，不提系統(tǒng)自帶的 AI 功能,，已經(jīng)有大量的應用都引入了生成式 AI，還在涌現(xiàn)大量的生成式 AI 原生應用,。

不過還是不夠,。所有人都明白，面向普通用戶的 AI 應用還沒真正迎來爆發(fā)時刻，通義千問當然也不可能直接做到,，但作為開源大模型,，通義千問確實是最有希望推動 AI 應用真正爆發(fā)起來的大模型之一。

End