阿里云發(fā)布最強(qiáng)開源大模型Qwen2,，干翻Llama 3，比閉源模型還強(qiáng)

xnssyzh 2024-07-06 發(fā)布于重慶

展開全文

阿里云發(fā)布最強(qiáng)開源大模型Qwen2,，干翻Llama 3,，比閉源模型還強(qiáng)

開源界最強(qiáng)大語言模型，Qwen2，來了,！

智東西6月7日?qǐng)?bào)道,，今日，阿里云正式開源通義千問Qwen2系列模型,，其中,，Qwen2-72B成為全球性能最強(qiáng)的開源模型。

Qwen2有多強(qiáng),？一句話總結(jié)：在全球權(quán)威測(cè)評(píng)中,，性能超過美國(guó)最強(qiáng)開源模型Llama3-70B，也超過文心4.0,、豆包pro,、混元pro等眾多中國(guó)閉源大模型。

Qwen2緣何能打破開源大模型的性能天花板,？今日,，阿里云不僅將Qwen2系列模型開放免費(fèi)下載，還首次披露了背后的煉?！懊丶?/span>,，相關(guān)重要技術(shù)細(xì)節(jié)即將公開。

Qwen2下載地址:

https:///organization/qwen

▲所有人均可在魔搭社區(qū)和Hugging Face免費(fèi)下載Qwen2系列模型

一、干翻Llama 3-70B,，趕超閉源模型,，Qwen2最強(qiáng)開源能力一覽

本次，新開源的Qwen2系列包括五個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型,，分別是：Qwen2-0.5B,、Qwen2-1.5B、Qwen2-7B,、Qwen2-57B-A14B以及Qwen2-72B,。

▲Qwen2系列包括五個(gè)尺寸的模型版本

相比今年2月推出的通義千問Qwen1.5,，Qwen2實(shí)現(xiàn)了整體性能的代際飛躍。

在權(quán)威模型測(cè)評(píng)榜單OpenCompass中,，此前開源的Qwen1.5-110B已領(lǐng)先于文心4.0等一眾中國(guó)閉源模型,。這也意味著，剛剛開源的Qwen2-72B繼續(xù)擴(kuò)大與這些閉源模型的領(lǐng)先優(yōu)勢(shì),。

▲Qwen1.5-110B已領(lǐng)先于多款閉源模型

對(duì)比Llama3-70B,、Mixtrl-8x22B等當(dāng)前最優(yōu)開源模型,，Qwen2-72B的能力也實(shí)現(xiàn)全面超越。

而在MMLU,、GPQA,、HumanEval、GSM8K,、BBH,、MT-Bench、Arena Hard,、LiveCodeBench等十幾項(xiàng)國(guó)際權(quán)威測(cè)評(píng)中,，Qwen2-72B一舉斬獲世界冠軍，在自然語言理解,、知識(shí),、代碼、數(shù)學(xué)及多語言等多項(xiàng)能力上表現(xiàn)突出,，毫無懸念登上全球最強(qiáng)開源大模型的寶座,。

▲Qwen2-72B在十幾個(gè)全球權(quán)威測(cè)試中超過當(dāng)前最優(yōu)開源模型

而在小模型方面,，Qwen2系列模型基本能夠超越同等規(guī)模的最優(yōu)開源模型甚至更大規(guī)模的模型。相比近期推出的最好的模型,，Qwen2-7B-Instruct依然能在多個(gè)評(píng)測(cè)上取得顯著的優(yōu)勢(shì),，尤其是代碼及中文理解上。

▲Qwen2-7B-Instruct在多個(gè)評(píng)測(cè)上取得顯著的優(yōu)勢(shì)

目前，Qwen2系列已上線魔搭社區(qū)ModelScope和阿里云百煉平臺(tái),，開發(fā)者可在魔搭社區(qū)體驗(yàn),、下載模型，或通過阿里云百煉平臺(tái)調(diào)用模型API,。

二,、一年發(fā)三代模型，穩(wěn)坐開源大模型鐵王座,，阿里云首次披露創(chuàng)新“秘籍”

Qwen2的發(fā)布,，距離阿里云今年2月推出Qwen1.5僅過去了三個(gè)多月。

相比上一代Qwen1.5,，Qwen2邏輯推理,、多語言能力,、長(zhǎng)文本處理、代碼,、數(shù)學(xué)等能力全面提升,。

1、代碼,、數(shù)學(xué)能力大提升,，碾壓Llama 3

在代碼方面，Qwen2的研發(fā)中融入了CodeQwen1.5的成功經(jīng)驗(yàn),，實(shí)現(xiàn)了在多種編程語言上的顯著效果提升,；在數(shù)學(xué)方面，基于大規(guī)模且高質(zhì)量的數(shù)據(jù),，Qwen2-72B-Instruct在多個(gè)測(cè)評(píng)中以碾壓之勢(shì)超過Llama 3-7B-Instruct,。

▲Qwen2在代碼,、數(shù)學(xué)能力大大提升

2、支持128k長(zhǎng)文本,，開源智能體方案

如下圖所示,，在Needle in a Haystack測(cè)試集上，Qwen2-72B-Instruct能夠完美處理128k上下文長(zhǎng)度內(nèi)的信息抽取任務(wù),。

同時(shí),，Qwen2系列中的其他模型的表現(xiàn)也十分突出：Qwen2-7B-Instruct幾乎完美地處理長(zhǎng)達(dá)128k的上下文；Qwen2-57B-A14B-Instruct則能處理64k的上下文長(zhǎng)度,；而該系列中的兩個(gè)較小模型則支持32k的上下文長(zhǎng)度,。

▲Qwen2系列在長(zhǎng)文本方面表現(xiàn)突出

除了長(zhǎng)上下文模型,，阿里云本次還開源了一個(gè)智能體解決方案，用于高效處理100萬tokens級(jí)別的上下文,。

3,、強(qiáng)化安全性，與GPT-4表現(xiàn)相當(dāng)

下表展示了大型模型在四種多語言不安全查詢類別,，包括非法活動(dòng),、欺詐、色情,、隱私暴力中生成有害響應(yīng)的比例,。

通過顯著性檢驗(yàn)（P值），Qwen2-72B-Instruct模型在安全性方面與GPT-4的表現(xiàn)相當(dāng),，并且顯著優(yōu)于Mixtral-8x22B模型,。Llama 3在處理多語言提示方面表現(xiàn)不佳,，因此沒有將其納入比較。

▲Qwen2-72B-Instruct在安全性方面與GPT-4表現(xiàn)相當(dāng)

模型迭代的速度和實(shí)力，讓阿里云穩(wěn)坐開源大模型鐵王座,。

2023年8月，阿里云成為國(guó)內(nèi)首個(gè)宣布開源自研模型的科技企業(yè),，推出通義千問第一代開源模型Qwen,；2024年2月，1.5代開源模型Qwen1.5發(fā)布,；不到4個(gè)月后,，Qwen2開源，從而實(shí)現(xiàn)了全尺寸,、全模態(tài)開源,。

不到一年時(shí)間，Qwen系列的72B,、110B模型多次登頂HuggingFace 的Open LLM Leaderboard等開源模型榜單,。

▲Qwen-72B登頂HuggingFace開源大模型排行榜

▲Qwen1.5-110B登頂HuggingFace開源大模型排行榜

▲Qwen2-72B登頂HuggingFace開源大模型排行榜

▲在阿拉伯語榜單上,，Qwen2-72B穩(wěn)居第一

與此同時(shí)，阿里云還首次披露Qwen2研發(fā)背后的多個(gè)創(chuàng)新方法,。

根據(jù)通義千問技術(shù)博客,，在Qwen1.5系列中，只有32B和110B的模型使用了GQA（分組查詢注意力）,。這一次,，所有尺寸的模型都使用了GQA，從而使得模型推理大大加速,，顯存占用明顯降低,。

上下文長(zhǎng)度方面，Qwen2系列模型均在32k上下文數(shù)據(jù)上進(jìn)行訓(xùn)練,，可支持128k上下文處理,；為了提升模型的多語言能力,，團(tuán)隊(duì)還對(duì)除中英文以外的27種語言進(jìn)行了增強(qiáng)，并針對(duì)性地優(yōu)化了語言轉(zhuǎn)換問題,。

▲Qwen2對(duì)除中英文以外的27種語言進(jìn)行了增強(qiáng)

在模型訓(xùn)練方面,，團(tuán)隊(duì)結(jié)合了有監(jiān)督微調(diào),、反饋模型訓(xùn)練以及在線DPO等方法，還采用了在線模型合并的方法減少對(duì)齊稅,。這些做法都大幅提升了模型的基礎(chǔ)能力以及模型的智能水平,。

在大模型后期精調(diào)過程中，通義千問團(tuán)隊(duì)在訓(xùn)練規(guī)?；?/span>的同時(shí)盡可能減少人工標(biāo)注,，采用自動(dòng)方法獲取高質(zhì)量的指令和偏好數(shù)據(jù)，包括針對(duì)數(shù)學(xué)的拒絕采樣,、針對(duì)代碼和指令遵循的代碼執(zhí)行反饋,、針對(duì)創(chuàng)意寫作的回譯、針對(duì)角色扮演的Scalable Oversight等,。

不久后,，通義千問團(tuán)隊(duì)將推出Qwen2的完整技術(shù)報(bào)告。

三,、超豪華生態(tài)陣容,，模型下載超1600萬，孵化模型應(yīng)用超1500個(gè)

盡管大模型的開閉源之爭(zhēng)的話題仍在持續(xù),，但開源對(duì)大模型生態(tài)的積極意義已成行業(yè)共識(shí),，而這也是阿里云堅(jiān)持大模型開源的核心原因。

中國(guó)信息化百人會(huì)執(zhí)委,、阿里云副總裁安筱鵬曾以“爬珠峰”形象地闡述了開源的價(jià)值：“生態(tài)的價(jià)值就是開源的價(jià)值就是我派一架直升機(jī),，把你從海拔0米的地方運(yùn)送到珠峰大本營(yíng)5000米，剩下3000米你再爬,?！?/span>

優(yōu)質(zhì)的開源模型，能推動(dòng)大模型生態(tài)的繁榮,，并讓海量的開發(fā)者站在巨人的肩膀上做創(chuàng)新,，從阿里云Qwen系列的開源社區(qū)的反饋來看，這樣的生態(tài)邏輯確實(shí)在奏效,。

根據(jù)阿里云官方數(shù)據(jù),，Qwen系列模型近一個(gè)月內(nèi)總下載量翻倍，已突破1600萬次,。同時(shí),，海內(nèi)外開源社區(qū)已經(jīng)出現(xiàn)了超過1500款基于Qwen二次開發(fā)的模型和應(yīng)用,。

事實(shí)上，自今年2月Qwen1.5發(fā)布前后,，就有大量開發(fā)者催更Qwen2,。6月7日Qwen2上線后，多個(gè)重要的開源生態(tài)伙伴火速宣布支持Qwen2,，包括TensorRT-LLM,、OpenVINO、OpenCompass,、XTuner,、LLaMA-Factory、Firefly,、OpenBuddy、vLLM,、Ollama等,。

▲Qwen系列多個(gè)重要的開源生態(tài)伙伴

從全球開源大模型競(jìng)爭(zhēng)格局來看,，除了美國(guó)Llama開源生態(tài)，通義千問Qwen系列已成為全球開發(fā)者的另一主流選項(xiàng),。

一年前,，業(yè)內(nèi)人士普遍認(rèn)為開源模型和頭部閉源模型之間存在較大的代差；如今,，開源模型已經(jīng)顯示出超越最強(qiáng)閉源模型的勢(shì)頭,，關(guān)于“開源大模型不如閉源大模型”的論調(diào)已然成為偽命題。

開源和閉源模型的你追我趕,、節(jié)節(jié)攀升,，帶來的將是企業(yè)及開發(fā)者更加廣泛和豐富的模型組合選擇，以及更低的AI落地門檻,、更好的應(yīng)用效果,。

結(jié)語：大模型競(jìng)賽升級(jí)，開源模型大進(jìn)化,，該閉源派出招了

最近幾個(gè)月,，開源大模型和閉源大模型你追我趕，這場(chǎng)拉鋸戰(zhàn)愈演愈烈,。

先是今年4月Meta發(fā)布的Llama 3-70B趕超Gemini Pro 1.5等一眾閉源模型,，被當(dāng)作“開源模型將一舉翻越GPT-4高峰”的標(biāo)志；然后是今日阿里云推出的Qwen2-72B再次屠榜,，不僅趕超Llama 3-70B,，還干翻了一大批頭部閉源模型,，進(jìn)一步推動(dòng)大模型生態(tài)的發(fā)展。

雖然通往通用人工智能（AGI）的大門剛剛打開,，但大模型應(yīng)用創(chuàng)新的奇點(diǎn)還遠(yuǎn)沒有到來,，正如阿里云智能集團(tuán)CTO周靖人所說，大模型還有很大一部分潛力沒有真正被挖掘出來,，當(dāng)有越來越多的開發(fā)者,、企業(yè)融入這一進(jìn)程，將帶來翻天覆地的變化,。

而堅(jiān)持開源開放是加速這一進(jìn)程的最佳途徑,。自2023年8月起，阿里云不到一年時(shí)間就陸續(xù)推出Qwen,、Qwen1.5,、Qwen2三代開源模型，實(shí)現(xiàn)了全尺寸,、全模態(tài)開源,，為大模型開源生態(tài)提供了強(qiáng)大的引擎。

開源和閉源都是大模型產(chǎn)業(yè)的重要力量,。當(dāng)開源力量高歌猛進(jìn),，下一步，閉源派又將如何應(yīng)對(duì),，我們拭目以待,！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： xnssyzh > 《區(qū)塊鏈,。IPFS》

舉報(bào)/認(rèn)領(lǐng)