開源界最強(qiáng)大語言模型,Qwen2,來了,! 智東西6月7日?qǐng)?bào)道,,今日,阿里云正式開源通義千問Qwen2系列模型,,其中,,Qwen2-72B成為全球性能最強(qiáng)的開源模型。 Qwen2有多強(qiáng),?一句話總結(jié):在全球權(quán)威測(cè)評(píng)中,,性能超過美國(guó)最強(qiáng)開源模型Llama3-70B,也超過文心4.0,、豆包pro,、混元pro等眾多中國(guó)閉源大模型。 Qwen2緣何能打破開源大模型的性能天花板,?今日,,阿里云不僅將Qwen2系列模型開放免費(fèi)下載,還首次披露了背后的煉?!懊丶?/span>,,相關(guān)重要技術(shù)細(xì)節(jié)即將公開。 Qwen2下載地址:
一、干翻Llama 3-70B,,趕超閉源模型,,Qwen2最強(qiáng)開源能力一覽本次,新開源的Qwen2系列包括五個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型,,分別是:Qwen2-0.5B,、Qwen2-1.5B、Qwen2-7B,、Qwen2-57B-A14B以及Qwen2-72B,。
相比今年2月推出的通義千問Qwen1.5,,Qwen2實(shí)現(xiàn)了整體性能的代際飛躍。 在權(quán)威模型測(cè)評(píng)榜單OpenCompass中,,此前開源的Qwen1.5-110B已領(lǐng)先于文心4.0等一眾中國(guó)閉源模型,。這也意味著,剛剛開源的Qwen2-72B繼續(xù)擴(kuò)大與這些閉源模型的領(lǐng)先優(yōu)勢(shì),。
對(duì)比Llama3-70B,、Mixtrl-8x22B等當(dāng)前最優(yōu)開源模型,,Qwen2-72B的能力也實(shí)現(xiàn)全面超越。 而在MMLU,、GPQA,、HumanEval、GSM8K,、BBH,、MT-Bench、Arena Hard,、LiveCodeBench等十幾項(xiàng)國(guó)際權(quán)威測(cè)評(píng)中,,Qwen2-72B一舉斬獲世界冠軍,在自然語言理解,、知識(shí),、代碼、數(shù)學(xué)及多語言等多項(xiàng)能力上表現(xiàn)突出,,毫無懸念登上全球最強(qiáng)開源大模型的寶座,。
而在小模型方面,,Qwen2系列模型基本能夠超越同等規(guī)模的最優(yōu)開源模型甚至更大規(guī)模的模型。相比近期推出的最好的模型,,Qwen2-7B-Instruct依然能在多個(gè)評(píng)測(cè)上取得顯著的優(yōu)勢(shì),,尤其是代碼及中文理解上。
目前,Qwen2系列已上線魔搭社區(qū)ModelScope和阿里云百煉平臺(tái),,開發(fā)者可在魔搭社區(qū)體驗(yàn),、下載模型,或通過阿里云百煉平臺(tái)調(diào)用模型API,。 二,、一年發(fā)三代模型,穩(wěn)坐開源大模型鐵王座,,阿里云首次披露創(chuàng)新“秘籍”Qwen2的發(fā)布,,距離阿里云今年2月推出Qwen1.5僅過去了三個(gè)多月。 相比上一代Qwen1.5,,Qwen2邏輯推理,、多語言能力,、長(zhǎng)文本處理、代碼,、數(shù)學(xué)等能力全面提升,。 1、代碼,、數(shù)學(xué)能力大提升,,碾壓Llama 3 在代碼方面,Qwen2的研發(fā)中融入了CodeQwen1.5的成功經(jīng)驗(yàn),,實(shí)現(xiàn)了在多種編程語言上的顯著效果提升,;在數(shù)學(xué)方面,基于大規(guī)模且高質(zhì)量的數(shù)據(jù),,Qwen2-72B-Instruct在多個(gè)測(cè)評(píng)中以碾壓之勢(shì)超過Llama 3-7B-Instruct,。
2、支持128k長(zhǎng)文本,,開源智能體方案 如下圖所示,,在Needle in a Haystack測(cè)試集上,Qwen2-72B-Instruct能夠完美處理128k上下文長(zhǎng)度內(nèi)的信息抽取任務(wù),。 同時(shí),,Qwen2系列中的其他模型的表現(xiàn)也十分突出:Qwen2-7B-Instruct幾乎完美地處理長(zhǎng)達(dá)128k的上下文;Qwen2-57B-A14B-Instruct則能處理64k的上下文長(zhǎng)度,;而該系列中的兩個(gè)較小模型則支持32k的上下文長(zhǎng)度,。 ▲Qwen2系列在長(zhǎng)文本方面表現(xiàn)突出 除了長(zhǎng)上下文模型,,阿里云本次還開源了一個(gè)智能體解決方案,用于高效處理100萬tokens級(jí)別的上下文,。 3,、強(qiáng)化安全性,與GPT-4表現(xiàn)相當(dāng) 下表展示了大型模型在四種多語言不安全查詢類別,,包括非法活動(dòng),、欺詐、色情,、隱私暴力中生成有害響應(yīng)的比例,。 通過顯著性檢驗(yàn)(P值),Qwen2-72B-Instruct模型在安全性方面與GPT-4的表現(xiàn)相當(dāng),,并且顯著優(yōu)于Mixtral-8x22B模型,。Llama 3在處理多語言提示方面表現(xiàn)不佳,,因此沒有將其納入比較。
模型迭代的速度和實(shí)力,讓阿里云穩(wěn)坐開源大模型鐵王座,。 2023年8月,阿里云成為國(guó)內(nèi)首個(gè)宣布開源自研模型的科技企業(yè),,推出通義千問第一代開源模型Qwen,;2024年2月,1.5代開源模型Qwen1.5發(fā)布,;不到4個(gè)月后,,Qwen2開源,從而實(shí)現(xiàn)了全尺寸,、全模態(tài)開源,。 不到一年時(shí)間,Qwen系列的72B,、110B模型多次登頂HuggingFace 的Open LLM Leaderboard等開源模型榜單,。 ▲Qwen-72B登頂HuggingFace開源大模型排行榜 ▲Qwen1.5-110B登頂HuggingFace開源大模型排行榜
▲在阿拉伯語榜單上,,Qwen2-72B穩(wěn)居第一 與此同時(shí),阿里云還首次披露Qwen2研發(fā)背后的多個(gè)創(chuàng)新方法,。 根據(jù)通義千問技術(shù)博客,,在Qwen1.5系列中,只有32B和110B的模型使用了GQA(分組查詢注意力),。這一次,,所有尺寸的模型都使用了GQA,從而使得模型推理大大加速,,顯存占用明顯降低,。 上下文長(zhǎng)度方面,Qwen2系列模型均在32k上下文數(shù)據(jù)上進(jìn)行訓(xùn)練,,可支持128k上下文處理,;為了提升模型的多語言能力,,團(tuán)隊(duì)還對(duì)除中英文以外的27種語言進(jìn)行了增強(qiáng),并針對(duì)性地優(yōu)化了語言轉(zhuǎn)換問題,。 ▲Qwen2對(duì)除中英文以外的27種語言進(jìn)行了增強(qiáng) 在模型訓(xùn)練方面,,團(tuán)隊(duì)結(jié)合了有監(jiān)督微調(diào),、反饋模型訓(xùn)練以及在線DPO等方法,還采用了在線模型合并的方法減少對(duì)齊稅,。這些做法都大幅提升了模型的基礎(chǔ)能力以及模型的智能水平,。 在大模型后期精調(diào)過程中,通義千問團(tuán)隊(duì)在訓(xùn)練規(guī)?;?/span>的同時(shí)盡可能減少人工標(biāo)注,,采用自動(dòng)方法獲取高質(zhì)量的指令和偏好數(shù)據(jù),包括針對(duì)數(shù)學(xué)的拒絕采樣,、針對(duì)代碼和指令遵循的代碼執(zhí)行反饋,、針對(duì)創(chuàng)意寫作的回譯、針對(duì)角色扮演的Scalable Oversight等,。 不久后,,通義千問團(tuán)隊(duì)將推出Qwen2的完整技術(shù)報(bào)告。 三,、超豪華生態(tài)陣容,,模型下載超1600萬,孵化模型應(yīng)用超1500個(gè)盡管大模型的開閉源之爭(zhēng)的話題仍在持續(xù),,但開源對(duì)大模型生態(tài)的積極意義已成行業(yè)共識(shí),,而這也是阿里云堅(jiān)持大模型開源的核心原因。 中國(guó)信息化百人會(huì)執(zhí)委,、阿里云副總裁安筱鵬曾以“爬珠峰”形象地闡述了開源的價(jià)值:“生態(tài)的價(jià)值就是開源的價(jià)值就是我派一架直升機(jī),,把你從海拔0米的地方運(yùn)送到珠峰大本營(yíng)5000米,剩下3000米你再爬,?!?/span> 優(yōu)質(zhì)的開源模型,能推動(dòng)大模型生態(tài)的繁榮,,并讓海量的開發(fā)者站在巨人的肩膀上做創(chuàng)新,,從阿里云Qwen系列的開源社區(qū)的反饋來看,這樣的生態(tài)邏輯確實(shí)在奏效,。 根據(jù)阿里云官方數(shù)據(jù),,Qwen系列模型近一個(gè)月內(nèi)總下載量翻倍,已突破1600萬次,。同時(shí),,海內(nèi)外開源社區(qū)已經(jīng)出現(xiàn)了超過1500款基于Qwen二次開發(fā)的模型和應(yīng)用,。 事實(shí)上,自今年2月Qwen1.5發(fā)布前后,,就有大量開發(fā)者催更Qwen2,。6月7日Qwen2上線后,多個(gè)重要的開源生態(tài)伙伴火速宣布支持Qwen2,,包括TensorRT-LLM,、OpenVINO、OpenCompass,、XTuner,、LLaMA-Factory、Firefly,、OpenBuddy、vLLM,、Ollama等,。 ▲Qwen系列多個(gè)重要的開源生態(tài)伙伴 從全球開源大模型競(jìng)爭(zhēng)格局來看,,除了美國(guó)Llama開源生態(tài),通義千問Qwen系列已成為全球開發(fā)者的另一主流選項(xiàng),。 一年前,,業(yè)內(nèi)人士普遍認(rèn)為開源模型和頭部閉源模型之間存在較大的代差;如今,,開源模型已經(jīng)顯示出超越最強(qiáng)閉源模型的勢(shì)頭,,關(guān)于“開源大模型不如閉源大模型”的論調(diào)已然成為偽命題。 開源和閉源模型的你追我趕,、節(jié)節(jié)攀升,,帶來的將是企業(yè)及開發(fā)者更加廣泛和豐富的模型組合選擇,以及更低的AI落地門檻,、更好的應(yīng)用效果,。 結(jié)語:大模型競(jìng)賽升級(jí),開源模型大進(jìn)化,,該閉源派出招了最近幾個(gè)月,,開源大模型和閉源大模型你追我趕,這場(chǎng)拉鋸戰(zhàn)愈演愈烈,。 先是今年4月Meta發(fā)布的Llama 3-70B趕超Gemini Pro 1.5等一眾閉源模型,,被當(dāng)作“開源模型將一舉翻越GPT-4高峰”的標(biāo)志;然后是今日阿里云推出的Qwen2-72B再次屠榜,,不僅趕超Llama 3-70B,,還干翻了一大批頭部閉源模型,,進(jìn)一步推動(dòng)大模型生態(tài)的發(fā)展。 雖然通往通用人工智能(AGI)的大門剛剛打開,,但大模型應(yīng)用創(chuàng)新的奇點(diǎn)還遠(yuǎn)沒有到來,,正如阿里云智能集團(tuán)CTO周靖人所說,大模型還有很大一部分潛力沒有真正被挖掘出來,,當(dāng)有越來越多的開發(fā)者,、企業(yè)融入這一進(jìn)程,將帶來翻天覆地的變化,。 而堅(jiān)持開源開放是加速這一進(jìn)程的最佳途徑,。自2023年8月起,阿里云不到一年時(shí)間就陸續(xù)推出Qwen,、Qwen1.5,、Qwen2三代開源模型,實(shí)現(xiàn)了全尺寸,、全模態(tài)開源,,為大模型開源生態(tài)提供了強(qiáng)大的引擎。 開源和閉源都是大模型產(chǎn)業(yè)的重要力量,。當(dāng)開源力量高歌猛進(jìn),,下一步,閉源派又將如何應(yīng)對(duì),,我們拭目以待,! |
|