最強(qiáng)大模型易主,！模型性能超越GPT-4，Anthropic打破了OpenAI壓制鏈

烏鴉智能說 2024-03-05 發(fā)布于北京

展開全文

昨天晚上，OpenAI 的主要競爭對手之一 Anthropic 正式推出了 Claude 3 系列模型。該系列包括三種最先進(jìn)的型號：Claude 3 Opus,、Claude 3 Sonnet 和 Claude 3 Haiku。不同的型號擁有不同的性能,，允許用戶為其特定應(yīng)用選擇智能,、速度和成本的最佳平衡。

更重要的是,，Claude 3系列模型在多模態(tài)和語言能力等方面都表現(xiàn)出了超越GPT-4的能力。用Anthropic的話說,，Claude 3系列模型在推理,、數(shù)學(xué),、編碼,、多語言理解和視覺方面，都樹立了新的行業(yè)基準(zhǔn),。

Claude 3系列模型的推出,，意味著Anthropic正在動搖此前以O(shè)penAl主導(dǎo)的AI壓制鏈,。換言之，OpenAl急需發(fā)布新的模型,，再次宣告其在AI領(lǐng)域的絕對優(yōu)勢,，重演一次Sora打壓Gemini 1.5的故事。

/ 01 / 全球最強(qiáng)的大模型來了

根據(jù)Anthropic的說法,，作為旗艦級別的Opus模型,，展現(xiàn)出現(xiàn)了不俗的理解和表達(dá)能力。

從官方發(fā)布的成績單來看,，在知識測試 MMLU、推理測試 GPQA,、基礎(chǔ)數(shù)學(xué)測試 GSM8K 等一系列基準(zhǔn)測試中,，Claude 3 Opus 模型展現(xiàn)了卓越的性能,，其每一項(xiàng)得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra,。

除了智能能力提升外，Claude 3還擁有強(qiáng)大的視覺能力,。Claude 3 型號具有與其他領(lǐng)先型號相當(dāng)?shù)膹?fù)雜視覺功能,，可以處理各種視覺格式，包括照片,、圖表,、圖形和技術(shù)圖表。

響應(yīng)速度方面,，Claude 3 模型可以支持實(shí)時客戶聊天,、自動完成和數(shù)據(jù)提取任務(wù)，這些任務(wù)的反映必須立即且實(shí)時,。其中,，作為智能類別市場上速度最快且最具成本效益的型號，Haiku可以在不到三秒的時間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文（約 10k 代幣）,。

對于絕大多數(shù)工作負(fù)載,，Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高,。它擅長執(zhí)行需要快速響應(yīng)的任務(wù),，例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,，但智能水平更高,。

同時，Claude 3還對此前用戶詬病較多的拒絕指令、準(zhǔn)確性等問題做出了改善,。

與前幾代模型相比,，Opus、Sonnet 和 Haiku 拒絕回答接近系統(tǒng)護(hù)欄的提示的可能性明顯降低,。如下所示,，Claude 3 模型對請求表現(xiàn)出更細(xì)致的理解，能夠識別真正的傷害,，并且拒絕回答無害提示的頻率要少得多,。

而為了提高模型回答的準(zhǔn)確性，Anthropic使用了大量復(fù)雜的事實(shí)問題來針對當(dāng)前模型中已知的弱點(diǎn),。Claude 3會將答案分為正確答案,、錯誤答案（或幻覺）和承認(rèn)不確定性，其中模型表示它不知道答案,，而不是提供不正確的信息,。與 Claude 2.1 相比，Opus在這些具有挑戰(zhàn)性的開放式問題上的準(zhǔn)確性（或正確答案）提高了一倍,，同時也減少了錯誤答案的水平,。

除了產(chǎn)生更值得信賴的回復(fù)之外，Anthropic很快還將在 Claude 3 模型中啟用引用,，以便他們可以指向參考材料中的精確句子來驗(yàn)證他們的答案,。

上下文長度方面，Claude 3系列的3個模型,，都將至少支持20萬token的上下文窗口,。而且，這三個模型都能處理超過100萬token的輸入,，Anthropic考慮為需要更大上下文窗口的特定客戶開放這個功能,。

在200Ktoken的「大海撈針」（NIAH）測試中，Claude 3 Opus準(zhǔn)確率超過99%,。它甚至還能識別出測試本身的局限,，比如發(fā)現(xiàn)某些「目標(biāo)」句子明顯是后來人為添加進(jìn)原始文本的。

在提升模型能力的同時,，Claude 3模型系列兼顧了模型的安全性和可靠性,，依然嚴(yán)格遵循人工智能安全等級 2（ASL-2）的標(biāo)準(zhǔn)。這是一個用于評估和分類人工智能系統(tǒng)潛在風(fēng)險(xiǎn)的等級體系中的一個級別,。

ASL-2通常意味著該級別的AI系統(tǒng)具有中等的潛在風(fēng)險(xiǎn)，需要采取一定的安全措施來確保其安全運(yùn)行,，但這些風(fēng)險(xiǎn)是可控的,，并且系統(tǒng)在大多數(shù)情況下不會對人類或環(huán)境構(gòu)成嚴(yán)重威脅。

/ 02 / Claude 3與GPT-4各有千秋

在Claude 3模型發(fā)布的第一時間，網(wǎng)友@op7418就測試了Claude 3,，并與GPT-4做了對比,。測試主要有三個：

首先，網(wǎng)友拿Claude 3 Opus嘗試了一下復(fù)雜英文內(nèi)容的翻譯,。結(jié)論是,，Claude 比GPT-4做的好，它會主動對沒有排版的內(nèi)容進(jìn)行分段和排版時其更加的易讀,。之前GPT-4從來沒有主動進(jìn)行過這種操作,，翻譯結(jié)果也比GPT-4更加順暢。

其次,，該網(wǎng)友用一個樣式比較復(fù)雜的設(shè)計(jì)稿組件截圖讓Claude 3 Opus還原,，在其強(qiáng)調(diào)了需要還原樣式之后，它對樣式細(xì)節(jié)處理的非常好,，相當(dāng)接近設(shè)計(jì)稿了,，GPT-4之前一直搞不定設(shè)計(jì)稿細(xì)節(jié)。

最后,，網(wǎng)友又考驗(yàn)了Claude 3 Opus在多模態(tài)能力,，他找了一個論文讓模型解讀，模型給出了清晰的分析,。但相比GPT-4,，Opus在信息豐富度上稍落下風(fēng)。

與此同時,，Anthropic的兩位工程師Emmanuel Ameisen和Erik Schluntz也用Opus進(jìn)行了視頻轉(zhuǎn)文章測試,，表示結(jié)果非常驚艷。

他們首先將大神Andrej Karpathy一則2小時13分鐘科普視頻的原始字幕,、每5秒間隔拍攝的截圖,、以及兩張?bào)w現(xiàn)Andrej寫作風(fēng)格的博客和筆記截圖投喂給Opus，并給出了一些復(fù)雜的指令,，包括：直接編寫HTML,、過濾掉不相關(guān)的屏幕截圖、如果圖像中的代碼示例包含完整的示例,，請轉(zhuǎn)錄它們,。

基于所有這些指令，Opus制作出了一篇出色的格式化博客文章,。Emmanuel稱“輸出文檔可讀性強(qiáng),、清晰明了，比我之前從任何大型語言模型得到的成果要好”,。

不僅能力上與GPT-4更有千秋,，Claude 3模型的定價與其形成明顯的差異化,。其中，Opus定價高于GPT-Turbo,，而Haiku模型的定價明顯低于GPT-3.5,。

/ 03 / Anthropic打破AI打壓鏈

Claude 3 系列模型的發(fā)布，意味著在今年以來不到三個月的時間里,，除了Meta外,，國外主流的大模型玩家都發(fā)布了自己的最新模型產(chǎn)品。

2月16日大年初七,，谷歌放出其大模型核彈——Gemini 1.5,，并將上下文窗口長度擴(kuò)展到100萬個tokens。Gemini 1.5 Pro可一次處理1小時的視頻,、11小時的音頻,、超過3萬行代碼或超過70萬字的代碼庫，向還沒發(fā)布的GPT-5發(fā)起挑戰(zhàn),。

隨后OpenAI發(fā)布文生視頻大模型Sora,，引爆了整個AI界，一時風(fēng)頭無二,。各家大模型公司紛紛拿出自己的最新成果：

谷歌突然發(fā)布開源模型,；被稱為“法國版 OpenAI”的Mistral AI，發(fā)布了其最新的頂級文本生成模型 Mistral Large,；到了現(xiàn)在,，Anthropic 又推出了 Claude 3 系列模型。

全球模型廠商如此頻繁地發(fā)布模型,，揭示了一個事實(shí)：大模型領(lǐng)域的競爭正在被提高到一個新的高度,。

根據(jù)張俊林說法，當(dāng)下大模型巨頭混戰(zhàn)已經(jīng)形成了打壓鏈：OpenAl→Google &Anthropic & Mistral->Meta→其它大模型公司,。OpenAl處于鏈條頂端,，主要打壓有潛力追上它的競爭對手：谷歌和Anthropic，Mistral估計(jì)也正在被列入OpenAl的打壓列表中,。

簡單來說,，OpenAl需要通過新模型，來宣告其在AI領(lǐng)域的絕對優(yōu)勢,，并打壓其他廠商,。而其他大模型廠商則需要通過模型產(chǎn)品，不斷證明自己能夠跟隨且不斷縮小與OpenAl差距,。

22年底發(fā)布的ChatGPT就是臨時趕工出來打壓Anthropic的Claude,。到了現(xiàn)在，OpenAI的的文生視頻大模型Sora又把谷歌的Gemini 1.5的風(fēng)頭全都搶走了,。

此前市場普遍猜測,，OpenAl應(yīng)該儲備了一個用于打壓對手的技術(shù)儲備庫,，即使做得差不多了也隱而不發(fā)，專等競爭對手發(fā)布新產(chǎn)品的時候扔出來,，以形成宣傳優(yōu)勢，如果OpenAl判斷對手的產(chǎn)品對自己的威脅越強(qiáng),，就越可能把技術(shù)儲備庫里最強(qiáng)的扔出來,。

隨著Anthropic 發(fā)布Claude 3 系列模型，意味著上述的打壓鏈正在被打破,，也將迫使OpenAl改變新產(chǎn)品發(fā)布的節(jié)奏,。接下來，OpenAl會給我們帶來怎樣的驚喜,，可以一起拭目以待,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：烏鴉智能說 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)