昨天晚上,OpenAI 的主要競爭對手之一 Anthropic 正式推出了 Claude 3 系列模型。該系列包括三種最先進(jìn)的型號:Claude 3 Opus,、Claude 3 Sonnet 和 Claude 3 Haiku。不同的型號擁有不同的性能,,允許用戶為其特定應(yīng)用選擇智能,、速度和成本的最佳平衡。 更重要的是,,Claude 3系列模型在多模態(tài)和語言能力等方面都表現(xiàn)出了超越GPT-4的能力。用Anthropic的話說,,Claude 3系列模型在推理,、數(shù)學(xué),、編碼,、多語言理解和視覺方面,都樹立了新的行業(yè)基準(zhǔn),。 Claude 3系列模型的推出,,意味著Anthropic正在動搖此前以O(shè)penAl主導(dǎo)的AI壓制鏈,。換言之,OpenAl急需發(fā)布新的模型,,再次宣告其在AI領(lǐng)域的絕對優(yōu)勢,,重演一次Sora打壓Gemini 1.5的故事。 / 01 / 全球最強(qiáng)的大模型來了 根據(jù)Anthropic的說法,,作為旗艦級別的Opus模型,,展現(xiàn)出現(xiàn)了不俗的理解和表達(dá)能力。 從官方發(fā)布的成績單來看,,在知識測試 MMLU、推理測試 GPQA,、基礎(chǔ)數(shù)學(xué)測試 GSM8K 等一系列基準(zhǔn)測試中,,Claude 3 Opus 模型展現(xiàn)了卓越的性能,,其每一項(xiàng)得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra,。 除了智能能力提升外,Claude 3還擁有強(qiáng)大的視覺能力,。Claude 3 型號具有與其他領(lǐng)先型號相當(dāng)?shù)膹?fù)雜視覺功能,,可以處理各種視覺格式,包括照片,、圖表,、圖形和技術(shù)圖表。 響應(yīng)速度方面,,Claude 3 模型可以支持實(shí)時客戶聊天,、自動完成和數(shù)據(jù)提取任務(wù),這些任務(wù)的反映必須立即且實(shí)時,。其中,,作為智能類別市場上速度最快且最具成本效益的型號,Haiku可以在不到三秒的時間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k 代幣),。 對于絕大多數(shù)工作負(fù)載,,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高,。它擅長執(zhí)行需要快速響應(yīng)的任務(wù),,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,,但智能水平更高,。 同時,Claude 3還對此前用戶詬病較多的拒絕指令、準(zhǔn)確性等問題做出了改善,。 與前幾代模型相比,,Opus、Sonnet 和 Haiku 拒絕回答接近系統(tǒng)護(hù)欄的提示的可能性明顯降低,。如下所示,,Claude 3 模型對請求表現(xiàn)出更細(xì)致的理解,能夠識別真正的傷害,,并且拒絕回答無害提示的頻率要少得多,。 而為了提高模型回答的準(zhǔn)確性,Anthropic使用了大量復(fù)雜的事實(shí)問題來針對當(dāng)前模型中已知的弱點(diǎn),。Claude 3會將答案分為正確答案,、錯誤答案(或幻覺)和承認(rèn)不確定性,其中模型表示它不知道答案,,而不是提供不正確的信息,。與 Claude 2.1 相比,Opus在這些具有挑戰(zhàn)性的開放式問題上的準(zhǔn)確性(或正確答案)提高了一倍,,同時也減少了錯誤答案的水平,。 除了產(chǎn)生更值得信賴的回復(fù)之外,Anthropic很快還將在 Claude 3 模型中啟用引用,,以便他們可以指向參考材料中的精確句子來驗(yàn)證他們的答案,。 上下文長度方面,Claude 3系列的3個模型,,都將至少支持20萬token的上下文窗口,。而且,這三個模型都能處理超過100萬token的輸入,,Anthropic考慮為需要更大上下文窗口的特定客戶開放這個功能,。 在200Ktoken的「大海撈針」(NIAH)測試中,Claude 3 Opus準(zhǔn)確率超過99%,。它甚至還能識別出測試本身的局限,,比如發(fā)現(xiàn)某些「目標(biāo)」句子明顯是后來人為添加進(jìn)原始文本的。 在提升模型能力的同時,,Claude 3模型系列兼顧了模型的安全性和可靠性,,依然嚴(yán)格遵循人工智能安全等級 2(ASL-2)的標(biāo)準(zhǔn)。這是一個用于評估和分類人工智能系統(tǒng)潛在風(fēng)險(xiǎn)的等級體系中的一個級別,。 ASL-2通常意味著該級別的AI系統(tǒng)具有中等的潛在風(fēng)險(xiǎn),需要采取一定的安全措施來確保其安全運(yùn)行,,但這些風(fēng)險(xiǎn)是可控的,,并且系統(tǒng)在大多數(shù)情況下不會對人類或環(huán)境構(gòu)成嚴(yán)重威脅。 / 02 / Claude 3與GPT-4各有千秋 在Claude 3模型發(fā)布的第一時間,網(wǎng)友@op7418就測試了Claude 3,,并與GPT-4做了對比,。測試主要有三個: 首先,網(wǎng)友拿Claude 3 Opus嘗試了一下復(fù)雜英文內(nèi)容的翻譯,。結(jié)論是,,Claude 比GPT-4做的好,它會主動對沒有排版的內(nèi)容進(jìn)行分段和排版時其更加的易讀,。之前GPT-4從來沒有主動進(jìn)行過這種操作,,翻譯結(jié)果也比GPT-4更加順暢。 其次,,該網(wǎng)友用一個樣式比較復(fù)雜的設(shè)計(jì)稿組件截圖讓Claude 3 Opus還原,,在其強(qiáng)調(diào)了需要還原樣式之后,它對樣式細(xì)節(jié)處理的非常好,,相當(dāng)接近設(shè)計(jì)稿了,,GPT-4之前一直搞不定設(shè)計(jì)稿細(xì)節(jié)。 最后,,網(wǎng)友又考驗(yàn)了Claude 3 Opus在多模態(tài)能力,,他找了一個論文讓模型解讀,模型給出了清晰的分析,。但相比GPT-4,,Opus在信息豐富度上稍落下風(fēng)。 與此同時,,Anthropic的兩位工程師Emmanuel Ameisen和Erik Schluntz也用Opus進(jìn)行了視頻轉(zhuǎn)文章測試,,表示結(jié)果非常驚艷。 他們首先將大神Andrej Karpathy一則2小時13分鐘科普視頻的原始字幕,、每5秒間隔拍攝的截圖,、以及兩張?bào)w現(xiàn)Andrej寫作風(fēng)格的博客和筆記截圖投喂給Opus,并給出了一些復(fù)雜的指令,,包括:直接編寫HTML,、過濾掉不相關(guān)的屏幕截圖、如果圖像中的代碼示例包含完整的示例,,請轉(zhuǎn)錄它們,。 基于所有這些指令,Opus制作出了一篇出色的格式化博客文章,。Emmanuel稱“輸出文檔可讀性強(qiáng),、清晰明了,比我之前從任何大型語言模型得到的成果要好”,。 不僅能力上與GPT-4更有千秋,,Claude 3模型的定價與其形成明顯的差異化,。其中,Opus定價高于GPT-Turbo,,而Haiku模型的定價明顯低于GPT-3.5,。 / 03 / Anthropic打破AI打壓鏈 Claude 3 系列模型的發(fā)布,意味著在今年以來不到三個月的時間里,,除了Meta外,,國外主流的大模型玩家都發(fā)布了自己的最新模型產(chǎn)品。 2月16日大年初七,,谷歌放出其大模型核彈——Gemini 1.5,,并將上下文窗口長度擴(kuò)展到100萬個tokens。Gemini 1.5 Pro可一次處理1小時的視頻,、11小時的音頻,、超過3萬行代碼或超過70萬字的代碼庫,向還沒發(fā)布的GPT-5發(fā)起挑戰(zhàn),。 隨后OpenAI發(fā)布文生視頻大模型Sora,,引爆了整個AI界,一時風(fēng)頭無二,。各家大模型公司紛紛拿出自己的最新成果: 谷歌突然發(fā)布開源模型,;被稱為“法國版 OpenAI”的Mistral AI,發(fā)布了其最新的頂級文本生成模型 Mistral Large,;到了現(xiàn)在,,Anthropic 又推出了 Claude 3 系列模型。 全球模型廠商如此頻繁地發(fā)布模型,,揭示了一個事實(shí):大模型領(lǐng)域的競爭正在被提高到一個新的高度,。 根據(jù)張俊林說法,當(dāng)下大模型巨頭混戰(zhàn)已經(jīng)形成了打壓鏈:OpenAl→Google &Anthropic & Mistral->Meta→其它大模型公司,。OpenAl處于鏈條頂端,,主要打壓有潛力追上它的競爭對手:谷歌和Anthropic,Mistral估計(jì)也正在被列入OpenAl的打壓列表中,。 簡單來說,,OpenAl需要通過新模型,來宣告其在AI領(lǐng)域的絕對優(yōu)勢,,并打壓其他廠商,。而其他大模型廠商則需要通過模型產(chǎn)品,不斷證明自己能夠跟隨且不斷縮小與OpenAl差距,。 22年底發(fā)布的ChatGPT就是臨時趕工出來打壓Anthropic的Claude,。到了現(xiàn)在,OpenAI的的文生視頻大模型Sora又把谷歌的Gemini 1.5的風(fēng)頭全都搶走了,。 此前市場普遍猜測,,OpenAl應(yīng)該儲備了一個用于打壓對手的技術(shù)儲備庫,,即使做得差不多了也隱而不發(fā),專等競爭對手發(fā)布新產(chǎn)品的時候扔出來,,以形成宣傳優(yōu)勢,如果OpenAl判斷對手的產(chǎn)品對自己的威脅越強(qiáng),,就越可能把技術(shù)儲備庫里最強(qiáng)的扔出來,。 隨著Anthropic 發(fā)布Claude 3 系列模型,意味著上述的打壓鏈正在被打破,,也將迫使OpenAl改變新產(chǎn)品發(fā)布的節(jié)奏,。接下來,OpenAl會給我們帶來怎樣的驚喜,,可以一起拭目以待,。 |
|