超越GPT-4o,，Claude 3.5一夜封王,！10倍編碼速度逆天，全網(wǎng)最全實測來了

天承辦公室 2024-06-23 發(fā)布于北京

展開全文

新智元報道

編輯：編輯部

【新智元導(dǎo)讀】昨夜上線的Claude 3.5 Sonnet,，性能直接吊打了GPT-4o,，甚至價格還更便宜。網(wǎng)友們紛紛展開實測,，有人表示自己一半的工作已經(jīng)可以由它替代了,！而最讓人驚喜的新功能,，莫過于Artifacts了。

就在昨天,，Anthropic深夜發(fā)布了下一代旗艦大模型Claude 3.5 Sonnet,。

據(jù)稱，Claude 3.5 Sonnet不僅在評估中勝過GPT-4o,，還保持了作為「中杯」的最優(yōu)性價比,，超過了自家的Claude 3 Opus。

如今,，Claude 3.5 Sonnet已經(jīng)面向全球開啟免費試用了,。

在費用上，Sonnet處理每百萬輸入token僅需3美元,，每百萬輸出token僅為15美元,。

對比之下，GPT-4o的每百萬輸入token收費5美元,，每百萬輸出token為15美元,，在價格上可以說是不相上下。正式對打時,，各家可以說是已經(jīng)都壓低到了成本價,。

前OpenAI對齊團隊負責(zé)人Jan Leike表示，我喜歡Sonnet新模型,。我經(jīng)常要求它向我解釋ML論文,。雖然不一定全對，但可能比我略讀要好,，而且速度也快得多,。自動對齊研究越來越近了......

有網(wǎng)友同樣表示，「我有一半的工作都可以由Claude 3.5 Sonnet來完成,，我真是太興奮了」,。

Anthropic的產(chǎn)品經(jīng)理Michael Gerstenhaber將新模型稱之為「世界上最智能的模型」。

他表示,，「我們正處于這個行業(yè)寒武紀(jì)大爆發(fā)的開端」,。

今年晚些時候，Claude 3.5 Haiku和最強版Claude 3.5 Opus將會陸續(xù)推出,。

模型廠商們是徹底卷起來了,！

網(wǎng)友實測

Claude 3.5 Sonnet發(fā)布之后，在全網(wǎng)掀起軒然大波,，網(wǎng)友們紛紛上手開啟一波測試,。

10倍編碼速度驚人

先來看看Claude 3.5 Sonnet寫代碼的速度有多可怕。

網(wǎng)友僅在一次對話中，就用threejs+cannonjs創(chuàng)建出一個3D太陽系模型,，包含了物體和碰撞效果,。

另一個網(wǎng)友稱,，使用Claude 3.5 Sonnet進行編碼比GPT-4,，或任何其他大型語言模型效率高10倍,。全新的Artifacts功能，可以在聊天旁邊生成和運行代碼,，簡直令人驚嘆,。

沒有什么比使用Claude 3.5 Sonnet一次性編寫一個程序，來解密維吉尼亞密碼更棒的事了,。

許多網(wǎng)友紛紛夸贊Claude 3.5 Sonnet速度快到起飛,。

2分鐘一個小游戲

一位開發(fā)者直接用了不到2分鐘，做出了一個戴著太陽鏡的小狗吃骨頭的游戲,。

另有人花了3分鐘的時間,，做出了馬里奧克隆版，并且為角色提供了動畫效果,。

還有另一款「原創(chuàng)」游戲Color Cascade。

用2分鐘創(chuàng)建一個蛇梯棋游戲,。

網(wǎng)友表示,，「我可以通過新的Artifacts功能實時查看代碼并玩游戲。使用Claude的編碼體驗比GPT-4和Gemini好10倍」,。

這位網(wǎng)友用Sonnet做了一款乒乓球游戲,。

不像ChatGPT，它沒有用到編碼解釋器,。在這個過程中,，我們可以制作文檔、筆記和其他內(nèi)容,，其中一個選項的html/jss,。

神經(jīng)網(wǎng)絡(luò)可視化

有人還去做了可視化深度學(xué)習(xí)，不過因為消息限制,，不得不暫停,。

下面是用動畫效果解釋反向傳播的工作原理。

重建3D「模擬矩陣」

Claude 3.5 Sonnet是第一個能在首次嘗試中,，重現(xiàn)電影《黑客》中「數(shù)據(jù)流」3D場景的模型,。

而且，在制作恐怖游戲上,，Claude 3.5 Sonnet設(shè)計的3D結(jié)構(gòu)比Opus更好,。

SVG效果圖

Claude 3.5 Sonnet可以畫出獨角獸SVG圖。

它甚至可以生成芯片制造工藝流程示意圖,。

「井字棋」游戲失敗

OpenAI研究科學(xué)家,，德?lián)渲甘褂眯履Ｐ椭蟊硎荆?/span>

像GPT-4o（現(xiàn)在還有Claude 3.5 Sonnet）這樣的前沿模型,，在某些方面可能達到了「聰明的高中生」的水平，但它們在像「井字棋」這樣的基本任務(wù)上無法完成,。

人們曾希望原生的多模態(tài)訓(xùn)練能夠有所幫助,，但事實并非如此。

Artifacts改變交互

從上文也可以看出,，這次更新的一大亮點,，就是Claude 3.5引入的超強實時交互功能Artifacts了。

這一功能,，可以說是開啟了交互式AI最有潛力的形式,。

它標(biāo)志著Claude從對話式AI向協(xié)作工作環(huán)境的轉(zhuǎn)變。而在未來,，Anthorpic的設(shè)想是,，整個組織都能在共享空間中集中知識、文檔,、工作,，而Claude會隨時提供服務(wù)。

在沃頓商學(xué)院教授Ethan Mollick看來,，Artifacts可以說是一個簡化版的代碼解釋器,。

他上手創(chuàng)建的，是這樣一個螃蟹小游戲,。

開始的版本是這樣的,，稍顯平淡。

教授直接問,，能不能讓游戲恐怖一點,？然后氛圍感瞬間就上來了。

大家的直觀感受是,，使用Claude和Artifacts,，就像在IDE中工作一樣。

這位日本網(wǎng)友介紹說,，Artifacts簡單來說,，就是一個顯示代碼預(yù)覽的功能。它很容易直觀地理解,，可以用于多種目的,。

-網(wǎng)站創(chuàng)建

-形狀

-圖形

-文檔

-簡單游戲

它可以幫忙創(chuàng)建簡單的網(wǎng)站。

只要跟它說“制作一個計算器應(yīng)用程序”,，一個使用React的計算器應(yīng)用程序預(yù)覽就完成了,。

通過Artifacts，可以讓Sonnet使用HTML創(chuàng)建簡單的幻燈片材料。

這位網(wǎng)友發(fā)現(xiàn),，這個過程中可以向Sonnet展示設(shè)計圖片,，它們會把這些圖片用作參考。

Claude 3.5 Sonnet不僅編碼效率比GPT-4o或任何其他LLMs都高10倍,，而且因為Artifacts功能可以在聊天的旁邊生成并運行代碼,，因而可以提供令人驚嘆的用戶體驗。

比如讓它用React生成一個貪吃蛇的游戲,。

隨后,，我們還可以用自然語言對游戲進行修改，比如做一個美觀的背景,，或者讓蛇有一個化身,。

因為可以一邊創(chuàng)建游戲，一邊立刻在右側(cè)窗口中玩這個游戲,，Artifacts功能可以說是徹底貫徹了從對話式人工智能轉(zhuǎn)向協(xié)同工作環(huán)境的想法,。

總的來說，Artifacts似乎是Claude長遠遠景的一個信號,。

長期以來,，Anthropic一直表示自己主要關(guān)注企業(yè)，并且計劃將Claude變成一種工具,，讓企業(yè)「安全地」將他們的知識,、文檔和正在進行的工作集中在一個共享空間中。

聽起來,，這種概念更像是Notion或Slack，而不是ChatGPT,。而在這種系統(tǒng)中,，Anthropic的模型將處于整個系統(tǒng)的中心。

吊打GPT-4o,，上一代2倍速

總的來說,，Claude 3.5 Sonnet在生成速度方面，實現(xiàn)了飛升,，是上一代超大杯Claude 3 Opus的2倍,。

而且，在視覺方面的表現(xiàn),，新模型全面超越了GPT-4o,。OpenAI上個月剛發(fā)布的新模型，沒想到這么快被取而代之,。

以下是官方博客中,，做的一些基準(zhǔn)測試。

從圖中可以看出，Claude 3.5已經(jīng)在多數(shù)基準(zhǔn)中,，領(lǐng)先GPT-4o,、Gemini 1.5，以及Llama-400B的模型,。

在代碼基準(zhǔn)中,，Claude 3.5在零樣本情況下，取得了92%的成績,。在數(shù)學(xué)上,，零樣本+CoT加持Claude 3.5還是有些落后于GPT-4o。

在視覺基準(zhǔn)上,，Claude 3.5 Sonnet在視覺問答MMMU基準(zhǔn)上,，略遜于GPT-4o。

不過,，視覺數(shù)學(xué)推理,、科學(xué)表格、圖表問答,、文件問答上,，都拿下了最高分。

Claude不僅能準(zhǔn)確識別,、轉(zhuǎn)錄圖像中的文字內(nèi)容,，還結(jié)合了強大的代碼生成能力，將多個模態(tài)真正集成在一起,。

與眾不同的是,，Claude 3.5 Sonnet并不像GPT-4o那樣集成了語音助手，或者能夠生成圖像,，而且Anthropic暫時也沒有這一打算,。

Anthropic聯(lián)創(chuàng)兼總裁Daniela Amodei在接受彭博獨家采訪中提到，「我們的目標(biāo)是使其成為所有企業(yè)業(yè)務(wù)的首選模型」,。

她繼續(xù)稱,，從研究的角度來看，我們能夠生成圖像輸出,，但繪制一只「滑雪的貓」圖像并不是我們的企業(yè)客戶所要求的,，所以我們并不優(yōu)先考慮這一點。

目前,，制藥巨頭Pfizer已經(jīng)利用Claude模型,，幫助發(fā)現(xiàn)新藥物。

未來,，模型越智能,，就越有能力支持這種非常高水平的智力工作,。顯然，Anthropic正在努力為它想要瞄準(zhǔn)的企業(yè)公司進一步差異化,。

可以擴展Claude交互方式的新功能Artifacts,，便是一個新的嘗試。

Anthropic的改進速度,，簡直令人驚嘆,。

如今Anthropic的這一步，必將逼得其他競爭對手跟上,。

要知道,，Claude不像Gemini或ChatGPT那樣受到更多關(guān)注，但它在比賽中卻非常受歡迎,。

參考資料：

https://www./news/claude-3-5-sonnet

https:///2024/06/20/anthropic-claims-its-latest-model-is-best-in-class/

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：天承辦公室 > 《012恒河流沙》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

天承辦公室

關(guān)注對話

TA的最新館藏

仿古詩詞：鵲橋謠
仿古詩詞：風(fēng)月佳人
《繡春刀2修羅戰(zhàn)場》最具「深度」的武俠片，揭秘明朝官場的暗斗
《繡春刀》近十年來最寫實的武俠,，底層小人物的悲慘命運
巴巴羅薩計劃,，希特勒戰(zhàn)略為何失?。績?nèi)幕在此,！
看了無數(shù)部戰(zhàn)爭好片唯有這一部是心中永遠的第一真實殘酷感人

喜歡該文的人也喜歡更多