新智元報道 【新智元導(dǎo)讀】昨夜上線的Claude 3.5 Sonnet,,性能直接吊打了GPT-4o,,甚至價格還更便宜。網(wǎng)友們紛紛展開實測,,有人表示自己一半的工作已經(jīng)可以由它替代了,!而最讓人驚喜的新功能,,莫過于Artifacts了。就在昨天,,Anthropic深夜發(fā)布了下一代旗艦大模型Claude 3.5 Sonnet,。 據(jù)稱,Claude 3.5 Sonnet不僅在評估中勝過GPT-4o,,還保持了作為「中杯」的最優(yōu)性價比,,超過了自家的Claude 3 Opus。 如今,,Claude 3.5 Sonnet已經(jīng)面向全球開啟免費試用了,。 在費用上,Sonnet處理每百萬輸入token僅需3美元,,每百萬輸出token僅為15美元,。 對比之下,GPT-4o的每百萬輸入token收費5美元,,每百萬輸出token為15美元,,在價格上可以說是不相上下。正式對打時,,各家可以說是已經(jīng)都壓低到了成本價,。 前OpenAI對齊團隊負責(zé)人Jan Leike表示,我喜歡Sonnet新模型,。我經(jīng)常要求它向我解釋ML論文,。雖然不一定全對,但可能比我略讀要好,,而且速度也快得多,。自動對齊研究越來越近了...... 有網(wǎng)友同樣表示,「我有一半的工作都可以由Claude 3.5 Sonnet來完成,,我真是太興奮了」,。 Anthropic的產(chǎn)品經(jīng)理Michael Gerstenhaber將新模型稱之為「世界上最智能的模型」。 他表示,,「我們正處于這個行業(yè)寒武紀(jì)大爆發(fā)的開端」,。 今年晚些時候,Claude 3.5 Haiku和最強版Claude 3.5 Opus將會陸續(xù)推出,。 模型廠商們是徹底卷起來了,! 網(wǎng)友實測 Claude 3.5 Sonnet發(fā)布之后,在全網(wǎng)掀起軒然大波,,網(wǎng)友們紛紛上手開啟一波測試,。 10倍編碼速度驚人先來看看Claude 3.5 Sonnet寫代碼的速度有多可怕。 網(wǎng)友僅在一次對話中,就用threejs+cannonjs創(chuàng)建出一個3D太陽系模型,,包含了物體和碰撞效果,。 另一個網(wǎng)友稱,,使用Claude 3.5 Sonnet進行編碼比GPT-4,,或任何其他大型語言模型效率高10倍,。全新的Artifacts功能,可以在聊天旁邊生成和運行代碼,,簡直令人驚嘆,。 沒有什么比使用Claude 3.5 Sonnet一次性編寫一個程序,來解密維吉尼亞密碼更棒的事了,。 許多網(wǎng)友紛紛夸贊Claude 3.5 Sonnet速度快到起飛,。 2分鐘一個小游戲 一位開發(fā)者直接用了不到2分鐘,做出了一個戴著太陽鏡的小狗吃骨頭的游戲,。 另有人花了3分鐘的時間,,做出了馬里奧克隆版,并且為角色提供了動畫效果,。 還有另一款「原創(chuàng)」游戲Color Cascade。 用2分鐘創(chuàng)建一個蛇梯棋游戲,。 網(wǎng)友表示,,「我可以通過新的Artifacts功能實時查看代碼并玩游戲。使用Claude的編碼體驗比GPT-4和Gemini好10倍」,。 這位網(wǎng)友用Sonnet做了一款乒乓球游戲,。 不像ChatGPT,它沒有用到編碼解釋器,。在這個過程中,,我們可以制作文檔、筆記和其他內(nèi)容,,其中一個選項的html/jss,。 神經(jīng)網(wǎng)絡(luò)可視化 有人還去做了可視化深度學(xué)習(xí),不過因為消息限制,,不得不暫停,。 下面是用動畫效果解釋反向傳播的工作原理。 重建3D「模擬矩陣」 Claude 3.5 Sonnet是第一個能在首次嘗試中,,重現(xiàn)電影《黑客》中「數(shù)據(jù)流」3D場景的模型,。 而且,在制作恐怖游戲上,,Claude 3.5 Sonnet設(shè)計的3D結(jié)構(gòu)比Opus更好,。 SVG效果圖Claude 3.5 Sonnet可以畫出獨角獸SVG圖。 它甚至可以生成芯片制造工藝流程示意圖,。 「井字棋」游戲失敗OpenAI研究科學(xué)家,,德?lián)渲甘褂眯履P椭蟊硎荆?/span> 像GPT-4o(現(xiàn)在還有Claude 3.5 Sonnet)這樣的前沿模型,,在某些方面可能達到了「聰明的高中生」的水平,但它們在像「井字棋」這樣的基本任務(wù)上無法完成,。 人們曾希望原生的多模態(tài)訓(xùn)練能夠有所幫助,,但事實并非如此。 Artifacts改變交互 從上文也可以看出,,這次更新的一大亮點,,就是Claude 3.5引入的超強實時交互功能Artifacts了。 這一功能,,可以說是開啟了交互式AI最有潛力的形式,。 它標(biāo)志著Claude從對話式AI向協(xié)作工作環(huán)境的轉(zhuǎn)變。而在未來,,Anthorpic的設(shè)想是,,整個組織都能在共享空間中集中知識、文檔,、工作,,而Claude會隨時提供服務(wù)。 在沃頓商學(xué)院教授Ethan Mollick看來,,Artifacts可以說是一個簡化版的代碼解釋器,。 他上手創(chuàng)建的,是這樣一個螃蟹小游戲,。 開始的版本是這樣的,,稍顯平淡。 教授直接問,,能不能讓游戲恐怖一點,?然后氛圍感瞬間就上來了。 這位日本網(wǎng)友介紹說,,Artifacts簡單來說,,就是一個顯示代碼預(yù)覽的功能。它很容易直觀地理解,,可以用于多種目的,。 -簡單游戲 它可以幫忙創(chuàng)建簡單的網(wǎng)站。 只要跟它說“制作一個計算器應(yīng)用程序”,,一個使用React的計算器應(yīng)用程序預(yù)覽就完成了,。 通過Artifacts,可以讓Sonnet使用HTML創(chuàng)建簡單的幻燈片材料。 這位網(wǎng)友發(fā)現(xiàn),,這個過程中可以向Sonnet展示設(shè)計圖片,,它們會把這些圖片用作參考。 Claude 3.5 Sonnet不僅編碼效率比GPT-4o或任何其他LLMs都高10倍,,而且因為Artifacts功能可以在聊天的旁邊生成并運行代碼,,因而可以提供令人驚嘆的用戶體驗。 比如讓它用React生成一個貪吃蛇的游戲,。 隨后,,我們還可以用自然語言對游戲進行修改,比如做一個美觀的背景,,或者讓蛇有一個化身,。 因為可以一邊創(chuàng)建游戲,一邊立刻在右側(cè)窗口中玩這個游戲,,Artifacts功能可以說是徹底貫徹了從對話式人工智能轉(zhuǎn)向協(xié)同工作環(huán)境的想法,。 吊打GPT-4o,,上一代2倍速 總的來說,,Claude 3.5 Sonnet在生成速度方面,實現(xiàn)了飛升,,是上一代超大杯Claude 3 Opus的2倍,。 而且,在視覺方面的表現(xiàn),,新模型全面超越了GPT-4o,。OpenAI上個月剛發(fā)布的新模型,沒想到這么快被取而代之,。 以下是官方博客中,,做的一些基準(zhǔn)測試。 從圖中可以看出,Claude 3.5已經(jīng)在多數(shù)基準(zhǔn)中,,領(lǐng)先GPT-4o,、Gemini 1.5,以及Llama-400B的模型,。 在代碼基準(zhǔn)中,,Claude 3.5在零樣本情況下,取得了92%的成績,。在數(shù)學(xué)上,,零樣本+CoT加持Claude 3.5還是有些落后于GPT-4o。 在視覺基準(zhǔn)上,,Claude 3.5 Sonnet在視覺問答MMMU基準(zhǔn)上,,略遜于GPT-4o。 不過,,視覺數(shù)學(xué)推理,、科學(xué)表格、圖表問答,、文件問答上,,都拿下了最高分。 Claude不僅能準(zhǔn)確識別,、轉(zhuǎn)錄圖像中的文字內(nèi)容,,還結(jié)合了強大的代碼生成能力,將多個模態(tài)真正集成在一起,。 與眾不同的是,,Claude 3.5 Sonnet并不像GPT-4o那樣集成了語音助手,或者能夠生成圖像,,而且Anthropic暫時也沒有這一打算,。 Anthropic聯(lián)創(chuàng)兼總裁Daniela Amodei在接受彭博獨家采訪中提到,「我們的目標(biāo)是使其成為所有企業(yè)業(yè)務(wù)的首選模型」,。 她繼續(xù)稱,,從研究的角度來看,我們能夠生成圖像輸出,,但繪制一只「滑雪的貓」圖像并不是我們的企業(yè)客戶所要求的,,所以我們并不優(yōu)先考慮這一點。 目前,,制藥巨頭Pfizer已經(jīng)利用Claude模型,,幫助發(fā)現(xiàn)新藥物。 未來,,模型越智能,,就越有能力支持這種非常高水平的智力工作,。顯然,Anthropic正在努力為它想要瞄準(zhǔn)的企業(yè)公司進一步差異化,。 可以擴展Claude交互方式的新功能Artifacts,,便是一個新的嘗試。 |
|