明敏 克雷西 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI頂級“禮遇”。 一覺醒來,,OpenAI和Claude母公司都對DeepSeek出手了,。 據(jù)《金融時報》消息,OpenAI表示已經(jīng)發(fā)現(xiàn)證據(jù),,證明DeepSeek利用他們的模型進行訓練,,這涉嫌侵犯知識產(chǎn)權。 具體來說,,他們發(fā)現(xiàn)了DeepSeek“蒸餾”O(jiān)penAI模型的跡象,。即使用更大模型的輸出來提高較小模型的性能,從而以較低成本在特定任務上取得類似結(jié)果,。 微軟也開始調(diào)查DeepSeek是否使用OpenAI的API,。 消息一出,最先迎來的是一波嘲諷,。 紐約大學教授馬庫斯率先開噴: OpenAI:我們需要免費用所有藝術家和作家的作品訓練模型,,這樣我們就可以省下錢去起訴DeepSeek公然偷我們東西啦!
知名技術媒體404 Media創(chuàng)始人及主編Jason也直接在文章里貼臉開大,,暗諷OpenAI只許州官放火,。 先容我笑一會兒哈哈哈哈哈哈。真是令人難以置信的諷刺啊,,OpenAI一直以“未經(jīng)授權的方式”獲取大量數(shù)據(jù),,也違反了一些組織的條款規(guī)定,結(jié)果現(xiàn)在他們卻在指責自己的做法,。
而另一邊,,Claude母公司Anthropic創(chuàng)始人Dario Amodei洋洋灑灑發(fā)了一篇長文大談DeepSeek,。 他表示,說DeepSeek構成威脅太夸張了,,“也就是我們7-10個月前的水準”,,Claude 3.5 Sonnet在許多內(nèi)部和外部評估中依舊遙遙領先。 不過為了保持領先,,我建議我們是不是得設置更多掣肘,?
好家伙,為了圍剿DeepSeek,,競對OpenAI和Anthropic罕見都罕見聯(lián)手了,。 相比之下,微軟的做法就耐人尋味了許多,。 就在指控DeepSeek涉嫌侵權之后幾個小時后,,微軟的AI平臺上接入了DeepSeek模型。 網(wǎng)友:俗話說,,否認是接受的第一步,。 AI領域常見技術,但違反OpenAI條款各方消息匯總來看,,微軟和OpenAI對DeepSeek的質(zhì)疑還處于調(diào)查中,。 根據(jù)微軟工作人員的說法,DeepSeek可能在去年秋天調(diào)用了OpenAI的API,,這可能導致數(shù)據(jù)泄露,。 按照OpenAI的服務條款規(guī)定,,任何人都可以注冊使用OpenAI的API,,但是不能使用輸出數(shù)據(jù)訓練對OpenAI造成競爭威脅的模型。 OpenAI告訴《金融時報》,,他們發(fā)現(xiàn)了一些模型蒸餾的證據(jù),,他們懷疑這是DeepSeek的所作所為。 目前,,OpenAI拒絕進一步置評,,也不愿提供證據(jù)細節(jié)。 那么不妨先來看看,,引發(fā)爭議的模型蒸餾是什么,。 它是一種模型壓縮技術,通過將一個復雜的,、計算開銷大的大模型(稱為教師模型)的知識“蒸餾”到一個更小,、更高效的模型(稱為學生模型)。 這個過程的核心目標是讓學生模型在輕量化的同時,,盡量保留教師模型的性能,。 在諾獎得主,、深度學習之父Hinton的論文《Distilling the Knowledge in a Neural Network》中指出: 蒸餾對于將知識從集成或從大型高度正則化模型轉(zhuǎn)移到較小的蒸餾模型非常有效。
比如Together AI前段時間的工作,,就是把Llama 3蒸餾到Mamba,,實現(xiàn)推理速度最高提升1.6倍,性能還更強,。 IBM對知識蒸餾的文章中也提到,,大多數(shù)情況下最領先的LLM對計算、成本提出太高要求……知識蒸餾已經(jīng)成為一種重要手段,,能將大模型的先進能力移植到更小的(通常是)開源模型中,。因此,它已經(jīng)成為生成式AI普惠化的一個重要工具,。 在行業(yè)內(nèi),,一些開源模型的服務條款允許蒸餾。比如Llama,,DeepSeek此前也在論文中表示使用了Llama,。 而且關鍵是,DeepSeek R1并非只是簡單蒸餾模型,,OpenAI首席科學家Mark Chen表示: DeepSeek獨立發(fā)現(xiàn)了OpenAI在實現(xiàn)o1過程中所采用的一些核心理念,。
同時他也認可了DeepSeek在成本控制上的工作,并提到蒸餾技術的趨勢,,表示OpenAI也在積極探索模型壓縮和優(yōu)化技術,,降低成本。 所以總結(jié)一下,,模型蒸餾技術在學術界,、工業(yè)界都非常普遍且被認可,但是違反OpenAI的服務條款,。 這河貍嗎,?不知道。 但問題是,,OpenAI自己本身在合規(guī)性上也大有問題,。 (眾所周知)OpenAI訓練模型把互聯(lián)網(wǎng)上的數(shù)據(jù)扒了個干凈,這其中除了免費公開的知識內(nèi)容外,,還包含大量有版權的文章作品,。 2023年12月,《紐約時報》以侵犯知識產(chǎn)權為由,,將微軟OpenAI一起告上法庭,。目前這個官司還沒有最終判定結(jié)果,OpenAI這一年時間里就自己的行為向法院進行多次解釋。 包括但不限于: 1,、使用公開可獲得的互聯(lián)網(wǎng)資料訓練AI模型是合理的,,這在AI領域內(nèi)有諸多先例,我們認為這對創(chuàng)作者是公平的,,對于創(chuàng)新是必要的,。 2、長期以來,,版權著作被非商業(yè)性使用(比如訓練大模型)是受到合理保護的,。 3、大語言模型的關鍵是Scaling,,這意味著任何單獨被盜的內(nèi)容都不足以支撐訓練出一個大語言模型,,這正是OpenAI模型為何領先。 也就是說,,OpenAI本身都在違規(guī)使用《紐約時報》的數(shù)據(jù)訓練閉源,、商業(yè)化的大模型。現(xiàn)在他們要以違規(guī)為由,,調(diào)查打造系列開源模型的DeepSeek,。 再退一步,OpenAI如今的成就也是建立在谷歌的基礎上(Transformer架構由谷歌提出),,谷歌的成就是站立在更早期的學術研究基礎上,。 404 Media表示,這其實是人工智能領域發(fā)展的基本邏輯,。 “DeepSeek模型只在成本上領先”就在OpenAI挑起矛盾的同時,,Anthropic也下場了。 創(chuàng)始人Dario Amodei在個人博客中表達了對DeepSeek的看法,。 他表示并沒有把DeepSeek看做是競爭對手,,認為DS最新模型的水平和他們7-10個月前相當,只是成本大幅降低,。 (Claude 3.5)Sonnet的訓練是在9-12個月前進行的,,而DeepSeek的模型于11月/12月進行了訓練,,而Sonnet在許多內(nèi)部和外部Evals中仍然顯著領先,。 因此,我認為正確的說法是“DeepSeek生成了一種模型,,用較低的成本(但沒有宣傳的那么低)實現(xiàn)了接近7至10個月以前的Claude的表現(xiàn)”,。
同時他還認為,DeepSeek整個公司的成本投入(非單個模型訓練成本)和Anthropic的AI實驗室差不多,。 奧特曼幾乎保持了同樣的口徑,。 他承認DeepSeek R1讓人印象深刻(尤其是成本),但OpenAI“很明顯會帶來更好的模型”,。 這也是他的常規(guī)操作了,,之前V3發(fā)布時,,他就陰陽怪氣說:相對而言,復制確定有用的東西是很容易的,。 那么DeepSeek R1的價值究竟幾何,? 分析師郭明錤最新博客給出參考: DeepSeek R1的出現(xiàn),讓兩個趨勢更加值得關注——雖然沒有R1這兩個趨勢也依然存在,,但R1加速了它們的發(fā)生,。 一是在Scaling Law放緩的情況下,AI算力仍可透過優(yōu)化訓練方式持續(xù)成長,,并有利挖掘新應用,。 過去1-2年,投資者對AI服務器供應鏈的投資邏輯,,主要基于AI服務器的出貨量在Scaling Law依然有效的情況下可持續(xù)增長,。 但Scaling law的邊際效益開始逐漸遞減,市場開始關注以DeepSeek為代表的通過Scaling law以外的方式顯著提升模型效益的路徑,。 第二個趨勢是API/Token價格的顯著下滑,,有利于加速AI應用的多元化。 郭明錤認為,,目前從生成式AI趨勢中獲利的方式,,主要還是“賣鏟子”和降低成本,而不是創(chuàng)造新業(yè)務或提升既有業(yè)務的附加值,。 而DeepSeek-R1的定價策略,,會帶動生成式AI的整體使用成本下降,這有助于增加AI算力需求,,并且可以降低投資人對AI投資能否獲利的疑慮,。 不過,使用量的提升程度能否抵消價格降低帶來的影響,,仍然有待觀察,。 同時,郭明錤表示,,只有大量部署者才會遇到Scaling law邊際效益的放緩,,因此當邊際效益再度加速時,英偉達將依然是贏家,。 參考鏈接: [1]https://www./openai-furious-deepseek-might-have-stolen-all-the-data-openai-stole-from-us/ [2]https://www./content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6?accessToken=zwAGLNJX-fBAkdOg3-3RUlVPqdOMzB_gHeh-pg.MEYCIQCGjo04z0mtOsKbDspQLq2BMXyw8SbQnlYePOuqiqr6QgIhAInK67eBkYuZS-77ljnP-y--EJdN1wwRQ8GIR8sKMFgE&sharetype=gift&token=1eebbaa7-a4e6-4251-b665-c2f2562b38e4 [3]https:///GaryMarcus/status/1884601187271581941 [4]https://mingchikuo./g8mybRumSTYD3J 量子位智庫年終發(fā)布三大年度報告,! 帶你一起回顧2024年人工智能、智能駕駛,、Robotaxi新趨勢,,預見2025年科技行業(yè)新機遇!
|