作為一個 AI Agent 領域的創(chuàng)業(yè)者,,其實感覺 OpenAI dev day 沒有想象的那么驚艷,發(fā)布的東西都是在預期范圍內(nèi)的,,大概是同行容易相輕吧,。 簡單總結(jié)的話,就是 GPT-4 Turbo 提供了 128K context,,知識更新到了 2023 年,,API 支持了多模態(tài),支持模型微調(diào),,成本降低,,速度提升,的確是非常重要的提升,,但 GPT-4 相比 GPT-3.5-Turbo 和 LLaMA 的成本仍然高出一個數(shù)量級,,大規(guī)模商用有一定挑戰(zhàn),。 Agent 領域其實沒有特別多驚艷的,主要就是做了一個 Agent Platform,。API 強制用 JSON 格式輸出和支持多個 function call 也是非常實用的,。但是,Agent 最核心的 memory(記憶),、autonomous(自主意識),、task planning(任務規(guī)劃)、persona(性格),、emotions(情感)等問題,,這次 OpenAI 發(fā)布會并沒有給出解決方案。如果說今天 OpenAI 發(fā)布會之后,,一個 Agent 公司的核心競爭力沒了,,那應該首先反思一下是不是技術(shù)護城河太淺了。 GPT-4 Turbo 最驚艷的部分是 GPT-4 Turbo,,主要包括幾大特性: 長上下文 原來是 8K,現(xiàn)在支持 128K 上下文了,。如果放到半年前,,128K 上下文是很了不起的事情。但長上下文的關鍵技術(shù)已經(jīng)比較普及,,目前很多模型都能支持長上下文了,,比如 Claude 能支持 100K context,Moonshot 能支持 250K context,,零一萬物的 Yi-34B 開源模型支持 200K context,。 就算是基于現(xiàn)有的 LLaMA-2 模型,把 4K context 擴展到 100K context 也不是很難的一件事,。我的 cofounder @SIY.Z 在 UC Berkeley 做的 LongChat 可以把 context 增加 8 倍,,還有 RopeABF 等工作可以進一步把 context length 提升到 100K 的量級。當然,,這樣提升出來的 context 相比預訓練的時候就用更長的 context,,可能在復雜語義理解和 instruction following 上有一定的性能差距,但是做個簡單的文本總結(jié)是足夠的,。 長上下文不是萬金油,,有些做 Agent 的人驚呼,有了長上下文,,就不再需要 vector database 和 RAG 了,,Agent 的記憶問題也被完全解決了,這是完全不考慮成本的說法,。上下文輸入每個 token 都是要錢的,,$0.01 / 1K tokens,,那如果把 128K token 的 context 打滿,一個請求可就是 $1.28,,將近 10 塊錢人民幣了,。大多數(shù)人,,尤其是 to C 產(chǎn)品,,恐怕都付不起這個錢。 所以說在目前的推理 Infra 下,,如果 KV Cache 不持久保存,,to C 的 Agent 不可能把一年的聊天記錄全部塞進 context 里面讓它從頭算 attention,這樣的推理成本太高了,。同理,,企業(yè)信息檢索類的 app 也不可能每次都把所有原始文檔從頭讀一遍。Vector database,、RAG 和 text summary 仍然是非常有效的降低成本的方法,。 知識更新 這個確實很好,知識庫從 2021 年 9 月更新到 2023 年 4 月了,。其實更新基礎模型的知識庫是一件挺難的事情,。首先,數(shù)據(jù)清洗的質(zhì)量非常重要,,據(jù)說 OpenAI 在做 GPT-3.5 和 GPT-4 的過程中走了一些人,,導致長時間沒人重新做新數(shù)據(jù)的清洗工作,因此模型長達一年半沒有更新,。 其次,,更新知識庫之后的模型往往需要重新訓練,至少需要把新數(shù)據(jù)(就是 knowledge cutoff 之后新產(chǎn)生的數(shù)據(jù))和舊數(shù)據(jù)按照一定的配比來混合訓練,。絕不能僅僅使用新數(shù)據(jù)進行訓練,,否則會出現(xiàn)災難性遺忘的問題,學了新的知識就忘了舊的,。如何向現(xiàn)有模型中添加大量的新知識,,又盡量減少重新訓練的開銷,是一個非常值得研究的問題,。 多模態(tài) OpenAI 近期發(fā)布了多個多模態(tài)模型,,包括圖片輸入的 GPT-4V 和圖片輸出的 DaLLE-3,這兩個多模態(tài)模型分別是圖片理解和圖片生成的 state-of-the-art,。 可惜的是,,GPT-4V 和 DaLLE-3 一直只能在 Web 界面中訪問,沒有提供 API,。這次 OpenAI 把 API 給開放出來了,。同時,,OpenAI 還發(fā)布了 TTS(語音合成)API。加上原有的 Whisper,,圖片,、語音的輸入輸出幾個模態(tài)都齊活了。 GPT-4V 的價格并不高,,輸入一個 1024x1024 的圖片,,只要 765 個 token,也就是 $0.00765,。 但是 DaLLE-3 圖片生成的價格就比較高了,,一張 1024x1024 的圖片要 $0.04,跟 Midjourney 的價格差不多,。如果自己 host Stable Diffusion SDXL 模型的話,,生成一張圖的成本可以控制在 $0.01 以下。當然,,DaLLE-3 的圖片生成質(zhì)量比 Stable Diffusion SDXL 高很多,。例如 SDXL 難以解決的畫手指問題、生成帶指定字的 logo 問題,、復雜的物體位置關系問題,,DaLLE-3 就能做得比較好。 Whisper 原來開源的是 V2 版本,,這次發(fā)布的是 V3 版本,,既提供 API,同時也是開源的,。之前我就發(fā)現(xiàn),,ChatGPT voice call(語音通話)的識別率比我自己部署的 Whisper V2 模型高,果然是 OpenAI 自己隱藏了大招,。不過不管是 V2 還是 V3,,識別率都已經(jīng)很高了,除了人名和一些專有名詞,,日常英語的識別準確率幾乎是 100%,,即使有少量錯誤也不妨礙大模型理解意思。 Whisper V2 和 V3 的識別錯誤率對比 TTS 其實現(xiàn)在開源的 VITS 和其他家的 Google TTS 已經(jīng)做得不錯了,。OpenAI 這個模型的語音合成效果自己感覺是更好的。 希望 OpenAI 能夠早日推出根據(jù)自己提供的語音語料微調(diào) TTS 的能力,。很多時候我們需要合成一個特定人或者角色的聲音,,而不是用千篇一律的聲音。當然,,微調(diào)之后的模型就沒辦法在推理的時候做 batching 了,,會導致推理成本大幅提高,。未來更靠譜的方案也許是將特定人或者角色聲音的音色提取出來,變成若干個 token,,輸入到一個統(tǒng)一的模型里,,這樣就不需要對特定人的語音做微調(diào)了,可以用一個模型生成多個人的語音,。 支持模型微調(diào) GPT-3.5 16K 版本和 GPT-4-Turbo 都支持模型微調(diào)了,,這是一件好事。OpenAI 還做起了外包,,針對有特別復雜需求的大客戶,,還可以定制模型,。微調(diào)之后的模型由于不方便做 batching,,至少 LoRA 部分無法 batching 不同的微調(diào)模型,推理成本一定是比原來的模型更高的,。這也是對推理 Infra 的一個挑戰(zhàn),。 成本降低,速度提升 相比 GPT-4,,GPT-4-Turbo 輸入 token 的成本降低到 1/3,,輸出 token 的成本降低到 1/2,這是一件大好事,。但是 GPT-4-Turbo 相比 GPT-3.5-Turbo 的成本仍然是高一個數(shù)量級的,,輸入 token 高 10 倍($0.01 vs $0.001 per 1K tokens),輸出 token 高 15 倍($0.03 vs. $0.002 per 1K tokens),。這樣,,對成本敏感的應用肯定是需要權(quán)衡的。 新老模型的成本對比微軟有一篇已經(jīng)撤稿的 paper 說 GPT-3.5-Turbo 是 20B 的模型,,我個人表示懷疑,。從 API 成本上推斷,以及從 temperature = 0 時輸出結(jié)果的不確定性推測,,GPT-3.5-Turbo 更可能是 100B 以上的 MoE 模型,。因為之前已經(jīng)有泄露的消息說 GPT-4 是 MoE 模型,其實 GPT-3.5-Turbo 是 MoE 模型的可能性也很大,。 為了解決 MoE 模型 batching 和 temperature > 0 帶來的輸出不確定問題,,OpenAI dev day 推出了可重復輸出功能,通過固定種子,,可以保證 prompt 相同時的輸出相同,,以便調(diào)試。 未來的應用很可能需要 model router 的能力,,根據(jù)不同類型的問題選擇不同成本的模型,,這樣就可以在降低成本的同時,,保證性能不明顯下降。因為大多數(shù)應用中,,用戶的大多數(shù)問題都是簡單問題,,并不需要麻煩 GPT-4 提升 Rate Limit 原來 GPT-4 的 rate limit 非常低,經(jīng)常用著用著就觸發(fā) rate limit 了,,根本不敢上線用來服務高并發(fā)的用戶請求?,F(xiàn)在 GPT-4 的 rate limit 提升了,每分鐘可以用 300K token,,小規(guī)模服務應該是夠用了,。如果用滿 300K token,每分鐘就會燒掉 3 美金,,先看看賬上的錢夠不夠燒吧,。 用戶每個月可以用的 credit(配額)也增加了,這是一件好事,。原來要超過 120 美金每月的配額,,還要專門申請。 目前的 GPT 配額 但是 GPT-4-Turbo 目前的配額很少,,每天只有 100 個請求,跟 Web 界面上的 GPT-4 一樣摳門,。希望能夠早日增加 GPT-4-Turbo 的 rate limit,,讓它能夠在生產(chǎn)環(huán)境中使用。 Agent 早就有傳聞說 OpenAI 一直在 Agent 領域憋大招,,果然這次 OpenAI dev day 的后半部分就 focus 在 Agent 上了,。 OpenAI 的 App Store OpenAI 早就搞了 plugin(插件)系統(tǒng),設想搞成大模型應用的 App Store,,但是一直不太好用,。這次發(fā)布的 GPTs 離這個夢想更近了一步。 GPTs 最大的創(chuàng)新在于提供了 Agent Platform,, 可以理解成 Agent 的 App Store,。 GPTs 讓用戶可以定制屬于自己的 Agent,使其更適應在日常生活,、特定任務,、工作或家庭中的使用,并分享給其他人,。例如,,GPTs 可以幫助你學習任何棋盤游戲的規(guī)則,幫助你的孩子學習數(shù)學,或者設計貼紙,。任何人都可以簡單地創(chuàng)建自己的 GPT,,不需要編程。創(chuàng)建一個 GPT 就像開始一次對話,,提供指示和額外的知識,,并選擇它可以做什么,比如搜索網(wǎng)頁,、制作圖片或分析數(shù)據(jù),。 OpenAI 還將在本月晚些時候啟動 GPT 商店,用戶可以在 GPT 商店里購買 GPT(購買 GPT 聽起來怎么怪怪的,,還不如叫 Agent),。在商店里,可以搜索 GPTs,,還有排行榜,。GPT 的作者可以獲得收益。 我一開始感覺 GPT 這個名字不好聽,,還不如用 Agent 呢,。最后 Sam Altman 解釋了,“Over time, GPTs and Assistants are precursors to agents, are going to be do much much more. They will gradually be able to plan, and to perform more complex actions on your behalf.“(隨著時間推移,,GPTs 和助手將成為 Agent 的前身,將能做越來越多的事情,。它們將逐漸能夠規(guī)劃,,代表你完成更加復雜的行動。)也就是說,,Sam Altman 對 Agent 的期待很高,,他認為現(xiàn)在的這些應用還不足以被稱為 Agent,任務規(guī)劃這些核心問題還沒解決,,這也許是 OpenAI 沒有用 Agent 這個名詞的原因吧,。 Assistants API Assistants API 的四項核心能力 為了方便用戶創(chuàng)作 GPT(就是 Agent 應用),,OpenAI 推出了 Assistants API(助手 API),,提供了持久的、無限長的 thread,,代碼解釋器,,搜索,函數(shù)調(diào)用等核心能力,。原來需要用 LangChain 干的事情,,現(xiàn)在用 Assistants API 大部分也可以做了。 Assistants 的創(chuàng)作界面 Assistants API 引入的關鍵變化是持久的,、無限長的 thread,。開發(fā)者不再需要關心 thread 的狀態(tài)管理問題,也不需要關心上下文窗口約束的問題,。 此外,,Assistants 還可以在需要的時候調(diào)用新的工具,包括:
GPT 一次生成多次函數(shù)調(diào)用 第一,,支持使用嚴格的 JSON 格式輸出,。以往的模型經(jīng)常會在輸出的 JSON 前后增加一些不必要的前綴和后綴,這樣還需要做后處理才能喂給 API?,F(xiàn)在可以指定強制使用 JSON 格式輸出了,。 第二,支持一次生成多次函數(shù)調(diào)用,。以往一般一次大模型只能輸出一次函數(shù)調(diào)用,,這樣如果整個過程中需要多個外部 API 配合,就需要多次大模型介入,,不僅增加了處理延遲,,也增加了 token 成本的消耗。OpenAI 通過強大的代碼生成能力,,使得一次大模型調(diào)用就可以生成多次串聯(lián)在一起的函數(shù)調(diào)用,,從而顯著降低復雜工作流場景下的延遲和成本。 應用示例 OpenAI 展示的幾個應用的例子不錯,,不過都是其他人做過的,。OpenAI 想展示的是在這個平臺上可以很容易地創(chuàng)建自己的 Agent。 比如旅行助理 Agent 的例子,恰好就是昨天我自己干的事情,。我昨天早上去 USC 玩,,在校園里遇到幾個游客,問我能不能帶他們逛一逛,,我說我也是第一次來,,要不讓 AI Agent 陪我們一起逛吧。然后就讓我自己做的 AI Agent 帶著我們?nèi)チ藥讉€標志性的建筑,。 OpenAI 展示的旅行助理 Agent 使用 Whisper、TTS,、GPT-4V,、DaLLE-3,可以輕松做出多模態(tài) Agent,。DevDay 上展示的可以語音聊天抽獎的 App 就是用 Whisper 和 TTS 做出來的,。 OpenAI Dev Day 最后展示的可以語音聊天抽獎的 Agent 最后這個 AI 抽獎環(huán)節(jié)和給每個人 $500 API credit 的 Agent,,真是把節(jié)目的效果拉滿了,,不愧是 AI 界的春晚呀。 ChatGPT 改進 首先,,ChatGPT 把之前 GPT-4 里面的 Bing Search,、DaLLE-3 等功能合一了,用戶無需在不同模型間切換,,ChatGPT 會自己選擇調(diào)用哪種插件,。 其次,ChatGPT 新增了 ChatPDF 的功能,,使得 ChatGPT 可以直接處理 PDF 和其他類型的文件。這一下子把 ChatPDF 給干沒了,。 創(chuàng)業(yè)公司的護城河在哪里 很多人看了 OpenAI dev day 之后,,驚呼大模型生態(tài)里面原來那么多公司,現(xiàn)在要只剩下 OpenAI 一家了,。 一位網(wǎng)友的評論,大模型生態(tài)要只剩下 OpenAI 一家了 之前也有很多創(chuàng)業(yè)者不斷在討論,,要是我做的東西 OpenAI 也做了,,怎么辦? 其實這個問題跟之前國內(nèi)互聯(lián)網(wǎng)創(chuàng)業(yè)圈的經(jīng)典問題一樣,,要是我做的東西騰訊也做了,,怎么辦? 我的回答很簡單,要么做 OpenAI 不做的東西,,要么做 OpenAI 暫時還做不出來的東西,。 比如我們公司做的 companion bot(陪伴類 Agent),是 OpenAI 明確表示不做的,,Sam Altman 多次表示類人的 Agent 沒有價值,,真正有價值的是輔助人完成工作的。OpenAI 和微軟的價值觀比較匹配,,都是做企業(yè)級的,、通用的東西,看不上泛娛樂的東西,。雖然陪伴類 Agent 這個賽道也非常卷,,基本上每家大模型公司都在推出陪伴類 Agent,但是目前還沒有做得特別好的,,至少沒有一個能做到《Her》里面 Samantha 的水平,。這個領域還有很多基礎問題需要解決,例如 task planning,、memory,、persona、emotions,、autonomous thinking,,上限非常高。 另外一個例子是開源模型,,低成本模型,,這也是 OpenAI 很可能不會做的。OpenAI 是往 AGI 方向走的,,一定是要讓模型的能力越來越強,,7B 的小模型根本入不了 OpenAI 的法眼。但是 GPT-4 的價格我們也看到了,,就算 GPT-4-Turbo 也仍然很高,。事實上對于 to C 的很多場景,連 GPT-3.5-Turbo 的價格都是無法承受的高,。因此,,在很多場景下,我們需要自己 host 7B,、13B 的模型,,解決用戶大部分的簡單需求。據(jù)說,,Character.AI 是自研的 7B 左右大小的對話模型,,每個請求的成本是 GPT-3.5-Turbo API 的 1/10 以下,。雖然 Character 有時候看起來比較笨,memory 和 emotions 都做得不好,,但人家成本低呀,!低成本會成為公司的核心競爭力。 第三個例子是游戲,,大模型肯定會深刻改變游戲行業(yè),,但 OpenAI 不太可能自己涉足游戲,就算做游戲也是跟游戲公司合作,。比如最近大火的《完蛋,!我被美女包圍了!》,,以及很多宅男宅女喜歡的 galgame,,目前都是用戶做選擇題的方式來決定劇情的走向。如果用戶可以跟游戲人物用自然語言交互,,劇情也是根據(jù)用戶的喜好定制出來的,,將是一種全新的游戲體驗。 那么什么是 OpenAI 暫時做不出來的東西,?比如視頻輸入和視頻生成,,很可能 OpenAI 不會在短期內(nèi)推出,或者即使推出也會成本較高,。OpenAI 是在推動大模型的前沿,,一定會用足夠大的模型生成最高質(zhì)量的視頻,而不會想著生成廉價而劣質(zhì)的視頻?,F(xiàn)在 RunwayML Gen2 的成本就比較高,,7.5 分鐘就要 90 美金。AnimateDiff 的成本比較低,,但是效果還有待提升,,最近社區(qū)做了很多改進。Live2D,、3D 模型又需要比較高的建模成本,,而且只能生成人物相關的模型,沒法生成復雜的交互視頻,。這就是后來者可以努力的。 另外一種 OpenAI 暫時做不出來的東西是依托硬件的,。比如 Rewind 的錄音吊墜,,Humane 類似電影《Her》里面放在上衣口袋里的 AI Pin,都是一些很有趣的硬件發(fā)明,。此外,,依托智能手機的 Siri 等也是 OpenAI 難以取代的入口,。 最后,有數(shù)據(jù)壁壘的場景也是 OpenAI 很難直接取代的,。例如,,互聯(lián)網(wǎng)公司在現(xiàn)有 App 中增加大模型推薦能力,就是有數(shù)據(jù)壁壘的,,其他公司很難做,。 Infra 很重要 Sam Altman 把微軟 CEO Satya Nadella 請上來講了一通,其中最重要的信息我認為就是 Infra 的重要性,。Azure 是 OpenAI 訓練和推理的基礎設施,,像 GPT-4 萬卡訓練集群就是 Azure 提供的。大多數(shù)公司目前尚不具備萬卡集群高效訓練的基礎設施,,單是萬卡網(wǎng)絡高速通信的能力和故障自動恢復的能力都不具備,。 考慮到訓練和推理的成本,Infra 將是大模型公司未來 2-3 年勝負手的關鍵因素之一,。 |
|