不出預(yù)料,,谷歌是被 OpenAI 狙擊了,。 一連串煙霧彈后,昨天 OpenAI 用一個可以看到,、聽到真實世界,,并可以實時無延遲對話的 AI 智能助手「GPT-4o」震撼了世界。而把發(fā)布 4o 的時間點特別選在谷歌 I/O 大會開幕前一天,,當(dāng)時就有媒體預(yù)測,,OpenAI 這是在狙擊谷歌。 果不其然,,美國當(dāng)?shù)貢r間 14 日上午 10 點舉行的谷歌 I/O 大會主題演講上,,雖然谷歌發(fā)布了一系列基于 Gemini 的「AI 全家桶」——包括升級 200 萬 tokens 上下文的 Gemini 1.5 Pro,、新模型 Gemini 1.5 flash、類 Sora 的新視頻大模型 Veo,,以及包括 AI 搜索,、AI + Gmail 在內(nèi)的多個 AI 應(yīng)用。 但最受關(guān)注的,,還是谷歌 DeepMind 負責(zé)人兼谷歌 AI 領(lǐng)導(dǎo)者 Demis Hassabis 口中,,真正通向 AGI 的萬能助手項目——「Project Astra」。以及面向 Gemini Advanced 訂閱者新推出的語音聊天功能 Live,,后者預(yù)計還將在年內(nèi)加入相機功能,,讓 AI 可以基于用戶所處的真實環(huán)境展開對話。 這兩個產(chǎn)品都有點像「GPT-4o」,,但先不論三者的真實效果到底如何,,從產(chǎn)品進展來看 OpenAI 已經(jīng)領(lǐng)先一籌。不過這也不意味著 OpenAI 注定成為最后的贏家,,目前來看手機依然是這些超級智能助手最重要的硬件載體,,掌握安卓系統(tǒng)的谷歌有著天然的優(yōu)勢。從這個角度看,,前段時間蘋果與 OpenAI 的合作傳聞,,可能正是來源于二者對抗谷歌因而各取所需。 不論如何,,具備「真實世界感知 Input」+「低延遲語音 Output」的超級智能助手,,已經(jīng)成為下一階段 AI 公司軍備競賽的關(guān)鍵。接下來更多大模型公司,、云計算平臺,,甚至手機公司、AI 應(yīng)用開發(fā)者都會卷入其中,。 01.Project Astra——實時視頻問答,,發(fā)誓沒有造假 I/O 大會上,谷歌發(fā)了一段非常驚艷的 AI 助手演示視頻,,這次還了發(fā)誓,,沒有以任何方式偽造或篡改。 以下視頻來源于 AI喵能力 Demis Hassabis 說,,Project Astra 是自己期待了幾十年的 AI 助手的雛形,,是 AI 助手的未來。 Project Astra 是一個實時,、多模式的人工智能助手,,通過接收信息、記住它所看到的內(nèi)容、處理該信息和理解上下文細節(jié)來與周圍的世界進行交互,,它的語音交互比當(dāng)前形式的 Google Assistant 更自然,,沒有延遲或延遲,可以回答問題或幫助你做幾乎任何事情,。 演示視頻中,,用戶要求 Project Astra 在看到發(fā)出聲音的東西時告訴她,助手回答說,,它可以看到一個發(fā)出聲音的揚聲器,。 交互是實時語音進行的,且并沒有「嘿,,Google,、Gemini」等喚起詞,用戶問 Project Astra 視頻中顯示器上的代碼有什么作用,,Project Astra 沒有一絲延遲地進行了解釋。 Project Astra 記住了一閃而過的眼鏡|圖片來源:谷歌 Project Astra 關(guān)于視覺的處理甚至算整場發(fā)布會最大的亮點,。「你記得我把眼睛放哪了嗎,?」「你的眼鏡在桌子上的紅蘋果旁邊。」Project Astra 甚至通過鏡頭記住了一閃而過的眼鏡,,并準確回答出在蘋果旁,。這里可能夾帶了一點「私貨」,這副眼鏡上或許也有 Project Astra,。 從演示看,,Project Astra 可以很快處理收到的信息,可以通過連續(xù)編碼視頻幀并將視頻和語音組合成事件時間線來做到這一點,,然后緩存信息以供回憶,。谷歌表示,其中一些功能將在今年晚些時候添加到 Gemini 應(yīng)用程序和其他產(chǎn)品中,。 Project Astra 給這個樂隊起名為金色條紋|圖片來源:谷歌 谷歌稱 DeepMind 團隊還在研究如何最好地將多模態(tài)模型整合在一起,,以及如何平衡超大型通用模型與更小、更集中的模型,。 昨天剛發(fā)布 GPT-4o 的 OpenAI 最重大的突破也在多模態(tài)上,,看下來似乎昨日重現(xiàn)。最大的一個區(qū)別在視覺處理上,,是目前 GPT-4o 只能處理靜態(tài)圖像,,Astra 已經(jīng)可以處理視頻。 Project Astra 背后的 Gemini 系列大模型能力也有更新,。上個月舉辦的 Google Cloud Next 2024 大會上發(fā)布,,發(fā)布的 Gemini 1.5 Pro,具有原生音頻理解、系統(tǒng)指令,、JSON 模式等,,可提供 100 萬長文本能力,宣布已經(jīng)向全球開發(fā)者開放,。 這次宣布推出的 Gemini 1.5 Flash 模型,,解決了關(guān)鍵的成本問題。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間,,主要面向開發(fā)者,。會上詳細介紹了 Gemini 1.5 Pro 和 Flash 的定價。Gemini 1.5 Flash 的價格定為每 100 萬個 token 35 美分,,這比 GPT-4o 的每 100 萬個 token 5 美元的價格要便宜得多,。 Gemini 1.5 Flash|圖片來源:極客公園 谷歌還預(yù)告了接下來的動作,宣布今年晚些時候?qū)⒛P偷默F(xiàn)有上下文窗口增加一倍,,達到 200 萬個 token,。這將使其能夠同時處理 2 小時的視頻、22 小時的音頻,、超過 60,000 行代碼或超過 140 萬個單詞,。 Gemini 1.5 Pro |圖片來源:極客公園 谷歌去年 12 月發(fā)布的一個預(yù)錄演示遭到「造假」質(zhì)疑,通過剪輯誤導(dǎo)人們高估 Gemini 的視頻處理能力,,不過現(xiàn)在,,這些能力都是真的了。 02. 基于大模型的 AI 應(yīng)用生態(tài)方面的進展 在這次 I/O 大會上,,谷歌基于大模型的 AI 應(yīng)用生態(tài)也有所升級,,涵蓋搜索、照片,、創(chuàng)作,、工具以及工作應(yīng)用等方方面面。 搜索是谷歌 25 年前的創(chuàng)世產(chǎn)品,。在一年前,,谷歌表示,搜索的未來是 AI?,F(xiàn)在,,谷歌搜索中的 AI 真的來了,主打一個——「讓谷歌幫你谷歌,?!?/strong> 谷歌首席執(zhí)行官桑達爾·皮查伊(Sundar Pichai)在 I/O 大會上宣布,人工智能生成的搜索摘要,,現(xiàn)在被稱為「人工智能概述」,,將在「本周」向美國的所有人推出,,更多國家/地區(qū)即將推出。 相比從前,,AI 搜索可以處理更復(fù)雜的問題,。谷歌提供了一個例子,也許用戶在尋找一個新的瑜伽工作室,,要求這個工作室既要在當(dāng)?shù)睾苁軞g迎,,也要方便通勤,還要有折扣,,只需一次搜索就能實現(xiàn),。 另外,用戶還可以調(diào)整已經(jīng)生成的 AI 摘要,,或者選擇簡化版本,,或者選擇查看更多細節(jié)。 這一切是谷歌通過定制的 Gemini 模型來實現(xiàn)的,,其將多步推理,、規(guī)劃和多模態(tài)與搜索系統(tǒng)結(jié)合,總結(jié)網(wǎng)絡(luò)內(nèi)容并展示答案,,據(jù)稱還是 AI 來設(shè)計和填充結(jié)果頁面,。 但一個問題是,如果是 AI 為用戶捕獲搜索結(jié)果,,谷歌的競價廣告業(yè)務(wù)往哪放? 據(jù)谷歌高管稱,,與傳統(tǒng)查詢出的網(wǎng)頁列表相比,,AI 摘要中包含的鏈接會獲得更多點擊?!概c以往一樣,,廣告將繼續(xù)出現(xiàn)在頁面的專用位置上,并通過清晰的標簽區(qū)分有機結(jié)果和贊助結(jié)果,?!?/p> 除了提問,谷歌 AI 搜索還能制定計劃,,從飲食到旅行計劃,,比如搜索「創(chuàng)建一個容易準備的團體 3 天飲食計劃」,AI 就會定制計劃,,然后用戶可以將某份晚餐調(diào)整成素食,,隨后導(dǎo)出到文檔或者谷歌郵箱里。 搜索還不僅僅是文本框中的文字,,谷歌的視覺搜索也進化了,,可以用視頻提問,。比如,用戶有臺二手唱片機,,上面帶針的金屬部件漂移了,,不知道怎么回事,可以直接用視頻搜索,,即能得到有解決步驟的 AI 摘要和相關(guān)鏈接,,省去描述問題所需要的正確術(shù)語的時間和麻煩。 使用谷歌 AI 搜索,,直接制定飲食計劃 |圖片來源:谷歌 谷歌照片應(yīng)用也將進化,。桑達爾·皮查伊在演示中稱,9 年前他們推出了這個應(yīng)用,,現(xiàn)在每天有超過 60 億張照片和視頻被上傳到這里,。 該應(yīng)用在未來幾個月將推出「詢問照片(Ask Photos)」功能,也是基于 Gemini 模型,,可以讓用戶以自然語言搜索照片和視頻中的人物,、寵物、地點等,,它能理解照片的上下文和主題,,找到特定的回憶信息,無需滑動屏幕,。 例如,,「向我展示我參觀過的每個國家公園的最好看的照片」「去年我在哪里露營?」「我的優(yōu)惠券什么時候到期,?」「露西婭什么時候?qū)W會游泳的,?」「顯示露西婭的游泳進步情況」「莉娜的生日派對是什么主題?」最后,,它還能撰寫旅行亮點或者個性化的標題,,供用戶在社交媒體上分享。 谷歌還稱,,「除非在極少數(shù)情況下是為了解決虐待或傷害問題,,我們不會使用這些個人數(shù)據(jù)訓(xùn)練 Google Photos 之外的任何生成式 AI 產(chǎn)品,包括其他 Gemini 模型和產(chǎn)品,?!?/p> 使用詢問照片功能,詢問生日派對細節(jié)|圖片來源:谷歌 在創(chuàng)作工具方面,,谷歌在 I/O 大會上還推出了 AI 生成視頻的工具 VideoFX,,并更新了 AI 圖像和 AI 音樂創(chuàng)作工具 ImageFX 和 MusicFX。 VideoFX 可以讓電影制作人編寫提示來構(gòu)建電影鏡頭,,ImageFX 添加了圖像編輯控件,,而 MusicFX 出了一個新的 DJ 模式,。 其中,新工具 VideoFX 由 Veo 提供動力,,Veo 是谷歌 DeepMind 最強的生成式視頻模型,。這個新工具配備了一個故事板模式,可以逐個場景地進行迭代,,并向最終視頻添加音樂,。 據(jù)谷歌高管稱,Veo 能理解「延時拍攝」等電影術(shù)語,,可以生成各種電影和視覺風(fēng)格的 1080p 分辨率視頻,,時間還可以超過一分鐘。Veo 將通過候補名單提供預(yù)覽版,。 另外值得注意的是,,VideoFX、ImageFX 和 MusicFX 生成的所有內(nèi)容都被數(shù)字水印 SynthID 標記,,主要是為了防止 AI 內(nèi)容濫用和虛假信息傳播問題,。 使用谷歌 AI 生成視頻工具 VideoFX |圖片來源:谷歌 除了創(chuàng)作工具,谷歌日常工作應(yīng)用的進化也值得關(guān)注,。包括 Gmail 郵箱,、日歷、文檔,、表格,、幻燈片、云端硬盤等在內(nèi)谷歌 Workspace 應(yīng)用,,將引入最新的 AI 模型 Gemini 1.5 Pro,,位于側(cè)邊欄,作為一個虛擬助手,。 當(dāng)用戶點擊側(cè)邊欄的 Gemini 圖標時,Gmail 中的 Gemini 將提供「總結(jié)此電子郵件」「列出下一步操作」「建議回復(fù)」等選項,。用戶可以讓它總結(jié)小孩學(xué)校的郵件,,獲得需要行動的信息,起草回復(fù),。 Gmail 側(cè)面板中的 Gemini 總結(jié)電子郵件 |圖片來源:谷歌 另外,,在昨天 OpenAI 發(fā)布的 GPT-4o 演示中,其中有個教育場景,,GPT-4o 直接化身家教,,逐步教一個青少年解決幾何數(shù)學(xué)問題。 谷歌也宣布推出 LearnLM,,這是一組基于 Gemini 的微調(diào)模型,,專為學(xué)習(xí)教育而設(shè)計,,同時演示了一些在搜索、YouTube 應(yīng)用上的 AI 教育學(xué)習(xí)場景,。 比如,,在 YouTube 上,用戶可以在觀看視頻時提問,,也可以針對視頻提后續(xù)問題,。在 Android 上,可以用畫圈搜索(Circle to Search)嘗試解決數(shù)學(xué)和物理題目里的特定困難,。 針對 YouTube 學(xué)習(xí)視頻進行提問 |圖片來源:谷歌 在這場 AI 公司的軍備競賽中,,谷歌追趕 OpenAI 的其中一大優(yōu)勢「老本」,在于其掌握手機安卓系統(tǒng),,以及龐大的應(yīng)用生態(tài),。 但當(dāng)生成式 AI 真的全方位進入谷歌的生態(tài)應(yīng)用,直接接管搜索,,幫人回憶過去,,制定出行計劃,取代真人家教等等,,其準確性是否真的可靠,?我們拭目以待。 *頭圖 *頭圖來源:Figure |
|