谷歌I/O開發(fā)者大會集合貼：足足喊了120次AI 實時交互,、視頻模型登場

小天使_ag 2024-05-15 發(fā)布于湖南

展開全文

從北京時間周三凌晨1點開始，谷歌在山景城總部附近的海岸線圓形劇場,，召開了長達(dá)兩個小時的年度I/O開發(fā)者大會Keynote演講,。

與預(yù)期一致，谷歌的這場發(fā)布會基本都是在談AI,、AI,、AI、AI和AI,。根據(jù)發(fā)布會最后的官方統(tǒng)計,，整場Keynote的演講稿里總共提了120次AI。而且這只統(tǒng)計了講稿,，實際上的數(shù)量還會更多一些,。

在一大堆更新和新發(fā)布的功能中，也有許多具有記憶點的產(chǎn)品,。例如從本周開始,，谷歌搜索引擎將在美國推出“AI概覽”（AI Overviews）的功能，搜索引擎會直接歸納總結(jié)搜索結(jié)果,。同時谷歌搜索也將具備多步驟推理能力,，可以一次性處理帶有多個限制條件的長問題，并支持“拍視頻”搜索解決方案的新搜索形式,。

另外以上下文窗口“長”聞名的Gemini 1.5 Pro大模型,，在今年晚些時候?qū)?00萬Tokens的窗口，進(jìn)一步擴(kuò)大至200萬Tokens,，拓展同步處理多模態(tài)信息的邊界,。而對于一些需要快速響應(yīng)的場景，谷歌也推出了Gemini 1.5 Flash模型,。今年2月剛剛問世的Gemma開源模型,，也將在下個月迎來參數(shù)量更大的Gemma 2。在多模態(tài)領(lǐng)域,，谷歌也發(fā)布了文生圖工具Imagen 3,、與Youtube&音樂家合作的“AI音樂沙盒”，以及最新的視頻生成模型Veo,。而多模態(tài)Gemini Nano模型也將在今年晚些時候登陸Pixel手機(jī),，這是在本地運行的機(jī)載模型。

值得一提的是，谷歌的發(fā)布會上也有一些與昨日OpenAI發(fā)布會“雷同”的地方——實時AI助手,。從今年夏天開始,，Gemini也將支持語音實時交互，同時今年晚些時候還將上線實時視頻交互,。未來幾個月內(nèi),，谷歌也將推出類似于GPTs的自定義AI助手功能，叫做Gems,，能夠與整套“谷歌全家桶”聯(lián)動,。

硬件方面，谷歌宣布了第六代TPU芯片Trillium,，并透露能夠在明年初用上英偉達(dá)最新的Blackwell架構(gòu)GPU,。另外，液冷,、光纜等中國股民可能會感興趣的題材也在發(fā)布會上出現(xiàn),。

----全場發(fā)布會回顧----

發(fā)布會開始，Alphabet&谷歌CEO桑達(dá)爾·皮查伊登上舞臺,。

皮查伊表示,，現(xiàn)在已經(jīng)有超過150萬開發(fā)者正在使用谷歌的人工智能Gemini，今天將展示一系列有關(guān)搜索,、圖片,、工作套件、安卓系統(tǒng)等等與人工智能有關(guān)的案例,。

皮查伊宣布，能夠總結(jié)谷歌搜索引擎結(jié)果的“AI概覽”（AI Overviews）功能,，將于本周在美國推出,。

基于Gemini支持，谷歌圖片（Google Photos）將支持用戶存儲圖片的AI搜索,，例如“告訴我,，我的車牌號碼是多少？”——這個名為Ask Photos的功能將于今年夏天推出,。

皮查伊宣布,，最新版本的Gemini 1.5 Pro（在多項核心功能方面均較最初發(fā)布版本有所提高）現(xiàn)在向全球所有開發(fā)者開放。從今天開始,，支持100萬tokens上下文窗口的Gemini 1.5 Pro將在Gemini Advanced功能下向用戶開放,，支持35種語言。

谷歌同時面向開發(fā)者推出支持200萬tokens的Gemini 1.5 Pro模型的預(yù)覽,，并表示最終的目標(biāo)將是“無限上下文”,。

谷歌AI業(yè)務(wù)總負(fù)責(zé)人、DeepMind的首席執(zhí)行官杰米斯·哈薩比斯登臺,，宣布推出Gemini 1.5 Flash大模型,。這個模型兼具速度與效率,，和多模態(tài)推理能力，以及長達(dá)100萬tokens的上下文窗口,。開發(fā)者將能夠申請體驗200萬tokens的上下文窗口的Gemini 1.5 Flash,。

谷歌展示“未來的人工智能助手”——名為“Astra”的項目。哈薩比斯表示,，這樣的AI助手需要像人類一樣理解這個動態(tài)且復(fù)雜的世界,。需要記得住它看到的東西，這樣才能理解對話并付諸于行動,。同時它也得能積極主動接受教導(dǎo),，以及自然、無延遲地進(jìn)行交流,。在演示視頻中,，谷歌的AI助手能夠通過攝像頭視頻，識別“什么東西能發(fā)出聲音”,、“現(xiàn)在身處何地”等指令,。

谷歌宣布了一系列與圖像、音樂,、視頻有關(guān)的生成式AI工具,。包括文生圖工具Imagen 3、與Youtube以及音樂家合作的“AI音樂沙盒”,，以及最新的視頻生成模型Veo,。

其中最受關(guān)注的視頻生成模型Veo，能夠根據(jù)文字,、圖片和視頻的提示,，生成高質(zhì)量1080p視頻。

哈薩比斯離場,，皮查伊重回舞臺,，發(fā)布第六代TPU芯片Trillium，較上一代芯片的算力表現(xiàn)翻4.7倍,，云用戶從今年下半年開始可以用上新芯片,。同時谷歌云將在2025年初，用上英偉達(dá)的最新Blackwell架構(gòu)GPU,。

皮查伊開始介紹自家的AI超級計算機(jī),，比起用戶自己買相同的硬件和芯片，谷歌的架構(gòu)能使得效能翻倍,，其中有部分功勞來自于液冷系統(tǒng),。皮查伊表示，谷歌部署液冷系統(tǒng)的數(shù)據(jù)中心已經(jīng)達(dá)到1GW，而且還在不斷增長中,。

皮查伊表示,，谷歌投資了200萬英里的地面和海底光纖，比第二名的云服務(wù)商翻了十倍,。

液冷,、光纜，應(yīng)該都是股民們會感興趣的東西,。

谷歌搜索業(yè)務(wù)負(fù)責(zé)人Liz Reid開始具體介紹AI Overviews功能,。Reid表示，在進(jìn)行搜索時,，搜素引擎具備多步驟推理的能力,，例如尋找一個瑜伽教室，同時展示新手優(yōu)惠報價,，和距離特定位置的步行時間,。這個AI搜索引擎助手，還能介紹食譜,、安排行程,，以及接受視頻形式的提問（例如視頻中的相機(jī)怎么使用）。

在辦公套件Workspace方面,，谷歌將逐步推出總結(jié),、郵件Q&A，以及智能回復(fù)等功能,。

谷歌Gemini總經(jīng)理Sissie Hsiao介紹了Gemini App的更新,。與周一的OpenAI一樣，從今年夏天開始,，Gemini也將支持語音實時交互,，同時今年晚些時候還將上線實時視頻交互功能。未來幾個月內(nèi),，谷歌也將推出類似于GPTs的自定義AI助手功能，叫做Gems,。這個AI助手的亮點,，將是能與“谷歌全家桶”進(jìn)行交互。

Hsiao再次強(qiáng)調(diào)了Gemini的長上下文窗口——能夠一次性處理整整1500頁的文件,，或3萬行代碼,、1小時視頻。不同的載體也能混同一起提交給聊天機(jī)器人,。她再次強(qiáng)調(diào),，今年晚些時候上下文窗口將翻倍至200萬Tokens。

安卓生態(tài)系統(tǒng)的負(fù)責(zé)人Sameer Samat登臺，他將討論今年安卓系統(tǒng)實現(xiàn)的“三大突破”,，分別是“畫圈圈搜索”,、Gemini手機(jī)AI助手，第三是在手機(jī)本地運行的AI,。

谷歌表示,，今年晚些時候，能夠在本地運行的多模態(tài)Gemini Nano模型將登陸Pixel手機(jī),，意味著手機(jī)將能通過文字,、圖片、視頻,、音頻,，理解用戶的世界。舉例而言,，在聽到“幫你把錢轉(zhuǎn)到安全賬戶”這樣的詐騙電話時,，手機(jī)會自動彈出詐騙警告。整個過程都是在本地運行,，不會引發(fā)隱私泄露,。

谷歌披露大模型API的最新定價，其中Gemini 1.5 Pro定價為7美元/100萬Tokens,，12.8K上下文窗口的版本定價為3.5美元/100萬Tokens,；而Gemini 1.5的起售價為0.35美元/100萬Tokens。

對于在今年二月剛剛推出的輕量級開源模型Gemma,，谷歌宣布推出視頻語言模型PaliGemma,，并將會在6月推出Gemma 2。相較于第一代模型只有20億和70億的參數(shù)量,，第二代開源Gemma的參數(shù)量能達(dá)到270億,。

作為發(fā)布會最后的彩蛋，谷歌CEO皮查伊最后用Gemini總結(jié)了今天的發(fā)布會稿子里總共提了多少次AI——120次,。當(dāng)然,，這并不包括皮查伊問完這個問題后，又喚了幾遍AI,。

發(fā)布會結(jié)束

原標(biāo)題：谷歌I/O開發(fā)者大會集合貼：前有OpenAI后有微軟 AI將是重中之重

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：小天使_ag > 《數(shù)據(jù)/》

舉報/認(rèn)領(lǐng)