受灣區(qū)同學(xué)技術(shù)沙龍邀請,上周六百度研究院副院長余凱在Santa Clara的Intel總部禮堂做了一場很干貨的分享,。這里的“干貨”不僅僅是余凱對諸如“百度為什么要做各種智能硬件,?”和“百度的自動駕駛和Gogle有何不同?”等問題進(jìn)行了回答,,更多的是因?yàn)橥ㄟ^這次分享,,我們可以看到百度在包括基于大數(shù)據(jù)的深度學(xué)習(xí)等一些前沿研究領(lǐng)域的成果,以及在“萬物互聯(lián)”的大數(shù)據(jù)時代,,百度在機(jī)器人,、無人駕駛等方面的一些思考,也讓我們這些互聯(lián)網(wǎng)從業(yè)者對于未來大數(shù)據(jù)和人工智能的演化有一個更好的了解,。 由于到場分享人數(shù)有限,,這里是對余凱演講的一些整理,供大家了解和學(xué)習(xí),。以下內(nèi)容根據(jù)演講整理: 感謝郭曉峰,、朱平還有好多朋友在周末來組織這么一個活動。對我來講回到這個地方和大家交流有一種回家的感覺,,因?yàn)槲沂侨昵暗臅r候從灣區(qū)回國加入百度,,開始負(fù)責(zé)百度的人工智能和深度學(xué)習(xí)方面的研究,。很親切?;仡欉@個歷史也是滿有趣的,,當(dāng)時我在NEC Lab,有好多深度學(xué)習(xí)方面的工作,,今天像Facebook等有很多人在從事深度學(xué)習(xí),,好多都是從NEC Lab加入的。從灣區(qū)回到中國也確實(shí)把灣區(qū)的一些資源給介紹回去了,,像以前我一個很好的朋友Andrew Ng,,我也把他忽悠到了百度。 這反映什么呢,?以前這些比較前沿的技術(shù)研發(fā)事情很多是在硅谷在美國去發(fā)生,,在今天在北京或者深圳其實(shí)很多同樣事情也在發(fā)生,所以我覺得是一個創(chuàng)新的時代,。 我想即使在Google的朋友也會同意這個觀點(diǎn):搜索引擎本身也是一個人工智能的系統(tǒng),,一方面通過免費(fèi)的服務(wù)提供很多數(shù)據(jù),,另一方面把這些數(shù)據(jù)區(qū)變現(xiàn),這中間就要用到很多技術(shù),,這當(dāng)中最重要的就是基于大數(shù)據(jù)的人工智能,,比如說數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí),、自然語言理解在移動時代或者IOT時代,,語音識別語音理解圖像識別等很多人工智能技術(shù)在中間可以扮演非常重要的角色。 什么是人工智能 那什么是人工智能呢,?有很多不同的看法,,有強(qiáng)人工智能,有弱人工智能,,我們也看到很多電影和小說等,,但到今天沒有一個公認(rèn)的統(tǒng)一的定義,但我們講一個人工智能有幾個方面: 第一個是感知,。就是采集數(shù)據(jù),; 第二個是理解。對環(huán)境,、對對話的對象有一些理解,; 第三個是決策,。這些數(shù)據(jù)你要做大量的分析,知道環(huán)境是什么樣的,,基于這上面你會做大量的決策,,本身來講感知、理解,、決策這三步也是一個循環(huán)的過程,。 萬物互聯(lián)與大數(shù)據(jù) 大數(shù)據(jù)的時代從PC互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)有一個飛躍的變化,,像這個圖是05年教皇選舉的場景,8年以后你可以看到,,同樣的地方,,同樣一波人,移動互聯(lián)網(wǎng)對人們的改變是巨大的,。每一個人隨著這個設(shè)備,,無論是在打電話,拍照,,帶在身上,,你以為你沒有在用它,但手機(jī)上面的傳感器會把很多數(shù)據(jù)傳到云端,。數(shù)據(jù)的產(chǎn)生是無時不刻的,。 未來我們會進(jìn)入一個物聯(lián)網(wǎng)的時代或者機(jī)器人的時代,,那萬物互聯(lián)的時代是一個什么樣的場景呢?我們可以想象到2020年,,前段時間孫正義在烏鎮(zhèn)互聯(lián)網(wǎng)大會上說,,到2020年一個人可能會連接到上千個設(shè)備。今天在中國我們每個人可能都帶著兩三個手機(jī),,因?yàn)橐粋€人在生活中會扮演很多角色(觀眾笑),。加上穿戴式設(shè)備和其他連接,在中國平均一個人帶三四個設(shè)備是很正常的,。面向未來的話可能一個紐扣都會是一個設(shè)備,,所以說每個人連接一千個設(shè)備并不是那么聳人聽聞。 我們當(dāng)前所處的時代,,從2010年到2019年我用一個詞叫“于無聲處聽驚雷”,互聯(lián)網(wǎng)行業(yè)很多朋友確實(shí)都感到這種轟隆隆的雷聲,。大數(shù)據(jù)的產(chǎn)生,、計(jì)算能力、帶寬,、深度學(xué)習(xí)這種技術(shù)的發(fā)展使得AI開始從后臺走到前臺,,比如說語音識別,我記得三年前我組建百度語音識別的團(tuán)隊(duì),,我們當(dāng)時發(fā)現(xiàn)招不到人,,我覺得很奇怪,我記得我讀大學(xué)的時候不是有很多人在從事語音識別的研究嗎,?后來我一打聽,,他們?nèi)哭D(zhuǎn)行了。因?yàn)樵谏疃葘W(xué)習(xí)之前的時代,,語音識別看不到希望,,大家覺得沒法繼續(xù)做研究,,但今天語音識別已經(jīng)是觸手可達(dá),而且發(fā)展非???。包括圖像,包括自然語言的理解,,包括機(jī)器人的技術(shù)都是如此,。 從大數(shù)據(jù)到深度學(xué)習(xí)的人工智能 人工智能技術(shù)最近為什么這么受到重視?我覺得最重要的原因是大數(shù)據(jù),,第二個原因是計(jì)算能力,,第三個原因就是深度學(xué)習(xí)。最頂尖的互聯(lián)網(wǎng)公司在這個領(lǐng)域都有相當(dāng)投入,,百度在深度學(xué)習(xí)領(lǐng)域可以說是投資最大的公司之一,。 為什么深度學(xué)習(xí)受到重視?首先第一點(diǎn)就是深度學(xué)習(xí)技術(shù)有一個浪漫主義的方面,,就是深度學(xué)習(xí)從機(jī)制,、行為等方面和大腦有一些關(guān)聯(lián)性。這點(diǎn)在媒體強(qiáng)調(diào)得比較多,,但從我們的角度來講這反而是最不重要的原因,。 第二點(diǎn)是深度學(xué)習(xí)特別適合大數(shù)據(jù)。一開始深度學(xué)習(xí)有受到生物神經(jīng)系統(tǒng)的啟發(fā),,但隨后的進(jìn)展主要是因?yàn)榻y(tǒng)計(jì),、建模、大數(shù)據(jù)和功能實(shí)現(xiàn),。 然后第三點(diǎn)它帶來的是一個思維觀念也就是解決問題方式的改變,。過去我們一般先對數(shù)據(jù)做一些預(yù)處理,然后通過機(jī)器建模的方法去處理數(shù)據(jù),,但深度學(xué)習(xí)帶來的一個改變,,就是端到端的學(xué)習(xí),希望把原始數(shù)據(jù)放到系統(tǒng)里,,中間每個步驟都是用學(xué)習(xí)的方法去完成,。比如說語音識別,它分為好幾個步驟,,但這幾個步驟是不是去一致性的優(yōu)化,?不一定。但深度學(xué)習(xí)的目標(biāo)是去一致性的優(yōu)化最終的目標(biāo)的,。 第四點(diǎn),,也是一個糾正,就是很多人覺得深度學(xué)習(xí)是一個黑箱系統(tǒng),覺得你不需要太多的了解,,只要去用它就好了,。實(shí)際上深度學(xué)習(xí)和機(jī)器學(xué)習(xí)一樣,提供的是一套框架,,一套語言系統(tǒng),。什么叫語言系統(tǒng)?比如中文就是一套語言系統(tǒng),,你要寫出優(yōu)美的文章至少需要兩個條件,,第一是你要掌握這種語言,第二是你對生活的感悟,。套用在深度學(xué)習(xí)上也有兩個條件,,第一個就是你要有駕馭這個模型和計(jì)算的能力,第二個就是對問題要有足夠的了解,。 我給大家舉一些例子,。深度學(xué)習(xí)最成功的一個例子是卷及神經(jīng)網(wǎng)絡(luò),他確實(shí)和我們對視覺神經(jīng)系統(tǒng)的了解尤其是早期的視覺皮層細(xì)胞關(guān)系是非常大的,。今天我們的深度學(xué)習(xí)已經(jīng)遠(yuǎn)遠(yuǎn)超越這些模型的結(jié)構(gòu),。打個比方,他們之間為什么不一樣呢,?這就好比研究鳥類如何飛行,,但深度學(xué)習(xí)是像波音公司研究如何造飛機(jī),本質(zhì)上并不一樣,,今天我們的飛機(jī)可以長得完全不像鳥,,更多的是空氣動力學(xué)、機(jī)械方面的東西,。 從統(tǒng)計(jì)和計(jì)算的角度講,,深度學(xué)習(xí)的原因其實(shí)更基礎(chǔ)。一個機(jī)器學(xué)習(xí)系統(tǒng),,我們可能對它的誤差的每個來源去做分解,,去了解和控制它,從而可以控制整體的預(yù)測誤差,。一般做機(jī)器學(xué)習(xí)我們會做一些假設(shè),我們知道所有假設(shè)都不是完美的,,也就是第一個,,模型的不完美。第二個問題是數(shù)據(jù)的不完美導(dǎo)致的,,比如說數(shù)據(jù)是有限的,,有偏的;第三個是計(jì)算的不完美。統(tǒng)計(jì)學(xué)通常關(guān)心前兩個問題,,但在現(xiàn)實(shí)中,,比如說我的一個工程師說,老大,,我這個問題需要五百臺機(jī)器,。我說,扯淡,,我最多給你五十臺,。他說,五十臺的話,,我需要算半年,。那我說,不行,,必須今天晚上算出來,。在有限的計(jì)算資源下去處理這樣的問題,我們必須要考慮這種計(jì)算的不完美,。 所以我們可以看到,,第一我們需要用一個非常復(fù)雜的模型,去減少這種偏差,,第二個問題我們要用無偏的,,也就是大數(shù)據(jù)去彌補(bǔ)。這樣我們得出一個結(jié)論:深度學(xué)習(xí)跟傳統(tǒng)的人工智能比較,,隨著數(shù)據(jù)的增長能夠吸收數(shù)據(jù)增長帶來的紅利,。傳統(tǒng)人工智能模型可能不夠復(fù)雜,比如是一個線性模型,,數(shù)據(jù)量大了后偏差會比較大,。還有一種可能是模型很好,但計(jì)算的問題無法解決,。比如有一種很好的模型,,它的計(jì)算復(fù)雜度是N的二次方到三次方,這樣處理一萬個學(xué)習(xí)樣本和一百萬個學(xué)習(xí)樣本,,需要的計(jì)算資源就至少相差一萬倍,。在大數(shù)據(jù)的時代,這就只能到此為止了,。 深度學(xué)習(xí)是一套靈活的,、復(fù)雜的語言系統(tǒng)。在不同的問題里會有不同的語言框架,,用不同的結(jié)構(gòu)去處理不同的問題,。百度今天在這方面可以說走在相當(dāng)?shù)那懊?,從?guī)模上講,百度可能是世界上第一個運(yùn)用大規(guī)模的GPU Servers的公司 , 12年的時候,,當(dāng)時我們就采購了世界上最大的采購量,。 今天我們有五六千臺的PC Server,超過兩千臺GPU的Server在一起做這種混合的大規(guī)模的深度學(xué)習(xí)的訓(xùn)練,,所以我們現(xiàn)在能夠構(gòu)建這種相當(dāng)大的,、千億級參數(shù)的世界上最大的人工神經(jīng)網(wǎng)絡(luò)。在其他方面很多算法比如語音識別,、圖像識別,、自然語言、廣告,、用戶建模等幫助很大,。 今天我們已經(jīng)不是停留在研究的層面,而是對于百度的業(yè)務(wù)比如說搜索,、廣告,、圖像、語音,,因?yàn)樯疃葘W(xué)習(xí)帶來的提升是非常巨大的,。在整個業(yè)務(wù)里扮演的角色也變得更加的智能,一言以蔽之,,我們的業(yè)務(wù)模式是連接人和信息,,連接人和服務(wù),你如何去理解人的意圖,,比如一個關(guān)鍵詞,,一張照片,說一句話,,如何匹配用戶需求,,如何推送信息和服務(wù)。 深度學(xué)習(xí)的應(yīng)用例子 鳳巢就是一個用深度學(xué)習(xí)去實(shí)現(xiàn)變現(xiàn)的例子,,在過去兩年對點(diǎn)擊率和搜索滿意度的提升都是巨大的,。 再舉一個例子,我們如何提升搜索的相關(guān)性,。它是怎么做的呢,?大致的思想是,評估相關(guān)性過去我們要做很多特征的抽取,,今天我們把用戶的查詢和結(jié)果匹配得到一個分?jǐn)?shù),,在神經(jīng)網(wǎng)絡(luò)里進(jìn)行比較,當(dāng)在訓(xùn)練的時候,,我們會把用戶體現(xiàn)出來的這種偏好給到一個差異足夠大的分?jǐn)?shù),我用超過一千億的的樣本來訓(xùn)練這個系統(tǒng),在過去兩年里面導(dǎo)致相關(guān)性有了一個巨大的提升,。 這帶來的相關(guān)性更多的是在語義的理解,,尤其是一天中查詢可能不到10次的這種長尾查詢,這是最考驗(yàn)搜索引擎的能力的,,因?yàn)閷τ诜浅8哳l的查詢,,每個搜索引擎可能都差不多。這里有一個例子是瑪莎拉蒂的一款車車頭如何放車牌,,我們過去的系統(tǒng)得到的基本是基于關(guān)鍵詞的匹配,,沒有回答這個問題。我們的合作伙伴(Google)的結(jié)果匹配了“車頭”這個關(guān)鍵字,,但對語義沒有進(jìn)行進(jìn)一步的理解,。我們運(yùn)行了我們這個模型后,你可以看到查詢的問題是“車頭”,、“放置車牌”,,但結(jié)果找到了“前牌照怎么裝”,它不是用關(guān)鍵詞來進(jìn)行匹配,,而是根據(jù)語義來匹配,,這就是深度學(xué)習(xí)帶來的一個改變。 還有語音識別的例子,。百度的語音識別實(shí)際從12年開始做,,但深度學(xué)習(xí)使得過去陽春白雪的東西變成了你用大數(shù)據(jù)就可以做的東西。過去語音識別從聲學(xué)角度抽取特征,,比如頻率特征,,將其抽取出來變成一種因素,然后從低層到高層的逐層處理,。一開始的時候我們不關(guān)心它是什么,,只是考慮它讀起來是什么樣子的,今天的深度學(xué)習(xí)盡量把中間的步驟變成可以訓(xùn)練的步驟,,把中間的步驟變得可學(xué)習(xí),,中間沒有過多的人工干預(yù),帶來的好處是用大量的數(shù)據(jù)訓(xùn)練這個模型,。在Benchmark(標(biāo)桿測試)上我們可以得到一個非常好的結(jié)果,。 另外再給大家看一個例子,這是運(yùn)單手寫電話號碼的識別,,過去我們一開始是做檢測,、切割,切割以后把每一個數(shù)字切割出來做識別,,但像這個例子,,你會發(fā)現(xiàn)是沒法做分割的,,那你只能把它做成一個一體的的解碼。這反映的就是深度學(xué)習(xí)給我們帶來的不是一個黑盒,,而是一個很豐富的語言系統(tǒng),,我們希望對這些問題有足夠理解,然后去開發(fā)最適合它的模型,。 我剛才提到了圖片的識別,,加上字符的識別,加上語音的識別,,加上機(jī)器的翻譯,,那百度可以做出這樣的產(chǎn)品,比如今天中國人到紐約的街頭可以問:“附近哪里有川菜館,?”你用中文說了后識別成中文,,然后翻譯成英文讀出來。我們可以不斷優(yōu)化這個事情,,在幾年的時間里可以變成現(xiàn)實(shí),,那么中國的小朋友們就可以更多時間去玩,更少時間用在學(xué)無聊的英語上了(觀眾笑),。當(dāng)然還有拍照,。這是我的一個好朋友,NYU的一個教授到上海,,他用這個產(chǎn)品點(diǎn)菜,,看菜單他就不擔(dān)心這個東西是不是鳳爪之類他不敢吃的東西。 我們再看另外一個例子就是圖片識別,。13年的時候,,中國移動互聯(lián)網(wǎng)有一個爆發(fā)的應(yīng)用就是百度魔圖,就是普通人可以拍張照,,然后系統(tǒng)會告訴你長得最像哪個大咖,。我們這個產(chǎn)品在連續(xù)三周在iOS總榜排名第一,最多的時候一天900萬人上傳照片,,我們一下子收集了好多人臉照片(觀眾笑),。至今這也是百度移動產(chǎn)品的記錄。 很多高科技公司都會參加一個IFW競賽,,也就是人臉識別的測評,,它是怎樣的呢?就是一些照片,,系統(tǒng)要判斷這是屬于同一個人還是不同的人,。去年Facebook宣稱他們?nèi)〉昧俗詈玫慕Y(jié)果。但不同的公司也在不斷的PK,,目前來講最好的結(jié)果是百度的(誤差率約0.15%),,這個結(jié)果現(xiàn)在到了什么情況呢,?有人讓人來參加了這個評估,結(jié)果大概是在這個地方(誤差約0.35%),,也就是說機(jī)器可能比人還要好,。當(dāng)然這只是一個具體的任務(wù)上,機(jī)器的表現(xiàn)比人好,,不代表整個人工智能能達(dá)到人的地步。 還有一個很有意思的ImageNet,,也就是圖像識別分類的競賽,。不同行業(yè)的人可能不一定感觸到,但我們這個行業(yè)能聽到轟隆隆的雷聲,,是由于大數(shù)據(jù),,由于深度學(xué)習(xí)在發(fā)生非常快的進(jìn)展,。ImageNet做的是圖片的分類,,過去五年里,我們可以看到錯誤率在不斷下降,,10年的第一屆,,我的這個團(tuán)隊(duì)是拿了第一名,后面每年結(jié)果都在變化,,去年最好的結(jié)果是我們在百度的同事做的,,斯坦福同樣也做了一個評估,看人類來做這個測試結(jié)果會是怎樣,。 (ImageNet)微軟在今年1月份發(fā)布的結(jié)果超過了百度,,前段時間Google的同事的結(jié)果又比微軟好,上個禮拜,,我同事和我說,,我們的結(jié)果比Google還好。所以這個競爭很有意思,,很多年后我們再回想就覺得,,我們這些不同公司的研究人員就像一個班上的同學(xué)一起PK,一起分享經(jīng)驗(yàn),,實(shí)際是在一起推動行業(yè)的發(fā)展的,。 OK,圖像的理解始終是和我們?nèi)祟悓χR的理解以及語言總是能夠耦合在一起的,,那怎么把這個事情做得更加有意思呢,?我們在小時候可能做過“看圖說話”,用語言來描述這幅圖像,,比如這幅圖,,用中文描述就是“起居室里有著百色的沙發(fā)和藍(lán)色的地毯,,下午的陽光照進(jìn)房間”。這樣的描述實(shí)際上是由機(jī)器來完成的,。這是去年百度的研究人員最早在世界上發(fā)表了這樣的論文,,后來Google等都發(fā)表了類似的論文,也引用了我們的研究結(jié)果,。 我們現(xiàn)在也在做一些中文的描述,,比如說這個例子:“一輛雙層巴士行駛在街道上”。我們可以做什么呢,?比如說做圖像識別,,我們?nèi)フ翌愃频膱D片,得出來的圖像可能是這樣的(一些街景),,因?yàn)檫@個圖像它的主要內(nèi)容是建筑和街道,。但如果我們用自然語言來描述這個場景,我們的出來的類似圖片是不一樣的,。我們在百度如何用自然語言描述去提升我們對圖像的理解,,它背后的模型再度驗(yàn)證了我剛才的一個觀點(diǎn):深度學(xué)習(xí)實(shí)際提供的是一個語言系統(tǒng),對于一個具體的問題,,你要有能力去構(gòu)建模型,,模擬這樣一個問題。這樣一個例子就是下面是一個深度的卷積神經(jīng)網(wǎng)絡(luò),,它產(chǎn)生的一個表示,,上面是一個多層的神經(jīng)網(wǎng)絡(luò)去產(chǎn)生語言的模型。這樣的結(jié)果就是,,它既是符合我們語義的語言,,同時也反映了圖像的內(nèi)容。 我們再進(jìn)一步去想:我們可以去做一些更加像人類做的事情,。比如說對這樣一個圖像,,我們可以去教小孩,去學(xué)習(xí)一些東西,。這樣的圖像,,機(jī)器可能會問小孩:他站在什么上?“他”是單人旁的他,,而不是女字旁的“她”哦,。我們也希望機(jī)器能回答這個問題,根據(jù)圖片本身的像素,,根據(jù)本身的問題能夠回答:他站在沖浪板上,。機(jī)器可能還會繼續(xù)問:那他有穿上衣嗎?然后機(jī)器可以回答:沒有。這都是今天的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)根據(jù)圖片內(nèi)容自動生成的,。它已經(jīng)超越了我們過去的圖像識別,,也就是“你有什么東西”,變成了“你有什么樣的語義”和“你有什么樣的關(guān)系”,。 對未來機(jī)器人,、自動駕駛、人工智能的思考 這里回到一個我們對人工智能目前的現(xiàn)狀和未來的一個思考:過去的互聯(lián)網(wǎng)服務(wù),,它做的事情也有幾個方面,,一個是感知,另外一個理解,,還有一個決策,。感知就是獲取數(shù)據(jù),經(jīng)過大規(guī)模的計(jì)算,,比如處理,索引,,然后在決策的時候能展示什么樣的結(jié)果和服務(wù),。這些所有都是線上的。今天移動互聯(lián)網(wǎng)與人更近,,它和你所處的場景有關(guān)系,。從感知的角度講我們要從人,從物理世界獲得信息,,這種線下信息可能比互聯(lián)網(wǎng)世界更加重要,。從服務(wù)的角度,以前是線上的服務(wù),,它會向線下延伸,,向傳統(tǒng)行業(yè)延伸。像智能硬件,、自動駕駛,、機(jī)器人,會在未來扮演更加重要的角色,。 這是我們在很多智能硬件上做的一些嘗試(展示一個自動駕駛視頻),,未來可能是用各種傳感器武裝到牙齒。為什么你要在中國做自動駕駛呢,?這當(dāng)中有的是純技術(shù)問題,,有的是國情的。我跟同事有時開玩笑說,,我們在中國做自動駕駛,,這個技術(shù)一定是全世界的,但Google在美國做的技術(shù)一定不是全世界的,,它不能處理中國式的過馬路,,它不能處理我們的井蓋被撬掉(觀眾笑),。因?yàn)槿斯ぶ悄苁腔诖髷?shù)據(jù)的智能,沒有這些數(shù)據(jù)你是絕對不敢做的,。我們在這樣環(huán)境下開發(fā)出來的技術(shù)一定是放之四海而皆準(zhǔn)的,。 這是基于圖像的這種實(shí)時的道路場景的理解、融合,、深度學(xué)習(xí)的技術(shù),,我們對交通標(biāo)志、道路線,、對車輛,、對標(biāo)示都要做到實(shí)時的識別。今天我們可以做到什么程度呢,?這方面的一個Benchmark,,我們可以看到第一名和第二名都是百度的,而且比第三名的結(jié)果好非常多,。這是我們用一個沒有訓(xùn)練的人去標(biāo)識數(shù)據(jù)(交通場景圖片),,我們會發(fā)現(xiàn)機(jī)器做得比人還要好。比如說這個人和交通標(biāo)志遮住了后面的車,,只露出一小部分,,人沒法意識這個車的存在,但機(jī)器可以識別,。這樣基于傳感器去駕駛可能會更加的安全,。前段時間Elon Musk說,未來人類開車是違法的,,這個有可能成為現(xiàn)實(shí),。 這是對車道的一個理解。剛才講的我們?yōu)槭裁匆龆ㄎ荒??我們有一個現(xiàn)實(shí)的目標(biāo),,就是做一個基于實(shí)時場景的增強(qiáng)現(xiàn)實(shí)導(dǎo)航系統(tǒng),在北京開過車的人可能知道,,那么多主路輔路,,比如說西直門立交就基本就和中國聯(lián)通的Logo一樣了?;趯?shí)時場景的增強(qiáng)現(xiàn)實(shí)導(dǎo)航系統(tǒng),,它比基于語音的 導(dǎo)航或者基于二維的地圖導(dǎo)航更加場景化。我們認(rèn)為自動駕駛應(yīng)該是一個漸進(jìn)式的過程,,從輔助駕駛到主動安全,,到限定條件下的自動駕駛,到高度自動駕駛,在每一步都會有商業(yè)機(jī)會,。我們要構(gòu)造的不是一個取代人的系統(tǒng),,而是一個人車一體的系統(tǒng)。任何車的關(guān)系就像人和馬一樣,,但馬是可以控制的,。 最后我想總結(jié)一下,我們認(rèn)為在5-10年里,,下面三件事情一定會成為必然:第一個是所有設(shè)備都有智能傳感器,,第二是所有設(shè)備它一定都有云端大腦,第三是所有設(shè)備從單一功能的設(shè)備變成連接人和服務(wù)的節(jié)點(diǎn),。我們可以看到手機(jī)經(jīng)歷了這個過程,,過去手機(jī)就是打電話,今天的手機(jī),,你一天打幾個電話啊,。從這個角度講,所有設(shè)備最后都會成為一個廣義的機(jī)器人系統(tǒng):它都有感知,,都有理解,,都有決策。 我們技術(shù)人員常常覺得,,將機(jī)器變得非常強(qiáng)大是一件很酷的事情,但實(shí)際上這并沒有產(chǎn)生巨大的價(jià)值,。像以前的深藍(lán),,在一個場景下可能比人做得還好,但并沒有這個世界產(chǎn)生更多的影響,。而像Google和百度這樣的搜索引擎,,它拉近了人和信息的距離,它產(chǎn)生的巨大社會價(jià)值,,才能夠去實(shí)現(xiàn)巨大的商業(yè)價(jià)值,。這種技術(shù)的偉大,不在于讓機(jī)器更偉大,,而在于讓每個平凡者變得有創(chuàng)造性,,變得更偉大。 這句話大家都很熟悉,,這里改了一下:世界是我們的,,也是機(jī)器人的,但是歸根到底是屬于會控制機(jī)器人的人的,。謝謝大家,! |
|