【原】多媒體搜索再進(jìn)化

羅超頻道 2020-10-29

展開全文

2015年百度世界展出了語音和圖像為代表的多媒體搜索技術(shù),，這并非其首次亮相百度世界大會(huì)，多媒體搜索已成為百度的重頭戲,，與連接人與服務(wù)戰(zhàn)略,、人工智能戰(zhàn)略一起構(gòu)成百度的“三駕馬車”。

多媒體搜索越來越重要

各大搜索引擎在搜索框之外,，迎來兩個(gè)新圖標(biāo)：話筒和相機(jī),，分別對應(yīng)到語音和圖像搜索。通過向搜索引擎說一段話發(fā)號(hào)施令,，或者直接拍攝生活中的實(shí)景,，表明搜索意圖更加簡單和自然。讓機(jī)器“聽”和“看”,，是人類一直孜孜不倦的追求,，這也是人類獲取信息最重要的兩種方式。

鑒于未來的搜索引擎不再是回答問題的“百科全書”,，而是幫助人們解決生活中各類需求的“智能助手”,，所以它必須越來越聰明，接近人類的智能,。一個(gè)重要的改進(jìn)方向便是交互,，搜索引擎必須能聽、會(huì)看,，才能實(shí)現(xiàn)真正的智能,。所以，在后移動(dòng)互聯(lián)網(wǎng)時(shí)代多媒體搜索會(huì)成為主流,，依賴鍵盤輸入的文本搜索比重將越來越小。李彥宏對此早有斷言,，他認(rèn)為未來超過一半的搜索將來自語音和圖像為代表的多媒體交互,。

語音和圖像搜索并非新技術(shù)，90年代IBM便推出了語音輸入軟件,，2008年Google 就推出了Voice Search以及“以圖搜圖”,，百度在PC時(shí)代也有過類似嘗試。移動(dòng)互聯(lián)網(wǎng)時(shí)代語音和圖像搜索才進(jìn)入真正意義上的商用階段,。移動(dòng)互聯(lián)網(wǎng)帶來了語音和圖像搜索的使用場景,，帶來了具備麥克風(fēng)、喇叭和攝像頭的智能設(shè)備,，語音搜索和圖像搜索技術(shù)也迎來飛速發(fā)展,，量變產(chǎn)生了質(zhì)變，語音和圖像搜索正在走向大眾化,，與文本搜索一樣舉足輕重,。

百度猛攻語音和圖像搜索

多媒體搜索有廣泛的涵義，除了文本之外的“富媒體”搜索都算多媒體搜索，例如語音,、圖像,、體感、位置,、社交關(guān)系,、物質(zhì)解析（百度筷搜）等輸入內(nèi)容。不過,，最重要的兩類搜索是語音和圖像搜索,。在去年百度展出了通過拍照搜索識(shí)別動(dòng)態(tài)衣服的技術(shù)，基于圖像搜索技術(shù)的百度EYE以及小度機(jī)器人,，2015百度世界重點(diǎn)展出了語音和圖像搜索技術(shù)的進(jìn)展,，百度在語音和圖像上依然還在大力投入和不斷改進(jìn)。

Siri為代表的語音助手普及,，培養(yǎng)了人們通過語音與機(jī)器交互的習(xí)慣,，在家里為代表的安靜場景、在車內(nèi)為代表的雙手不空閑場景,，在步行為代表的打字不便場景,，語音都有很大的施展空間。而且語音不需要學(xué)習(xí),，包含情感色彩,，能夠傳遞更多信息。倘若技術(shù)達(dá)到應(yīng)用標(biāo)準(zhǔn),，語音交互技術(shù)爆發(fā)是必然事件,。

語音交互與搜索引擎的結(jié)合正在日趨緊密，不久前Siri與百度達(dá)成合作引入百科等內(nèi)容,，百度在今年則陸續(xù)將語音與搜索,、外賣等業(yè)務(wù)整合，百度做語音的底氣來自于兩點(diǎn)：一是技術(shù)上應(yīng)用深度學(xué)習(xí)大幅提升了識(shí)別準(zhǔn)確率,；二是百度擁有豐富的后端內(nèi)容和服務(wù),。這意味著百度語音和圖像搜索的發(fā)展對百度連接人與服務(wù)戰(zhàn)略有很強(qiáng)的支撐效果，百度強(qiáng)調(diào)要做更具技術(shù)含量的O2O,，例如支持通過語音點(diǎn)外賣,。

百度語音搜索

圖像搜索受益于二維碼的普及，不過二維碼是結(jié)構(gòu)化的圖形,，機(jī)器的最終目標(biāo)是像人眼一樣去認(rèn)識(shí)世界,。人類90%的信息來自于視覺，“看”在信息獲取上是主要方式,。上傳一張圖片讓機(jī)器識(shí)別并不是很自然,，但如果機(jī)器都擁有攝像頭和快速識(shí)別能力,，其理解世界的方式將非常自然。將圖像識(shí)別與后端知識(shí)庫和各類服務(wù)打通的圖像搜索,，是一種所見即所得的自然搜索,。

百度在這塊進(jìn)行了大量探索，例如識(shí)別一張圖片中的物體并與廣告內(nèi)容結(jié)合,，識(shí)別圖片中的文字進(jìn)行翻譯,，識(shí)別文本化的題目并解答，識(shí)別藥品并介紹療效以及導(dǎo)入藥店……這些基于百度深度學(xué)習(xí)等后端人工智能技術(shù),，以及海量的圖片數(shù)據(jù)庫和內(nèi)容知識(shí)圖譜,。

百度圖像搜索

對于百度而言，語音和圖像搜索的投入是站在交互角度來突破移動(dòng)搜索現(xiàn)有形態(tài),。鑒于使用場景的特性,，多媒體搜索對于百度連接人與服務(wù)戰(zhàn)略將形成很強(qiáng)的支撐作用。服務(wù)搜索主要來自于移動(dòng)搜索,，而移動(dòng)搜索未來將走向多媒體搜索,。除了連接人與服務(wù)，百度還有一個(gè)戰(zhàn)略是人工智能等前沿技術(shù)的布局,，語音和圖像搜索的基礎(chǔ)正是來自于深度學(xué)習(xí),、大數(shù)據(jù)等技術(shù)成果的轉(zhuǎn)化。所以語音和圖像搜索成為百度將人工智能等研發(fā)成果轉(zhuǎn)化到連接人與服務(wù)實(shí)踐的“橋梁”,。

多媒體搜索未來走向何方,？

多媒體搜索依然還在起步階段，遠(yuǎn)遠(yuǎn)沒有文本搜索這樣成熟,，這意味著還有很多創(chuàng)新空間,。從多媒體搜索探路者百度的動(dòng)作來看，多媒體搜索在未來有以下發(fā)展趨勢：

1,、不同類型搜索相互結(jié)合,。現(xiàn)在語音是語音、圖像是圖像,，未來語音、圖像,、位置,、文本乃至視頻，各種形式的搜索會(huì)融合在一起,，就像人與人的對話一樣,，你理解對方的意圖即要聽、又要看（環(huán)境,、表情,、手勢……），可能還會(huì)結(jié)合上下文,，總之是綜合多類搜索來理解的,。未來多媒體搜索同樣會(huì)語音、圖像等并用,，例如你可以拍照之后問百度一句話,，“這張圖片中的狗是神馬品質(zhì)”,，模擬人與人的交互,。

2、多輪對話式搜索興起,。語音搜索現(xiàn)在大都是用戶問一句,，搜索引擎給出一個(gè)答案,，圖像搜索同樣只能進(jìn)行“一輪”。但人與人之間的對話是有“上下文”聯(lián)系的,，兩人之前談的內(nèi)容,，會(huì)影響之后雙方的理解。因此語音,、圖像搜索未來會(huì)更傾向于“多輪”,，即搜索引擎可以記住之前的多次交互過程,，并結(jié)合此理解用戶的語音或圖像，例如用戶可以先問“廣州的天氣怎么樣”再問”那邊有什么好吃的”,，這樣搜索引擎就可以理解“那邊”是指代廣州,。百度已為此申請“多輪交互專利”，語音交互可進(jìn)行需求引導(dǎo),，根據(jù)上下文和大數(shù)據(jù)分析智能糾錯(cuò),；Siri則初步實(shí)現(xiàn)了某些Case的多輪交互,，比如語音調(diào)用聯(lián)系人之后的二次選擇,。

3、解析速度決定用戶體驗(yàn),。語音和圖像搜索過去受限于計(jì)算速度以及網(wǎng)絡(luò)速度,，有一定延遲，隨著云計(jì)算,、大數(shù)據(jù)相關(guān)技術(shù)的成熟,，識(shí)別速度得以快速提升。4G和WIFI的普及,、帶寬提速也逐步消除了網(wǎng)絡(luò)障礙,。不過識(shí)別速度依然還有提升空間，如果問人一句話,，給人看一張圖,，要等幾秒才有答案還是讓人不爽，近期某手機(jī)廠商主打離線語音助手提升識(shí)別速度就反映了這個(gè)問題,。搜索引擎正在通過離線識(shí)別等技術(shù)來提升解析速度,，百度語音識(shí)別采取動(dòng)態(tài)解碼技術(shù)，實(shí)現(xiàn)了僅幾十毫秒延時(shí)的快速識(shí)別,。

4,、基于場景的搜索服務(wù)能力。語音和圖像搜索在復(fù)雜的場景中進(jìn)行,，搜索發(fā)起的時(shí)間不同,，地點(diǎn)不同，用戶的習(xí)慣,、情緒有別,，意味著背后有不同的需求，因此搜索引擎必須去識(shí)別用戶所處場景,，與其位置,、環(huán)境、個(gè)人畫像等數(shù)據(jù)結(jié)合起來分析,，甚至嘗試根據(jù)語速,、語調(diào)去分析用戶情感。同時(shí)整合豐富的服務(wù)對用戶需求進(jìn)行滿足,，比如當(dāng)用戶在外面搜索“麥當(dāng)勞”應(yīng)該首先推薦周邊餐廳，在家里和辦公室則優(yōu)先推薦外賣服務(wù)……基于場景去滿足用戶的搜索需求,。

5,、無處不在的語音和圖像搜索,。現(xiàn)在百度語音圖像搜索主要存在于網(wǎng)頁版百度、手機(jī)百度,、百度HD版等百度系產(chǎn)品中,，但同時(shí)要注意的是百度已經(jīng)通過開放平臺(tái)開放其語音和圖像搜索技術(shù)。這意味著許多應(yīng)用和設(shè)備都有機(jī)會(huì)用到語音和圖像搜索,，它是一種開放能力,，例如智能音箱可以用語音搜索歌曲并播放，汽車廠商在車內(nèi)預(yù)裝語音助手,，智能電視通過語音操控和搜索節(jié)目……就是說,，未來語音和圖像搜索是無處不在的。