來自雷鋒網(leiphone-sz)的報道 早在2016年10月錘子科技新品發(fā)布會上,訊飛輸入法就因羅永浩的現(xiàn)場演示火了一把,,老羅在現(xiàn)場用很快的語速隨口說了一段內容,,訊飛輸入法瞬間“打”出文字,識別結果一字不差。 當時,,訊飛輸入法的語音識別率是 97%,。而在昨天下午舉行的訊飛輸入法媒體見面會上,產品總監(jiān)翟吉博宣布,,這個數(shù)字變成了 98%,。 羅永浩介紹訊飛輸入法 此外,據(jù)市場品牌負責人李強軍介紹,,訊飛輸入法用戶規(guī)模突破6億,,語音輸入月覆蓋率達50%,語音滲透率保持逐年上升態(tài)勢,。 至于準確率是否能夠達到百分之百,,訊飛輸入法產品總監(jiān)翟吉博的回答是:技術上目前還做不到。 首先,,同音字是個難題,,只能盡可能提高命中率,這也是為什么搜狗,、百度,、訊飛都要給輸入法加入語音修改功能的原因。其次,,用戶非??谡Z化的表達機器無法精準識別,人機交互習慣需要磨合,。此外,,嘈雜環(huán)境下語音識別會受到環(huán)境音的影響。 訊飛輸入法產品總監(jiān):翟吉博 技術:DFCNN語音識別框架訊飛輸入法從人腦神經科學入手對人類記憶進行仿生,,實現(xiàn)大量無監(jiān)督的數(shù)據(jù)去輔助有人工標注的數(shù)據(jù),。受圖像領域 CNN 應用的啟發(fā),,科大訊飛研發(fā)了深度全序列卷積神經網絡(Deep Fully Convolutional Neural Network,,DFCNN)語音識別框架,使用大量的卷積層直接將語譜圖作為輸入,,相比傳統(tǒng)語音特征作為輸入,,降低了信息損失,表達了語音的長時相關性,。 同時,,借鑒圖像識別中效果最好的網絡配置,每個卷積層使用 3×3 的小卷積核訓練更深的 CNN 模型,,輸出單元直接為最終的識別結果(比如音節(jié)或漢字),,將感知智能、認知智能等 AI 技術應用在輸入法上,一分鐘可識別 400 字,,并支持多語種實時語音翻譯,、超長語音輸入、耳語輸入,、離線語音輸入等功能,。 特色:提出方言語音解決方案對于口音和方言識別的難題,訊飛輸入法提出方言語音輸入方案來解決,。依托科大訊飛對 AI 技術及語言深度研究的積累,,采用 Multi-lingual 多語言建模,通過多方言數(shù)據(jù)共享方式訓練,;輔以 Global Phone全球音素集,,從聲學層面的相似性統(tǒng)一各方言的音素定義,對方言“語圖譜”模型做進一步精進,,從而有針對性地提升方言語種的識別能力,。 目前訊飛輸入法支持 22 種方言,其中粵語,、四川話,、東北話等識別率均已超過 90%。2017年對外發(fā)起“方言保護計劃”,,建立“中國方言庫”,,積累海量方言數(shù)據(jù),讓這些數(shù)據(jù)為深度學習提供素材,。本月底,,訊飛輸入法將新增蘇州話識別,方言識別語種將擴充至23種,。 基于科大訊飛精簡和優(yōu)化的 Hybrid-DFCNN 全新語音識別框架,,6月底訊飛輸入法將上線 Hyper-CNN語音新引擎,隨之通用語音識別準確率將相對提升 15%,,此外可以優(yōu)化中英混合語音輸入,、粵語等重點方言、標點判斷準確率,,提升語音輸入的體驗,。 重新定義鍵盤,新增面對面翻譯和 OCR 拍照在百度輸入法的發(fā)布會上,,AIG 負責人王海峰發(fā)表了他對輸入法的看法,,認為即便現(xiàn)在有語音輸入的加持,其實還不足夠,,未來的輸入方式一定是 AI 加持的“全感官輸入”,。訊飛的判斷是,,輸入法將不再局限于五筆、九宮格,、二十六鍵,、手寫固定鍵盤形態(tài),從而推出“莫得鍵盤”,、“語音鍵盤”,、“VG 語音交互面板”等人機交互模式。 莫得鍵盤即“沒有”鍵盤,,基于訊飛輸入法智能語音技術,,支持語音輸入、語音口令控制,,實現(xiàn)無鍵盤輸入,。為語音重度用戶量身定制了語音鍵盤,呈現(xiàn)便捷的語音輸入形態(tài),,只憑一張嘴就能輕松打字,、修改甚至自動加標點符號,不需學習其他技能,?;谥悄苷Z音應用,打造 VG(VoiceGame)語音交互面板,,利用 AI 在交互層面進行了嘗試,。輸入過程等同“玩游戲”,語速快慢,、聲音大小等直接體現(xiàn)了創(chuàng)意交互,。 訊飛輸入法將語音識別、語音合成以及機器翻譯等新技術融合在一起,,新增面對面翻譯,,支持中文與英日韓俄多語種即時翻譯,并且將面對面的交互方式引入語音翻譯應用中,。例如,,在對話雙方各講母語時,另一方就會同步看到翻譯結果,。 基于用戶剛需,,新增了 OCR 拍照輸入,可以識別書本,、路牌、名片等印刷體上的文字以及手寫字體,。手寫識別準確率也高達 90% 以上,。 體驗:語音識別哪家強,?會后,雷鋒網(公眾號:雷鋒網)分別試用了搜狗輸入法和訊飛輸入法,。 訊飛語音可一次性不間斷輸入249個字,,搜狗語音可輸入221個字。整體來看,,訊飛識別率更高一些,。 在對詩歌的識別方面,兩家輸入法都有很好的表現(xiàn),。讀者也可試試用自己家鄉(xiāng)的方言,,看看這些有 AI 加持的輸入法能否精準識別。 隨著語音識別技術的發(fā)展,,可能未來我們真的不再需要用手打字,,至于訊飛對未來人工智能語音輸入的展望,翟吉博的回答是:“現(xiàn)在的產品在省時高效和足夠簡單自然這些維度上并沒有做到極致,。假如有一天技術成熟了,,我們通過意念或者腦電波輸入文字,打開微信,,盯著屏幕看兩秒,,文字就發(fā)出去了,我想這會是一個更加極致的輸入法,?!?/span> AI普遍化后,訊飛需要尋找新的差異點據(jù)速途研究院2017年調研數(shù)據(jù)顯示,,輸入法市場上,,搜狗以 63.6% 的市場份額遙遙領先,接下來是百度和訊飛,。王海峰說,,百度輸入法是百度 AI 技術應用的橋頭堡,新的 AI 技術將會首先應用在輸入法上,。搜狗 CEO 王小川也表示將 AI 賦能升級輸入法列為搜狗 2018 年度 AI 戰(zhàn)略之一,,并且輸入法不止可以打字,還將承載信息獲取和流量分發(fā),。在輸入法都打 AI 牌的年代,,訊飛的優(yōu)勢何在? 對此,,翟吉博在接受雷鋒網的采訪時表示,,訊飛一直以來聚焦于語音輸入,對于語音輸入的用戶場景體驗和未來發(fā)展有著更深的理解,。此外,, 在語音技術方面持續(xù)創(chuàng)新,,會一直尋找新問題并用技術和產品設計解決?!拔覀冇肋h是往前多走一步,,持續(xù)探索?!?/span> 但是,,據(jù)雷鋒網了解,目前用戶的輸入習慣主要還是以拼音輸入為主,。速途研究院的數(shù)據(jù)顯示,,六成多的用戶還是選擇拼音輸入,其中九宮格拼音輸入最接近用戶的輸入習慣,,可以單手掌控輸入,。 隨著技術的發(fā)展,語音轉化成文字的正確率越來越高,,選擇語音輸入的用戶在不斷增多,。對于語音輸入,訊飛輸入法支持 22 種方言,,百度輸入法則提供了語音翻譯,,支持 28 種高頻次語言同聲傳譯。 目前輸入法市場格局形成了一超多強的局面,,搜狗輸入法長期保持市場第一,,且不斷發(fā)展。百度輸入法借AI 之力奮起直追,,訊飛等輸入法也在不斷差異化,,努力加強個性化特色功能。在識別率方面,,頭部廠商在語音識別準確率上均達到 97% 以上的高水準,,而百度和搜狗都擁有得天獨厚的龐大搜索數(shù)據(jù)庫為深度學習算法提供燃料,語音輸入用戶習慣的養(yǎng)成卻尚待時日,,主打 AI 語音識別的訊飛,,可能還需要再繼續(xù)探索其他差異化策略。 |
|
來自: 昵稱71360118 > 《待分類》