語音識別的基本概念語音識別是使程序或系統(tǒng)能夠處理人類語音的技術(shù)或功能。它也稱為語音識別或語音轉(zhuǎn)文本,。使用基于計算機硬件和軟件的技術(shù)來識別和處理人的語音,。它主要用于將口語轉(zhuǎn)換為計算機文本。此外,,自動語音識別用于通過用戶的語音對用戶進(jìn)行身份驗證,,并根據(jù)人類定義的指令執(zhí)行操作。 現(xiàn)今世界,,自從發(fā)明第一個錄音機以來,,語音識別已經(jīng)走了很長一段路程,自1950年代以來,,語音識別工作一直很活躍,,但是直到1990年代后期才開始接受自然語音。機器學(xué)習(xí)(ML)在本世紀(jì)提供了大多數(shù)語音識別方面的突破,。引人入勝的社會是蘋果公司的Siri,,這是由AI驅(qū)動的數(shù)字助理,可以將語音識別人性化,。蘋果公司以這種方式開創(chuàng)了先河,,促使競爭對手的公司開始關(guān)注并制作自己的版本。從技術(shù)角度來看,,語音識別歷史悠久,,有幾波重大創(chuàng)新。最近,,該領(lǐng)域受益于深度學(xué)習(xí)和大數(shù)據(jù)的進(jìn)步,。 語音識別軟件中的潛在變量是什么?言語是一個復(fù)雜的現(xiàn)象,。人們很少了解它是如何產(chǎn)生和感知的,。幼稚的感覺通常是語音是由單詞構(gòu)成的。不幸的是現(xiàn)實是非常不同的,,語音是一個動態(tài)的過程,,沒有清晰可辨的部分。獲取聲音編碼器并仔細(xì)研究語音記錄并聆聽它總是很有用的,。例如,,這是音頻編碼器中的語音記錄。 所有關(guān)于語音的現(xiàn)代描述在某種程度上都是概率性的,。這意味著單元之間或單詞之間沒有特定的邊界,。語音到文本的翻譯以及語音的其他應(yīng)用從來都不是100%正確的,。正確性和準(zhǔn)確性是兩回事,,根據(jù)信息學(xué)課程的講義,,區(qū)別在于正確性意味著完全“沒有錯誤”,而準(zhǔn)確度意味著“在所有細(xì)節(jié)上都是正確的”和“能夠或成功達(dá)到預(yù)期目標(biāo)”,。 使用語音識別,,這意味著盡管抄寫可能不是100%正確,但用戶了解了已轉(zhuǎn)錄的語音的整體概念,。也就是說,,這不僅僅是雜亂無章的單詞,而且通??梢詮奈谋局薪忉屢粋€內(nèi)聚的概念,。但是,沒有兩個人是一樣的,,因此,,必須考慮語音模式和其他偏差。諸如口音之類的異常(甚至是英語口語中的異常)也可能導(dǎo)致語音識別軟件錯過對話的某些方面,。說話者說話的方式,、說話的速度,甚至說話者語音音量的波動都可能使語音識別技術(shù)陷入困境,。 無論如何,,大多數(shù)現(xiàn)代語音識別技術(shù)都可以與機器學(xué)習(xí)平臺一起使用。因此,,隨著用戶繼續(xù)使用該技術(shù),,該軟件會獲知特定人的語音模式和差異并進(jìn)行相應(yīng)調(diào)整。 語音識別如何工作,?語音識別使用哪種算法,?在當(dāng)今技術(shù)驅(qū)動的世界中,一切都基于不同的技術(shù)模式,。無論是自動文本識別還是機器人語音翻譯,,技術(shù)進(jìn)步都將標(biāo)準(zhǔn)設(shè)定得很高。語音識別通過聲學(xué)和語言建模使用算法來工作,,聲學(xué)建模表示語音和音頻信號的語言單位之間的關(guān)系,,語言建模將聲音與單詞序列進(jìn)行匹配,以幫助區(qū)分聽起來相似的單詞,。 聲學(xué)建模和語言模型是現(xiàn)代統(tǒng)計學(xué)為基礎(chǔ)的語音識別算法的重要組成部分,。隱馬爾可夫模型廣泛用于許多系統(tǒng)中。語言建模還用于許多其他自然語言處理應(yīng)用程序中,,例如文檔分類或統(tǒng)計機器翻譯,。 語音識別軟件的工作原理是將語音記錄的音頻分解成單獨的聲音,,分析每種聲音,使用算法找到最適合該語言的單詞,,然后將這些聲音轉(zhuǎn)錄為文本,。語音識別軟件使用自然語言處理(NLP)和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。NLP是計算機以一種聰明而有用的方式來分析,,理解和從人類語言中獲取含義的方法,,這意味著該軟件將語音分解為可以解釋的位,將其轉(zhuǎn)換為數(shù)字格式,,然后分析內(nèi)容,。根據(jù)編程和語音模式進(jìn)行確定,并對用戶實際在說什么做出假設(shè),。在確定用戶最有可能說了什么之后,,該軟件將對話記錄為文本。例如:Siri使用(語音識別)將說話者的聲音轉(zhuǎn)換為文本,,然后進(jìn)行一些處理,,然后可以通過使用(從語音到文本的反之亦然版本STT)將其作為聲音返回,這是文本到語音的TTS,。 所有這些聽起來很簡單,,但是技術(shù)的進(jìn)步意味著這些復(fù)雜的過程正以閃電般的速度發(fā)生。實際上,,機器可以比人類更準(zhǔn)確,,正確,快速地轉(zhuǎn)錄人類語音,。 語音識別技術(shù)隨著人工智能的進(jìn)步而興起隨著自然語言和語音準(zhǔn)確率的飛躍進(jìn)步,,語音識別技術(shù)的進(jìn)步給企業(yè)帶來了越來越大的壓力,要求其構(gòu)建超越用戶期望的語音體驗,。人工智能,、云計算和大數(shù)據(jù)的不斷改進(jìn)使語音命令之類的技術(shù)以前所未有的速度發(fā)展,從而改變了制定客戶服務(wù)策略的方式,。機器學(xué)習(xí)的重大進(jìn)步使會話系統(tǒng)能夠更好地識別語音本身,,并將文本轉(zhuǎn)換為實際語音,這是自然語言處理(NLP)的關(guān)鍵要素,。語音數(shù)字助手可以通過語音和文本,,以類似于人類的速度進(jìn)行響應(yīng),這產(chǎn)生了對完美言語的需求,,促使行業(yè)向更高級別的智能發(fā)展,。 AI已經(jīng)運用多年,諸如Google Maps之類的應(yīng)用每天都使用語音命令與駕駛員互動,。對于企業(yè)而言,,AI已被廣泛采用以削減業(yè)務(wù)成本,,改善客戶服務(wù)并幫助企業(yè)在瞬息萬變的格局中競爭。員工可以使用對話式AI節(jié)省時間來輸入數(shù)據(jù),,提取報告或執(zhí)行其他平凡的工作任務(wù),。在2019年Gartner CIO調(diào)查中,CIO特別將聊天機器人確定為“企業(yè)中使用的主要基于AI的應(yīng)用程序”,。如果有的話,,這主要表明企業(yè)已經(jīng)開始探索投資語音命令技術(shù)和以AI為動力的個人助理帶來的好處。 構(gòu)建特定于領(lǐng)域的自動語音識別模型——對話式AI隨著對話式AI市場的日趨成熟,,公司開始開發(fā)自己的語音技術(shù)來協(xié)助推動客戶體驗策略。正在建立依靠語音命令為客戶服務(wù)的自治企業(yè)的道路,。消費者在日常生活中使用語音識別的趨勢,。 對話式AI是使用自然語言與機器進(jìn)行通信。對話式AI是一個復(fù)雜的系統(tǒng),,集成了多個深度神經(jīng)網(wǎng)絡(luò),,這些神經(jīng)網(wǎng)絡(luò)必須無縫且一致地工作,才能通過準(zhǔn)確,,快速且自然的人機交互提供令人愉悅的用戶體驗,。關(guān)鍵的技術(shù)點在于如何完成域適配、用戶分析,、合規(guī)性,、高精度語音識別、用戶標(biāo)識,、情感分析等,。 一個典型的會話式AI應(yīng)用程序使用三個子系統(tǒng)來執(zhí)行以下步驟:處理和轉(zhuǎn)錄音頻、理解所問問題,、生成響應(yīng)并正確回復(fù),。首先,自動語音識別(ASR)用于處理原始音頻信號并從中轉(zhuǎn)錄文本,;其次,,自然語言處理(NLP)用于從轉(zhuǎn)錄的文本(ASR輸出)中導(dǎo)出含義;最后,,語音合成或文本語音轉(zhuǎn)換(TTS)用于從文本人工生成人類語音,。 ASR是人工智能領(lǐng)域的重要任務(wù)之一,在自然語言中是一項具有挑戰(zhàn)性的任務(wù),。因為它由一系列工作組成,,例如語音分段、聲學(xué)建模和語言建模,,每個步驟都需要構(gòu)建和使用一個或多個深度學(xué)習(xí)模型,。采用時間分類法(CTC)簡化了對分段數(shù)據(jù)的需求,,并并允許對網(wǎng)絡(luò)進(jìn)行端到端學(xué)習(xí)。 語音識別技術(shù)的未來根據(jù)Gartner的預(yù)測,,“到2022年,,每天有70%的人將與對話平臺進(jìn)行互動?!焙喍灾?,其背后的語音識別和人工智能只會變得更加復(fù)雜。隨著設(shè)計和技術(shù)行業(yè)朝著完全包容性發(fā)展,,隨著對用戶體驗的積極需求,,有意識的AI勢在必行,以服務(wù)于更大范圍的人群,。為了變得更具包容性,,技術(shù)人員和科學(xué)家已開始改進(jìn)AI以識別各種口音和方言。最近的研究表明,,語音識別“仍然具有明顯的性別和地域的偏見”,,從而鞏固了為不歧視而服務(wù)于不同人群的改進(jìn)需求。即使技術(shù)上存在漏洞,,科技界仍在嘗試通過數(shù)字語音助手將AI集成到他們的產(chǎn)品和服務(wù)中,。受技術(shù)影響最大的行業(yè)之一是娛樂,增強虛擬現(xiàn)實游戲如雨后春筍般出現(xiàn),。語音控制視頻游戲中的虛擬現(xiàn)實和生物反饋也越來越流行,。 人有優(yōu)點也有缺點,正在演進(jìn)的AI系統(tǒng)將具有優(yōu)勢和劣勢,。因此,,最大的影響將來自于找出使人和計算機良好協(xié)作的最佳方法。隨著業(yè)務(wù)模型的不斷發(fā)展,,將AI正確地集成到產(chǎn)品和服務(wù)中將需要耐心和道德上的最佳實踐,。 以上是我的淺薄之見,歡迎指正,,謝謝,! |
|