語音識別是計(jì)算機(jī)軟件識別口語中的單詞和短語并將其轉(zhuǎn)換為人類可讀文本的能力,。在本教程中,,你將知道如何使用SpeechRecognition 庫在Python中將語音轉(zhuǎn)換為文本 。 因此,,我們不需要從頭開始構(gòu)建任何機(jī)器學(xué)習(xí)模型,,該庫為我們提供了各種著名的公共語音識別API(例如Google Cloud Speech API,IBM Speech To Text等)的便捷包裝,。 讓我們開始吧,,首先使用pip安裝庫: pip3 install SpeechRecognition Okey,打開一個新的Python文件并導(dǎo)入它: import speech_recognition as sr 從文件讀取 確保當(dāng)前目錄中有一個音頻文件: filename = 'speech.wav' 該文件是從 LibriSpeech 數(shù)據(jù)集中獲取的,,但是你可以帶上你想要的轉(zhuǎn)換的東西,,只需要更改一下文件名即可,現(xiàn)在讓我們初始化語音識別器: # initialize the recognizer r = sr.Recognizer() 以下代碼負(fù)責(zé)加載音頻文件,,并使用Google Speech Recognition將語音轉(zhuǎn)換為文本: # open the file with sr.AudioFile(filename) as source: 這將需要幾秒鐘才能完成,,因?yàn)樗鼘⑽募蟼鞯紾oogle中獲取到輸出,這是我獲取到的結(jié)果: I believe you're just talking nonsense 從麥克風(fēng)讀取 這需要在你的機(jī)器上安裝PyAudio,,以下是取決于你的操作系統(tǒng)的安裝過程: Windows系統(tǒng) 你可以點(diǎn)安裝它:pip3 install pyaudio Linux系統(tǒng) 需要安裝依賴項(xiàng): sudo apt-get install python-pyaudio python3-pyaudio pip3 install pyaudio 蘋果系統(tǒng) 需要先安裝portaudio,,然后才可以安裝它: brew install portaudio pip3 install pyaudio 現(xiàn)在,讓我們使用麥克風(fēng)轉(zhuǎn)換語音: with sr.Microphone() as source: 它會從你的麥克風(fēng)錄取到5秒鐘,,然后嘗試將語音轉(zhuǎn)換為文本,! 它與先前的代碼非常相似,但是我們在這里使用Microphone()對象從默認(rèn)麥克風(fēng)讀取音頻,,然后在record()函數(shù)中使用duration參數(shù)在5秒后停止讀取,,然后上傳音頻數(shù)據(jù)向Google獲取輸出文本。 你還可以在record()函數(shù)中使用offset參數(shù)在偏移幾秒鐘后開始記錄,。 另外,,你也可以通過將language參數(shù)傳遞給accept_google()函數(shù)來識別不同的語言,。例如,如果你想識別別的語言(如:西班牙語音),,則可以使用: text = r.recognize_google(audio_data, language='es-ES') 使用此庫將語音轉(zhuǎn)換為文本非常簡單,。該庫在國外被廣泛使用,如果有需要可以去掌握它,。 |
|