背后大模型,,是阿里的通義千問。至于為什么說是組會神器嘛—— 注意看,,這是我的B站導(dǎo)師李沐老師,,他正在帶同學(xué)們精讀一篇大模型論文。 不巧就在這時,,老板催我抓緊搬磚,。我只好默默摘下耳機(jī),點(diǎn)開名為“通義聽悟”的插件,,然后切換頁面,。 你猜怎么著?雖然我人不在“組會”現(xiàn)場,,但聽悟已經(jīng)幫我完整記錄下了組會內(nèi)容,。 甚至還幫我一鍵總結(jié)出了關(guān)鍵詞,、全文摘要和學(xué)習(xí)要點(diǎn)。 簡單來說,,這個剛剛接入大模型能力的“通義聽悟”,,是一個大模型版的聚焦音視頻內(nèi)容的工作學(xué)習(xí)AI助手。 跟以往的錄音轉(zhuǎn)寫工具不同,,它不只是能把錄音,、視頻轉(zhuǎn)成文字這么簡單。能一鍵總結(jié)全文不說,,總結(jié)不同發(fā)言人觀點(diǎn)也能做到: 甚至還能當(dāng)實(shí)時字幕翻譯來用: 看上去,,不僅開組會好使,對于經(jīng)常要處理一大堆錄音,、熬夜跟各種國外發(fā)布會的量子位來說,也實(shí)屬日常工作新神器,。 我們趕緊第一時間深入測試了一波,。 通義聽悟上手實(shí)測音頻內(nèi)容的整理和分析,最基礎(chǔ)也是最重要的,,就是轉(zhuǎn)寫的準(zhǔn)確性,。 Round 1,我們先上傳一個時長在10分鐘左右的中文視頻,,看看聽悟與同類工具相比,,在準(zhǔn)確性方面表現(xiàn)如何。 基本上,,AI處理這種中等長度音視頻的速度很快,,大概不到2分鐘就能轉(zhuǎn)寫完成。 先來看看聽悟的表現(xiàn): 在這個200字左右的段落中,,聽悟只出現(xiàn)了兩處錯誤:強(qiáng) → 墻,,都好處 → 恰到好處。像原子核,、電荷,、斥力這些物理名詞,聽悟都能弄明白,。 我們用同一段視頻在飛書妙記上也進(jìn)行了測試,。基本問題也不大,,但相比聽悟,,飛書多了兩處錯誤,把其中一處“原子”寫成了“園子”,,把“斥力”聽成了“勢力”,。 有意思的是,,聽悟犯的錯,飛書也一比一復(fù)刻了,??磥磉@口鍋還得量子位某說話吞字的up主來背(手動狗頭)。 訊飛聽見,,倒是分辨出了前兩位選手沒有識別出來的“恰到好處”,。但訊飛聽見基本上把“墻”全部都轉(zhuǎn)寫成了“強(qiáng)”,還出現(xiàn)了“強(qiáng)的糖?!边@種神奇的搭配,。另外,三位選手中,,只有訊飛聽見把“電磁力”聽成了“電子力”,。 總體來說,中文的識別對這些AI工具來說難度不大,。那么在英文材料面前,,它們又會表現(xiàn)如何? 我們上傳了一段馬斯克的最新訪談,,內(nèi)容是他與OpenAI過去的恩怨糾葛,。 還是先來看聽悟給出的結(jié)果。在馬斯克的這一段回答中,,聽悟沒有分辨出拉里·佩奇的名字,,除此之外基本都能識別正確。 值得一提的是,,聽悟能夠直接將英文轉(zhuǎn)寫結(jié)果翻譯成中文,,并將雙語對照顯示,翻譯質(zhì)量也相當(dāng)不錯,。 飛書妙記則成功聽出了拉里·佩奇的名字,,不過和聽悟一樣,由于馬斯克整體語速較快并且有一些口語化的表達(dá),,存在一些小錯誤,,比如把“stay at his house”寫成了“say this house”。 訊飛聽見這邊,,人名,、連讀細(xì)節(jié)處理得都不錯,不過同樣存在被馬斯克的口語化表達(dá)誤導(dǎo)的情況,,比如把“l(fā)ong into the evening”當(dāng)成了“l(fā)onging to the evening”,。 如此看來,在基礎(chǔ)能力語音識別方面,,AI工具們都已經(jīng)達(dá)到了很高的準(zhǔn)確率,,在極高的效率面前,,一些小問題已經(jīng)瑕不掩瑜。 那么,,我們將難度再升一級,,Round 2,來測試測試它們對1小時左右長視頻的總結(jié)能力,。 測試視頻是一段40分鐘的圓桌討論,,主題是中國AIGC新機(jī)遇。參與圓桌討論的共有5人,。 聽悟這邊,,從轉(zhuǎn)寫完成到AI提取關(guān)鍵詞、給出全文摘要,,一共花了不到5分鐘的時間,。 結(jié)果是醬嬸的: 不僅給出了關(guān)鍵詞,圓桌討論的內(nèi)容也總結(jié)得很到位,,并且還給視頻劃分了關(guān)鍵點(diǎn),。 對比人類編輯摘錄的話題要點(diǎn),我嗅到了一絲危機(jī)…… 值得一提的是,,針對不同嘉賓的發(fā)言,聽悟都能給出對應(yīng)的發(fā)言總結(jié),。 同樣的題目拋給飛書妙記,。目前,在內(nèi)容總結(jié)方面,,飛書妙記還只能給出關(guān)鍵詞,。 會議紀(jì)要需要手動在轉(zhuǎn)寫文字上標(biāo)注。 訊飛聽見基于星火認(rèn)知大模型,,也有能夠分析文件內(nèi)容的產(chǎn)品正在內(nèi)測,,不過需要填寫申請,排隊等待,。(有內(nèi)測資格的小伙伴歡迎分享體驗(yàn)~) 在基礎(chǔ)的訊飛聽見中,,目前沒有類似的總結(jié)功能。 看來這一輪測試: 不過要說在本次實(shí)測中,,通義聽悟最令人感覺驚喜的,,其實(shí)是一個“小”設(shè)計: Chrome插件功能。 無論是看英文視頻,,看直播,,還是上課開會,點(diǎn)開聽悟插件,,就能實(shí)現(xiàn)音視頻的實(shí)時轉(zhuǎn)錄和翻譯,。 就像開頭所展示的那樣,,拿來當(dāng)實(shí)時字幕用,延遲低,,翻譯快,,還有雙語對照功能,同時,,錄音和轉(zhuǎn)寫文字都能一鍵保存下來,,方便后續(xù)使用。 媽媽再也不用擔(dān)心我啃不下來英文視頻資料了,。 另外,,我還有個大膽的想法…… 開組會的時候打開聽悟,開會兒小差再也不用怕被導(dǎo)師突然抽查了,。 目前,,聽悟已經(jīng)和阿里云盤打通,存放在云盤中的音視頻內(nèi)容可以一鍵轉(zhuǎn)寫,,在線播放云盤視頻時還能自動顯示字幕,。并且在企業(yè)版本中,AI整理后的音視頻文件將來還可以在內(nèi)部快速分享,。 聽悟官方還透露,,接下來,聽悟還會持續(xù)上新大模型能力,,比如直接抽取視頻內(nèi)的PPT截圖,、針對音視頻內(nèi)容可以直接向AI提問…… 關(guān)鍵是,公測福利現(xiàn)在人人可薅,,每天登陸即可自動獲得2小時轉(zhuǎn)寫時長,,阿里云官方微博、微信及各大平臺社區(qū)還會發(fā)放大量20小時轉(zhuǎn)寫口令碼,,并且時長均可疊加,,一年內(nèi)有效。 勤快點(diǎn)的羊毛大師,,攢出100小時以上的免費(fèi)時長不是夢(手動狗頭),。 背后技術(shù):大語言模型+語音SOTA 其實(shí),在公測之前,,通義聽悟就已經(jīng)在阿里內(nèi)部精心打磨過了,。 去年年底,也有量子位讀者拿到了聽悟內(nèi)測體驗(yàn)卡,,當(dāng)時版本中,,已經(jīng)有離線語音/視頻轉(zhuǎn)寫和實(shí)時轉(zhuǎn)寫的功能。 這次公測,聽悟主要是接入了通義千問大模型的摘要及對話能力,。具體而言,,是以通義千問大模型為基座,融合了研發(fā)團(tuán)隊在推理,、對齊和對話問答等方面的研究成果,。 首先,如何準(zhǔn)確抽取關(guān)鍵信息,,是這類神器提升工作效率的關(guān)鍵,。這就需要借助大模型的推理能力。 阿里AI團(tuán)隊在2022年提出了基于大語言模型的知識探測與推理利用框架Proton(Probing Turning from Large Language Models),。相關(guān)論文發(fā)表在KDD2022和SIGIR2023等國際頂會上,。 該框架的核心思路在于,探測大模型的內(nèi)部知識,,以思維鏈為載體進(jìn)行知識流動和利用,。 在通用常識推理CommonsenseQA2.0、物理常識推理PIQA,、數(shù)值常識推理Numbersense三大榜單上,,Proton曾先后取得第一。 在TabFact(事實(shí)驗(yàn)證)榜單上,,Proton憑借知識分解和可信思維鏈技術(shù),,首次實(shí)現(xiàn)了超越人類的效果。 其次,,為了確保摘要內(nèi)容和格式符合用戶預(yù)期,,在對齊方面,聽悟還用上了ELHF,,即基于人類反饋的高效對齊方法。 該方法僅需少量高質(zhì)量人工反饋樣本,,就能實(shí)現(xiàn)對齊,。在模型效果主觀評測中,ELHF能使模型勝率提高20%,。 在此之外,,聽悟背后的研發(fā)團(tuán)隊,還發(fā)布了首個中文超大規(guī)模文檔對話數(shù)據(jù)集Doc2Bot,。該團(tuán)隊提升模型問答能力的Re3G方法,,已經(jīng)入選ICASSP 2023:該方法通過Retrieve(檢索)、Rerank(重排序),、Refine(精調(diào))和Generate(生成)四個階段,,能提升模型對用戶問題的理解、知識檢索和回復(fù)生成能力,在Doc2Dial和Multi Doc2Dial兩大文檔對話榜單中取得第一,。 除了大模型能力,,聽悟還是阿里語音技術(shù)的集大成者。 其背后的語音識別模型Paraformer,,來自阿里達(dá)摩院,,首次在工業(yè)級應(yīng)用層面解決了端到端識別效果與效率兼顧的難題: 不僅在推理效率上較傳統(tǒng)模型提升10倍,剛推出時還“屠榜”多個權(quán)威數(shù)據(jù)集,,刷新語音識別準(zhǔn)確率SOTA,。在專業(yè)第三方全網(wǎng)公共云中文語音識別評測SpeechIO TIOBE白盒測試中,目前,,Paraformer-large仍是準(zhǔn)確率最高的中文語音識別模型,。 Paraformer是單輪非自回歸模型,由編碼器,、預(yù)測器,、采樣器、解碼器和損失函數(shù)這五個部分組成,。 通過對預(yù)測器的創(chuàng)新設(shè)計,,Paraformer實(shí)現(xiàn)了對目標(biāo)文字個數(shù)及對應(yīng)聲學(xué)隱變量的精準(zhǔn)預(yù)測。 另外,,研究人員還引入了機(jī)器翻譯領(lǐng)域中瀏覽語言模型(GLM)的思路,,設(shè)計了基于GLM的采樣器,增強(qiáng)了模型對上下文語義的建模,。 同時,,Paraformer還使用了數(shù)萬小時、覆蓋豐富場景的超大規(guī)模工業(yè)數(shù)據(jù)集進(jìn)行訓(xùn)練,,進(jìn)一步提升了識別準(zhǔn)確率,。 而準(zhǔn)確的多人討論發(fā)言人區(qū)分,則得益于達(dá)摩院的CAM++說話人識別基礎(chǔ)模型,。該模型采用基于密集型連接的時延網(wǎng)絡(luò)D-TDNN,,每一層的輸入均由前面所有層的輸出拼接而成,這種層級特征復(fù)用和時延網(wǎng)絡(luò)的一維卷積,,可以顯著提高網(wǎng)絡(luò)的計算效率,。 在行業(yè)主流的中英文測試集VoxCeleb和CN-Celeb上,CAM++均刷新了最優(yōu)準(zhǔn)確率,。 大模型開卷,,用戶受益據(jù)中國科學(xué)技術(shù)信息研究所報告,據(jù)不完全統(tǒng)計,,目前國內(nèi)已經(jīng)發(fā)布了79個大模型,。 這種大模型開卷的趨勢下,AI應(yīng)用進(jìn)化的速度再次進(jìn)入到一個沖刺階段。 站在用戶的角度來說,,喜聞樂見的局面正逐步形成: 大模型的“統(tǒng)籌”之下,,各種AI技術(shù)開始在應(yīng)用側(cè)百花齊放,使得工具越來越高效,,越來越智能,。 從一個斜杠就能幫你自動寫完工作計劃的智能文檔,到快速幫你總結(jié)要素的音視頻記錄和分析工具,,生成式大模型這朵AGI的火花,,正在讓越來越多的人感受到AI的魔力。 與此同時,,對于科技企業(yè)來說,,新的挑戰(zhàn)和新的機(jī)會,無疑也已經(jīng)出現(xiàn),。 挑戰(zhàn)是,,所有產(chǎn)品都將被大模型的風(fēng)暴席卷,技術(shù)創(chuàng)新已經(jīng)成為了無可回避的關(guān)鍵問題,。 機(jī)會是,,對于新的殺手級應(yīng)用而言,重寫市場格局的時間點(diǎn)已經(jīng)到來,。而誰能拔得頭籌,,就要看誰的技術(shù)準(zhǔn)備更充分,誰的技術(shù)進(jìn)化速度更快了,。 無論如何,,技術(shù)開卷,終將是用戶受益,。 官網(wǎng)地址:https://tingwu.aliyun.com — 完 — 量子位 QbitAI · 頭條號簽約 關(guān)注我們,,第一時間獲知前沿科技動態(tài) |
|