【原】不止于好看的皮囊,，盤古大腦為數(shù)字人注入靈魂

TechForWhat 2024-07-31

展開全文

作者 | 常棣

編輯 | 葛覃

數(shù)字人進(jìn)入千行百業(yè)的場(chǎng)景之中,，比想象得要快,，也比預(yù)期中更難。

所謂數(shù)字人,，可以理解為通過計(jì)算機(jī)圖形學(xué)、語(yǔ)音合成技術(shù),、深度學(xué)習(xí)等聚合科技創(chuàng)造，并具有人的外觀,、行為、甚至思考方式的可交互虛擬形象,。

不知從何時(shí)起,，數(shù)字人已經(jīng)出現(xiàn)在很多業(yè)務(wù)領(lǐng)域，例如24小時(shí)不間斷的數(shù)字人主播,，隨時(shí)在線解答問題的數(shù)字人客服,，文旅行業(yè)復(fù)現(xiàn)的古代數(shù)字名人等，他們以不同的角色和形態(tài),，成為現(xiàn)實(shí)世界與數(shù)字世界之間的橋梁。

然而,，正如所有技術(shù)發(fā)展會(huì)經(jīng)歷的成熟度曲線,，數(shù)字人也難免落入窠臼。絕大多數(shù)數(shù)字人依靠算法預(yù)先編程和基于規(guī)則的系統(tǒng),，在特定情境中做出行為和反應(yīng),，無(wú)法真正理解環(huán)境或從經(jīng)驗(yàn)中學(xué)習(xí)。

當(dāng)始于顏值的數(shù)字人行至產(chǎn)業(yè)分岔路口,，大模型會(huì)是數(shù)字人終于價(jià)值的答案么,？華為云盤古大腦試圖回答這一問題。

大模型,，重新定義數(shù)字人

任何技術(shù)只有準(zhǔn)確的定位，才能充分發(fā)揮其價(jià)值,。數(shù)字人是多種前沿科技的集大成者，但是此前的技術(shù)融合缺少一味“主藥”,，數(shù)字人要想接近真人般的交互,，不只在于一副好看的皮囊，更在于“獨(dú)特的靈魂”,。

過去AI數(shù)字人僅僅將2D圖片轉(zhuǎn)換為3D數(shù)字人，用于帶貨,、直播等偏娛樂的場(chǎng)景，卻無(wú)法大規(guī)模落地解決產(chǎn)業(yè)級(jí)問題,。如果不同的數(shù)字人只是外表有差別,，相當(dāng)于舊有業(yè)務(wù)系統(tǒng)的核心未變，僅僅加上了一層華而不實(shí)的外衣,，價(jià)值空間終究有限,。

直到大模型的出現(xiàn)，重新定義了數(shù)字人,，也大大拓寬了數(shù)字人的想象空間。

數(shù)字人的落點(diǎn)在于“人”,，要在數(shù)字世界進(jìn)一步接近人工智能,，數(shù)字人需要有更先進(jìn)的算法、更強(qiáng)大的算力以及更深層次的感知和理解能力,，這就是大模型對(duì)于數(shù)字人的意義,。

此外，現(xiàn)在的數(shù)字人在預(yù)訓(xùn)練大模型的推動(dòng)下,，不但能夠?qū)?shù)字人的制作成本降低,，在更短的時(shí)間內(nèi)賦予數(shù)字人獨(dú)特的外貌、性格,、特長(zhǎng)，還能夠?qū)⑵湓趯兕I(lǐng)域進(jìn)行內(nèi)容創(chuàng)作的能力作為內(nèi)容生產(chǎn)工具幫助企業(yè)降本增效。

數(shù)字人與大模型的結(jié)合,，突破了此前的應(yīng)用邊界,。例如虛擬員工、智能客服：可完成業(yè)務(wù)咨詢,、資訊推送,、服務(wù)引導(dǎo)、事項(xiàng)辦理等政務(wù)服務(wù),；政策導(dǎo)讀和宣傳數(shù)字人：以生動(dòng)形象的方式向公眾傳達(dá)政策內(nèi)容和精神等；醫(yī)療健康數(shù)字人,，可服務(wù)患者實(shí)現(xiàn)醫(yī)療問答互動(dòng)，并根據(jù)病情特征反饋,，引導(dǎo)患者線上掛號(hào)和在線問診。

盤古大腦,，如何為數(shù)字人注入靈魂

并不是所有的數(shù)字人都是AI數(shù)字人,，根據(jù)咨詢機(jī)構(gòu)IDC的分級(jí)，目前數(shù)字人多處在L1-L3階段,，L1-L3階段的數(shù)字人生產(chǎn)包括簡(jiǎn)單的人物形象,，依賴外部設(shè)備采集人體特征信息,，再到依靠算法驅(qū)動(dòng)肢體動(dòng)作等等，L3階段也只限于文本和圖片的簡(jiǎn)單交互方式,。

L4-L5階段即實(shí)現(xiàn)AI驅(qū)動(dòng),，由數(shù)字人自主進(jìn)行決策以及執(zhí)行任務(wù),，同時(shí)在交互方式上也有新的突破，實(shí)現(xiàn)流暢的多模態(tài)實(shí)時(shí)交互,，目前數(shù)字人行業(yè)中極少有公司能夠?qū)崿F(xiàn),。

如前所述,，數(shù)字人是多種前沿科技的集大成者，這就要求數(shù)字人廠商具備將技術(shù)融會(huì)貫通的能力,，以及具備在應(yīng)用場(chǎng)景中兌現(xiàn)技術(shù)價(jià)值的行業(yè)認(rèn)知,，華為云盤古大腦因此而來。

盤古大腦可通過語(yǔ)音識(shí)別,、自然語(yǔ)言理解,、機(jī)器學(xué)習(xí)等人工智能技術(shù),，使機(jī)器理解人類語(yǔ)言并與人類進(jìn)行有效溝通,，進(jìn)而根據(jù)對(duì)人類語(yǔ)言中的意圖進(jìn)行理解并執(zhí)行相應(yīng)任務(wù)或做出回答的系統(tǒng),。

智能對(duì)話系統(tǒng)可賦能于多種企業(yè)服務(wù)場(chǎng)景，以文本機(jī)器人、語(yǔ)音機(jī)器人,、多模態(tài)數(shù)字人、智能質(zhì)檢和坐席輔助等對(duì)話機(jī)器人產(chǎn)品形式服務(wù)于客服,、營(yíng)銷、企業(yè)信息服務(wù)等場(chǎng)景,。

AI數(shù)字人不是數(shù)字人和大模型的簡(jiǎn)單組合，實(shí)則是核心業(yè)務(wù)系統(tǒng)的全面重構(gòu),。

例如對(duì)話中控,，通過對(duì)話中控實(shí)現(xiàn)多輪問答理解和識(shí)別，實(shí)現(xiàn)問題分發(fā)到大模型任務(wù)問答,、Agent問答和知識(shí)增強(qiáng)問答,；基于知識(shí)樹追問,，可以基于從用戶文檔&知識(shí)提煉挖掘或者用戶自構(gòu)建的知識(shí)樹實(shí)現(xiàn)主動(dòng)多輪追問,；大模型任務(wù)問答，識(shí)別用戶意圖后,，通過大模型實(shí)現(xiàn)知識(shí)提取并智能生成追問,，提取完整后執(zhí)行業(yè)務(wù)API。簡(jiǎn)單任務(wù)一般采用任務(wù)問答,，準(zhǔn)確率高，比如差旅,、訂票等。

再如大模型Agent問答,，基于插件召回、Agent-LLM動(dòng)態(tài)規(guī)劃實(shí)現(xiàn)Agent問答,，復(fù)雜任務(wù)采用Agent問答,，靈活性好,，可根據(jù)客戶和市場(chǎng)情況分析投資策略,；知識(shí)增強(qiáng)問答,，基于大模型實(shí)現(xiàn)多元異構(gòu)的知識(shí)增強(qiáng)問答，知識(shí)包括文檔,、網(wǎng)頁(yè),、圖譜,、多模態(tài)等。

當(dāng)大模型為數(shù)字人“啟智”,，數(shù)字人最大的進(jìn)化不在外表,，而在于靈魂，而要支撐數(shù)字人的靈魂,，需要一系列新的技術(shù)要素,，互相碰撞交織以適應(yīng)新的數(shù)字人形態(tài)，由此盤古大腦得以為數(shù)字人注入靈魂,。

新數(shù)字人,，落地產(chǎn)業(yè)

從文本,、語(yǔ)音到多模態(tài)機(jī)器人,，大模型加持的智能對(duì)話系統(tǒng)，以數(shù)字人的形態(tài)形式與用戶溝通,，提供智能化、高效化的交互服務(wù),，新數(shù)字人已經(jīng)落地于復(fù)雜的產(chǎn)業(yè)場(chǎng)景,。

城市推介是城市對(duì)外的窗口,，城市智能推介數(shù)字可通過智能對(duì)話交互,，向企業(yè)/市民介紹城市概況以及各種政策，方便用戶快速了解政務(wù)辦事等,。在城市推介過程中,，真人講解員會(huì)面臨忘詞的情況，也可能無(wú)法面面俱到,，不清楚最新的政策,。

數(shù)字人可以保證穩(wěn)定,、全面的講解,，背靠海量的知識(shí)庫(kù),，容納所有城市推介相關(guān)訊息,，給出貼切的回答,。同時(shí),，數(shù)字講解員的互動(dòng)能力更強(qiáng)，可以結(jié)合大屏交互,，以更好的形式去呈現(xiàn)結(jié)果,。

再如某城管局,，基于華為云數(shù)字人智能播報(bào)平臺(tái)打造政策法規(guī)宣傳自動(dòng)化流水線,，媲美真人的形象克隆,、真假難分的聲音克隆，分鐘級(jí)形象渲染和視頻推理,，以及大模型賦能的文案生成,、文案優(yōu)化能力,，通過簡(jiǎn)單的操作，高效率,、高質(zhì)量的輸出政策講解宣傳視頻。

值得一提的是,，新技術(shù)不僅要?jiǎng)?chuàng)造新場(chǎng)景,，也要與原有的業(yè)務(wù)產(chǎn)生聯(lián)系,，華為云和云迪,、中數(shù)通等伙伴攜手集成智慧城管系統(tǒng)，將垃圾分類,、園林綠化、土地管理,、水務(wù)管理,、交通管理等城市管理法規(guī)收歸一心，實(shí)現(xiàn)了跨系統(tǒng)的協(xié)同,，進(jìn)一步拓寬了技術(shù)的邊界,。

由此也可看出，華為云在云計(jì)算,、大數(shù)據(jù)和人工智能等技術(shù)層面,，布局許久且積累了充足的實(shí)踐經(jīng)驗(yàn)，匯聚成為數(shù)字人生長(zhǎng)的養(yǎng)料,。

以盤古大模型為例,，盤古大模型5.0在全系列、多模態(tài),、強(qiáng)思維三個(gè)方面帶來全新升級(jí),，不同參數(shù)規(guī)格的模型,，以適配不同的業(yè)務(wù)場(chǎng)景,，多模態(tài)能力能夠更好更精準(zhǔn)地理解物理世界,，同時(shí)盤古大模型將思維鏈技術(shù)與策略搜索深度結(jié)合,，極大地提升了數(shù)學(xué)能力,、復(fù)雜任務(wù)規(guī)劃能力以及工具調(diào)用能力,。

數(shù)字人和大模型等新技術(shù)，都需要在合適的場(chǎng)景下發(fā)揮價(jià)值,，當(dāng)技術(shù)和場(chǎng)景的需求愈發(fā)復(fù)雜,，單一技術(shù)無(wú)法解決問題，華為云盤古大腦既可以將多種技術(shù)協(xié)同組合,，也可與合作伙伴為場(chǎng)景找到合適的解決方案，讓新技術(shù)快速融入到業(yè)務(wù)深處,，在產(chǎn)業(yè)中發(fā)揮更大價(jià)值,。