久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

百分點(diǎn)蘇海波:深度遷移學(xué)習(xí)在NLP中的應(yīng)用及實(shí)踐

 hlhq1 2019-11-29
AI 前線導(dǎo)讀:深度遷移學(xué)習(xí)無疑是當(dāng)前 NLP 領(lǐng)域的主流技術(shù),,在越來越多的實(shí)際應(yīng)用場(chǎng)景中取得了令人矚目的成就,。那么,如何更好地應(yīng)用這項(xiàng)技術(shù)解決小樣本,、算力不足的難題,?如何在多種流派技術(shù)思想碰撞中找尋最優(yōu)解,?實(shí)際上,,百分點(diǎn)在 NLP 方面已經(jīng)擁有多年的技術(shù)和業(yè)務(wù)實(shí)踐經(jīng)驗(yàn),服務(wù)了數(shù)百家企業(yè)和政府客戶,,并且成功采用深度遷移學(xué)習(xí)技術(shù)解決了各個(gè)行業(yè)客戶的 NLP 現(xiàn)實(shí)業(yè)務(wù)問題,。

11 月 21 日,在北京國(guó)際會(huì)議中心開幕的 AICon 全球人工智能與機(jī)器學(xué)習(xí)大會(huì)首日,,百分點(diǎn)首席算法科學(xué)家蘇海波受邀參會(huì),,與國(guó)內(nèi)外大咖共同分享 AI 最佳實(shí)踐,, 深度解剖了模型的技術(shù)原理、Google TPU 的使用經(jīng)驗(yàn),、模型的參數(shù)調(diào)優(yōu)和數(shù)據(jù)增強(qiáng)等優(yōu)化技巧,,同時(shí)分享了深度遷移學(xué)習(xí)模型在智能問答、增強(qiáng)分析,、情感分析等各種 NLP 任務(wù)中的應(yīng)用實(shí)踐和價(jià)值,。

以下為演講實(shí)錄:

沖破深度學(xué)習(xí)的困境

大家都知道,Algphago 在圍棋中擊敗了人類,,但它仍然有明顯的缺陷,,無法像人類一樣舉一反三,它針對(duì)的是 19*19 的棋盤,,如果換成 21*21 的棋盤,,Alphago 立馬就失效了,但人類卻可以觸類旁通,。

以騎車來為例,,如果學(xué)會(huì)了自行車,那么在學(xué)習(xí)摩托車的時(shí)候,,就會(huì)借鑒騎自行車的經(jīng)驗(yàn),,大大加快摩托車的學(xué)習(xí)速度,這種遷移學(xué)習(xí)的能力對(duì)于人類學(xué)習(xí)新事物起著非常關(guān)鍵的作用,。

AI 界大神吳恩達(dá)曾經(jīng)說過:遷移學(xué)習(xí)將會(huì)是繼監(jiān)督學(xué)習(xí)之后,,未來五年最有可能走向商用的 AI 技術(shù)。那么,,什么是遷移學(xué)習(xí),?遷移學(xué)習(xí)是指利用數(shù)據(jù)、任務(wù)或模型之間的相似性,,將在舊領(lǐng)域?qū)W習(xí)過的模型,,應(yīng)用于新領(lǐng)域的一種學(xué)習(xí)過程。

之所以需要遷移學(xué)習(xí),,是因?yàn)橐鉀Q以下四個(gè)問題:

1. 深度學(xué)習(xí)和少標(biāo)注之間的矛盾: 目前深度學(xué)習(xí)只有在擁有充足標(biāo)注數(shù)據(jù)的場(chǎng)景下,,才能發(fā)揮它的威力。但是在實(shí)際的很多問題中,,我們沒有足夠的標(biāo)注數(shù)據(jù),,這時(shí)就需要遷移學(xué)習(xí);

2. 強(qiáng)算力與弱資源之間的矛盾: 某些海量數(shù)據(jù)的模型訓(xùn)練任務(wù),,需要非常大的算力,,大公司才能燒得起這個(gè)錢,而普通人的機(jī)器資源是很有限的,需要讓他們也能利用這些數(shù)據(jù)和模型,;

3. 通用模型與個(gè)性化需求之間的矛盾: 通用的模型可以解決絕大多數(shù)的公共問題,,但是具體到個(gè)性化的需求,都存在其獨(dú)特性,,通用模型根本無法滿足,。因此,需要將這個(gè)通用的模型加以改造和適配,,使其更好地服務(wù)于各種個(gè)性化需求,;

4. 特定應(yīng)用的需求: 現(xiàn)實(shí)世界的某些特定應(yīng)用,例如個(gè)性化推薦,,存在用戶數(shù)據(jù)的冷啟動(dòng)問題,,那么通過遷移學(xué)習(xí)則可以將相似領(lǐng)域的知識(shí)遷移過來。

遷移學(xué)習(xí)方法可以分為四類,,包括基于樣本的遷移學(xué)習(xí)方法,、基于特征的遷移學(xué)習(xí)方法、基于模型的遷移學(xué)習(xí)方法和基于關(guān)系的遷移學(xué)習(xí)方法,。

今天我和大家分享的是基于模型的遷移方法,,就是在源領(lǐng)域和目標(biāo)領(lǐng)域構(gòu)建參數(shù)共享的模型,例如圖中的吉娃娃判別模型和牧羊犬判別模型,,在是否有腳和是否有眼睛的模型部分可以共享,。

基于模型的遷移學(xué)習(xí)方法:從圖像到 NLP

基于模型的遷移方法在深度神經(jīng)網(wǎng)絡(luò)里面應(yīng)用的特別多,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以直接進(jìn)行遷移,,我們稱之為深度遷移學(xué)習(xí),。 早期這種方法應(yīng)用在計(jì)算機(jī)視覺中的圖像識(shí)別,在源領(lǐng)域?qū)W習(xí)到的低層次特征具有通用性,,包括邊緣特征,、形狀特征等,從而可以在源領(lǐng)域預(yù)訓(xùn)練整個(gè)模型,,并將低層次的通用特征遷移到目標(biāo)領(lǐng)域,,能顯著提高對(duì)應(yīng)的模型學(xué)習(xí)效果。

在 2018 年,,隨著 Google BERT 的出現(xiàn),,這種預(yù)訓(xùn)練模型的方法開始應(yīng)用在 NLP 領(lǐng)域,對(duì) NLP 領(lǐng)域是一次革命性的影響,。 如果把學(xué)習(xí)單詞向量比作計(jì)算機(jī)視覺中學(xué)習(xí)圖像邊緣,,那么 NLP 中的預(yù)訓(xùn)練模型就像學(xué)習(xí)圖像特征的完整層次結(jié)構(gòu)一樣,從邊緣到形狀,,再到高級(jí)語義概念,。

上圖展示了 NLP 中深度遷移學(xué)習(xí)的技術(shù)思路,,先通過已有的源領(lǐng)域海量語料,,利用無監(jiān)督的方式訓(xùn)練出一個(gè)語言模型,,即預(yù)訓(xùn)練模型。然后在具體的目標(biāo)任務(wù)中,,將該預(yù)訓(xùn)練模型遷移過來,,上面接一層全連接網(wǎng)絡(luò)或者深度網(wǎng)絡(luò)(例如 CNN、LSTM,、DenseNet,、HighWayLSTM 等),結(jié)合當(dāng)前任務(wù)的標(biāo)注樣本訓(xùn)練模型,,這種方法相比深度學(xué)習(xí)模型,,能大大降低所需要的樣本數(shù)量。

最佳實(shí)踐:底層效率提升 + 三大場(chǎng)景應(yīng)用

百分點(diǎn)在各種 NLP 任務(wù)中已經(jīng)廣泛使用 BERT 技術(shù),,并進(jìn)行持續(xù)的優(yōu)化和改進(jìn),,包括 采用 Google TPU 解決算力的瓶頸、采用 BERT 和上層神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合參數(shù)調(diào)優(yōu),、采用 BERT 的各種擴(kuò)展模型和數(shù)據(jù)增強(qiáng)進(jìn)行效果提升等方面進(jìn)行探索和實(shí)踐,。

百分點(diǎn)認(rèn)知智能業(yè)務(wù)的技術(shù)框架圖

百分點(diǎn)認(rèn)知智能業(yè)務(wù)的技術(shù)框架,在底層的硬件資源除了 CPU 和 GPU,,還會(huì)租用 google 的 TPU,,機(jī)器學(xué)習(xí)平臺(tái)從傳統(tǒng)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)逐漸轉(zhuǎn)向現(xiàn)在主流的深度遷移學(xué)習(xí),;核心的認(rèn)知智能技術(shù)層包括自然語言處理,、知識(shí)圖譜和智能交互,智能交互中分為 QA 型問答,、任務(wù)型問答,、閱讀理解和 NL2SQL;在行業(yè)中的典型認(rèn)知智能應(yīng)用包括公檢法的智能檢務(wù)問答系統(tǒng),,快消零售中的智能商情分析系統(tǒng),,公共安全中的智能翻譯系統(tǒng)以及媒體出版的智能審校系統(tǒng)。

接下來圍繞著架構(gòu)圖中標(biāo)紅的技術(shù)點(diǎn)和應(yīng)用進(jìn)行展開,。

Google TPU 的實(shí)踐

在預(yù)訓(xùn)練語言模型時(shí),,我們會(huì)采集大量的語料(包括維基百科、百度百科,、微博,、微信等,大約達(dá)到幾十 G 左右),,訓(xùn)練出一個(gè)通用的預(yù)訓(xùn)練模型,,但 base 版本的 BERT 模型有 1.5 億個(gè)參數(shù),,而 large 版本的則超過 3 億,fine-tune 和重新預(yù)訓(xùn)練需要的算力太高,。

另外,,我們?cè)诨陬A(yù)訓(xùn)練模型進(jìn)行實(shí)際 NLP 開發(fā)時(shí),會(huì)同時(shí)有多個(gè)任務(wù)進(jìn)行,,如果串行來做,,需要花費(fèi)大量時(shí)間等待;如果并行來做,,消耗算力太大,,硬件成本負(fù)擔(dān)不起。因此,,如何探索出一種高效省錢的研發(fā)模式,,將是 NLP 算法研究員和工程師面臨的普遍問題。結(jié)合我們的實(shí)踐經(jīng)驗(yàn),,采用 Google 的 TPU 資源是其中的一種解決方案,,TPU 的運(yùn)算速度是 GPU 的 80 倍以上。

我們以租用 TPU V2 八核心為例,,系統(tǒng)地說明創(chuàng)建虛擬機(jī)實(shí)例和 TPU 實(shí)例的方法,。首先進(jìn)入到谷歌云的首頁:

然后需要?jiǎng)?chuàng)建一個(gè) VM 實(shí)例,在選項(xiàng)中進(jìn)行顯存,、內(nèi)存數(shù)量,、系統(tǒng)鏡像等配置。

接下來創(chuàng)建 TPU,,有幾個(gè)選項(xiàng)值得注意,, TPUtype 一項(xiàng)中,會(huì)出現(xiàn) v2-8,,v3-8,,v3-32 等選項(xiàng)的說明,其中 v2 或 v3 為 tpu 的型號(hào),,-8 或 -32 則為核心數(shù)量,,最小的核心數(shù)量為 8 核心。

我們使用 TPU V2-8 進(jìn)行計(jì)算,,并與主流 GPU 從運(yùn)算時(shí)間和花費(fèi)上進(jìn)行對(duì)比,,分別使用了 TPU 和 GPU 對(duì) BERT 模型進(jìn)行 500K 步訓(xùn)練。結(jié)果如圖所示,,使用 GPU 進(jìn)行訓(xùn)練花費(fèi)了大約 7 天時(shí)間,,而使用 TPU 進(jìn)行訓(xùn)練僅需要了 1.2 天即可完成。同時(shí),,在總費(fèi)用成本上也是大量的縮減,??梢姡琓PU 在 BERT 預(yù)訓(xùn)練模型的運(yùn)算時(shí)間和總成本上完勝了當(dāng)前主流的 GPU,。

我們?cè)偈褂?TPU 作為加速硬件的方法對(duì) BERT 模型進(jìn)行十輪小時(shí)的時(shí)間,,這項(xiàng)技術(shù)大大提升了 NLP 領(lǐng)域進(jìn)行的 fine-tune,通過和現(xiàn)在主流的 GPU Tesla V100*8 進(jìn)行對(duì)比發(fā)現(xiàn),,TPU 完成 fine-tune 僅僅需要約 10min 的時(shí)間,,而 GPU 完成同樣的 fine-tune 需要超過一個(gè)神經(jīng)網(wǎng)絡(luò)計(jì)算的效率,,而且從總花費(fèi)的角度上來看,,使用 TPU 的成本只有 GPU 的 3.5% 左右。

因此,,TPU 的超高效率和低廉價(jià)格將神經(jīng)網(wǎng)絡(luò)計(jì)算變得更加“親民”,,TPU 可以從根本上解決中小公司算力要求高但經(jīng)費(fèi)不足的顧慮,曾經(jīng)那種需要幾十臺(tái) GPU 幾天時(shí)間的 BERT 預(yù)訓(xùn)練,,現(xiàn)在由一個(gè) TPU 一天就可以輕松解決,,這讓所有的中小型企業(yè)也可以擁有之前所缺少的強(qiáng)大算力。TPU 雖然在多個(gè)方面上完勝 GPU,,但我們認(rèn)為 TPU 仍然有很多可改進(jìn)的地方:

1.TPU 的代碼示例和文檔少,,使用門檻很高;

2.TPU 是圍繞 Tensorflow 框架設(shè)計(jì)的硬件,,使用其他人工智能框架的項(xiàng)目很難高效低成本地運(yùn)用 TPU 進(jìn)行運(yùn)算,;

3.TPU 在 checkpoint 讀寫方面效率低下,導(dǎo)致其運(yùn)算小型模型的時(shí)候,,效率并沒有顯著優(yōu)勢(shì),。

情感分類中的實(shí)踐

情感分類是百分點(diǎn)智能消費(fèi)者洞察分析系統(tǒng)的核心功能,該系統(tǒng)基于電商,、微信,、微博、論壇等數(shù)據(jù),,進(jìn)行各種文本語義分析(包括情感分析,、熱點(diǎn)分析等),最終支持口碑分析,、趨勢(shì)分析,、用戶體驗(yàn)分析等應(yīng)用決策。目前,,該產(chǎn)品已經(jīng)服務(wù)了快消零售行業(yè)的多家標(biāo)桿客戶,。

需要注意的是,情感分類分為短文本和長(zhǎng)文本兩種情況,,因?yàn)?BERT 模型對(duì)輸入的文本有長(zhǎng)度限制,,不能超過 512 個(gè)字,。

在短文本情感分類上,在 BERT 預(yù)訓(xùn)練模型出現(xiàn)之前,,我們采用的是卷積神經(jīng)網(wǎng)絡(luò) CNN 模型,,最早應(yīng)用于圖像,后來也可以應(yīng)用到文本的情感分析,。CNN 主要包括輸入層,、卷積層、池化層和全連接層構(gòu)成,,卷積的計(jì)算方式是相鄰區(qū)域內(nèi)元素的加權(quán)求和,,與位置無關(guān),實(shí)現(xiàn)了權(quán)值參數(shù)共享,,池化層實(shí)現(xiàn)了空間采樣,,這些方式大大減小了神經(jīng)網(wǎng)絡(luò)的參數(shù),避免模型過擬合,。

對(duì)于短文本的情感分類任務(wù),,BERT 模型在文本前插入一個(gè) [CLS] 符號(hào),并將該符號(hào)對(duì)應(yīng)的輸出向量作為這段文本的語義表示,,用于情感分類,,因?yàn)榕c文本中已有的其它字相比,這個(gè)無語義信息的符號(hào)會(huì)更“公平”地融合文本中各個(gè)字的語義信息,。

上面分別是 BERT 和 CNN 的實(shí)驗(yàn)結(jié)果,,可以看到兩個(gè)模型隨著訓(xùn)練數(shù)據(jù)的增加,情感分類的準(zhǔn)確率都在不斷提升,。不過二者的對(duì)比差異也很明顯,,BERT 模型在訓(xùn)練集只有 1000 時(shí),預(yù)測(cè)的準(zhǔn)確率就達(dá)到了 90%,;而 CNN 模型在訓(xùn)練集樣本數(shù)到 100000 時(shí),,預(yù)測(cè)的準(zhǔn)確率才只有 88.2%。這說明,,深度遷移學(xué)習(xí)模型需要的標(biāo)注樣本數(shù)遠(yuǎn)遠(yuǎn)小于以往的深度學(xué)習(xí)模型,,就能達(dá)到更好的效果。

由于 BERT 模型輸入文本有 512 個(gè)字的限制,,短文本分類比較直接,,直接輸入 BERT 模型即可。但針對(duì)長(zhǎng)文本,,如何使用 BERT 模型呢,?如果直接截取前面的 512 個(gè)字,會(huì)有信息損失,。我們的方案是將長(zhǎng)文本進(jìn)行平均截?cái)?,例如按照平?6 段進(jìn)行截?cái)?,劃分為若干個(gè)短文本,然后輸入對(duì)應(yīng)的 BERT 模型或者各種變種,,例如 RoBERT,、Xlnet 等,然后再將輸出的增強(qiáng)語義向量進(jìn)行拼接,,后面再接上 GRU 模型,。

我們對(duì)標(biāo)注數(shù)據(jù)集進(jìn)行 5 折劃分,通過交叉驗(yàn)證平均截?cái)嗖呗缘男Ч?。上圖的實(shí)驗(yàn)結(jié)果表明,,用 RoBERTa+ 平均截?cái)嘤?xùn)練生成的模型的 F1 值均比 RoBERTa 版的模型高,表明長(zhǎng)文本情感分類中,,平均截?cái)嗖呗阅苡行嵘A(yù)訓(xùn)練模型效果,。

另外,,我們還采用了 post train 的方法提升模型的效果,,實(shí)驗(yàn)結(jié)果證明,在每一份數(shù)據(jù)上,,RoBERTa+ Post train 結(jié)合的 F1 和 Acc 均比 RoBERTa 版的模型高,,所以長(zhǎng)文本情感分類中,Post train 策略能有效提升預(yù)訓(xùn)練模型效果,。

智能問答中的實(shí)踐

接下來介紹的是百分點(diǎn)預(yù)訓(xùn)練模型在智能問答中的實(shí)踐,。

我們開發(fā)了一款智能檢務(wù)問答系統(tǒng),解決的是老百姓的法律普及問題,,針對(duì)廣大民眾日常生活中遇到的法律疑問,,給出智能解答,提升民生體驗(yàn),,這個(gè)系統(tǒng)榮獲“2019 全國(guó)政法智能化建設(shè)優(yōu)秀創(chuàng)新產(chǎn)品”獎(jiǎng),。該系統(tǒng)核心要解決的是問句的等價(jià)語義識(shí)別,因?yàn)橥粋€(gè)問題的表達(dá)方式非常多樣,,例如“未成年搶劫犯法嗎”和“未滿 18 歲搶劫是犯罪嗎”表達(dá)的就是同樣的意思,。

那么如何找到語義等價(jià)的問題呢?傳統(tǒng)的相似度搜索算法(包括余弦相似度,、編輯距離,、關(guān)鍵詞重合度、BM25)能起到一定的作用,,但仍然不夠,,例如“什么是公益訴訟?”和“什么是行政訴訟?”的編輯距離為 2,不等價(jià),,“什么是公益訴訟?”和“解釋一下公益訴訟的定義?”的編輯距離為 7,,但卻是等價(jià)的,,因此需要增加等價(jià)性的判斷模塊。

等價(jià)性判斷中存在的兩個(gè)典型問題:字面相似的句子語義不等價(jià),,字面不相似的句子語義等價(jià),。剛剛我們舉過兩個(gè)例子,為了在這兩個(gè)問題上取得好的效果,,我們的經(jīng)驗(yàn)是一方面優(yōu)化模型,,將深度學(xué)習(xí)改為深度遷移學(xué)習(xí)模型,另外通過人工標(biāo)注 + 數(shù)據(jù)增強(qiáng)的方式增加訓(xùn)練數(shù)據(jù),。

在具體的模型上,,我們研發(fā)了基于 BERT 和 BIMPM 的語義等價(jià)新模型。在 BIMPM 模型的基礎(chǔ)上我們進(jìn)行了兩方面的改造,,一方面去掉了原始 BIMPM 模型中接在字向量層的 Bi-LSTM 模型,,其原因在于 LSTM 并沒有設(shè)計(jì)機(jī)制保證梯度向深度模型的后向傳導(dǎo)。另外一方面用 Transformer 模型替代了 BIMPM 最上層的 Bi-LSTM 模型,。原因主要是考慮到 Bi-LSTM 能夠捕捉數(shù)據(jù)當(dāng)中的序列特征,。但是由于 BIMPM 采用多種匹配后,其序列性并不強(qiáng),,所以 Transformer 更適合該模型 ,。

百分點(diǎn)提出的問句層次匹配模型在公開的 Quora 數(shù)據(jù)集達(dá)到了目前的 **state-of-the-art,** 這個(gè)數(shù)據(jù)集包括了超過 400000 問題組,,專門用來研究?jī)蓚€(gè)句子是否語義等價(jià)的二分問題,。因?yàn)樵摂?shù)據(jù)集的標(biāo)注質(zhì)量非常高,它經(jīng)常用來測(cè)試語義理解的模型效果,,我們按照 7:2:1 的比例來分配訓(xùn)練集,、驗(yàn)證集和測(cè)試集,測(cè)試集上的具體實(shí)驗(yàn)結(jié)果如下:

為了進(jìn)行對(duì)比,,我們第一個(gè)結(jié)果為 BERT 單模型的的結(jié)果,,第二個(gè)、第三個(gè)則分別為 BERT 和 ABCNN,、BERT 和 BIMPM 的結(jié)果,。在提取特征的深度方面,我們選擇了 BERT 預(yù)訓(xùn)練模型的表層一層,、表面兩層和表面三層,。

如上表中結(jié)果所示,BERT 和 BIMPM 的結(jié)合已經(jīng)比 BERT 單模型的表現(xiàn)要出色,,在我們的新模型中增加 BERT 的特征層數(shù)可以提升幾個(gè)點(diǎn)的表現(xiàn),。隨著層數(shù)的增加,可以得到更高的 F1 值和準(zhǔn)確率,在層數(shù)為 3 時(shí),,準(zhǔn)確率為 90.52%,,F(xiàn)1 值為 89.68%,達(dá)到了 state-of-the-art 的效果,。

為了確保實(shí)驗(yàn)結(jié)論的有效性,,除去 Quora 的數(shù)據(jù)集之外,我們還采用了 SLNI 數(shù)據(jù)集當(dāng)中包含句子等價(jià)性的子數(shù)據(jù)集,,該子數(shù)據(jù)集包括 55 萬條訓(xùn)練集和 1 萬條測(cè)試集,。很多論文都用這些數(shù)據(jù)來測(cè)試他們的模型包效果,對(duì)比這些模型,,我們的準(zhǔn)確率上有將近兩個(gè)點(diǎn)的提升,,達(dá)到了目前的 state-of-the-art,具體實(shí)驗(yàn)結(jié)果如上圖所示,。

我們將基于 BERT 的新模型和傳統(tǒng) CNN 模型在問句等價(jià)性上的識(shí)別效果進(jìn)行對(duì)比,,隨著訓(xùn)練數(shù)據(jù)集的增加,兩者的效果都在逐漸提升,,BERT 模型在訓(xùn)練集 5000 時(shí),,識(shí)別的準(zhǔn)確率達(dá)到 77%,而 CNN 模型在訓(xùn)練集 5 萬時(shí),,識(shí)別的準(zhǔn)確率在 75.5% 左右,,充分說明深度遷移學(xué)習(xí)模型需要的標(biāo)注樣本數(shù)遠(yuǎn)遠(yuǎn)小于以往的深度學(xué)習(xí)模型,就能達(dá)到更好的效果,。

除了模型的改進(jìn),我們 結(jié)合了數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)一步提高問句語義等價(jià)的識(shí)別效果,,什么是數(shù)據(jù)增強(qiáng)?

數(shù)據(jù)增強(qiáng)可以簡(jiǎn)單理解為由少量數(shù)據(jù)生成大量數(shù)據(jù)的過程,。一般比較成功的神經(jīng)網(wǎng)絡(luò)擁有大量參數(shù),使這些參數(shù)正確工作需要用大量的數(shù)據(jù)進(jìn)行訓(xùn)練,,但實(shí)際情況中數(shù)據(jù)并沒有那么多,,因此需要做數(shù)據(jù)增強(qiáng),它可以提高模型的泛化能力和魯棒性,。圖像識(shí)別中的數(shù)據(jù)增強(qiáng)方法包括翻轉(zhuǎn),、旋轉(zhuǎn)、縮放等等,。文本中的數(shù)據(jù)增強(qiáng)包括對(duì)句子分詞,,進(jìn)行詞的增加或者刪除,構(gòu)建新的句子,,或者對(duì)句子進(jìn)行同義詞替換,、或者按模版進(jìn)行替換等等等。

問句語句等價(jià)的模型優(yōu)化完之后,,可以通過增加標(biāo)注數(shù)據(jù)進(jìn)行效果提升,。那么,,具體需要增加什么樣的標(biāo)注數(shù)據(jù)才能起到好效果呢?

我們將整個(gè)大問題分解成了若干個(gè)子問題,,表中列出了一些主要的子問題,,例如對(duì)庫(kù)里問題的關(guān)鍵詞換成同義詞后,是等價(jià)的,;對(duì)庫(kù)里問題變換問法且不改變意思的前提下,,是等價(jià)的;對(duì)于庫(kù)里的問題,,當(dāng)提的問題與之重合的詞比較多,,但語義不等價(jià)。

第 1 種數(shù)據(jù)增強(qiáng)方式是無意義詞,、關(guān)鍵詞的增改,,包括添加無意義詞后等價(jià)、關(guān)鍵詞換成同義詞后等價(jià)及關(guān)鍵詞換成非同義詞后不等價(jià),。

第 2 種數(shù)據(jù)增強(qiáng)方式是變換問法后語義等價(jià),,通過構(gòu)造等價(jià)問句模版的方式,例如名詞短語 + 有效的各種說法,,動(dòng)詞短語 + 犯法的各種說法等等,,還有相同或等價(jià)的句子成分與不同模板組合,例如“請(qǐng)問,,兒童殺人犯法嗎,?”和“麻煩問一下,小孩殺人是不是犯法,?”這兩個(gè)問句通過模版和同義詞增強(qiáng)生成的等價(jià)問句,。

第 3 種數(shù)據(jù)增強(qiáng)增加修飾限定后語義不等價(jià),而且刪除修飾語后的句子仍然要通順,,我們這里采用了依存語法的技術(shù),,分析出句子中所有詞的主從支配關(guān)系。

通過依存句法分析,,分析出一句話的核心關(guān)系,、主謂關(guān)系、謂賓關(guān)系,、狀中關(guān)系,、定中關(guān)系等,例如上圖中的這句話“人民法院根據(jù)那些情形作出判決”,,“人民法院”和“作出”就是主謂關(guān)系,,“作出”和“判決”就是謂賓關(guān)系,“那些”和“情形”之間就是定中關(guān)系。

根據(jù)依存句法的分析結(jié)果,,我們可以將句子中的修飾語刪除,,保證刪除后的句子仍然通順,例如將“那些”刪除,,或者將“那些情形”刪除,。

另外,針對(duì)重合語較多的情況,,我們對(duì)依存句法樹的子樹進(jìn)行替換,,替換后語義不等價(jià),但是仍然通順,,例如“人民檢察院提起公益訴訟怎么處理”替換成“人民檢察院提起公開審判請(qǐng)求怎么處理”,。

通過這些方法,我們生成了大量的增強(qiáng)樣本,,并重新訓(xùn)練模型,,效果得到了顯著的提升。例如針對(duì)庫(kù)里問題關(guān)鍵詞替換成非同義詞的情況,,準(zhǔn)確率由 65% 提升到了 91%,;針對(duì)庫(kù)里問題添加修飾語語義不等價(jià)的情況,準(zhǔn)確率由 63% 提升到了 91%,。

增強(qiáng)分析中的實(shí)踐

接下來介紹深度遷移學(xué)習(xí)在增強(qiáng)分析中的實(shí)踐,。

首先介紹一下什么是增強(qiáng)分析?增強(qiáng)分析是指以機(jī)器學(xué)習(xí)為基礎(chǔ)的數(shù)據(jù)分析和 BI 功能,,包含智能數(shù)據(jù)發(fā)現(xiàn),、增強(qiáng)數(shù)據(jù)準(zhǔn)備、增強(qiáng)數(shù)據(jù)分析等模塊,。目前增強(qiáng)分析已經(jīng)在 BI 中廣泛使用,,Gartner 認(rèn)為,到 2020 年,,增強(qiáng)分析將成為新用戶購(gòu)買 BI 產(chǎn)品和數(shù)據(jù)分析平臺(tái)的主要驅(qū)動(dòng)力。百分點(diǎn)開發(fā)了一套增強(qiáng)分析產(chǎn)品——智能商業(yè)分析系統(tǒng),,簡(jiǎn)稱 Clever BI,。

智能問答功能是 Clever BI 中非常重要的一個(gè)子任務(wù),其目的是讓用戶能夠通過一句自然語言就能自動(dòng)生成對(duì)應(yīng)的圖表,。比如,,提問“我知道這幾個(gè)省份的被投訴訂單多,究竟是哪個(gè)渠道影響了客戶體驗(yàn),?”系統(tǒng)自動(dòng)就會(huì)展示出對(duì)應(yīng)的圖表結(jié)果,。在學(xué)術(shù)界,這個(gè)任務(wù)叫做 NL2SQL,目前已經(jīng)有很多研究,。

Clever BI 的系統(tǒng)架構(gòu)包括數(shù)據(jù)管理層,、算法支撐層、功能模塊層和 API 層,,最核心的功能是智能推薦,、智能問答和智能挖掘。接下來重點(diǎn)介紹的是智能問答,,也就是 NL2SQL 的實(shí)現(xiàn)原理,。

首先對(duì)輸入的問句進(jìn)行分詞和依存句法分析,然后需要填充語義槽位,,通過模型分析出查詢字段,、聚合函數(shù)、篩選條件及分組字段,,最后生成對(duì)應(yīng)的 SQL 語句,。

將自然語言轉(zhuǎn)化成 SQL ,本身可以認(rèn)為是一個(gè) Seq2seq 的任務(wù),,目前主流的方法是事先寫好 SQL 的模板槽,,然后再用多個(gè)模型逐個(gè)預(yù)測(cè)槽位,X-SQL 模型是其中的代表性方法,,它的流程是先通過 MT-DNN 對(duì)原始問題及字段名稱進(jìn)行編碼,,MT-DNN 是微軟推出的多任務(wù)聯(lián)合學(xué)習(xí)的 BERT 優(yōu)化方案,輸出層包括 6 個(gè)子模型:S-COL 和 S-AGG 用于預(yù)測(cè) select 的字段,,W-NUM 用于預(yù)測(cè) where 條件個(gè)數(shù),,W-COL、W-OP 和 W-VAL 用于預(yù)測(cè)過濾條件的具體內(nèi)容,。這個(gè)架構(gòu)已經(jīng)十分完善了,,但是由于數(shù)據(jù)的局限,模型無法預(yù)測(cè)多個(gè) select 及 group 的內(nèi)容,。

百分點(diǎn)提出了一種 X-SQL 和依存句法樹相結(jié)合的方法來解決這方面的問題,,X-SQL 從深層語義的角度提取要素,而語法分析從問句的語法組成結(jié)構(gòu)上進(jìn)行提取,。 舉一個(gè)實(shí)際例子,,要分析“各地區(qū)的總新增訂單量”,第一步進(jìn)行分詞,,第二步進(jìn)行依存句法分析,,就可以得到一顆樹,包含了每個(gè)詞的詞性,、實(shí)體類別,、結(jié)果標(biāo)簽和依存關(guān)系,。第三步通過詞庫(kù)以及后序遍歷解析依存樹,分析出查詢字段,、聚合函數(shù)及分組字段,,例如“新增訂單量”通過 X-SQL 識(shí)別出它是查詢?cè)~,“地區(qū)”通過依存關(guān)系識(shí)別出它是分組字段,,最后生成對(duì)應(yīng)的 SQL 語句,。另外,在具體使用的過程中,,經(jīng)常會(huì)出現(xiàn)比較復(fù)雜的時(shí)間問法,。比如“上個(gè)月”、“近 7 天” 等等,,對(duì)于這些問法相對(duì)固定,,但是解析時(shí)需要利用大量知識(shí)的內(nèi)容,我們采用了模板的方法進(jìn)行處理,,模版由普通字符和正則語法構(gòu)成,。

在實(shí)際測(cè)試中,由于中文 NL2SQL 領(lǐng)域還沒有統(tǒng)一的數(shù)據(jù)集,,所以通過收集用戶實(shí)際在 Clever BI 產(chǎn)品中的使用數(shù)據(jù),,選取了 250 條中文測(cè)試數(shù)據(jù)(問題中可能包含了分組、過濾條件,、復(fù)雜的時(shí)間表達(dá),、查詢內(nèi)容和排序等),在這個(gè)基礎(chǔ)上進(jìn)行測(cè)試,,得到的結(jié)果如上圖顯示,,百分點(diǎn)改進(jìn)算法相比 X-SQL 模型有顯著的效果提升,實(shí)際測(cè)試中達(dá)到 90.45% 的準(zhǔn)確率,,且在實(shí)際使用中達(dá)到了可以商用的效果,。

總結(jié)來說,過去的一年里,,隨著 Google BERT 模型的出現(xiàn),,給自然語言處理帶來了巨大的進(jìn)步,深度遷移學(xué)習(xí)成為了 NLP 未來的技術(shù)主流,,基于目前已有的研發(fā)成果,,TPU、數(shù)據(jù)增強(qiáng),、BERT 模型的改進(jìn)、上層網(wǎng)絡(luò)設(shè)計(jì)等技術(shù)會(huì)進(jìn)一步提升深度遷移學(xué)習(xí)方法的效率和效果,。

類似深度學(xué)習(xí)給計(jì)算機(jī)視覺帶來的技術(shù)突破,,NLP 模型的效果實(shí)現(xiàn)突破后,,也同樣會(huì)在零售快消、公共安全,、媒體出版等各個(gè)行業(yè)會(huì)產(chǎn)生越來越多的認(rèn)知智能應(yīng)用,。未來是認(rèn)知智能發(fā)展的黃金十年,希望能夠有更多人一起投入到這個(gè)令人興奮的產(chǎn)業(yè),。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多