目前兩種最重要的預(yù)訓(xùn)練語言模型,一種是前面介紹過的BERT,,另外一種就是GPT,。 GPT出了兩個版本,GPT1.0和GPT2.0,GPT2.0相對于GPT1.0差別不大,,可以認為是它的增強版,。本篇介紹GPT1.0和GPT2.0,看看它于BERT有什么不一樣,。 作者&編輯 | 小Dream哥 1 GPT是什么 General Pre-Training(GPT),,即通用預(yù)訓(xùn)練語言模型,是一種利用Transformer作為特征抽取器,,基于語言模型進行訓(xùn)練的預(yù)訓(xùn)練語言模型,。 所以,,理解GPT主要熟悉兩個方面即可,,即語言模型和其由Transformer組成的結(jié)構(gòu)。 2 語言模型 一個語言模型通常構(gòu)建為一句話的概率分布p(W),,這里的p(W)實際上反映的是W作為一個句子出現(xiàn)的概率。 說成大白話,,語言模型就是計算某個句子出現(xiàn)的概率,。 對于一個由T個詞按順序構(gòu)成的句子,,P(W)實際上求解的是字符串的聯(lián)合概率,,利用貝葉斯公式,,鏈式分解如下: 從上面可以看到,,一個統(tǒng)計語言模型可以表示成,,給定前面的的詞,,求后面一個詞出現(xiàn)的條件概率,。 我們在求P(W)時實際上就已經(jīng)建立了一個模型,,這里的諸多條件概率就是模型的參數(shù),。如果能夠通過語料,將這些參數(shù)都學(xué)習(xí)到,,就能夠計算出一個句子出現(xiàn)概率,。 GPT的預(yù)訓(xùn)練過程就是利用語料,,構(gòu)造訓(xùn)練數(shù)據(jù),利用上述語言模型,,不斷預(yù)測,,學(xué)習(xí)參數(shù)的過程。 3 GPT模型結(jié)構(gòu) 上述介紹了GPT如何利用無監(jiān)督語料和語言模型構(gòu)建任務(wù)進行訓(xùn)練,。那么GPT的網(wǎng)絡(luò)模型結(jié)構(gòu)長什么樣呢?訓(xùn)練過程優(yōu)化的網(wǎng)絡(luò),,是個怎么樣的網(wǎng)絡(luò)呢,?我們來看看。 GPT中引入的是Transformer中的解碼器部分,結(jié)構(gòu)如下圖所示: 解碼器與編碼器的差異在于self-attention層上,解碼器加了一層掩碼,,這是為了在自注意力計算的時候屏蔽了來自當前計算位置右邊所有單詞的信息,。試想一下,,在上述語言模型中,,如果在預(yù)測下一個詞時,,已經(jīng)知道下一個詞的信息了,,這不是作弊嗎?這一點是與BERT這種雙向結(jié)構(gòu)不同的地方,。 如上圖所示,,GPT就是由12個這樣的解碼器堆疊而成,,如果看過之前我們分析BERT文章的同學(xué),,對這種結(jié)構(gòu)的理解,,應(yīng)該會游刃有余了。 這里還值得一說的是下游任務(wù)如何基于GPT預(yù)訓(xùn)練之后進行Finetune。以分類為例,只需在樣本前后分別加上Start和Extract符號,,然后輸入GPT,,再接上分類器即可進行Finetune或者預(yù)測了,。怎么樣?是不是非常的省心,? 4 GPT2.0 其實相對于GPT1.0在模型結(jié)構(gòu)和訓(xùn)練模式上并沒有本質(zhì)的區(qū)別,,GPT2.0僅僅是加大了模型結(jié)構(gòu)和訓(xùn)練語料的規(guī)模,。 GPT2.0使用了約 1000 萬篇文章的數(shù)據(jù)集,文本集合達 40GB,。這樣訓(xùn)練出來的語言模型優(yōu)勢很明顯,,比使用專有數(shù)據(jù)集來的通用性更強,,更能理解語言和知識邏輯,可以用于任意領(lǐng)域的下游任務(wù),。 還有一個變化是,,在GPT2.0中,,OpenAI沒有再強調(diào)Finetune,也就說,,OpenAI認為,,只要模型能力夠強,,語料夠好覆蓋面夠廣,F(xiàn)inetune的過程其實不是必要的,。 5 總結(jié) GPT,,特別是GPT2.0是一個大型無監(jiān)督語言模型,能夠生產(chǎn)連貫的文本段落,,在許多語言建?;鶞噬先〉昧?SOTA 表現(xiàn)。而且該模型在沒有任務(wù)特定訓(xùn)練的情況下,,能夠做到初步的閱讀理解,、機器翻譯、問答和自動摘要,。 OpenAI非常的倔強,,一直沿用單向語言模型的思路,。這個特點讓GPT2.0的語言生成能力令人驚嘆,。GPT和BERT是目前為止影響力最大的兩種預(yù)訓(xùn)練語言模型,至今為止,,勝負還沒有定論,,我們且關(guān)注。 GPT是一種非常重要而且成功的預(yù)訓(xùn)練語言模型,,后續(xù)openAI肯定還會繼續(xù)更新他們的工作,,對NLP從業(yè)者來說,這是非常值得期待的事情,,我們拭目以待,。 |
|