從大數(shù)據(jù)的角度看ChatGPT

mynotebook 2023-02-11 發(fā)布于湖南

展開全文

根據(jù)OpenAI的解釋，ChatGPT 是InstructGPT的兄弟模型,，兩者非常相似,，不同之處僅在于訓(xùn)練模型的數(shù)據(jù)量。目前關(guān)于InstructGPT的技術(shù)文檔比ChatGPT多一些,，因此,，我們從InstructGPT文檔中關(guān)于數(shù)據(jù)部分的描述可以看看ChatGPT。關(guān)于ChatGPT,、InstructGPT和GPT-3的關(guān)系及技術(shù)差別見本文最后,，這里先將模型的訓(xùn)練數(shù)據(jù)，包括互聯(lián)網(wǎng)大數(shù)據(jù)和對(duì)話相關(guān)的數(shù)據(jù)集,。下面分別介紹數(shù)據(jù)集,、處理方法、以及爬蟲作用,。

互聯(lián)網(wǎng)大數(shù)據(jù)及處理

模型最主要的數(shù)據(jù)是互聯(lián)網(wǎng)大數(shù)據(jù),，是來(lái)Common Crawl 的部分?jǐn)?shù)據(jù)，共1萬(wàn)億個(gè)詞匯,、570G,，覆蓋了2016-2019年間的互聯(lián)網(wǎng)文本數(shù)據(jù)，包括HTML,、word,、pdf等等各類型。這些數(shù)據(jù)可通過亞馬遜的云計(jì)算服務(wù)進(jìn)行訪問,，據(jù)說只需25美元就可以設(shè)置一個(gè)亞馬遜帳戶獲取這些抓取數(shù)據(jù),。從頁(yè)面語(yǔ)言來(lái)看，最多的是英文,，共有15億個(gè)頁(yè)面（根據(jù)2022年某個(gè)月抓取的頁(yè)面統(tǒng)計(jì)）,。截至2021年12月,我國(guó)網(wǎng)頁(yè)數(shù)量為3350億個(gè)，2021年比2020年增加195億個(gè)頁(yè)面,，每個(gè)月新增加16.2億,，因此Common Crawl 收錄的中文頁(yè)面大概不超過總數(shù)的10%。除此以外，還有來(lái)自英文Wikipedia和基于互聯(lián)網(wǎng)的兩個(gè)圖書庫(kù)（具體未知）,。

從這里,，我們也可以看出，由于訓(xùn)練數(shù)據(jù)將近50%是英文,，InstructGPT在經(jīng)過多層模型學(xué)習(xí)后,，最終也可能學(xué)習(xí)到一些所謂“價(jià)值觀”的高層特征，因此在新的AI時(shí)代文化安全更加富有挑戰(zhàn)性,。

ChatGPT對(duì)CommonCrawl數(shù)據(jù)集進(jìn)行了兩個(gè)主要的處理,，即低質(zhì)量頁(yè)面過濾、頁(yè)面相似性去重,，以避免過擬合,。這也是采用互聯(lián)網(wǎng)大數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)不可少的步驟。頁(yè)面質(zhì)量過濾時(shí),，采用的是機(jī)器學(xué)習(xí)方法,。選擇WebText作為高質(zhì)量文檔類，訓(xùn)練一個(gè)文檔質(zhì)量分類器（邏輯回歸分類器+Spark的標(biāo)準(zhǔn)切分和HashingTF作為特征表示）,，訓(xùn)練好的分類器用于對(duì)CommonCrawl的文檔進(jìn)行質(zhì)量過濾,。頁(yè)面去重時(shí)，使用和該質(zhì)量分類器相同的文檔特征表示,，利用Spark的MinHashLSH進(jìn)行文檔相似性計(jì)算,，大概排除了10%的相似頁(yè)面，有利于減小相似文檔導(dǎo)致的模型過擬合,，以及降低模型訓(xùn)練復(fù)雜度,。

支持對(duì)話的相關(guān)數(shù)據(jù)集

GPT-3有很強(qiáng)的上下文表示能力，但缺乏用戶交互行為的學(xué)習(xí),。InstructGPT模型引入了強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)來(lái)理解用戶意圖,，正是由于有了很好的意圖理解能力，我們和ChatGPT的對(duì)話才能顯得自如,。相應(yīng)的支持訓(xùn)練數(shù)據(jù)主要有：

（1） SFT數(shù)據(jù)集：由標(biāo)注人員對(duì)用戶輸入提示行為進(jìn)行標(biāo)注,，共13K個(gè)訓(xùn)練提示，該數(shù)據(jù)集用于微調(diào)GPT-3,，采用監(jiān)督學(xué)習(xí)方法Supervised fine-tuning (SFT),。

（2） RM數(shù)據(jù)集：標(biāo)注者對(duì)給定輸入的預(yù)期輸出進(jìn)行排序，共33K個(gè)記錄,，數(shù)據(jù)集用于訓(xùn)練獎(jiǎng)勵(lì)模型Reward modeling (RM)以預(yù)測(cè)人類想要的輸出,。

（3） PPO數(shù)據(jù)集：沒有標(biāo)注，用于RLHF（reinforcementlearning from human feedback,，從人類反饋中獲得的強(qiáng)化學(xué)習(xí)）微調(diào),。

正是由于這些數(shù)據(jù)集的引入,，使得ChatGPT在多輪會(huì)話中，能夠有效地理解我們的意圖,，這點(diǎn)倒是AI一個(gè)很大的進(jìn)步。這里我們也可以看到在AI時(shí)代標(biāo)注之類的勞動(dòng)密集型工作留給人類來(lái)做,，按此趨勢(shì)人類大腦退化不是沒有可能的,，哈哈~

InstructGPT、GPT-2,、ChatGPT關(guān)系介紹

InstructGPT是OpenAI于2022年初發(fā)布的語(yǔ)言模型,，可以看作是一個(gè)經(jīng)過微調(diào)的新版本GPT-3，它的新在于可以盡量減少有害的,、不真實(shí)的和有偏差的輸出,。吸取了Microsoft 的Tay在使用來(lái)自 Twitter 的開放數(shù)據(jù)進(jìn)行訓(xùn)練后出現(xiàn)的種族傾向錯(cuò)誤。這個(gè)是人工智能安全的視角,，在信息化進(jìn)入智能化后,，安全升級(jí)為第一要位，沒有安全也就沒有AI應(yīng)用,，自動(dòng)駕駛就是很好的例子,。當(dāng)然目前ChatGPT這個(gè)架構(gòu)，還很容易受到數(shù)據(jù)投毒攻擊,，后續(xù)有空我再寫一篇人工智能安全視角下的ChatGPT,。

這個(gè)模型比GPT-3小了100多倍，僅有13億個(gè)參數(shù),，比GPT-2還少,。與之前各類語(yǔ)言模型不同的是，ChatGPT 是為對(duì)話構(gòu)建的大型語(yǔ)言模型,，也可以稱之為對(duì)話語(yǔ)言模型吧,，因此該模型的設(shè)計(jì)目標(biāo)之一是能夠讓模型知道人類的意圖。因此,，主要技術(shù)是通過結(jié)合監(jiān)督學(xué)習(xí)+從人類反饋中獲得的強(qiáng)化學(xué)習(xí)（RLHF,，reinforcementlearning from human feedback），提高GPT-3的輸出質(zhì)量,。

爬蟲的作用

盡管目前ChatGPT還是利用他人爬蟲數(shù)據(jù)集,，但是作為一個(gè)獨(dú)立成長(zhǎng)的AI系統(tǒng)，將來(lái)免不了自己采集,，否則難于跟上用戶變化,。雖然進(jìn)入了AIGC時(shí)代，但是UGC仍然長(zhǎng)期存在,，否組用AIGC去訓(xùn)練AI,，那就相當(dāng)于自己拉的si自己吃了，最終免不了病態(tài)。當(dāng)然并非否定AIGC,，它作為一種輔助數(shù)據(jù)增強(qiáng)的手段還是非常受到大家的歡迎,。

從這個(gè)角度看它和搜索引擎有一定相似地方，才會(huì)有很多人認(rèn)為它是搜索引擎的增強(qiáng)或者將來(lái)要代替搜索引擎了,。搜索引擎只是將爬蟲抓來(lái)的頁(yè)面提取,、解析后進(jìn)行逆向索引，然后存儲(chǔ)關(guān)鍵詞和頁(yè)面的對(duì)應(yīng)關(guān)系即可為用戶提供匹配服務(wù),，而ChatGPT技術(shù)手段要更深刻很多了,，語(yǔ)義理解、大數(shù)據(jù)技術(shù),、監(jiān)督學(xué)習(xí),、強(qiáng)化學(xué)習(xí)以及意圖理解等等。不過搜索引擎公司所擁有的頁(yè)面數(shù)據(jù)比ChatGPT所使用的大數(shù)據(jù)集要大很多,，將來(lái)自己定制一個(gè)對(duì)話語(yǔ)言模型是很有基礎(chǔ)的,，希望不久baidu能出品。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： mynotebook > 《待分類》

舉報(bào)/認(rèn)領(lǐng)