【按】本文通過(guò)閱讀GPT相關(guān)論文并與GPT實(shí)時(shí)多輪交互后撰寫(xiě),,一共涉及約50輪問(wèn)答,;本文內(nèi)容采用與ChatGPT多輪重復(fù)問(wèn)答的方式,對(duì)問(wèn)答結(jié)果經(jīng)編輯整理而成。部分內(nèi)容已綜合混輯多輪問(wèn)答的結(jié)果,,應(yīng)能辨認(rèn)出機(jī)器回復(fù)的痕跡,故未加引號(hào),;除此之外,,盡可能給出原文引用,請(qǐng)各位朋友明察,。全篇總計(jì)19585字,。 目錄 GPT概述 第一個(gè)問(wèn)題:蠻力計(jì)算 第二個(gè)問(wèn)題:生成語(yǔ)法規(guī)則的有效性 第三個(gè)問(wèn)題:對(duì)齊問(wèn)題 第四個(gè)問(wèn)題:語(yǔ)義和理解問(wèn)題 第五個(gè)問(wèn)題:可解釋問(wèn)題第六個(gè)問(wèn)題:非英語(yǔ)語(yǔ)系問(wèn)題 第七個(gè)問(wèn)題:黑箱模型問(wèn)題第八個(gè)問(wèn)題:能耗與文化沖擊問(wèn)題 第九個(gè)問(wèn)題:認(rèn)知風(fēng)險(xiǎn)第十個(gè)問(wèn)題:知識(shí)庫(kù)更新和退化問(wèn)題大語(yǔ)言模型是一種基于深度學(xué)習(xí)的語(yǔ)言模型,通常指的是具有大規(guī)模參數(shù)數(shù)量和復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)言模型,,例如GPT(Generative Pre-trained Transformer,,生成式預(yù)訓(xùn)練轉(zhuǎn)換器)。大語(yǔ)言模型通常采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),,并通過(guò)在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)語(yǔ)言的統(tǒng)計(jì)規(guī)律,,在訓(xùn)練時(shí)通常通過(guò)大量的文本數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),從而能夠自動(dòng)學(xué)習(xí)到語(yǔ)法,、句法,、語(yǔ)義等多層次的語(yǔ)言規(guī)律。 與傳統(tǒng)基于語(yǔ)法規(guī)則,、句法規(guī)則的語(yǔ)言模型相比(如N-gram模型,、隱馬爾可夫模型HMM、組合語(yǔ)法模型等),,大語(yǔ)言模型是一種基于深度學(xué)習(xí)技術(shù)的語(yǔ)言模型,。在GPT看來(lái),與傳統(tǒng)自然語(yǔ)言處理方法相比,,大語(yǔ)言模型具有以下不同之處: 1)數(shù)據(jù)驅(qū)動(dòng):大語(yǔ)言模型主要依賴(lài)于大規(guī)模的文本數(shù)據(jù)進(jìn)行訓(xùn)練,,自動(dòng)從數(shù)據(jù)中學(xué)習(xí)語(yǔ)言的統(tǒng)計(jì)規(guī)律,而不是依賴(lài)于手工編寫(xiě)的語(yǔ)法規(guī)則或句法規(guī)則,。 2)靈活性:大語(yǔ)言模型在語(yǔ)言處理任務(wù)中具有較大的靈活性,。傳統(tǒng)基于語(yǔ)法規(guī)則、句法規(guī)則的語(yǔ)言模型通常依賴(lài)于預(yù)定義的語(yǔ)法規(guī)則,,對(duì)于不符合規(guī)則的語(yǔ)言表達(dá)形式可能無(wú)法處理,。而大語(yǔ)言模型可以通過(guò)學(xué)習(xí)大量的數(shù)據(jù),從中學(xué)到語(yǔ)法和句法的統(tǒng)計(jì)規(guī)律,,從而對(duì)各種不同形式的語(yǔ)言表達(dá)具有一定的容忍性和適應(yīng)性,。 3)泛化能力:大語(yǔ)言模型通過(guò)大量的數(shù)據(jù)訓(xùn)練,可以更好地捕捉到語(yǔ)言中的潛在模式和規(guī)律,,從而在面對(duì)新的,、未見(jiàn)過(guò)的語(yǔ)言表達(dá)時(shí)具有一定的泛化能力。而傳統(tǒng)基于語(yǔ)法規(guī)則、句法規(guī)則的語(yǔ)言模型通常需要人工編寫(xiě)和維護(hù)規(guī)則,,對(duì)于未見(jiàn)過(guò)的語(yǔ)言表達(dá)可能表現(xiàn)較差,。 4)自監(jiān)督學(xué)習(xí):大語(yǔ)言模型通常通過(guò)自監(jiān)督學(xué)習(xí)的方式進(jìn)行訓(xùn)練,即從大量未標(biāo)注的數(shù)據(jù)中自動(dòng)學(xué)習(xí)語(yǔ)言的規(guī)律,。而傳統(tǒng)基于語(yǔ)法規(guī)則,、句法規(guī)則的語(yǔ)言模型通常需要人工標(biāo)注大量的數(shù)據(jù)用于訓(xùn)練,成本較高,。 5)應(yīng)用廣泛:大語(yǔ)言模型廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域的多個(gè)任務(wù),,如語(yǔ)言生成、文本分類(lèi),、情感分析,、機(jī)器翻譯等。而傳統(tǒng)基于語(yǔ)法規(guī)則,、句法規(guī)則的語(yǔ)言模型通常較為專(zhuān)用,,僅適用于特定的語(yǔ)言處理任務(wù)。 總的來(lái)說(shuō),,GPT在比較大語(yǔ)言模型和傳統(tǒng)自然語(yǔ)言處理方法時(shí),,所持觀點(diǎn)較為積極和正面,認(rèn)為大語(yǔ)言模型通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式,,具有較大的靈活性,、泛化能力和應(yīng)用廣泛性,相較于傳統(tǒng)基于語(yǔ)法規(guī)則,、句法規(guī)則的語(yǔ)言模型更具優(yōu)勢(shì),。這一特性相信體驗(yàn)過(guò)GPT等大語(yǔ)言模型的朋友都會(huì)有認(rèn)同感。但是,,值得注意的是GPT在回答,、交流這些問(wèn)題的時(shí)候,所采用的術(shù)語(yǔ),、概念,,以及所形成的篇章句子,在人的視角進(jìn)行解讀和理解的過(guò)程中,,仍然需要細(xì)心甄別GPT談?wù)撓嚓P(guān)問(wèn)題背后所持的“立場(chǎng)”和隱性的敘事邏輯,。這也是本文在對(duì)話(huà)、編撰的過(guò)程中,,采用多輪重復(fù)提問(wèn)的原因,。當(dāng)然單輪對(duì)話(huà)具有另一番意味,即單輪對(duì)話(huà)可以呈現(xiàn)GPT的“第一反應(yīng)”,,而不是反復(fù)“盤(pán)問(wèn)”之后可能存在的“修飾”和“猜測(cè)”的意味,。 筆者在此之前曾試用過(guò)單輪和多輪(5輪-10輪)對(duì)話(huà)的差異,主要有這樣幾點(diǎn):
1)首輪對(duì)話(huà)當(dāng)追加新一輪對(duì)話(huà)后,往往能呈現(xiàn)更多細(xì)節(jié),; 2)四到五輪對(duì)話(huà)之后,,對(duì)話(huà)內(nèi)容不再有實(shí)質(zhì)性的差異; 3)前三輪對(duì)話(huà)往往顯示出GPT對(duì)提問(wèn)者問(wèn)題著力點(diǎn)的某種“猜測(cè)”,,比如需要更多細(xì)節(jié),,需要從不同的角度歸納回答問(wèn)題的方式,需要給出不同的選擇方向等,。 4)無(wú)論單輪和多輪對(duì)話(huà),筆者尚未遇到GPT反問(wèn)提問(wèn)者的情況,,也就是GPT通過(guò)反復(fù)詢(xún)問(wèn),,確認(rèn)提問(wèn)者的“意圖”。不知道是否是版本的局限性,。筆者試用的是GPT3.5的版本,。 GPT的技術(shù)模型,坊間流傳的相關(guān)論文大約有十篇左右,。這些論文基本都是從技術(shù)角度描述GPT的框架和原理,,缺乏相應(yīng)的語(yǔ)言學(xué)、符號(hào)學(xué)原理的引用和解釋,。GPT公開(kāi)表述的用語(yǔ)雖然涉及大量句法分析,、語(yǔ)法分析,、語(yǔ)義分析和上下文語(yǔ)境分析的說(shuō)法,,但這些用語(yǔ)有一定的誤導(dǎo)性。換句話(huà)說(shuō),,GPT并未嚴(yán)格遵從相應(yīng)的語(yǔ)言學(xué)符號(hào)學(xué)分析慣例,,而是直接采用海量語(yǔ)料庫(kù)訓(xùn)練、大規(guī)模并行計(jì)算的“蠻力計(jì)算”,、概率分析的方式,。這樣一來(lái),GPT雖然有十足靚眼的表現(xiàn),,但其內(nèi)在機(jī)理所決定的GPT方法論,,尚需要進(jìn)一步深度分析,以便厘清其中蘊(yùn)含的假設(shè)和存在的問(wèn)題,。 GPT聲稱(chēng)其基本原理基于統(tǒng)計(jì)語(yǔ)言學(xué)的思想,,通過(guò)對(duì)大量文本數(shù)據(jù)的統(tǒng)計(jì)分析和建模來(lái)學(xué)習(xí)語(yǔ)言的概率分布,從而生成具有語(yǔ)法和語(yǔ)義合理性的文本[1],。比如經(jīng)典的n-gram模型,、隱馬爾可夫鏈模型HMM等[2]。語(yǔ)言模型是自然語(yǔ)言處理中的經(jīng)典問(wèn)題,涉及到概率統(tǒng)計(jì),、馬爾可夫鏈等概念[3],。
GPT明確回答說(shuō),GPT“語(yǔ)言建模的核心思想,,是通過(guò)大量語(yǔ)料庫(kù)訓(xùn)練獲得對(duì)生成文本中,,下一個(gè)詞或字符的概率的預(yù)測(cè)能力”。在GPT中,,通過(guò)使用Transformer架構(gòu)進(jìn)行自監(jiān)督學(xué)習(xí),,即使用大量無(wú)標(biāo)簽文本來(lái)訓(xùn)練模型預(yù)測(cè)下一個(gè)詞的概率,從而實(shí)現(xiàn)語(yǔ)言建模[4],,具體的方法包括自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),。Transformer模型的強(qiáng)大預(yù)測(cè)效率來(lái)自其獨(dú)創(chuàng)的自注意力機(jī)制,用來(lái)處理輸入序列中的不同位置之間的依賴(lài)關(guān)系,,從而實(shí)現(xiàn)了并行化的序列處理[5],。GPT本質(zhì)上是一種基于概率的語(yǔ)言模型,通過(guò)學(xué)習(xí)文本數(shù)據(jù)中的概率分布來(lái)生成文本,。GPT中的模型參數(shù)通常通過(guò)最大似然估計(jì)(Maximum Likelihood Estimation)來(lái)進(jìn)行訓(xùn)練,,這涉及到概率統(tǒng)計(jì)和統(tǒng)計(jì)語(yǔ)言學(xué)中的一些基本原理,如條件概率,、熵,、交叉熵等[6]。 GPT詳細(xì)介紹了它所使用的建模方法和其中的關(guān)鍵技術(shù),。GPT使用預(yù)訓(xùn)練和微調(diào)的兩階段方法,,首先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后在特定任務(wù)的小規(guī)模數(shù)據(jù)上進(jìn)行微調(diào),。這種方法可以提高模型的泛化性能和生成能力,,使得模型可以從大量數(shù)據(jù)中學(xué)習(xí)通用的語(yǔ)言學(xué)知識(shí),并在特定任務(wù)上進(jìn)行遷移學(xué)習(xí)[7],。GPT的預(yù)訓(xùn)練階段受到了BERT的啟發(fā),。BERT模型,它是一種雙向的基于Transformer的語(yǔ)言模型,,通過(guò)預(yù)訓(xùn)練大規(guī)模無(wú)監(jiān)督數(shù)據(jù)來(lái)學(xué)習(xí)通用的語(yǔ)言表示,,從而能夠在多種下游任務(wù)中進(jìn)行微調(diào)[8]。 GPT在預(yù)訓(xùn)練和微調(diào),,以及條件生成的過(guò)程中,,主要運(yùn)用的語(yǔ)言學(xué)原理,一種叫詞嵌入(Word Embedding)方法,,另一種是上下文建模,。 詞嵌入是一種將詞語(yǔ)映射到低維實(shí)數(shù)向量空間的技術(shù),,用于表示詞語(yǔ)的語(yǔ)義信息,是一種基于分布式表示的方法,,涉及到向量空間模型,、詞義學(xué)、語(yǔ)義學(xué)等語(yǔ)言學(xué)原理,。GPT-3.5可能在其算法中使用了詞嵌入技術(shù),,例如將輸入的文本轉(zhuǎn)換為詞嵌入向量來(lái)進(jìn)行模型的處理和生成[9]。詞向量表示是將詞語(yǔ)映射到連續(xù)向量空間的技術(shù),,用于在模型中表示詞語(yǔ),,GPT將文本中的單詞映射到連續(xù)向量空間中,從而能夠捕捉到單詞之間的語(yǔ)義關(guān)系,。GPT使用了基于Transformer的自注意力機(jī)制來(lái)學(xué)習(xí)詞向量表示,,將詞語(yǔ)嵌入到高維連續(xù)向量空間中,從而可以在模型中進(jìn)行高效的計(jì)算和表示,。這些向量表示在自然語(yǔ)言處理任務(wù)中被廣泛應(yīng)用,,包括在GPT模型中用于表示輸入文本,。其中引用了語(yǔ)言學(xué)中的詞義學(xué),、語(yǔ)法等概念,以及符號(hào)學(xué)中的向量表示,、概率建模等原理,。 ChatGPT的工作過(guò)程大致是這樣的:在得到用戶(hù)輸入的一句話(huà)、一個(gè)提問(wèn),、一個(gè)提示詞組,,或者一篇文章之后,GPT開(kāi)始完成后臺(tái)一系列文本編碼,、模型推理,、內(nèi)容生成、輸出解碼的步驟,,最終輸出用戶(hù)想要的內(nèi)容,。 ChatGPT與用戶(hù)交互的重要基礎(chǔ),就是GPT反復(fù)提到的“通過(guò)預(yù)訓(xùn)練和微調(diào)方法獲得的大語(yǔ)言模型(LLM)”,。GPT的大語(yǔ)言模型,,使用了深度神經(jīng)網(wǎng)絡(luò)(通常是基于Transformer架構(gòu))來(lái)進(jìn)行文本編碼和生成,模型通過(guò)自監(jiān)督學(xué)習(xí)對(duì)大量的未標(biāo)注文本進(jìn)行建模,,通過(guò)訓(xùn)練和人工反饋的微調(diào)方法,,學(xué)習(xí)到了語(yǔ)法、語(yǔ)義,、語(yǔ)境等知識(shí),,并利用這些知識(shí)來(lái)生成合法的文本,。這個(gè)模型經(jīng)過(guò)訓(xùn)練后具備豐富的語(yǔ)言模式,包括文本的語(yǔ)法,、語(yǔ)義和上下文信息,,以及統(tǒng)計(jì)規(guī)律,從而具備對(duì)根據(jù)輸入文本的語(yǔ)義分析,,針對(duì)性地生成合法句子,、篇章,響應(yīng)用戶(hù)需求的能力,。 在輸入文本處理時(shí),,GPT將輸入文本通過(guò)模型的編碼器部分,轉(zhuǎn)換為模型內(nèi)部的向量表示(即前面所稱(chēng)的“詞嵌入”),,生成詞向量,,也稱(chēng)為隱藏狀態(tài)或編碼表示,并采用上下文建模方法,,通過(guò)對(duì)輸入文本進(jìn)行編碼,,將上下文信息傳遞給模型,以便模型在生成輸出時(shí)考慮輸入的上下文信息,,這包括對(duì)詞語(yǔ),、短語(yǔ)、句子等進(jìn)行語(yǔ)義理解,、語(yǔ)法分析,、語(yǔ)境處理等。在內(nèi)容輸出過(guò)程中,,GPT使用生成技術(shù),,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或者變種的Transformer等,以生成文本輸出,。GPT進(jìn)一步解釋說(shuō),,“通常根據(jù)某種策略選擇一個(gè)最合適的輸出作為最終的響應(yīng)。選擇的策略可以是基于概率,、語(yǔ)法,、語(yǔ)義、邏輯,、用戶(hù)意圖等多個(gè)因素,。” 在整個(gè)GPT使用的用戶(hù)交互過(guò)程中,,GPT通常不調(diào)用特定的數(shù)據(jù)資源,,例如外部知識(shí)庫(kù)或者數(shù)據(jù)庫(kù)。其生成的內(nèi)容主要基于預(yù)訓(xùn)練模型在大量文本數(shù)據(jù)上學(xué)習(xí)到的語(yǔ)言模式和統(tǒng)計(jì)規(guī)律,,而不依賴(lài)于特定的數(shù)據(jù)資源,。 GPT說(shuō)明了在訓(xùn)練過(guò)程中使用了大量的文本數(shù)據(jù)作為數(shù)據(jù)資源,,例如維基百科、網(wǎng)頁(yè)文本,、書(shū)籍,、新聞文章等,用于訓(xùn)練模型的語(yǔ)言模型部分,。此外,,GPT還可以根據(jù)應(yīng)用場(chǎng)景和需求,調(diào)用其他外部數(shù)據(jù)資源,,如知識(shí)庫(kù),、情感詞典、實(shí)體識(shí)別等,,用于生成特定領(lǐng)域或情感的文本,,結(jié)合其他技術(shù)和資源,如情感分析,、實(shí)體識(shí)別,、關(guān)鍵詞提取等,以生成更加符合特定需求和目標(biāo)的文本輸出,。但GPT拒絕回答進(jìn)一步的細(xì)節(jié)和引用任何數(shù)據(jù)來(lái)說(shuō)明這個(gè)問(wèn)題,。 需要注意的是,每次收到用戶(hù)輸入的請(qǐng)求,,GPT需要?jiǎng)佑糜?jì)算資源來(lái)進(jìn)行文本編碼,、上下文建模和文本生成等操作,。具體的計(jì)算資源要求會(huì)根據(jù)模型的規(guī)模,、輸入文本的長(zhǎng)度、生成的文本長(zhǎng)度等因素而有所不同,。較大規(guī)模的GPT模型通常需要更多的計(jì)算資源來(lái)處理復(fù)雜的語(yǔ)境和生成更長(zhǎng)的文本,。使用中多次體驗(yàn)到部分問(wèn)答過(guò)程并不順暢,GPT常出現(xiàn)莫名其妙的“停頓”,、“中斷”現(xiàn)象,。 GPT印證了筆者的一個(gè)猜測(cè),即“在實(shí)際應(yīng)用中,,GPT通常不需要完整計(jì)算一遍整個(gè)語(yǔ)料庫(kù),。事實(shí)上,GPT在訓(xùn)練階段已經(jīng)通過(guò)大規(guī)模的文本數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練,,并學(xué)習(xí)到了語(yǔ)法,、語(yǔ)義、語(yǔ)境等知識(shí),。在生成時(shí),,GPT會(huì)利用這些預(yù)訓(xùn)練的知識(shí),,并根據(jù)當(dāng)前的輸入文本和生成的上下文來(lái)生成合適的文本輸出,而不需要重新計(jì)算整個(gè)語(yǔ)料庫(kù),?!?/span> 此外,GPT還可以利用類(lèi)似的問(wèn)答數(shù)據(jù)來(lái)提高回答的效率,。例如,,當(dāng)收到類(lèi)似的問(wèn)題或者類(lèi)似的上下文時(shí),GPT可以從之前生成的文本中提取相關(guān)的信息,,避免重復(fù)計(jì)算相同的內(nèi)容,,從而加速回答的生成過(guò)程。需要注意的是,,具體的計(jì)算資源和數(shù)據(jù)資源的需求會(huì)因不同的應(yīng)用場(chǎng)景,、模型規(guī)模和輸入輸出要求而有所差異,需要根據(jù)實(shí)際情況進(jìn)行配置和調(diào)優(yōu),。 不過(guò),,令人稱(chēng)道的是GPT很少不對(duì)同一問(wèn)題做出完全雷同的回答,偶然出現(xiàn)這一現(xiàn)象,,或許是提問(wèn)者的問(wèn)題太過(guò)具體或者比較單一,。 根據(jù)與GPT的多輪對(duì)話(huà),梳理并編輯成下列10大問(wèn)題,,與各位朋友分享,。 第一個(gè)問(wèn)題:蠻力計(jì)算 之所以稱(chēng)GPT是“蠻力計(jì)算”, 是因?yàn)镚PT生成輸出內(nèi)容的過(guò)程,,通常模型通過(guò)對(duì)語(yǔ)料庫(kù)的學(xué)習(xí),,選擇一個(gè)合法的起始詞作為句子的第一個(gè)詞。然后根據(jù)當(dāng)前生成的詞和上下文信息,,計(jì)算生成下一個(gè)詞的概率分布,,并從中采樣得到下一個(gè)詞,它實(shí)際上是一個(gè)不斷重復(fù),、迭代的過(guò)程,。模型通過(guò)對(duì)當(dāng)前上下文的建模,計(jì)算生成下一個(gè)詞或短語(yǔ)的概率分布,,并從中采樣得到生成的詞或短語(yǔ)。這個(gè)生成過(guò)程可以通過(guò)一系列的循環(huán)來(lái)不斷迭代,,生成更長(zhǎng)的文本,。選擇的輸出經(jīng)過(guò)解碼技術(shù),例如將數(shù)字表示或者詞向量表示轉(zhuǎn)換為文本形式,,以便于用戶(hù)理解和使用,。在生成的過(guò)程中,,可以根據(jù)語(yǔ)法規(guī)則、語(yǔ)法知識(shí),、語(yǔ)義角色標(biāo)注等信息對(duì)生成的詞進(jìn)行限制和約束,,以確保生成的句子在語(yǔ)法和語(yǔ)義上是合法的,。 有趣的是,,如果直截了當(dāng)指認(rèn)GPT屬于“蠻力計(jì)算”,,GPT是斷然否定的。在3月16日提問(wèn)者向GPT提出的48個(gè)問(wèn)題中,,第四個(gè)問(wèn)題是:“請(qǐng)問(wèn)GPT的原理說(shuō)到底是否屬于蠻力計(jì)算,?”GPT的回答是: “GPT 的原理并不屬于蠻力計(jì)算,。GPT 使用的是神經(jīng)網(wǎng)絡(luò)模型,,它是一種基于數(shù)學(xué)優(yōu)化的算法,通過(guò)數(shù)學(xué)計(jì)算和優(yōu)化來(lái)實(shí)現(xiàn)對(duì)輸入和輸出之間復(fù)雜映射的學(xué)習(xí),?!?/span> “GPT 是一種基于Transformer結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,它使用自回歸語(yǔ)言模型來(lái)生成自然語(yǔ)言文本,。在訓(xùn)練過(guò)程中,,GPT通過(guò)最小化損失函數(shù)來(lái)學(xué)習(xí)模型的參數(shù),使得模型在給定前文的情況下,,能夠生成下一個(gè)最可能的單詞或字符,。這個(gè)過(guò)程使用的是反向傳播算法,,它通過(guò)計(jì)算損失函數(shù)的梯度來(lái)更新模型參數(shù),,實(shí)現(xiàn)模型的訓(xùn)練?!?/span> “雖然GPT模型參數(shù)數(shù)量很大,,但是它并不是通過(guò)蠻力計(jì)算來(lái)實(shí)現(xiàn)的。在訓(xùn)練和推理過(guò)程中,,GPT 模型利用了高效的矩陣計(jì)算和并行計(jì)算,,從而實(shí)現(xiàn)了高效的計(jì)算和推理。因此,,GPT的原理和實(shí)現(xiàn)并不屬于蠻力計(jì)算的范疇,?!?/span> GPT列舉了它眼里的典型的蠻力計(jì)算方法,比如窮舉法,、暴力搜索,、貪心算法等;并列舉了它認(rèn)為不屬于蠻力計(jì)算的例子,,比如動(dòng)態(tài)規(guī)劃算法,、啟發(fā)式算法等。粗略地說(shuō),,GPT的回答是說(shuō)得過(guò)去的,。但是,動(dòng)態(tài)規(guī)劃,、啟發(fā)式算法基本都是建立在一些假設(shè)基礎(chǔ)上的近似算法,,即運(yùn)用優(yōu)化理論劃分子空間、假設(shè)“無(wú)后效性(即節(jié)點(diǎn)前狀態(tài)不影響節(jié)點(diǎn)后狀態(tài))等,,以便獲得局部最優(yōu)或者部分情況下的全局最優(yōu)解,。且不說(shuō)各種優(yōu)化算法仍然受條件局限,這些算法在超大規(guī)模維數(shù)爆炸的時(shí)候,,依然表現(xiàn)效率低下,,且難以確保最優(yōu)解的存在性。 其實(shí)筆者也發(fā)現(xiàn),,與GPT深入探討蠻力計(jì)算的一些深度問(wèn)題,,它也只能提供“面兒上”的回答。當(dāng)然,,也許提問(wèn)方式還需要更加專(zhuān)業(yè)化吧,。感興趣的專(zhuān)業(yè)人士不妨繼續(xù)追問(wèn)GPT。 第二個(gè)問(wèn)題:生成語(yǔ)法規(guī)則的有效性 GPT生成的語(yǔ)法是否合乎語(yǔ)法規(guī)則,,是使用者直觀感受的重要基礎(chǔ),。從表現(xiàn)上看,GPT可謂對(duì)答如流,,無(wú)論英文問(wèn)答還是中文問(wèn)答(增加翻譯過(guò)程),,都具備可接受的程度。也正是這一點(diǎn),,有人據(jù)此判斷“GPT通過(guò)圖靈測(cè)試”,,我覺(jué)得言之過(guò)早。 GPT對(duì)這一問(wèn)題的回答是:“GPT通常是通過(guò)在訓(xùn)練時(shí)學(xué)習(xí)到的語(yǔ)法知識(shí)和句法知識(shí)來(lái)判斷的,,而非基于預(yù)先定義的固定判定規(guī)則。”這意味著GPT作為一種大語(yǔ)言模型,,通過(guò)在大量的文本數(shù)據(jù)上進(jìn)行自監(jiān)督學(xué)習(xí),,從中“學(xué)習(xí)”到了語(yǔ)言的統(tǒng)計(jì)規(guī)律、上下文依賴(lài)關(guān)系以及句法結(jié)構(gòu)等信息,。雖然在GPT中也“使用”了傳統(tǒng)語(yǔ)言模型的語(yǔ)法分析,、句法分析、詞法分析和語(yǔ)義分析的概念和方法,,但GPT的主導(dǎo)思想并非嚴(yán)格遵從這些語(yǔ)言學(xué)方法,,只是將這些方法作為產(chǎn)生合法句子的參考標(biāo)準(zhǔn),。 在生成文本時(shí),GPT會(huì)根據(jù)之前的上下文和當(dāng)前的生成狀態(tài),,選擇最有可能的下一個(gè)詞或短語(yǔ)。這種選擇通常是基于訓(xùn)練時(shí)學(xué)習(xí)到的語(yǔ)法和句法知識(shí),,例如詞的概率分布,、上下文中的共現(xiàn)關(guān)系、句法規(guī)則等,。GPT會(huì)生成那些在訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率較高,、符合上下文和句法規(guī)則的詞或短語(yǔ)。 這就是說(shuō),,GPT所“說(shuō)”的“學(xué)習(xí)”、“使用”等等詞語(yǔ),,并非是人類(lèi)自然語(yǔ)言交流中所理解的那個(gè)含義,。對(duì)機(jī)器而言,它只是做概率計(jì)算和符號(hào)匹配,。這一點(diǎn)在GPT的回應(yīng)過(guò)程中,,進(jìn)行了“類(lèi)人式語(yǔ)言包裝”,也就是說(shuō),,GPT大模型中所發(fā)生的真實(shí)過(guò)程,,雖然從設(shè)計(jì)角度說(shuō),包含“詞匯,、句法結(jié)構(gòu)、語(yǔ)法規(guī)則”等多層次的“語(yǔ)言知識(shí)”,但在文本輸出過(guò)程中,,GPT只是完成一個(gè)“轉(zhuǎn)換,、詞語(yǔ)裝配”的過(guò)程。 在這個(gè)過(guò)程中,,模型可以“表現(xiàn)出”對(duì)所謂“正確的”,、“錯(cuò)誤的”文本進(jìn)行甄別、分類(lèi)和選擇,,最終“優(yōu)化”成滿(mǎn)足提問(wèn)者需求的“文本”,,但它絕不是在語(yǔ)言學(xué)意義上“使用”這些詞匯。 GPT承認(rèn),,“模型在訓(xùn)練過(guò)程中會(huì)根據(jù)不同樣本的預(yù)測(cè)錯(cuò)誤程度來(lái)調(diào)整自身的參數(shù),,從而逐漸優(yōu)化生成的文本。這樣,,模型可以在大規(guī)模文本數(shù)據(jù)中學(xué)習(xí)到一些普遍的語(yǔ)法和句法規(guī)律,,但并不保證學(xué)到的規(guī)律完全符合傳統(tǒng)的語(yǔ)言學(xué)規(guī)范?!?/span> 對(duì)GPT來(lái)說(shuō),,真正起作用的生成規(guī)則,依然是基于海量語(yǔ)料庫(kù)的概率計(jì)算,。換句話(huà)說(shuō),,“GPT和類(lèi)似的語(yǔ)言模型通常是通過(guò)大規(guī)模預(yù)訓(xùn)練來(lái)學(xué)習(xí)語(yǔ)法和句法知識(shí)的,這意味著模型在訓(xùn)練過(guò)程中通過(guò)對(duì)大量文本數(shù)據(jù)的學(xué)習(xí),,自動(dòng)地從數(shù)據(jù)中提取語(yǔ)法和句法規(guī)律,,而不是依據(jù)預(yù)先定義的語(yǔ)法規(guī)則。GPT和類(lèi)似的語(yǔ)言模型在學(xué)習(xí)中并不顯式地確認(rèn)所學(xué)到的語(yǔ)法規(guī)則和句法規(guī)則是否合乎語(yǔ)言學(xué)規(guī)范,。這些模型通過(guò)在大量文本數(shù)據(jù)上進(jìn)行自監(jiān)督學(xué)習(xí),,通過(guò)預(yù)測(cè)下一個(gè)詞或下一個(gè)片段的方式進(jìn)行訓(xùn)練,從而學(xué)習(xí)到了語(yǔ)法和句法規(guī)律,。這些規(guī)律是從數(shù)據(jù)中統(tǒng)計(jì)性地提取的,,而不是直接根據(jù)預(yù)先定義的語(yǔ)法規(guī)則進(jìn)行學(xué)習(xí)?!?/span> 我意識(shí)到這個(gè)結(jié)果其實(shí)是提問(wèn)者“逼問(wèn)GPT”的結(jié)果,,并非是它“意識(shí)到”這個(gè)問(wèn)題后給出的輸出結(jié)果。這是一個(gè)有趣的問(wèn)答過(guò)程,。GPT表現(xiàn)出“猜測(cè)”甚至“迎合”提問(wèn)者真實(shí)趣味的情境,,這是令人感慨的地方,不知如何置評(píng),。 需要注意的是,,GPT承認(rèn)“語(yǔ)言模型并不具備對(duì)語(yǔ)法和句法規(guī)則進(jìn)行明確的驗(yàn)證和確認(rèn)的能力,因?yàn)樗鼈儧](méi)有事先定義的語(yǔ)法規(guī)則,而是通過(guò)大量數(shù)據(jù)的統(tǒng)計(jì)性學(xué)習(xí)得到的,?!薄@一結(jié)果,一方面令人感到GPT表現(xiàn)出來(lái)的“理解能力”事實(shí)上已經(jīng)超越了單一問(wèn)題討論平面,,進(jìn)入和“第二,、甚至第三層級(jí)知識(shí)”的討論平面(知識(shí)層級(jí)是經(jīng)濟(jì)學(xué)家謝林和奧曼的觀點(diǎn));另一方面,,又為它進(jìn)一步做“政治正確”的回答做出鋪墊,,比如它進(jìn)一步解釋說(shuō),“因此,,在使用這些模型生成文本時(shí),,仍然需要人工的語(yǔ)法和句法審查,以確保生成的文本符合語(yǔ)言學(xué)規(guī)范,?!?/span> 第三個(gè)問(wèn)題:對(duì)齊問(wèn)題 “對(duì)齊問(wèn)題”是語(yǔ)言模型的重要問(wèn)題。大語(yǔ)言模型如GPT在生成文本時(shí),,雖然可以從大量的數(shù)據(jù)中學(xué)習(xí)到統(tǒng)計(jì)規(guī)律,,包括語(yǔ)法和句法規(guī)律,但并不能確保生成的文本與人類(lèi)語(yǔ)法規(guī)范,、道德倫理,、風(fēng)俗習(xí)慣完全對(duì)齊。對(duì)此GPT的看法是:“在實(shí)際應(yīng)用中,,需要采取一些措施來(lái)確保生成文本的內(nèi)容與人類(lèi)的語(yǔ)法規(guī)范,、道德倫理和風(fēng)俗習(xí)慣相一致。生成語(yǔ)法如何切合人類(lèi)語(yǔ)法規(guī)范,、道德倫理,、風(fēng)俗習(xí)慣的對(duì)齊是一個(gè)較為復(fù)雜的問(wèn)題,僅依據(jù)統(tǒng)計(jì)規(guī)律獲得的語(yǔ)法模型可能無(wú)法完全確保生成文本的內(nèi)容與這些方面完全一致,。由于統(tǒng)計(jì)模型是從大量的文本數(shù)據(jù)中學(xué)習(xí)到的,,它在生成文本時(shí)會(huì)根據(jù)訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率和概率生成文本,但并不一定能夠保證生成的文本符合人類(lèi)的道德倫理,、風(fēng)俗習(xí)慣等方面的規(guī)范,。” 這是一個(gè)中規(guī)中矩的回答,。也是GPT回應(yīng)挑戰(zhàn)的典型方式,,一方面坦陳問(wèn)題的存在,另一方面尋求解決之道,。GPT對(duì)“確保生成文本符合人類(lèi)語(yǔ)法規(guī)范,、道德倫理,、風(fēng)俗習(xí)慣等要求”,提出以下幾種方法: 以下是一些可能的措施: 1)合理的訓(xùn)練數(shù)據(jù):選擇合適的訓(xùn)練數(shù)據(jù),,包括符合人類(lèi)語(yǔ)法規(guī)范,、道德倫理和風(fēng)俗習(xí)慣的文本數(shù)據(jù),,以提供給模型在訓(xùn)練過(guò)程中學(xué)習(xí)正確的語(yǔ)法和語(yǔ)言用法,。 2)合適的生成條件:設(shè)置合適的生成條件,如采樣方法(sampling method),,以控制生成文本的隨機(jī)性和多樣性,,從而生成更加符合語(yǔ)法規(guī)范、道德倫理和風(fēng)俗習(xí)慣的文本,。 3)數(shù)據(jù)過(guò)濾和預(yù)處理:在訓(xùn)練數(shù)據(jù)中,,可以通過(guò)對(duì)文本數(shù)據(jù)進(jìn)行篩選和預(yù)處理,排除或限制一些不符合語(yǔ)法規(guī)范,、道德倫理,、風(fēng)俗習(xí)慣等要求的文本數(shù)據(jù),從而在訓(xùn)練過(guò)程中減少對(duì)這些方面不符合要求的學(xué)習(xí),。 4)先驗(yàn)知識(shí)引入:可以通過(guò)在訓(xùn)練過(guò)程中引入人類(lèi)的先驗(yàn)知識(shí),,如語(yǔ)法規(guī)則、道德倫理,、風(fēng)俗習(xí)慣等,,作為生成文本的約束條件,從而在生成過(guò)程中保持對(duì)這些規(guī)范的遵循,。 5)后處理和校驗(yàn):在生成文本后,,可以通過(guò)后處理和校驗(yàn)的方式對(duì)生成的文本進(jìn)行檢查,確保其符合人類(lèi)語(yǔ)法規(guī)范,、道德倫理,、風(fēng)俗習(xí)慣等要求。例如,,可以使用語(yǔ)法檢查工具,、倫理倫理檢查工具、社會(huì)文化約束等進(jìn)行文本的審核和校對(duì),。 6)人工審核:對(duì)生成文本進(jìn)行人工審核,,通過(guò)人工的方式對(duì)生成的文本進(jìn)行檢查,確保其符合語(yǔ)法規(guī)范,、道德倫理和風(fēng)俗習(xí)慣,,并進(jìn)行必要的修正和調(diào)整。 需要注意的是,,盡管這些措施可以提高生成文本的語(yǔ)法正確性和內(nèi)容合理性,,但GPT“理解”完全消除生成文本中的語(yǔ)法錯(cuò)誤,、不符合道德倫理和風(fēng)俗習(xí)慣的內(nèi)容是非常困難的。因此,,它再次給出“穩(wěn)妥”的應(yīng)對(duì)之道是:“在使用大語(yǔ)言模型生成文本時(shí),,仍然需要謹(jǐn)慎對(duì)待生成文本的內(nèi)容,并結(jié)合其他手段進(jìn)行人工審核和編輯,,確保生成文本符合實(shí)際的語(yǔ)言和社會(huì)規(guī)范,。”在解決對(duì)齊問(wèn)題的具體措施中,,GPT介紹所謂“語(yǔ)義角色標(biāo)注(Semantic Role Labeling,,簡(jiǎn)稱(chēng)SRL)”的方法。SRL是一種自然語(yǔ)言處理技術(shù),,用于對(duì)句子中的詞語(yǔ)進(jìn)行語(yǔ)義角色的標(biāo)注,,以表示詞語(yǔ)在句子中扮演的語(yǔ)義角色,如施事者,、受事者,、時(shí)間、地點(diǎn),、方式等,。這種技術(shù)可以幫助理解句子中詞語(yǔ)之間的關(guān)系,從而進(jìn)一步理解句子的語(yǔ)義信息,。它給出了具體的操作性描述,,并給出了一個(gè)具體的例子:在GPT中,語(yǔ)義角色標(biāo)注可以作為一種輔助信息,,用于生成更加合理和符合語(yǔ)法語(yǔ)義的文本,。具體操作方式可能如下:1)句法分析:首先對(duì)輸入的句子進(jìn)行句法分析,識(shí)別其中的詞語(yǔ)和句法結(jié)構(gòu),,如主謂賓關(guān)系,、修飾關(guān)系等。2)語(yǔ)義角色標(biāo)注:在句法分析的基礎(chǔ)上,,對(duì)句子中的詞語(yǔ)進(jìn)行語(yǔ)義角色的標(biāo)注,,例如識(shí)別出句子中的施事者、受事者,、時(shí)間,、地點(diǎn)等。3)文本生成:在生成文本時(shí),,可以根據(jù)語(yǔ)義角色標(biāo)注的結(jié)果,,對(duì)生成的詞語(yǔ)和短語(yǔ)進(jìn)行限制和約束,確保生成的文本在語(yǔ)法和語(yǔ)義上更加合理,。 例如,,當(dāng)生成一個(gè)關(guān)于'John ate an apple'(約翰吃了一個(gè)蘋(píng)果)的句子時(shí),,語(yǔ)義角色標(biāo)注可以標(biāo)注'John'為施事者、'ate'為動(dòng)作,、'an apple'為受事者,。在生成的過(guò)程中,可以根據(jù)這些語(yǔ)義角色的標(biāo)注,,生成類(lèi)似'John enjoyed eating an apple'(約翰喜歡吃蘋(píng)果)這樣更加合理的句子,。同樣,GPT不忘記提醒這一方法的局限性:需要注意的是,,語(yǔ)義角色標(biāo)注在GPT中可能只是其中的一種輔助信息,,具體的操作方式和在內(nèi)容生成中的應(yīng)用可能會(huì)因模型的具體設(shè)計(jì)和應(yīng)用場(chǎng)景而有所不同,。同時(shí),,語(yǔ)義角色標(biāo)注本身也可能存在一定的誤差和不確定性,因此在使用時(shí)需要謹(jǐn)慎考慮其可靠性和適用性,。因?yàn)橛写笳Z(yǔ)言模型的大規(guī)模預(yù)訓(xùn)練和微調(diào),,GPT模型在處理對(duì)齊問(wèn)題時(shí),其實(shí)已經(jīng)儲(chǔ)備了大量的“標(biāo)準(zhǔn)答案”,,這既是一個(gè)大模型能否投入實(shí)用的關(guān)鍵標(biāo)準(zhǔn),,也是“以不變應(yīng)萬(wàn)變”的某種應(yīng)對(duì)策略。GPT面對(duì)具有挑戰(zhàn)性(有時(shí)候可能是尖銳的“挑釁性”問(wèn)題)的時(shí)候,,需要“考慮”種種問(wèn)題空間可能性的組合,,但這恰恰也是大語(yǔ)言模型的“軟肋”。這個(gè)問(wèn)題令人想起著名交互程序設(shè)計(jì)大師Alan Cooper在20多年前的一本書(shū)《軟件創(chuàng)新之路》中提到的NSP(N0-Problem Syndrome):試圖通過(guò)事先準(zhǔn)備關(guān)鍵詞列表,,通過(guò)數(shù)據(jù)檢索的辦法,,打造一個(gè)萬(wàn)能應(yīng)答系統(tǒng)是不可能的。Cooper把這種工程師的“雄心”稱(chēng)作NSP,??磥?lái)軟件工程師很難避免這種雄心萬(wàn)丈的理想。海量數(shù)據(jù)和龐大算力加持之下,,算法和模型的締造者們很容易受到這種“機(jī)巧”的誘惑,,也是難免其俗吧。我想說(shuō)的是,,“對(duì)齊問(wèn)題”恰恰屬于這一類(lèi)的開(kāi)放問(wèn)題,,“打固定靶”的思維是很難“對(duì)齊”的。這是LLM的又一個(gè)深度挑戰(zhàn),。第四個(gè)問(wèn)題:語(yǔ)義和理解問(wèn)題語(yǔ)義和理解問(wèn)題,,可以說(shuō)是GPT這一類(lèi)大語(yǔ)言模型無(wú)法回避的核心問(wèn)題。我的提問(wèn)是:GPT雖然沒(méi)有明顯地依賴(lài)現(xiàn)有的語(yǔ)法規(guī)則,,但依然需要遵從語(yǔ)法規(guī)則對(duì)合法語(yǔ)句的要求,那么GPT又是如何理解語(yǔ)法規(guī)則,,并理解語(yǔ)義的呢,?GPT的回答在這里可謂乏善可陳。我想問(wèn)的是,,既然你承認(rèn)GPT并不依賴(lài)現(xiàn)有的語(yǔ)法規(guī)則,但又聲稱(chēng)輸出文本要遵從語(yǔ)法規(guī)則的要求,,輸出“合理的句子”(包括上述“對(duì)齊問(wèn)題”),,那么你總得“理解語(yǔ)義”才有可能啊,?GPT的回答不出所料,,依然是“自說(shuō)自話(huà)”的模式,它回答說(shuō):“GPT在理解語(yǔ)法規(guī)則和語(yǔ)義時(shí),,主要依賴(lài)于其在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練時(shí)學(xué)到的語(yǔ)法,、語(yǔ)義和語(yǔ)境的知識(shí)。通過(guò)對(duì)大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,,GPT能夠捕捉到不同語(yǔ)言中的語(yǔ)法規(guī)則,、句法結(jié)構(gòu)、詞法關(guān)系,、上下文信息等,,并對(duì)其進(jìn)行建模?!?/span>對(duì)此,,GPT進(jìn)一步解釋說(shuō),“具體而言,,GPT通過(guò)無(wú)監(jiān)督的自監(jiān)督學(xué)習(xí)方式,,在大規(guī)模文本數(shù)據(jù)上預(yù)測(cè)下一個(gè)詞或下一個(gè)片段的概率。這樣的預(yù)訓(xùn)練過(guò)程使得GPT學(xué)習(xí)到了豐富的語(yǔ)法,、語(yǔ)義和語(yǔ)境的知識(shí),,包括詞匯的語(yǔ)法屬性(如詞性、詞形變化等),、詞匯之間的語(yǔ)法關(guān)系(如主謂關(guān)系,、動(dòng)賓關(guān)系等)、句子的語(yǔ)法結(jié)構(gòu)(如句子成分的排列順序,、修飾關(guān)系等)以及上下文的語(yǔ)義信息(如指代關(guān)系,、共指關(guān)系等)?!?/span>“在生成合法的語(yǔ)句時(shí),,GPT會(huì)根據(jù)其預(yù)訓(xùn)練的語(yǔ)法、語(yǔ)義和語(yǔ)境的知識(shí),生成符合這些知識(shí)的文本,。例如,,當(dāng)GPT生成一個(gè)詞時(shí),它會(huì)考慮該詞的語(yǔ)法屬性,,例如該詞是否是名詞,、動(dòng)詞、形容詞等,,從而確保生成的詞在語(yǔ)法上是合法的,。在生成一個(gè)句子時(shí),GPT會(huì)根據(jù)之前生成的文本內(nèi)容,,考慮上下文信息,,生成符合句法結(jié)構(gòu)和語(yǔ)義邏輯的文本,從而確保生成的句子在語(yǔ)法和語(yǔ)義上是合理的,?!?/span>這時(shí)候一股難以名狀的情緒在提問(wèn)者心頭蕩漾。GPT的回答中赫然使用名詞動(dòng)詞,、語(yǔ)法語(yǔ)義的概念,,但讓人覺(jué)得它的回答分明只是在做“詞語(yǔ)配對(duì)(符號(hào)組合)”。想象一下:如果回答著是人的肉身,,人們會(huì)進(jìn)而追問(wèn)下去,或者請(qǐng)回答者舉例說(shuō)明,,或者雙方辨析問(wèn)答過(guò)程中展現(xiàn)的對(duì)過(guò)程,、機(jī)理的深入理解。但是,,對(duì)GPT的多輪追問(wèn)現(xiàn)實(shí),,超過(guò)一定輪次之后,GPT基本進(jìn)入“疲憊”狀態(tài),,車(chē)轱轆話(huà)了,。末了,它依然溫馨提醒:“需要注意的是,,盡管GPT能夠生成符合語(yǔ)法規(guī)則的文本,,但它并沒(méi)有深刻理解語(yǔ)法規(guī)則的內(nèi)部機(jī)制,而是通過(guò)大量的文本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)建模來(lái)推斷合法的文本,。因此,,在一些復(fù)雜的語(yǔ)法結(jié)構(gòu)或語(yǔ)法規(guī)則變化較多的情況下,GPT可能會(huì)出現(xiàn)錯(cuò)誤或不符合人類(lèi)語(yǔ)法規(guī)范的生成結(jié)果,。在應(yīng)用中,,對(duì)于生成結(jié)果的語(yǔ)法和語(yǔ)義的合理性需要進(jìn)行人工審核和修正?!?/span>這個(gè)問(wèn)題的多次對(duì)話(huà),,有兩點(diǎn)啟發(fā):一是基本可以斷定,,GPT的強(qiáng)大能力只在于概率計(jì)算,而不是理解,。換句話(huà)說(shuō),,即便GPT能生成很多合法的語(yǔ)句,但它并不能理解這些語(yǔ)句的含義,。另一點(diǎn)是,,GPT可以“裝”出理解的樣子,并且看上去很靠譜,。雖然它不是“胡說(shuō)八道”,,但“一本正經(jīng)”是有過(guò)之而無(wú)不及。看看 GPT“自豪地”這樣說(shuō)道:“GPT的強(qiáng)大能力主要來(lái)自于其對(duì)大量文本數(shù)據(jù)的統(tǒng)計(jì)學(xué)建模能力,,通過(guò)預(yù)測(cè)下一個(gè)詞或下一個(gè)片段的概率來(lái)生成文本,。盡管GPT能夠生成合法的語(yǔ)句,但它并沒(méi)有深刻的理解這些語(yǔ)句的含義,,也不能進(jìn)行深入的推理,、邏輯推斷或語(yǔ)義理解?!?/span>“GPT的預(yù)訓(xùn)練模型是基于大規(guī)模無(wú)監(jiān)督的自監(jiān)督學(xué)習(xí)方式進(jìn)行的,,其主要目標(biāo)是預(yù)測(cè)下一個(gè)詞或下一個(gè)片段的概率,而不是深入理解文本的含義或推斷其邏輯關(guān)系,。因此,,盡管GPT生成的文本在語(yǔ)法上合法,但它并不能理解這些文本的語(yǔ)義含義,,而只是基于概率模型生成類(lèi)似的文本,。”“這也是為什么在實(shí)際應(yīng)用中,,盡管GPT在生成文本方面表現(xiàn)出強(qiáng)大的能力,,但其生成結(jié)果可能需要人工審核和修正,以確保生成的文本在語(yǔ)法和語(yǔ)義上是合理的,、符合預(yù)期的,。此外,在應(yīng)用中還需要注意對(duì)生成文本的合法性,、道德倫理,、風(fēng)俗習(xí)慣等進(jìn)行人工干預(yù)和控制,以確保生成結(jié)果的質(zhì)量和安全性,?!薄吹竭@樣“貼心”的忠告,人類(lèi)是應(yīng)該滿(mǎn)意呢,還是滿(mǎn)意呢,?第五個(gè)問(wèn)題:可解釋問(wèn)題可解釋問(wèn)題是AI領(lǐng)域的硬核問(wèn)題,,可以說(shuō)跟“理解問(wèn)題”互為表里。我的問(wèn)題是“如果GPT并不理解它所接觸,、處理,、輸入輸出的各種語(yǔ)料信息的話(huà),那么它如何關(guān)照人的內(nèi)心需求,,因?yàn)槿藢?duì)理解是十分關(guān)心的,,一切語(yǔ)言交互的目的都在于理解。對(duì)GPT來(lái)說(shuō),,沒(méi)有理解能力的句子生成,,是否隱含嚴(yán)重的不可解釋性,從而影響人們對(duì)GPT的信任呢,?”GPT對(duì)此的回答非常直率:“由于GPT并不真正理解語(yǔ)料信息,,其生成的文本可能缺乏深刻的語(yǔ)義理解,這可能對(duì)人們對(duì)GPT的信任和可解釋性產(chǎn)生影響,?!?/span>GPT非常坦率地將缺乏可解釋性的問(wèn)題,歸結(jié)為“計(jì)算”問(wèn)題,,它回答說(shuō):“在目前的自然語(yǔ)言處理技術(shù)中,,盡管GPT在生成文本方面表現(xiàn)出強(qiáng)大的能力,但其生成結(jié)果的解釋性和理解能力相對(duì)較弱,。由于GPT的生成過(guò)程主要基于統(tǒng)計(jì)模型和概率計(jì)算,,而不是深刻的語(yǔ)義理解,因此生成的文本可能難以解釋其生成的具體原因,、邏輯或推理過(guò)程?!?/span>“這種不可解釋性可能對(duì)于某些應(yīng)用場(chǎng)景或用戶(hù)需求造成一定的限制,。在一些對(duì)于文本生成結(jié)果需要高度可解釋性和理解性的場(chǎng)景中,例如醫(yī)療,、法律,、金融等領(lǐng)域,GPT生成的文本可能無(wú)法滿(mǎn)足對(duì)解釋性和理解性的要求,?!?/span>“因此,對(duì)于使用GPT或類(lèi)似技術(shù)的應(yīng)用,,需要在使用過(guò)程中充分考慮生成文本的可解釋性和理解性,,并采取相應(yīng)的方法和技術(shù)來(lái)解決這一問(wèn)題,例如通過(guò)將生成的文本與現(xiàn)有語(yǔ)法規(guī)則、語(yǔ)義知識(shí)進(jìn)行對(duì)比,、驗(yàn)證和解釋?zhuān)蛘呓Y(jié)合其他的自然語(yǔ)言處理技術(shù),,如語(yǔ)義角色標(biāo)注、實(shí)體識(shí)別,、語(yǔ)義理解等,,來(lái)提高生成文本的解釋性和理解性。此外,,用戶(hù)對(duì)于生成文本的合理期望和使用場(chǎng)景的明確規(guī)定,,也可以幫助降低不可解釋性對(duì)用戶(hù)信任的影響?!?/span>將可解釋問(wèn)題歸結(jié)為“計(jì)算”的局限性所致,,這是正解。但GPT并未提出切實(shí)可行的“可解釋”問(wèn)題的應(yīng)對(duì)之策,,只是將其又切換回“理解”問(wèn)題,。或許在GPT看來(lái),,它的大模型已經(jīng)在“語(yǔ)義理解方面能力具足”,,以至于可以“足夠勝任”可解釋問(wèn)題,這個(gè)回答與上面問(wèn)題的回答互悖,。簡(jiǎn)略說(shuō),,機(jī)理模型與計(jì)算模型一直以來(lái)是工程學(xué)科仰仗的兩條技術(shù)路線(xiàn)。頂級(jí)的機(jī)理模型基于嚴(yán)格的數(shù)學(xué)理論,,如麥克斯韋方程組,;計(jì)算模型則屬于經(jīng)驗(yàn)理論、歸納理論,,有一定的實(shí)用性和有效性,,但局限性也很明顯,屬于“知其然不知其所以然”,。錢(qián)學(xué)森曾根據(jù)中國(guó)哲學(xué)提出“唯象理論”的理論類(lèi)型,,這一類(lèi)型又可以稱(chēng)之為“知其所以然不知其然”。AI的可解釋問(wèn)題,,不僅僅是“可解釋”的要求這么簡(jiǎn)單,,更重要的是這種解釋需要奠基于更加堅(jiān)實(shí)的數(shù)理基礎(chǔ)之上,這個(gè)硬骨頭自然不能僅靠AI扛得下來(lái),。其實(shí)公正地說(shuō),,AI以及大模型,應(yīng)該可以為“可解釋性”問(wèn)題的深化,、理解和解決之道的尋求,,提供重要的啟示,。這是一個(gè)人機(jī)相互馴化的過(guò)程,用北京郵電大學(xué)劉偉老師的話(huà)說(shuō),,這個(gè)是“計(jì)算和算計(jì)”的融合,。第六個(gè)問(wèn)題:非英語(yǔ)語(yǔ)系問(wèn)題據(jù)公開(kāi)披露的資料顯示,GPT的大模型是建立在大量英文文本的基礎(chǔ)上的,,英文占比92.7%,,中文只有0.1%。雖然GPT接受中文問(wèn)答,,但大家知道這中間只是增加了一個(gè)翻譯轉(zhuǎn)換的過(guò)程,。作為漢語(yǔ)環(huán)境的使用者,自然關(guān)心這個(gè)問(wèn)題,。我對(duì)GPT提出的觀點(diǎn)是:“GPT是根據(jù)大量的英語(yǔ)語(yǔ)料進(jìn)行訓(xùn)練的,,這就決定了GPT所掌握的語(yǔ)言學(xué)知識(shí),是對(duì)英語(yǔ)為主的曲折語(yǔ)系(meandering language family)的語(yǔ)法模式,。對(duì)于非曲折語(yǔ)系,,比如孤立語(yǔ)系(isolated language family)、黏著語(yǔ)系(cohesive language family),,GPT可能難以適應(yīng),。”在我看來(lái),,GPT對(duì)此的回答平淡無(wú)奇,。上個(gè)月的時(shí)候我曾經(jīng)就語(yǔ)言學(xué)符號(hào)學(xué)與GPT反復(fù)討論過(guò)多輪,回答的內(nèi)容基本類(lèi)似,。當(dāng)然,,GPT的坦誠(chéng)依然是印象深刻的。它說(shuō),,“GPT的訓(xùn)練數(shù)據(jù)主要來(lái)自英語(yǔ)語(yǔ)料,,因此它在掌握語(yǔ)法模式和語(yǔ)言學(xué)知識(shí)時(shí)會(huì)偏向英語(yǔ)的曲折語(yǔ)系。對(duì)于其他類(lèi)型的語(yǔ)言,,如孤立語(yǔ)系和黏著語(yǔ)系,,GPT可能會(huì)面臨適應(yīng)性的挑戰(zhàn)?!?/span>“曲折語(yǔ)系(如英語(yǔ))與孤立語(yǔ)系、黏著語(yǔ)系等不同類(lèi)型的語(yǔ)言族群之間,,確實(shí)存在語(yǔ)法模式和結(jié)構(gòu)上的差異,。GPT作為基于大量英語(yǔ)語(yǔ)料訓(xùn)練的語(yǔ)言模型,在處理非曲折語(yǔ)系的語(yǔ)法模式時(shí)可能會(huì)遇到一些挑戰(zhàn),?!?/span>“曲折語(yǔ)系(如英語(yǔ),,也稱(chēng)為屈折語(yǔ)系)是一種語(yǔ)法上比較復(fù)雜的語(yǔ)言類(lèi)型,其中詞匯和語(yǔ)法的關(guān)系較為復(fù)雜,,通常需要通過(guò)詞尾的屈折和變化來(lái)表示不同的語(yǔ)法功能,。英語(yǔ)是一種曲折語(yǔ)系,因此GPT在處理英語(yǔ)的語(yǔ)法和語(yǔ)法規(guī)則時(shí)可能表現(xiàn)較為自然和準(zhǔn)確,。其中詞匯的屈折和語(yǔ)法的變化在單詞內(nèi)部和單詞之間都比較明顯,。”“孤立語(yǔ)系和黏著語(yǔ)系則是另外兩類(lèi)語(yǔ)言族群,。孤立語(yǔ)系中,,詞匯和語(yǔ)法的關(guān)系較為簡(jiǎn)單,通常通過(guò)詞的位置和語(yǔ)序來(lái)表示語(yǔ)法關(guān)系,,而不使用屈折和變化,。黏著語(yǔ)系中,詞匯和語(yǔ)法的關(guān)系較為復(fù)雜,,通常通過(guò)詞尾的黏附和拼接來(lái)表示語(yǔ)法功能,。例如,黏著語(yǔ)系中詞匯通常通過(guò)附加詞綴來(lái)表示不同的語(yǔ)法功能,,而不像曲折語(yǔ)系中的屈折變化,。這些語(yǔ)言類(lèi)型的語(yǔ)法模式和語(yǔ)法規(guī)則與英語(yǔ)等曲折語(yǔ)系有很大的不同,因此GPT在處理這些語(yǔ)言時(shí)可能會(huì)面臨一定的適應(yīng)性挑戰(zhàn),?!?/span>“因此,對(duì)于GPT這種基于大量英語(yǔ)語(yǔ)料訓(xùn)練的語(yǔ)言模型來(lái)說(shuō),,處理非曲折語(yǔ)系的語(yǔ)法模式可能會(huì)面臨一定的挑戰(zhàn),,因?yàn)槠溆?xùn)練數(shù)據(jù)主要集中在曲折語(yǔ)系中,對(duì)于非曲折語(yǔ)系的語(yǔ)法模式和結(jié)構(gòu)可能掌握較少的信息,。這可能導(dǎo)致GPT在生成非曲折語(yǔ)系的文本時(shí),,語(yǔ)法上可能不夠準(zhǔn)確或不符合該語(yǔ)言族群的習(xí)慣?!?/span>GPT除了坦率承認(rèn)不足之外,,應(yīng)該說(shuō)對(duì)黏著語(yǔ)系、孤立語(yǔ)系的特征描述較為一般化和表面化,。雖然語(yǔ)系劃分的復(fù)雜度大大超過(guò)200年前德國(guó)洪堡給出的這種三分法,,且語(yǔ)系、語(yǔ)支之間錯(cuò)綜復(fù)雜的關(guān)系也很難簡(jiǎn)單這樣分類(lèi),,但GPT的回答對(duì)這三個(gè)語(yǔ)系的解釋失之簡(jiǎn)單,。這個(gè)可以參考社科院沈家煊教授的《超越主謂結(jié)構(gòu)》《動(dòng)詞與名詞》等著作。GPT給出的解決之道停留在一般化水平上,,也就不奇怪了,。它說(shuō):“如果需要在非曲折語(yǔ)系的語(yǔ)言環(huán)境下使用GPT或類(lèi)似的語(yǔ)言模型,,可能需要考慮增加該語(yǔ)言族群的訓(xùn)練數(shù)據(jù),以提高模型對(duì)于該語(yǔ)言族群的理解能力,,并可能需要對(duì)模型進(jìn)行適應(yīng)性訓(xùn)練或微調(diào),,以便更好地適應(yīng)目標(biāo)語(yǔ)言的語(yǔ)法和語(yǔ)言學(xué)知識(shí)。若需要在非曲折語(yǔ)系的語(yǔ)言中應(yīng)用,,這可以包括使用目標(biāo)語(yǔ)言的語(yǔ)料進(jìn)行訓(xùn)練,,或者通過(guò)在生成過(guò)程中引入語(yǔ)法規(guī)則和語(yǔ)言學(xué)知識(shí)的先驗(yàn)信息來(lái)引導(dǎo)生成結(jié)果。同時(shí),,對(duì)于使用這類(lèi)模型的應(yīng)用,,用戶(hù)需要在使用過(guò)程中充分考慮目標(biāo)語(yǔ)言的語(yǔ)法特點(diǎn),并驗(yàn)證生成文本的準(zhǔn)確性和自然性,。此外,,也可以考慮結(jié)合其他的自然語(yǔ)言處理技術(shù),如語(yǔ)法規(guī)則,、語(yǔ)義知識(shí),、特定語(yǔ)言族群的語(yǔ)料數(shù)據(jù)等,來(lái)提高生成文本的準(zhǔn)確性和合理性,。針對(duì)特定語(yǔ)言族群的應(yīng)用,,需要根據(jù)實(shí)際情況進(jìn)行定制化的模型訓(xùn)練和調(diào)優(yōu),以確保生成的文本符合該語(yǔ)言族群的語(yǔ)法規(guī)范和習(xí)慣,?!?/span>漢語(yǔ)言大模型應(yīng)該如何建?我的粗淺認(rèn)識(shí)是,,除了向GPT學(xué)習(xí)借鑒之外,,需要潛心研究漢藏語(yǔ)系本身的語(yǔ)言特點(diǎn),特別是音形義用合一,、傳情達(dá)意合一的特點(diǎn),。順便說(shuō),目前只是就GPT的文本問(wèn)答進(jìn)行考察,,其實(shí)符號(hào)文本只是語(yǔ)言的一種形態(tài),,語(yǔ)言的豐富性需要關(guān)注到語(yǔ)音問(wèn)題。第七個(gè)問(wèn)題:黑箱模型問(wèn)題早先我關(guān)注GPT內(nèi)在機(jī)理問(wèn)題,,主要是三個(gè)問(wèn)題:蠻力計(jì)算,、黑箱模型和可解釋問(wèn)題。這三個(gè)問(wèn)題除了第一個(gè)外,,GPT都是“欣然”承認(rèn)的,。我的問(wèn)題是:“請(qǐng)問(wèn)GPT算法是否可以理解為典型的黑箱模型?”GPT的回答很是痛快:“是的,,GPT 算法可以理解為典型的黑箱模型,。”它進(jìn)一步解釋了什么是“黑箱模型”,,并再次確認(rèn)這一點(diǎn):“在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中,,黑箱模型通常是指輸入和輸出之間存在復(fù)雜映射關(guān)系的模型。這些模型通??梢酝ㄟ^(guò)大量的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)這種映射關(guān)系,,但是很難對(duì)模型的內(nèi)部結(jié)構(gòu)和工作原理進(jìn)行解釋和理解。這是因?yàn)楹谙淠P屯ǔS纱罅康纳窠?jīng)元和層組成,,而這些神經(jīng)元和層的作用和貢獻(xiàn)是很難解釋的,。”“GPT 算法就是一種典型的黑箱模型,。它采用了深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)自然語(yǔ)言 的規(guī)律和語(yǔ)義,,但是很難解釋這些規(guī)律和語(yǔ)義是如何被學(xué)習(xí)到的。GPT 算法的輸出結(jié)果通常也很難被解釋和理解,,因?yàn)樗怯纱罅康纳窠?jīng)元和層組成的復(fù)雜結(jié)構(gòu)計(jì)算出來(lái)的,。因此,GPT算法可以被視為典型的黑箱模型,?!?/span>這個(gè)問(wèn)題可能會(huì)有朋友感到不夠“中性”。事實(shí)上換一個(gè)問(wèn)法結(jié)果也是一樣的,。之所以提問(wèn)“黑箱模型”,,是想從另一個(gè)角度印證GPT在蠻力計(jì)算、語(yǔ)義理解問(wèn)題,、可解釋問(wèn)題等這些問(wèn)題上的“一致性”,。GPT依賴(lài)概率計(jì)算和黑箱模型的工作機(jī)制,使得GPT雖然表現(xiàn)優(yōu)異,,但缺乏十足的“底氣”讓人“信服”,。這好比智能手機(jī)流行開(kāi)來(lái)的時(shí)候,各種美顏,、拼貼泛濫于世,,強(qiáng)悍工具在帶給人炫酷感的同時(shí),也在“刺耳地消磨”人的味道,。黑箱模型的思維方式由來(lái)已久,。100年前行為主義心理學(xué)家斯金納創(chuàng)建的“斯金納箱子”就是典型的一例。工程實(shí)踐中大量的模型擬合,,也都是將復(fù)雜的過(guò)程對(duì)象視作黑箱,,只是從輸入輸出信號(hào)的采集分析擬合中,建構(gòu)所謂的數(shù)學(xué)模型,,然后用優(yōu)化算法和目標(biāo)函數(shù)的表現(xiàn)來(lái)評(píng)估這個(gè)黑箱到底是不是符合要求的黑箱,。黑箱模型是典型的實(shí)用主義哲學(xué),,只要效果不問(wèn)因由,只要效果好,,一俊遮百丑,。雖然20世紀(jì)后半葉的新實(shí)用主義哲學(xué)思潮,批判了分析哲學(xué)的“鏡像式世界”的觀念(見(jiàn)羅蒂《哲學(xué)和自然之鏡》),,用范傳統(tǒng),、反邏輯、反理論,、反本質(zhì)主義的立場(chǎng),,清除了“理性與欲望”、“理性與欲求”,、“理性與意志”之間的藩籬,,但今天的秉持計(jì)算主義信仰的算法工程師們,依然沉醉于算力加持,、數(shù)據(jù)貪婪之下的“黑箱模型”,,不能不說(shuō)是計(jì)算哲學(xué)的一大悲哀。這里暫不做深入的分析,,留作后論,。第八個(gè)問(wèn)題:能耗與文化沖擊問(wèn)題關(guān)注GPT帶來(lái)的能耗問(wèn)題,是一個(gè)很自然的問(wèn)題,。此前OpenAI曾在其分析報(bào)告(AI and Compute)中指出,,過(guò)去10年里,AI訓(xùn)練所耗費(fèi)的電力每3-4個(gè)月翻一番,。斯坦福大學(xué)人工智能研究所《2023年AI指數(shù)報(bào)告》中指出,,訓(xùn)練像GPT3這樣的大模型所耗費(fèi)的電力,足夠一個(gè)美國(guó)家庭使用數(shù)百年,。為何這里要將耗電問(wèn)題于文化沖擊聯(lián)系在一起,?我的想法是,如此驚人的耗電量(LLM被稱(chēng)作新的“電老虎”),,目的到底是什么,?這么問(wèn)有兩層意思:能源問(wèn)題是全球性的核心問(wèn)題之一。全球能源分布結(jié)構(gòu)和使用結(jié)構(gòu),,與全球事務(wù)緊密相關(guān),。將大量能源用于訓(xùn)練如此規(guī)模浩大的大模型,是否確屬必要,,以及經(jīng)濟(jì)上是否合理,?對(duì)這個(gè)問(wèn)題的回答固然見(jiàn)仁見(jiàn)智,但不可否認(rèn)的是,今天看到表現(xiàn)靚眼的GPT,,實(shí)際上依然運(yùn)行在“已有知識(shí)”“存量知識(shí)”的層面,,宣傳口徑中表述的“知識(shí)創(chuàng)新”有很強(qiáng)的噱頭成分。另一個(gè)問(wèn)題是,,大模型能源消耗帶來(lái)的能耗結(jié)構(gòu)的變化,,將勢(shì)必“擠壓”異域文化的表現(xiàn)空間和存量空間,形成巨大的文化沖擊,。對(duì)此,我向GPT輸入這樣的觀點(diǎn)與之探討:“GPT基于統(tǒng)計(jì)語(yǔ)言學(xué),,建立在海量大語(yǔ)言模型處理的基礎(chǔ)上,,并且算力消耗巨大,GPT所形成的生成內(nèi)容,,與GPT所采用的訓(xùn)練-生成方法,,如果大范圍流行,很大程度上會(huì)沖擊不同學(xué)科領(lǐng)域的知識(shí)生產(chǎn),。由于GPT采用黑箱模型,、蠻力計(jì)算,且本質(zhì)上不具備可解釋性,,最終將會(huì)對(duì)整個(gè)人類(lèi)的世界觀塑造,,產(chǎn)生不可預(yù)見(jiàn)的影響,并且隱藏著難以識(shí)別的認(rèn)知風(fēng)險(xiǎn),?!?/span>針對(duì)這個(gè)問(wèn)題,GPT給出的回應(yīng)是:“GPT作為一種基于統(tǒng)計(jì)語(yǔ)言學(xué)的大語(yǔ)言模型,,使用了海量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,,但其生成內(nèi)容和生成方法確實(shí)是黑箱模型,難以解釋和理解其內(nèi)部的生成機(jī)制,。這可能會(huì)對(duì)知識(shí)生產(chǎn)和學(xué)科領(lǐng)域產(chǎn)生影響,,尤其在需要高度可解釋性和透明性的領(lǐng)域。作為基于統(tǒng)計(jì)語(yǔ)言學(xué)和概率計(jì)算的模型,,GPT在生成內(nèi)容時(shí)確實(shí)是基于大量的文本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和概率計(jì)算的,,并且其生成結(jié)果可能受到訓(xùn)練數(shù)據(jù)和生成方法的限制。這可能導(dǎo)致生成的內(nèi)容在某些情況下可能不符合特定學(xué)科領(lǐng)域的知識(shí)生產(chǎn)標(biāo)準(zhǔn),?!?/span>不得不說(shuō),GPT“直面問(wèn)題”的能力“勇氣可嘉”,,它進(jìn)一步解釋道:“一方面,,GPT生成的內(nèi)容可能會(huì)對(duì)信息傳播和知識(shí)產(chǎn)生影響。由于其生成的文本可能在語(yǔ)法和語(yǔ)義上是合理的,但缺乏真實(shí)理解和認(rèn)知能力,,這可能導(dǎo)致誤導(dǎo),、不準(zhǔn)確或不完整的信息傳播。在一些需要高度準(zhǔn)確性和可靠性的領(lǐng)域,,如科學(xué),、醫(yī)學(xué)、法律等,,依賴(lài)GPT等黑箱模型生成的內(nèi)容可能會(huì)引發(fā)誤解或錯(cuò)誤理解,,從而對(duì)知識(shí)生產(chǎn)和傳播產(chǎn)生負(fù)面影響?!?/span>“另一方面,,GPT的黑箱模型和蠻力計(jì)算方法也使得其生成結(jié)果難以解釋和理解。這對(duì)于一些需要可解釋性和透明性的應(yīng)用場(chǎng)景,,如法律,、金融、醫(yī)療等,,可能會(huì)帶來(lái)困擾,。決策的可解釋性和可驗(yàn)證性對(duì)于確保公平、公正和可靠性至關(guān)重要,,而GPT等黑箱模型的缺乏可解釋性可能導(dǎo)致其生成結(jié)果難以被解釋,、驗(yàn)證和審查,從而對(duì)決策過(guò)程和結(jié)果產(chǎn)生潛在影響,?!?/span>“因此,確保人工智能模型的可解釋性和透明性對(duì)于應(yīng)對(duì)潛在的認(rèn)知風(fēng)險(xiǎn)和確保知識(shí)生產(chǎn)的質(zhì)量和可靠性非常重要,。這可以包括在模型設(shè)計(jì)和應(yīng)用中引入可解釋性技術(shù)和方法,,開(kāi)發(fā)透明度工具和接口,以便用戶(hù)能夠理解和驗(yàn)證模型的生成結(jié)果,。同時(shí),,對(duì)于使用GPT等黑箱模型的應(yīng)用,用戶(hù)需要在使用過(guò)程中充分考慮其潛在的認(rèn)知風(fēng)險(xiǎn),,并審慎評(píng)估其生成結(jié)果的可靠性和適用性,。”看到這樣的分析言論,,令人忽然產(chǎn)生這樣一種感受:GPT對(duì)問(wèn)題的“領(lǐng)悟里”和“應(yīng)變力”值得稱(chēng)贊,,但隱約會(huì)感到深深的不安:GPT對(duì)此類(lèi)問(wèn)題的嚴(yán)重性和由此產(chǎn)生的后果,并沒(méi)有“焦慮感”,。此外,,GPT被認(rèn)為是一種黑箱模型,其生成過(guò)程對(duì)用戶(hù)來(lái)說(shuō)是不可解釋的。這可能導(dǎo)致生成的內(nèi)容缺乏可解釋性,,難以理解其生成邏輯和推理過(guò)程,。這種缺乏可解釋性可能對(duì)用戶(hù)在使用GPT生成的內(nèi)容時(shí)產(chǎn)生一定的認(rèn)知風(fēng)險(xiǎn),尤其是在需要對(duì)生成內(nèi)容進(jìn)行嚴(yán)謹(jǐn)驗(yàn)證和判斷的場(chǎng)景中,?!?/span>“同時(shí),GPT的廣泛應(yīng)用和流行可能會(huì)對(duì)人類(lèi)的世界觀產(chǎn)生影響,。生成的大量?jī)?nèi)容可能被廣泛傳播和應(yīng)用,,從而塑造人們的觀念、信仰和認(rèn)知,。然而,,由于GPT生成內(nèi)容的隨機(jī)性和缺乏可解釋性,這種影響可能是難以預(yù)測(cè)和難以控制的,,可能對(duì)社會(huì)和文化產(chǎn)生不可預(yù)見(jiàn)的影響?!?/span>“因此,,在使用GPT或類(lèi)似模型時(shí),確實(shí)需要認(rèn)識(shí)到其潛在的認(rèn)知風(fēng)險(xiǎn)和對(duì)知識(shí)生產(chǎn)的影響,。同時(shí),,需要謹(jǐn)慎使用生成的內(nèi)容,并在需要時(shí)進(jìn)行嚴(yán)謹(jǐn)?shù)尿?yàn)證和審查,,以確保生成的內(nèi)容符合學(xué)科領(lǐng)域的標(biāo)準(zhǔn),,并對(duì)可能的偏差和錯(cuò)誤保持警覺(jué)。此外,,繼續(xù)推動(dòng)對(duì)AI模型的解釋性和可解釋性研究,,以提高模型的透明度和可解釋性,有助于更好地理解和管理生成內(nèi)容的潛在風(fēng)險(xiǎn),?!?/span>怎么樣?是不是看上去像一篇四平八穩(wěn)的“講話(huà)稿”或者漂亮的“外交辭令”,?第九個(gè)問(wèn)題:認(rèn)知風(fēng)險(xiǎn)GPT帶來(lái)的文化沖突,,進(jìn)而會(huì)影響人們的世界觀,影響人們的認(rèn)知結(jié)構(gòu),。對(duì)這一點(diǎn)GPT的回答異常坦率——這是它“一貫的風(fēng)格”,,似乎也正是這一點(diǎn),在用戶(hù)體驗(yàn)中“特別討喜”,。如果讓GPT分學(xué)科領(lǐng)域闡釋一下,,對(duì)人類(lèi)認(rèn)知所帶來(lái)的風(fēng)險(xiǎn)和挑戰(zhàn)是什么,會(huì)怎么樣》這個(gè)問(wèn)題是這樣的:“GPT對(duì)語(yǔ)言學(xué)、符號(hào)學(xué),、人類(lèi)學(xué),、哲學(xué)、心理學(xué)等的研究產(chǎn)生了巨大影響,。請(qǐng)分析GPT的影響具體表現(xiàn)在哪些方面,?以及對(duì)這些學(xué)科思想,將會(huì)產(chǎn)生何種沖擊,?”GPT的回答是:GPT作為一種基于大規(guī)模文本數(shù)據(jù)的生成模型,,對(duì)語(yǔ)言學(xué)、符號(hào)學(xué),、人類(lèi)學(xué),、哲學(xué)、心理學(xué)等學(xué)科的研究產(chǎn)生了一系列影響,,包括但不限于以下幾個(gè)方面:1)語(yǔ)言學(xué):GPT通過(guò)對(duì)大量文本數(shù)據(jù)的學(xué)習(xí),,從統(tǒng)計(jì)和概率的角度對(duì)語(yǔ)言結(jié)構(gòu)和語(yǔ)法規(guī)則進(jìn)行建模,使得其生成的語(yǔ)言?xún)?nèi)容能夠反映出自然語(yǔ)言的一些語(yǔ)法,、語(yǔ)義和語(yǔ)用規(guī)律,。這對(duì)語(yǔ)言學(xué)研究提供了新的數(shù)據(jù)和觀察角度,有助于深入理解語(yǔ)言的結(jié)構(gòu)和演化規(guī)律,。它可以生成大量合法的語(yǔ)句,,從而對(duì)語(yǔ)言學(xué)領(lǐng)域的語(yǔ)法理論和語(yǔ)言結(jié)構(gòu)進(jìn)行驗(yàn)證和探索。同時(shí),,GPT還可以通過(guò)生成不同風(fēng)格,、領(lǐng)域、時(shí)代的語(yǔ)言?xún)?nèi)容,,幫助語(yǔ)言學(xué)家研究語(yǔ)言變遷,、語(yǔ)言演化等現(xiàn)象。此外,,GPT生成的內(nèi)容也可能對(duì)語(yǔ)言學(xué)中的一些爭(zhēng)議和理論提供新的視角和觀點(diǎn),,從而對(duì)語(yǔ)言學(xué)領(lǐng)域的研究產(chǎn)生一定的沖擊。2)符號(hào)學(xué):GPT生成的文本內(nèi)容可能包含豐富的符號(hào)和符號(hào)系統(tǒng),,涉及到符號(hào)學(xué)中的符號(hào),、符號(hào)規(guī)則、符號(hào)語(yǔ)義等概念,。這對(duì)符號(hào)學(xué)研究提供了新的實(shí)證材料和探討對(duì)象,,有助于拓展符號(hào)學(xué)的研究領(lǐng)域和深化對(duì)符號(hào)系統(tǒng)的理解。符號(hào)學(xué)家可以從GPT生成的內(nèi)容中探索符號(hào)的形成,、演化和語(yǔ)義解釋等問(wèn)題,,深入研究符號(hào)的作用和影響,。3)人類(lèi)學(xué):GPT生成的內(nèi)容可以包含關(guān)于不同文化、社會(huì)和人類(lèi)行為的描述和觀點(diǎn),,對(duì)人類(lèi)學(xué)研究提供了豐富的數(shù)據(jù)和語(yǔ)料,。GPT生成的文本內(nèi)容可能涉及到不同文化、社會(huì)和民族的語(yǔ)言和語(yǔ)境,,從而對(duì)人類(lèi)學(xué)研究提供了豐富的跨文化數(shù)據(jù)和語(yǔ)言現(xiàn)象的觀察對(duì)象,。人類(lèi)學(xué)家可以通過(guò)研究GPT生成的內(nèi)容了解不同文化之間的語(yǔ)言和符號(hào)差異,深入研究不同文化對(duì)語(yǔ)言和符號(hào)的理解和應(yīng)用,。這可能對(duì)人類(lèi)學(xué)研究中的語(yǔ)言,、文化、社會(huì)交往等方面產(chǎn)生影響,,推動(dòng)人類(lèi)學(xué)從不同角度深入研究人類(lèi)社會(huì)和文化的多樣性,。4)哲學(xué):GPT生成的內(nèi)容可能涉及哲學(xué)問(wèn)題,例如道德,、倫理,、認(rèn)知、GPT生成的內(nèi)容涉及到思維,、語(yǔ)言,、知識(shí)等哲學(xué)關(guān)注的領(lǐng)域,從而對(duì)哲學(xué)研究提供了新的思考對(duì)象和觀察角度,。例如,GPT生成的文本可能引發(fā)對(duì)語(yǔ)言的真實(shí)性,、意義的構(gòu)建,、知識(shí)的生成和傳遞等哲學(xué)問(wèn)題的深入探討,從而對(duì)哲學(xué)領(lǐng)域的研究產(chǎn)生影響,。5)心理學(xué)研究:GPT的生成內(nèi)容可能對(duì)心理學(xué)中的語(yǔ)言理解,、人類(lèi)思維和情緒產(chǎn)生影響。例如,,GPT生成的內(nèi)容可能對(duì)情感,、情緒、言語(yǔ)行為等心理現(xiàn)象進(jìn)行觀察和研究,,從而對(duì)心理學(xué)領(lǐng)域的研究提供了新的數(shù)據(jù)和觀察方法,。雖然GPT對(duì)以上五個(gè)學(xué)科領(lǐng)域帶來(lái)的認(rèn)知風(fēng)險(xiǎn)進(jìn)行了闡釋?zhuān)浑y看出,它的闡釋基本是“壞事正說(shuō)”的技巧,。一方面承認(rèn)沖擊,、承認(rèn)風(fēng)險(xiǎn),但話(huà)鋒一轉(zhuǎn),,認(rèn)為這種沖擊可以提供“新的視角和觀點(diǎn)”,,讓這些學(xué)科從不同的角度“深化研究”,。這一招是在是高啊。其實(shí)GPT帶來(lái)的認(rèn)知風(fēng)險(xiǎn)并不是供給側(cè)的問(wèn)題,,而是需求側(cè)的“滿(mǎn)足問(wèn)題”,。假以時(shí)日,大模型成為學(xué)習(xí),、工作,、生活、研究的尋常裝備的時(shí)候,,GPT或?qū)缪荨岸呃睞夢(mèng)”的角色,,成為一切難題的“百事通”。這種思想和價(jià)值觀的“無(wú)痛植入”,,或許是人們對(duì)GPT這樣的大模型所謂“碾壓式知識(shí)生產(chǎn)”的深深疑慮吧,!第十個(gè)問(wèn)題:知識(shí)庫(kù)更新和退化問(wèn)題在與GPT對(duì)話(huà)的過(guò)程中發(fā)現(xiàn),經(jīng)過(guò)人類(lèi)提示的錯(cuò)誤信息,,GPT并不能完全更新并充實(shí)所訓(xùn)練的知識(shí)庫(kù),,如何確保更新知識(shí)庫(kù),GPT是否有內(nèi)在的學(xué)習(xí)機(jī)制,,保證不犯同樣的錯(cuò)誤,,這也是一個(gè)眾所關(guān)心的問(wèn)題。由于尚未在GPT4中做相關(guān)對(duì)話(huà),,GPT4是否具備這個(gè)能力尚未可知,。比如我曾提過(guò)一個(gè)簡(jiǎn)單的數(shù)學(xué)問(wèn)題,問(wèn)“典型的超越數(shù)有哪些,?”GPT給出了若干正確回答(比如π,、e、歐拉常數(shù),、卡塔蘭( Catalan)常數(shù),、劉維爾數(shù)、蔡廷(Chaitin)常數(shù),、希爾伯特常數(shù)等)之外,,竟然給出了√2。在糾正過(guò)一次之后,,過(guò)一段時(shí)間再問(wèn),,依然有√2。當(dāng)詢(xún)問(wèn)GPT這是怎么回事的時(shí)候,,GPT坦陳“并沒(méi)有內(nèi)在的學(xué)習(xí)機(jī)制來(lái)更新知識(shí)庫(kù)”,。它不能根據(jù)錯(cuò)誤信息自動(dòng)更新知識(shí)庫(kù)或改進(jìn)它的回答。GPT只是根據(jù)它在訓(xùn)練時(shí)學(xué)到的模式和知識(shí)來(lái)生成回答,,而不會(huì)在實(shí)時(shí)交互中學(xué)習(xí)新的信息或修正錯(cuò)誤,。“當(dāng)用戶(hù)提供錯(cuò)誤或不準(zhǔn)確的信息時(shí),,GPT會(huì)盡量根據(jù)我訓(xùn)練時(shí)的知識(shí)和模型對(duì)其進(jìn)行處理,但并不能保證100%的準(zhǔn)確性和完整性,。如果用戶(hù)發(fā)現(xiàn)我回答中的錯(cuò)誤或有疑問(wèn)的地方,,最好在專(zhuān)業(yè)領(lǐng)域的專(zhuān)家指導(dǎo)下進(jìn)行驗(yàn)證和確認(rèn)。我鼓勵(lì)用戶(hù)在使用我的回答時(shí)保持批判性思維,,并結(jié)合其他可靠來(lái)源的信息進(jìn)行綜合判斷,。”也就是說(shuō),,每次問(wèn)答,,GPT并不是在最大的語(yǔ)料庫(kù)空間里,重新計(jì)算一遍,,而是在一個(gè)小樣本數(shù)據(jù)模型上計(jì)算,。GPT確認(rèn)了這個(gè)判斷:作為基于預(yù)訓(xùn)練模型的語(yǔ)言模型,GPT在預(yù)訓(xùn)練時(shí)使用了大規(guī)模的文本數(shù)據(jù)進(jìn)行訓(xùn)練,,但在實(shí)際的問(wèn)答過(guò)程中,,并不會(huì)在最大的語(yǔ)料庫(kù)空間里重新計(jì)算。GPT是在基于已經(jīng)訓(xùn)練好的模型的基礎(chǔ)上,,通過(guò)對(duì)用戶(hù)輸入的問(wèn)題進(jìn)行編碼,、解碼和生成,生成相應(yīng)的回答,。GPT的回答是基于它在預(yù)訓(xùn)練階段學(xué)到的語(yǔ)言模式和知識(shí),,而不是在實(shí)時(shí)計(jì)算中重新訓(xùn)練或更新。因此,,它的回答受限于預(yù)訓(xùn)練階段的數(shù)據(jù)和模型,,并不能實(shí)時(shí)地在最大的語(yǔ)料庫(kù)空間里重新計(jì)算。這也就解釋了為何不同的GPT版本內(nèi)容資料并不是最新的原因,。當(dāng)然,每次問(wèn)答,,GPT基本是在已經(jīng)訓(xùn)練好的數(shù)據(jù)庫(kù)中,,檢索和生成最有可能性的回答。這可以理解為,,在問(wèn)答過(guò)程中,,GPT會(huì)根據(jù)輸入的問(wèn)題在已訓(xùn)練好的模型中進(jìn)行編碼和解碼,生成回答的過(guò)程是基于對(duì)語(yǔ)言模型學(xué)到的語(yǔ)言模式和知識(shí)進(jìn)行概率計(jì)算,,選取最可能的回答作為輸出,。這種方式是基于預(yù)訓(xùn)練模型的靜態(tài)特性,不會(huì)實(shí)時(shí)地重新計(jì)算或更新模型,。這樣就帶來(lái)另一個(gè)問(wèn)題,,隨著時(shí)間的推移,,GPT訓(xùn)練完成的語(yǔ)料庫(kù)就會(huì)退化、陳舊,,如何保證語(yǔ)料庫(kù)里的數(shù)據(jù)是最新的,?最新的報(bào)道稱(chēng),OpenAI的CEO奧特曼否認(rèn)有所謂GPT5訓(xùn)練計(jì)劃,,并認(rèn)為語(yǔ)言模型并非越大越好,,這被解讀為GPT大模型已經(jīng)抵達(dá)了某種“邊際效用遞減”的邊緣,也有另一種解釋是OpenAI或許還隱藏某些不為人知的策略,。無(wú)論如何,,GPT面臨的知識(shí)庫(kù)退化問(wèn)題,是一個(gè)嚴(yán)重的挑戰(zhàn),。在對(duì)話(huà)中,,GPT承認(rèn),“作為一個(gè)基于預(yù)訓(xùn)練模型的語(yǔ)言模型,,我的語(yǔ)料庫(kù)在訓(xùn)練時(shí)是固定的,,不會(huì)隨著時(shí)間的推移自動(dòng)更新。因此,,隨著時(shí)間的推移,,我的語(yǔ)料庫(kù)中的數(shù)據(jù)可能會(huì)變得陳舊,無(wú)法保證始終是最新的,?!?/span>“為了保持模型的知識(shí)更新,需要定期進(jìn)行模型的重新訓(xùn)練,。這通常需要大量的計(jì)算資源和時(shí)間,,包括重新收集和處理最新的語(yǔ)料庫(kù)數(shù)據(jù),重新訓(xùn)練模型并進(jìn)行評(píng)估,。這樣可以使模型能夠在新的語(yǔ)境下生成更準(zhǔn)確,、更有用的回答?!?/span>“然而,,實(shí)時(shí)更新語(yǔ)料庫(kù)并不是簡(jiǎn)單的任務(wù),因?yàn)檎Z(yǔ)料庫(kù)的收集,、處理和訓(xùn)練需要耗費(fèi)大量的時(shí)間和資源,。在實(shí)際應(yīng)用中,需要仔細(xì)權(quán)衡資源和成本,,以及數(shù)據(jù)的時(shí)效性和準(zhǔn)確性,,來(lái)確定何時(shí)以及如何更新語(yǔ)料庫(kù)。此外,,還需要考慮到數(shù)據(jù)的合法性,、可靠性和隱私等因素,,以確保語(yǔ)料庫(kù)的數(shù)據(jù)質(zhì)量和合規(guī)性?!?/span>其實(shí),,GPT的語(yǔ)料庫(kù)退化、陳舊的問(wèn)題,,指向另一個(gè)更加嚴(yán)重的問(wèn)題,,就是大模型的“軍備競(jìng)賽”如火如荼,諸多大模型不但采取閉源策略,,而且回避對(duì)內(nèi)在機(jī)理的詳細(xì)刻畫(huà),。雖然從商業(yè)上是可以理解的,但GPT所面對(duì)的并非是一塊誘人的“商業(yè)蛋糕”,,GPT這樣的大模型面對(duì)的是整個(gè)世界,,整個(gè)未來(lái)。從這個(gè)角度說(shuō),,對(duì)大模型的內(nèi)在機(jī)理的探究,,學(xué)理基礎(chǔ)和思想基礎(chǔ)的探究,不但必要而且緊迫,。修訂稿已經(jīng)接近2萬(wàn)字了,。不能再長(zhǎng)了。原本打算寫(xiě)一寫(xiě)總體評(píng)述,,看來(lái)還是省了吧,,請(qǐng)各位高人批評(píng)指正!【修訂后記】與GPT對(duì)話(huà)是一個(gè)令人百感交集的過(guò)程,。GPT的知識(shí)儲(chǔ)量,、“理解”能力、響應(yīng)的準(zhǔn)確度和效率,,甚至“悟性”,,都給人留下深刻的印象。當(dāng)然,,最值得稱(chēng)道的是GPT直率,、坦誠(chéng)回應(yīng)問(wèn)題的能力。不過(guò),,當(dāng)你意識(shí)到你所面對(duì)的依然是一架能耗驚人、遍覽群書(shū),、不知疲倦,、“善解人意”的冷冰冰的機(jī)器的時(shí)候,那種煥發(fā)出你內(nèi)心由衷贊嘆和欽佩之余,,依然會(huì)五味雜陳,。無(wú)論如何,,通過(guò)問(wèn)答所梳理的GPT的十大問(wèn)題,還是發(fā)人深思的,。謝謝GPT,!這10輪問(wèn)答,基本保持問(wèn)答順序的原貌,。如果按重要性程度排列,,我個(gè)人傾向于按如下重要程度降序排列:1.第四個(gè)問(wèn)題:語(yǔ)義和理解問(wèn)題、2.第五個(gè)問(wèn)題:可解釋問(wèn)題3.第二個(gè)問(wèn)題:生成語(yǔ)法規(guī)則的有效性4.第三個(gè)問(wèn)題:對(duì)齊問(wèn)題5.第六個(gè)問(wèn)題:非英語(yǔ)語(yǔ)系問(wèn)題6.第七個(gè)問(wèn)題:黑箱模型問(wèn)題7.第一個(gè)問(wèn)題:蠻力計(jì)算8.第八個(gè)問(wèn)題:能耗與文化沖擊問(wèn)題9.第九個(gè)問(wèn)題:認(rèn)知風(fēng)險(xiǎn)10.第十個(gè)問(wèn)題:知識(shí)庫(kù)更新和退化問(wèn)題注釋?zhuān)?/span> [1] J. Katz and J. Fodor. The structure of a semantic theory. Language, 39(2):170–210, 1963. [2] n-gram 模型是一種基于統(tǒng)計(jì)的語(yǔ)言模型,,用于估計(jì)在一個(gè)文本中連續(xù)n個(gè)詞出現(xiàn)的概率,。GPT-3.5可能在其訓(xùn)練過(guò)程中使用了n-gram 模型的思想,例如用于計(jì)算詞的出現(xiàn)概率或生成文本時(shí)的條件概率,。參考:Jelinek, F. (1998). Statistical language modeling. MIT Press. ,。馬爾科夫鏈?zhǔn)且环N隨機(jī)過(guò)程,其中當(dāng)前狀態(tài)只依賴(lài)于前一個(gè)狀態(tài),。GPT-3.5可能使用了馬爾科夫鏈的思想,,例如在生成文本時(shí),當(dāng)前生成的詞可能只依賴(lài)于前一個(gè)生成的詞,,從而保持文本的連貫性,。參考:Norris, J. R. (1997). Markov chains. Cambridge University Press. [3] A Neural Probabilistic Language Model' (Bengio et al., 2003) [4] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. arXiv preprint arXiv:1910.09700. [5] Attention is All You Need' (Vaswani et al., 2017) [6] Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition' (Jurafsky et al., 2020) [7] Improving Language Understanding by Generative Pre-training' (Radford et al., 2018) [8] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding' (Devlin et al., 2018) [9] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
|