自從ChatGPT爆火以來,人們都對于人工智能到底能不能真正實現(xiàn)抱有強(qiáng)烈的興趣,。從目前來看,,即使最好的訓(xùn)練模型也只是基于自己學(xué)習(xí)到的固定概率參數(shù)組合來進(jìn)行判斷,然后給出一個概率最大的結(jié)果而已,。 這樣還遠(yuǎn)遠(yuǎn)談不上擁有自己的思維,,依然是機(jī)械的按部就班的執(zhí)行而已。 但是大模型中的一個現(xiàn)象,,依然引起了科學(xué)家們的強(qiáng)烈興趣,。這就是大數(shù)據(jù)模型中的“涌現(xiàn)”(emergence)現(xiàn)象。 那么什么是涌現(xiàn)現(xiàn)象呢,?這個詞的定義是這樣的:涌現(xiàn)(英語:emergence)或稱創(chuàng)發(fā),、突現(xiàn)、呈展,、演生,,是一種現(xiàn)象,為許多小實體相互作用后產(chǎn)生了大實體,,而這個大實體展現(xiàn)了組成它的小實體所不具有的特性,。(源自維基百科) 直白一點說,就是一些簡單普通甚至是無意義的操作,,在相互作用之后,,產(chǎn)生了具有極大意義的行為,。例如說山頂?shù)难┗伤樦恿髁飨虼蠛?,海水蒸發(fā)成水蒸汽進(jìn)入了大氣,,而大氣又把水氣運到了山頂??此泼總€環(huán)節(jié)都很簡單,,然而他們聚合在一起,卻形成了人們賴以生存的水循環(huán)系統(tǒng),。 這就是說,,當(dāng)孤立的每個能力被以某種方式突然組織起來的時候,卻暴發(fā)出很強(qiáng)大的能力,。 在物理,、生物、和計算機(jī)科學(xué)領(lǐng)域里,,涌現(xiàn)已經(jīng)被談?wù)摿撕荛L時間,。而在大型自然語言處理(NLP)模型中,涌現(xiàn)能力卻被科學(xué)家們所觀測到,。 在LaMDA,、GPT-3、Gophper等語言模型中,,科學(xué)家們觀測到,,當(dāng)訓(xùn)練量超過某個閾值的時候,模型的精度突然會暴增,。在訓(xùn)練量較小的時候,,其結(jié)果與隨機(jī)結(jié)果(瞎蒙)差不多,但是當(dāng)訓(xùn)練量超過某個閾值的時候,,精確度突然大幅提升,。 目前對于涌現(xiàn)還沒有令人信服的解釋,但是我們可以以一個簡單的例子來嘗試?yán)斫鉃槭裁从楷F(xiàn)這種現(xiàn)象會產(chǎn)生,。很多人都玩過一個游戲,,你可以問幾個問題,然后來猜對方到底是什么,。例如說,,它是一種生物嗎?是的,。它是植物嗎,?不是。它是犬科動物嗎,?不是,。它是貓科動物嗎,?是的。它是小貓嗎,?不是,。他生活在非洲嗎?是的,。等等,。對于一個游戲 ,如果我們只允許問三個問題的話,,那么毫無疑問,對于猜測這個物品到底是什么,,意義是不大的,。但是如果我們窮舉出世界上的每一個名詞的話,那么我們毫無疑問就會得到答案,。 而涌現(xiàn),,則可能產(chǎn)生于基于我們世界所知道知識的一個能夠明確猜到是什么的一個極小值。 如果用公理化的語言來解釋的話,,那就是,,若一個多步推理需要l步的序列計算,這可能需要模型至少有o(l)層的深度,。而更多的參數(shù)和更多的訓(xùn)練則使得我們更接近于這個深度,。 基于此,似乎我們的人工智能之路開始有了一點曙光,。如果我們能夠有一個模型,,他對于世界上的每個存在的名詞、動詞或下一步?jīng)Q策,,都有嚴(yán)格訓(xùn)練的模型能夠?qū)ζ渥龀鰷?zhǔn)確判斷,。那么我們似乎就得到了一個人工智能。 對于一個模型而言,,我們通常以計算量,、模型參數(shù)數(shù)量和訓(xùn)練集規(guī)模來衡量其大小。當(dāng)前,,ChatGPT用了大約1750億個底座參數(shù),,和大約45TB的數(shù)據(jù)集。而一個人腦大約有860億個神經(jīng)元,,每個神經(jīng)元可以和其它神經(jīng)元連接,,雖然大腦不同區(qū)域的神經(jīng)元連接數(shù)量不同。但是平均來講,,大約每個神經(jīng)元與其它7000個神經(jīng)元相連接,。所以大約有860億*7000,,大約有6000萬億連接,這個規(guī)模遠(yuǎn)遠(yuǎn)大于ChatGPT的數(shù)量,。 如果把ChatGPT的參數(shù)數(shù)量提升到人腦的水平,,又會涌現(xiàn)出什么樣的結(jié)果呢?值得期待,。 |
|