我們一直驚嘆于AI能寫文章、能做畫,、會(huì)編程,現(xiàn)在還能生成視頻,。從宏觀上來看,,一個(gè)完整的通用AI系統(tǒng)如下圖所示,在最關(guān)鍵的模型網(wǎng)關(guān)處,,調(diào)用我們已經(jīng)訓(xùn)練好的模型,,進(jìn)行用戶數(shù)據(jù)交互,反饋?zhàn)罱K的結(jié)果。所以,,結(jié)果的好壞,,就取決于我們模型的能力水平,因此,,2024年我們看到了市場(chǎng)上千模大戰(zhàn)的場(chǎng)面,,模型的泛化能力正在以天為單位高歌猛進(jìn)。 如何讓你的模型,,在各項(xiàng)能力上超越對(duì)手,不管是在應(yīng)用的感官上,,還是行業(yè)的各類指標(biāo)上都勝人半子,,模型的訓(xùn)練被提到了前所未有的高度。深度求索在短短兩個(gè)月內(nèi)使用英偉達(dá)H800 GPU數(shù)據(jù)中心就訓(xùn)練出了DeepSeek-V3模型,,花費(fèi)了約558萬美元,。其訓(xùn)練費(fèi)用相比OpenAI的GPT-4等目前全球主流的大模型要少得多的多,DeepSeek“AI界拼多多”也由此得名,。 DeepSeek性能測(cè)評(píng) 所有的AI大廠都在卷訓(xùn)練,,從質(zhì)量、價(jià)格,、性能(每秒生成的Token數(shù)以及首個(gè)Token生成時(shí)間),、上下文窗口等多方面來評(píng)測(cè)訓(xùn)練的成果。那么問題來了: 什么是AI模型訓(xùn)練,?AI模型訓(xùn)練實(shí)質(zhì)上是利用數(shù)據(jù)驅(qū)動(dòng)的方法,,使人工智能系統(tǒng)能夠從經(jīng)驗(yàn)數(shù)據(jù)中自主學(xué)習(xí),并針對(duì)特定任務(wù)進(jìn)行高效預(yù)測(cè),、分類或內(nèi)容生成,。此過程的核心在于通過優(yōu)化算法調(diào)整模型內(nèi)部參數(shù)(例如,在神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置),,以最小化模型輸出與實(shí)際目標(biāo)值之間的誤差或損失函數(shù),。這樣做的目的是為了提高模型的泛化能力,使其在未見過的數(shù)據(jù)集上也能保持出色的性能,。
AI模型訓(xùn)練在訓(xùn)練什么,?我們來看一個(gè)圖片識(shí)別的訓(xùn)練過程,怎么把一張狗的圖片識(shí)別并輸出“Dog”這個(gè)單詞的,。 這張圖展示了一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)如何處理圖像識(shí)別任務(wù)的過程,。 1. 輸入層 (Input Layer): 圖像被分解成像素,每個(gè)像素值作為輸入傳遞給網(wǎng)絡(luò),。左側(cè)的圓形區(qū)域展示了輸入圖像,,這里是一只狗的圖像,。2. 第一層 (Layer 1):這一層的主要任務(wù)是檢測(cè)像素值。通過這一層,,網(wǎng)絡(luò)開始學(xué)習(xí)圖像的基本特征,,如邊緣和紋理。每個(gè)節(jié)點(diǎn)代表一個(gè)神經(jīng)元,,這些神經(jīng)元通過權(quán)重連接到輸入層的像素值,。3. 第二層 (L2):在這一層,網(wǎng)絡(luò)開始識(shí)別圖像中的邊緣,。通過多個(gè)過濾器(或稱為卷積核),,網(wǎng)絡(luò)能夠捕捉到圖像中不同方向的邊緣信息。 這些邊緣信息對(duì)于后續(xù)的特征提取至關(guān)重要,。4. 第三層 (L3):在這一層,,網(wǎng)絡(luò)進(jìn)一步組合邊緣信息,識(shí)別更復(fù)雜的特征組合,。例如,,某些特定的邊緣組合可能對(duì)應(yīng)于圖像中的特定部分或形狀,。這一過程逐步抽象出圖像的更高層次特征,。5. 第四層 (L4):到了這一層,,網(wǎng)絡(luò)已經(jīng)能夠識(shí)別出更高級(jí)別的特征,如特定的形狀或物體的部分,。這些特征通常與圖像中的具體對(duì)象相關(guān)聯(lián),。網(wǎng)絡(luò)通過這些特征來構(gòu)建對(duì)圖像內(nèi)容的理解。6. 第五層 (L5):最后一層進(jìn)一步組合前一層識(shí)別出的特征,,最終形成對(duì)整個(gè)圖像的綜合理解,。這一層的輸出用于進(jìn)行最終的分類決策。7. 輸出層 (Output Layer):輸出層給出最終的分類結(jié)果,。在這個(gè)例子中,,網(wǎng)絡(luò)識(shí)別出輸入圖像為“狗”。輸出層通常使用softmax函數(shù)將神經(jīng)元的輸出轉(zhuǎn)化為概率分布,,從而確定最有可能的類別,。特征提取: 從低級(jí)特征(如邊緣)到高級(jí)特征(如特定形狀或物體部分)的逐步提取。層級(jí)結(jié)構(gòu): 每一層都負(fù)責(zé)不同的特征提取任務(wù),,從像素值到最終的分類決策,。這些神經(jīng)元通過連接權(quán)重相互作用形成復(fù)雜的非線性映射關(guān)系,從而能夠捕捉輸入數(shù)據(jù)中的深層次特征,。每一層神經(jīng)元執(zhí)行特定的變換操作,,并將結(jié)果傳遞給下一層,直到最終產(chǎn)生對(duì)任務(wù)有用的輸出,。權(quán)重調(diào)整: 通過訓(xùn)練,網(wǎng)絡(luò)不斷調(diào)整各層之間的權(quán)重,以優(yōu)化特征提取和分類性能,。 這種分層結(jié)構(gòu)使得CNN能夠有效地處理圖像數(shù)據(jù),,基于特征和權(quán)重,最終實(shí)現(xiàn)較高可信度的識(shí)別結(jié)果,。經(jīng)過不斷地驗(yàn)證(訓(xùn)練的一個(gè)環(huán)節(jié)),,添加更多層會(huì)比在每層中添加更多神經(jīng)元獲得更多的性能提升,所以如果把上面的5層結(jié)構(gòu)增加到100層,,將更大程度提高識(shí)別的可信度,,當(dāng)然,資源的消耗(算力)也將幾何倍的增長(zhǎng),。 假設(shè)上面這個(gè)模型我們拿來測(cè)試人臉的識(shí)別,,看看識(shí)別的準(zhǔn)確性上怎么樣,我們大概率會(huì)得到下面的結(jié)果
這依然是一個(gè)5層的結(jié)構(gòu),,最后一層給出最終的分類結(jié)果,。在這個(gè)例子中,網(wǎng)絡(luò)識(shí)別出輸入圖像為“馬冬梅”,。輸出層通常使用softmax函數(shù)將神經(jīng)元的輸出轉(zhuǎn)化為概率分布,,從而確定最有可能的類別。在測(cè)試過程中,,我們不需要調(diào)整權(quán)重,,但可以計(jì)算預(yù)測(cè)結(jié)果與實(shí)際標(biāo)簽之間的損失(如果已知真實(shí)標(biāo)簽,比如我們知道圖片是馬冬梅,,看看模型能不能識(shí)別正確),,通過損失函數(shù)用于評(píng)估模型的預(yù)測(cè)準(zhǔn)確性,雖然在測(cè)試階段不進(jìn)行權(quán)重更新,,但可以通過反向傳播計(jì)算每個(gè)權(quán)重對(duì)損失的貢獻(xiàn)(即梯度),,從而來分析模型的性能。 下面簡(jiǎn)要說明權(quán)重和偏置的修改過程,,以及它們?cè)谟?xùn)練中的作用,。1、前向傳播(Forward Propagation)輸入數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播,,經(jīng)過每一層的計(jì)算后,,最終得出預(yù)測(cè)輸出。定義這神經(jīng)網(wǎng)絡(luò)模型的前向傳播過程,,即網(wǎng)絡(luò)訓(xùn)練的forward部分,,張量數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)模型,模型輸出具體的預(yù)測(cè)值,,類似 y=fun(x),。2,、計(jì)算損失(Loss Function)前向傳播之后,網(wǎng)絡(luò)會(huì)根據(jù)模型的輸出 a 和真實(shí)標(biāo)簽 y 計(jì)算損失(誤差),,對(duì)應(yīng)上圖是輸出的識(shí)別結(jié)果與真實(shí)值之間比較,,例如是三個(gè)字都錯(cuò)了,還是只錯(cuò)了 1 個(gè) ,。3,、反向傳播(Backpropagation)需要將誤差反向傳遞到網(wǎng)絡(luò)的每一層,需要計(jì)算每一層網(wǎng)絡(luò)的誤差,,這個(gè)過程是通過鏈?zhǔn)椒▌t(Chain Rule)實(shí)現(xiàn)的,。神經(jīng)網(wǎng)絡(luò)通常包含多層,每一層的輸出都依賴于前一層的輸出,,因此在反向傳播時(shí),,我們需要逐層計(jì)算每一層的誤差 。4,、更新權(quán)重和偏置(Gradient Descent)根據(jù)優(yōu)化器(Optimizer)的學(xué)習(xí)策略,,小幅通過反向計(jì)算圖更新網(wǎng)絡(luò)模型中的各個(gè)權(quán)重參數(shù)的梯度,即反向傳播的過程(backward propagation 或 backwardpass),。先看其梯度的 grad 正負(fù),,再根據(jù)正負(fù)方向?qū)υ瓍?shù)值加減一定比例的梯度值。假設(shè)更新公式為 $w = w - n*grad$, 如果梯度值為正,,網(wǎng)絡(luò)模型的權(quán)重參數(shù)就會(huì)減?。蝗?/span>果梯度值為負(fù),,網(wǎng)絡(luò)模型的權(quán)重參數(shù)值就會(huì)增大,。5、訓(xùn)練迭代(Epochs)訓(xùn)練過程中,,神經(jīng)網(wǎng)絡(luò)會(huì)多次進(jìn)行前向傳播,、計(jì)算損失、反向傳播誤差并更新權(quán)重和偏置,。每一次完整的前向傳播和反向傳播過程叫做一個(gè)“epoch”,。通常,訓(xùn)練過程會(huì)經(jīng)歷多個(gè) epoch,,直到模型收斂到較低的損失值,,或者達(dá)到預(yù)設(shè)的最大迭代次數(shù),這也是為什么訓(xùn)練過程比較長(zhǎng),。訓(xùn)練原理涉及到使用大量的標(biāo)注數(shù)據(jù)樣本(狗的圖片)作為輸入,,通過前向傳播計(jì)算當(dāng)前模型配置下的輸出誤差,再利用反向傳播算法根據(jù)誤差梯度調(diào)整各層之間的連接權(quán)重,。這個(gè)迭代過程持續(xù)進(jìn)行,,直到找到一組最優(yōu)或接近最優(yōu)的參數(shù)設(shè)置,,使得模型在驗(yàn)證集上的表現(xiàn)達(dá)到我們滿意的水平。為了避免過擬合等常見問題,,還會(huì)采用正則化,、dropout等多種技術(shù)手段來增強(qiáng)模型的穩(wěn)定性和泛化能力??傊麄€(gè)訓(xùn)練過程是一個(gè)精密設(shè)計(jì)的參數(shù)搜索過程,,最終實(shí)現(xiàn)模型在指定任務(wù)上的最佳性能,。 如何保證模型訓(xùn)練的質(zhì)量?互聯(lián)網(wǎng)大廠天然具備海量數(shù)據(jù)的優(yōu)勢(shì),,AI公司在互聯(lián)網(wǎng)上獲取大量訓(xùn)練數(shù)據(jù),,但是,現(xiàn)如今的互聯(lián)網(wǎng)本就充斥著各種各樣用AI生產(chǎn)出來的數(shù)據(jù),。保守估計(jì),,到2026年,90%的互聯(lián)網(wǎng)數(shù)據(jù)將由AI生成,。這種 “污染” 使得從訓(xùn)練數(shù)據(jù)集中徹底過濾AI輸出將會(huì)變得越來越困難,。 要確保AI模型在行業(yè)的領(lǐng)先地位,高質(zhì)量的數(shù)據(jù)是必不可少的,,九尺高臺(tái)始于壘土,,高質(zhì)量的數(shù)據(jù)是成功訓(xùn)練模型的基礎(chǔ)。產(chǎn)品要確保訓(xùn)練的數(shù)據(jù)集具有代表性,、準(zhǔn)確性和完整性,。在程序進(jìn)行數(shù)據(jù)處理時(shí)需要提前進(jìn)行清洗,包括去除噪聲,、處理缺失值,、異常值等。同步在訓(xùn)練過程中,,加強(qiáng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或歸一化處理,,使得不同特征之間具有可比性,這有助于加速模型收斂并提高性能,。此外,,還需要進(jìn)行數(shù)據(jù)增強(qiáng)(如旋轉(zhuǎn)、縮放,、裁剪等)以增加數(shù)據(jù)多樣性,,特別是在圖像處理任務(wù)中,將會(huì)給你帶來意想不到的收獲,。
|