在之前推文中,,筆者從初學(xué)者角度簡要闡述AI1.0和AI2.0,,詳見文章淺析 | 從AI1.0到AI2.0 — 概念,、原理及技術(shù),,并在文中推薦閱讀綜述《A Survey of Large Language Models》(2023年),現(xiàn)已上傳其對應(yīng)的中文版本,,私信本號'PPT'獲取,。最近,筆者關(guān)注的知乎博主"回旋托馬斯x"(文章鏈接詳見附錄)最近也發(fā)表了類似PPT綜述,介紹大模型結(jié)構(gòu),、訓(xùn)練目標(biāo),、位置編碼、tokenizer,、層歸一化,、激活函數(shù)及多頭注意力機(jī)制等重要細(xì)節(jié);同時對大模型數(shù)據(jù)并行,、張量并行,、零冗余優(yōu)化器ZeRO、混合精度訓(xùn)練,、Flash Attention,、Paged Attention等主流常見的分布式訓(xùn)練技術(shù)進(jìn)行了分析匯總;最后對prompt tuning,、prefix tuning,、adapter、LLaMA-adapter,、 LoRA大模型高效微調(diào)技術(shù)也進(jìn)行說明,,雖然關(guān)于高效微調(diào)技術(shù)的內(nèi)容在筆者往期文章中大部分已提到,但為了保持原作文章完整性,,這里做了保留,。"回旋托馬斯x"的綜述很適合作為筆者之前文章的姊妹篇或進(jìn)階篇,該綜述針對大模型及其前沿技術(shù)做了更為具體全面的介紹,,非常利于大家按圖索驥理解并掌握大模型最核心的學(xué)習(xí)脈絡(luò),,因此,在經(jīng)作者允許情況下,,筆者將其梳理如下,。 參考https://zhuanlan.zhihu.com/p/647843722 |
|