fp16與fp32簡(jiǎn)介與試驗(yàn) | 碼農(nóng)家園

雅藏軒 2023-11-12 發(fā)布于河北

展開(kāi)全文

一,、fp16和fp32介紹

fp16是指采用2字節(jié)(16位)進(jìn)行編碼存儲(chǔ)的一種數(shù)據(jù)類型,；同理fp32是指采用4字節(jié)(32位)；
如上圖,，fp16第一位表示+-符號(hào),，接著5位表示指數(shù)，最后10位表示分?jǐn)?shù),；
- 公式：
- 其中,，sign位表示正負(fù)，exponent位表示指數(shù)（）,，fraction位表示的是分?jǐn)?shù)（）,。其中當(dāng)指數(shù)為零的時(shí)候，下圖加號(hào)左邊為0,，其他情況為1,。
- 具體計(jì)算情況可分為下面三種：
- Exp:
- 所以可以計(jì)算出,，fp16值動(dòng)態(tài)區(qū)間：精度其實(shí)為
- fp32值動(dòng)態(tài)區(qū)間：

二、為什么應(yīng)用fp16訓(xùn)練：

fp16和fp32相比對(duì)訓(xùn)練的優(yōu)化：
- 1.內(nèi)存占用減少：很明顯,，應(yīng)用fp16內(nèi)存占用比原來(lái)更小,，可以設(shè)置更大的batch_size
- 2.加速計(jì)算：加速計(jì)算只在最近的一些新gpu中，這一塊我還沒(méi)有體驗(yàn)到好處...有論文指出fp16訓(xùn)練速度可以是fp32的2-8倍

三,、應(yīng)用fp16存在問(wèn)題

由于fp16的值區(qū)間比f(wàn)p32的值區(qū)間小很多,，所以在計(jì)算過(guò)程中很容易出現(xiàn)上溢出（Overflow,，>65504 ）和下溢出（Underflow,，<6x10^-8 ）的錯(cuò)誤，溢出之后就會(huì)出現(xiàn)“Nan”的問(wèn)題
借用別人例子：
解決辦法：
- 1.混合精度加速：簡(jiǎn)單的講就是使用fp16進(jìn)行乘法和存儲(chǔ),，只使用fp32進(jìn)行加法操作,，避免累加誤差；
- 2.損失放大化：
  - 反向傳播前,，將損失變化（dLoss）手動(dòng)增大倍,，因此反向傳播時(shí)得到的中間變量（激活函數(shù)梯度）則不會(huì)溢出；
  - 反向傳播后,，將權(quán)重梯度縮倍,，恢復(fù)正常值。

四,、實(shí)踐對(duì)比

實(shí)踐代碼：

1
2
3
4

from apex import amp
model, optimizer = amp.initialize(model, optimizer, opt_level="O1") # 這里是“歐一”,，不是“零一”
with amp.scale_loss(loss, optimizer) as scaled_loss:
scaled_loss.backward()

這里我直接應(yīng)用fairseq代碼的fp16參數(shù)：gpu用1080Ti簡(jiǎn)單試驗(yàn)了下
- fp16：
- fp32：
- 總結(jié)：1080Ti應(yīng)用fp16確實(shí)可以省內(nèi)存，但是理論上是不能加速的啊,，這里小朋友有比較多問(wèn)號(hào),？？?
混合精度加速,，需要用到 Volta 結(jié)構(gòu)的GPU,，只有V100 和 TITAN V 系列是支持 TensorCore 加速計(jì)算

引用：

https://zhuanlan.zhihu.com/p/79887894
https://en./wiki/Half-precision_floating-point_format
https://zhuanlan.zhihu.com/p/103685761
https:///pdf/1710.03740.pdf

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：雅藏軒 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)