新智元報(bào)道 來(lái)源:arXiv 編輯:LRS 【新智元導(dǎo)讀】Transformer模型好是好,,可惜太慢了,!最近一位清華大神在arxiv上傳了一篇論文,提出新模型Fastformer,,線性時(shí)間復(fù)雜度,,訓(xùn)練和推理效率史上最快,還順手在排行榜刷了個(gè)sota,。 Transformer 的強(qiáng)大毋庸置疑,,想要在CV和NLP的排行榜上取得一席之地,Transformer幾乎是必不可少的骨架模型,。 但它的效率相比傳統(tǒng)的文本理解模型來(lái)說卻不敢恭維,,Transformer的核心是自注意力(self-attention)機(jī)制,對(duì)于輸入長(zhǎng)度為N的文本,,它的時(shí)間復(fù)雜度達(dá)到二次O(N^2),。 雖然已經(jīng)有很多方法來(lái)處理 Transformer 加速問題,但是對(duì)于長(zhǎng)序列來(lái)說,,這些方法要么效率仍然較低或是效果還不夠好,,例如BigBird使用稀疏注意力卻丟失了全局上下文信息。 清華大學(xué)提出了一個(gè)新模型Fastformer,,基于additive attention能夠以線性復(fù)雜度來(lái)建立上下文信息,。 論文地址:https:///abs/2108.09084 文章的第一作者武楚涵,是清華大學(xué)電子工程系的博士研究生,。 目前的研究興趣包括推薦系統(tǒng),、用戶建模和社會(huì)媒體挖掘。在人工智能,、自然語(yǔ)言處理和數(shù)據(jù)挖掘領(lǐng)域的會(huì)議和期刊上發(fā)表過多篇論文,。 僅2021年就在頂會(huì)上發(fā)表了六篇論文,,大神的世界只能仰望。 論文的通訊作者是黃永峰,,清華大學(xué)電子系教授,,博士,博導(dǎo),,信息認(rèn)知和智能系統(tǒng)研究所副所長(zhǎng),,首屆全國(guó)十佳網(wǎng)絡(luò)安全優(yōu)秀教師。 主要從事網(wǎng)絡(luò)及網(wǎng)絡(luò)安全技術(shù)的研究和教學(xué)?,F(xiàn)為IEEE Senior Member,、中國(guó)電子學(xué)會(huì)信息隱藏與多媒體安全專家委員會(huì)委員。 已在IEEE Transaction IFS和中國(guó)科學(xué)等國(guó)內(nèi)外著名期刊和AAAI和ACL等重要國(guó)際會(huì)議發(fā)表論文300多篇,;出版專著4部、譯著2部,,教材2部,。申請(qǐng)和授權(quán)發(fā)明專利10余項(xiàng)。 Fastformer首先對(duì)輸入的attention query矩陣合并為一個(gè)全局query向量,,然后對(duì)attention的key和全局query向量采用element-wise的乘法學(xué)習(xí)到全局上下文相關(guān)key矩陣,,再通過additive attention合并為全局key向量。 通過元素乘積對(duì)全局key和attention之間的交互進(jìn)行建模,,并使用線性變換學(xué)習(xí)全局上下文感知的注意力,,最后將它們與attention query查詢一起添加以形成最終輸出。 由此,,計(jì)算復(fù)雜度可以降低到線性,,并且可以有效地捕獲輸入序列中的上下文信息。 對(duì)于學(xué)習(xí)全局query和key向量的additive attention網(wǎng)絡(luò),,其時(shí)間和內(nèi)存開銷均為O(N·d),,參數(shù)總數(shù)為2hd(h為注意頭數(shù))。此外,,元素乘積的時(shí)間代價(jià)和內(nèi)存代價(jià)也是O(N·d),,總復(fù)雜度是,比標(biāo)準(zhǔn)的Transformer復(fù)雜度要更有效率,。 如果采用權(quán)重共享(weight sharing)方法,,每層Fastformer的總參數(shù)為量,也有更少的參數(shù),。 模型驗(yàn)證 論文在五個(gè)不同任務(wù)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證Fastformer的效率:
實(shí)驗(yàn)過程中使用Glove詞向量初始化,,在32GB的V100 GPU上進(jìn)行5次實(shí)驗(yàn)取性能的平均值。 對(duì)比模型包括:
在分類任務(wù)上,可以看到FastFormer要比標(biāo)準(zhǔn)的Transformer要更好,。 比較不同方法在新聞推薦任務(wù)中的性能時(shí),,又增加了三個(gè)模型:
在不同的Transformer結(jié)構(gòu)中,F(xiàn)astformer達(dá)到了最好的性能,,并且它也基本優(yōu)于NRMS模型,。此外,F(xiàn)astformer可以進(jìn)一步提高PLM-NR的性能,并且集成模型在MIND排行榜上獲得最佳結(jié)果,。 結(jié)果分析 結(jié)果表明,,F(xiàn)astformer不僅在文本建模方面是有效的,而且在理解用戶興趣方面也是有效的,。 既然提到快,,在效率的對(duì)比上也要進(jìn)行實(shí)驗(yàn)。將輸入序列的長(zhǎng)度從128調(diào)整為65535,,并將batch size的大小與序列長(zhǎng)度成反比,。使用隨機(jī)生成token作為偽樣本,并固定token embedding以更好地測(cè)量不同方法的計(jì)算成本,。 當(dāng)序列長(zhǎng)度相對(duì)較長(zhǎng)時(shí)(例如512),,Transformer效率較低。此外還發(fā)現(xiàn),,雖然Poolingformer在理論上具有線性復(fù)雜性,,但在實(shí)踐中效率低下。這是因?yàn)樗褂玫拇翱诖笮,。ɡ?56)以類似卷積的方式計(jì)算池權(quán)重,,這導(dǎo)致計(jì)算成本的非常大的常數(shù)項(xiàng)。 在訓(xùn)練和推理時(shí)間方面,,F(xiàn)astformer比其他線性復(fù)雜度Transformer更有效,這些結(jié)果驗(yàn)證了Fastformer的有效性,。 不同的參數(shù)共享技術(shù)對(duì)Fastformer的技術(shù)也有影響,,通過共享query和value轉(zhuǎn)換矩陣,在不同的注意頭之間共享參數(shù),,可以發(fā)現(xiàn),,與沒有任何參數(shù)共享技術(shù)的Fastformer模型相比,使用query-value參數(shù)共享可以獲得類似或略好的性能,。因此可以通過共享query和value轉(zhuǎn)換矩陣來(lái)減少參數(shù)大小,。 此外,頭部參數(shù)共享將導(dǎo)致顯著的性能下降,。這是因?yàn)椴煌淖⒁忸^需要捕捉不同的上下文模式,,而共享它們的參數(shù)對(duì)上下文建模是不利的,采用分層共享方法可以進(jìn)一步提高模型的性能,,因?yàn)椴煌瑢又g的參數(shù)共享可以緩解過擬合的風(fēng)險(xiǎn),。 參考資料: https:///abs/2108.09084 |
|