久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

一年六篇頂會(huì)的清華大神提出Fastformer:史上最快、效果最好的Transformer

 wupin 2021-08-28

新智元報(bào)道

來(lái)源:arXiv

編輯:LRS

【新智元導(dǎo)讀】Transformer模型好是好,,可惜太慢了,!最近一位清華大神在arxiv上傳了一篇論文,提出新模型Fastformer,,線性時(shí)間復(fù)雜度,,訓(xùn)練和推理效率史上最快,還順手在排行榜刷了個(gè)sota,。

Transformer 的強(qiáng)大毋庸置疑,,想要在CV和NLP的排行榜上取得一席之地,Transformer幾乎是必不可少的骨架模型,。

但它的效率相比傳統(tǒng)的文本理解模型來(lái)說卻不敢恭維,,Transformer的核心是自注意力(self-attention)機(jī)制,對(duì)于輸入長(zhǎng)度為N的文本,,它的時(shí)間復(fù)雜度達(dá)到二次O(N^2),。

雖然已經(jīng)有很多方法來(lái)處理 Transformer 加速問題,但是對(duì)于長(zhǎng)序列來(lái)說,,這些方法要么效率仍然較低或是效果還不夠好,,例如BigBird使用稀疏注意力卻丟失了全局上下文信息。

清華大學(xué)提出了一個(gè)新模型Fastformer,,基于additive attention能夠以線性復(fù)雜度來(lái)建立上下文信息,。

論文地址:https:///abs/2108.09084

文章的第一作者武楚涵,是清華大學(xué)電子工程系的博士研究生,。

目前的研究興趣包括推薦系統(tǒng),、用戶建模和社會(huì)媒體挖掘。在人工智能,、自然語(yǔ)言處理和數(shù)據(jù)挖掘領(lǐng)域的會(huì)議和期刊上發(fā)表過多篇論文,。

僅2021年就在頂會(huì)上發(fā)表了六篇論文,,大神的世界只能仰望。

論文的通訊作者是黃永峰,,清華大學(xué)電子系教授,,博士,博導(dǎo),,信息認(rèn)知和智能系統(tǒng)研究所副所長(zhǎng),,首屆全國(guó)十佳網(wǎng)絡(luò)安全優(yōu)秀教師。

主要從事網(wǎng)絡(luò)及網(wǎng)絡(luò)安全技術(shù)的研究和教學(xué)?,F(xiàn)為IEEE Senior Member,、中國(guó)電子學(xué)會(huì)信息隱藏與多媒體安全專家委員會(huì)委員。

已在IEEE Transaction IFS和中國(guó)科學(xué)等國(guó)內(nèi)外著名期刊和AAAI和ACL等重要國(guó)際會(huì)議發(fā)表論文300多篇,;出版專著4部、譯著2部,,教材2部,。申請(qǐng)和授權(quán)發(fā)明專利10余項(xiàng)。

Fastformer首先對(duì)輸入的attention query矩陣合并為一個(gè)全局query向量,,然后對(duì)attention的key和全局query向量采用element-wise的乘法學(xué)習(xí)到全局上下文相關(guān)key矩陣,,再通過additive attention合并為全局key向量。

通過元素乘積對(duì)全局key和attention之間的交互進(jìn)行建模,,并使用線性變換學(xué)習(xí)全局上下文感知的注意力,,最后將它們與attention query查詢一起添加以形成最終輸出。

由此,,計(jì)算復(fù)雜度可以降低到線性,,并且可以有效地捕獲輸入序列中的上下文信息。

對(duì)于學(xué)習(xí)全局query和key向量的additive attention網(wǎng)絡(luò),,其時(shí)間和內(nèi)存開銷均為O(N·d),,參數(shù)總數(shù)為2hd(h為注意頭數(shù))。此外,,元素乘積的時(shí)間代價(jià)和內(nèi)存代價(jià)也是O(N·d),,總復(fù)雜度是,比標(biāo)準(zhǔn)的Transformer復(fù)雜度要更有效率,。

如果采用權(quán)重共享(weight sharing)方法,,每層Fastformer的總參數(shù)為量,也有更少的參數(shù),。

模型驗(yàn)證

論文在五個(gè)不同任務(wù)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證Fastformer的效率:

  1. IMDB,,電影評(píng)論星級(jí)預(yù)測(cè)數(shù)據(jù);

  2. MIND,,一個(gè)大規(guī)模的新聞推薦數(shù)據(jù)集,。在這個(gè)數(shù)據(jù)上進(jìn)行兩個(gè)任務(wù):新聞主題分類和個(gè)性化推薦,;

  3. CNN/DailyMail數(shù)據(jù)集,一個(gè)廣泛使用的文本摘要數(shù)據(jù)集,;

  4. PubMed數(shù)據(jù)集,,包含更長(zhǎng)文本的文本摘要數(shù)據(jù)集;

  5. Amazon 電子產(chǎn)品領(lǐng)域評(píng)論星級(jí)預(yù)測(cè)數(shù)據(jù),。

實(shí)驗(yàn)過程中使用Glove詞向量初始化,,在32GB的V100 GPU上進(jìn)行5次實(shí)驗(yàn)取性能的平均值。

對(duì)比模型包括:

  1. 標(biāo)準(zhǔn)的Transformer,;

  2. Longformer,,基于稀疏注意力的Transformer,結(jié)合了滑動(dòng)窗口注意力和全局注意力來(lái)建模局部和全局上下文,;

  3. BigBird,,Longformer的擴(kuò)展,包括稀數(shù)隨機(jī)注意力機(jī)制,;

  4. Linformer,,一個(gè)線性復(fù)雜度的Transformer,使用低維key和value矩陣來(lái)計(jì)算近似self-attention,;

  5. Linear Transformer,,也是線性復(fù)雜度的Transformer,使用核函數(shù)來(lái)估計(jì)self-attention機(jī)制,;

  6. Poolingformer,,一種層次結(jié)構(gòu),首先使用滑動(dòng)窗口自注意力來(lái)捕捉短距離的內(nèi)容,,然后使用pooling self-attention來(lái)捕捉長(zhǎng)距離的上下文,。

在分類任務(wù)上,可以看到FastFormer要比標(biāo)準(zhǔn)的Transformer要更好,。

比較不同方法在新聞推薦任務(wù)中的性能時(shí),,又增加了三個(gè)模型:

  1. NRMS,它使用多頭自注意力網(wǎng)絡(luò)學(xué)習(xí)新聞和用戶表征,;

  2. FIM,,一種用于個(gè)性化新聞推薦的細(xì)粒度興趣匹配方法;

  3. PLM-NR,,使用預(yù)訓(xùn)練的語(yǔ)言模型為新聞推薦提供基礎(chǔ),。

在不同的Transformer結(jié)構(gòu)中,F(xiàn)astformer達(dá)到了最好的性能,,并且它也基本優(yōu)于NRMS模型,。此外,F(xiàn)astformer可以進(jìn)一步提高PLM-NR的性能,并且集成模型在MIND排行榜上獲得最佳結(jié)果,。

結(jié)果分析

結(jié)果表明,,F(xiàn)astformer不僅在文本建模方面是有效的,而且在理解用戶興趣方面也是有效的,。

既然提到快,,在效率的對(duì)比上也要進(jìn)行實(shí)驗(yàn)。將輸入序列的長(zhǎng)度從128調(diào)整為65535,,并將batch size的大小與序列長(zhǎng)度成反比,。使用隨機(jī)生成token作為偽樣本,并固定token embedding以更好地測(cè)量不同方法的計(jì)算成本,。

當(dāng)序列長(zhǎng)度相對(duì)較長(zhǎng)時(shí)(例如512),,Transformer效率較低。此外還發(fā)現(xiàn),,雖然Poolingformer在理論上具有線性復(fù)雜性,,但在實(shí)踐中效率低下。這是因?yàn)樗褂玫拇翱诖笮,。ɡ?56)以類似卷積的方式計(jì)算池權(quán)重,,這導(dǎo)致計(jì)算成本的非常大的常數(shù)項(xiàng)。

在訓(xùn)練和推理時(shí)間方面,,F(xiàn)astformer比其他線性復(fù)雜度Transformer更有效,這些結(jié)果驗(yàn)證了Fastformer的有效性,。

不同的參數(shù)共享技術(shù)對(duì)Fastformer的技術(shù)也有影響,,通過共享query和value轉(zhuǎn)換矩陣,在不同的注意頭之間共享參數(shù),,可以發(fā)現(xiàn),,與沒有任何參數(shù)共享技術(shù)的Fastformer模型相比,使用query-value參數(shù)共享可以獲得類似或略好的性能,。因此可以通過共享query和value轉(zhuǎn)換矩陣來(lái)減少參數(shù)大小,。

此外,頭部參數(shù)共享將導(dǎo)致顯著的性能下降,。這是因?yàn)椴煌淖⒁忸^需要捕捉不同的上下文模式,,而共享它們的參數(shù)對(duì)上下文建模是不利的,采用分層共享方法可以進(jìn)一步提高模型的性能,,因?yàn)椴煌瑢又g的參數(shù)共享可以緩解過擬合的風(fēng)險(xiǎn),。

參考資料:

https:///abs/2108.09084

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多