看完這篇文章,,怎樣打比賽應(yīng)該心里有數(shù)了。 2022 年是 AI 領(lǐng)域發(fā)展的重要一年,,在數(shù)據(jù)競(jìng)賽領(lǐng)域也同樣如此,,所有平臺(tái)的總獎(jiǎng)金超過(guò)了 500 萬(wàn)美元。近日,,機(jī)器學(xué)習(xí)競(jìng)賽分析平臺(tái) ML Contests 對(duì) 2022 年的數(shù)據(jù)競(jìng)賽進(jìn)行了一次大規(guī)模統(tǒng)計(jì),。新報(bào)告回顧了 2022 年發(fā)生的所有值得關(guān)注的事。以下是對(duì)原文的編譯整理,。- 成功參賽者的工具選擇:Python,、Pydata、Pytorch 和梯度提高的決策樹(shù),。
- 深度學(xué)習(xí)仍未取代梯度增強(qiáng)的決策樹(shù),,盡管在結(jié)識(shí)增強(qiáng)方法時(shí),前者通常價(jià)值會(huì)有所提升,。
- Transformer 繼續(xù)在 NLP 中占主導(dǎo)地位,,并開(kāi)始在計(jì)算機(jī)視覺(jué)中和卷積神經(jīng)網(wǎng)絡(luò)開(kāi)始競(jìng)爭(zhēng),。
- 當(dāng)今數(shù)據(jù)競(jìng)賽涵蓋了廣泛的研究領(lǐng)域,包括計(jì)算機(jī)視覺(jué),、NLP,、數(shù)據(jù)分析、機(jī)器人,、時(shí)間序列分析等,。
- 大集合模型在獲勝方案中仍然很普遍,一些單模型解決方案也能贏,。
- 有多個(gè)活躍的數(shù)據(jù)競(jìng)賽平臺(tái)存在,。
- 數(shù)據(jù)競(jìng)賽社區(qū)持續(xù)增長(zhǎng),在學(xué)界也是一樣,。
- 大約有 50%獲獎(jiǎng)?wù)呤且蝗藞F(tuán)隊(duì),,50%的獲獎(jiǎng)?wù)呤鞘状蔚锚?jiǎng)。
- 有人使用了高端硬件,,但 Google Colab 這樣的免費(fèi)資源也能贏得比賽,。
獎(jiǎng)金數(shù)額最大的比賽是由美國(guó)復(fù)墾局贊助 Drivendata 的 Snow Cast Showdown 競(jìng)賽。參與者可獲得 50 萬(wàn)美元的獎(jiǎng)金,,旨在通過(guò)為西部的不同地區(qū)提供準(zhǔn)確的雪水流量估算,,以幫助改善供水管理。與往常一樣,,Drivendata 詳細(xì)撰寫(xiě)了比賽情況的文章并有詳細(xì)的解決方案報(bào)告,非常值得一讀,。2022 年最受歡迎的比賽是 Kaggle 的 American Express 默認(rèn)預(yù)測(cè)競(jìng)賽,,旨在預(yù)測(cè)客戶(hù)是否會(huì)償還貸款。有超過(guò) 4000 支隊(duì)伍參賽,,共 10 萬(wàn)美元獎(jiǎng)金分發(fā)至前四名的隊(duì)伍,。今年第一次有首次參賽且單人隊(duì)伍獲得冠軍,其使用了神經(jīng)網(wǎng)絡(luò)和 LightGBM 模型的集合,。最大的獨(dú)立競(jìng)賽是斯坦福大學(xué)的 AI 審計(jì)挑戰(zhàn),,該挑戰(zhàn)為最佳的「模型、解決方案,、數(shù)據(jù)集和工具」提供了 7.1 萬(wàn)美元的獎(jiǎng)勵(lì)池,,以尋求方法解決「非法歧視的 AI 審核系統(tǒng)」的問(wèn)題。基于金融預(yù)測(cè)的三場(chǎng)比賽全部在 Kaggle 上:分別是 JPX 的東京證券交易所預(yù)測(cè),,Ubiquant 的市場(chǎng)預(yù)測(cè)以及 G-Research 的加密預(yù)測(cè),。在不同方向的對(duì)比中,計(jì)算機(jī)視覺(jué)占比最高,,NLP 位居第二,,順序決策問(wèn)題(強(qiáng)化學(xué)習(xí))正在興起,。Kaggle 通過(guò)在 2020 年引入模擬競(jìng)賽來(lái)回應(yīng)這種流行的增長(zhǎng)。Aicrowd 還舉辦了許多強(qiáng)化學(xué)習(xí)類(lèi)競(jìng)賽,。在 2022 年,,其中有 25 個(gè)互動(dòng)賽的比賽總額超過(guò) 30 萬(wàn)美元。在 NeurIPS 2022 官方競(jìng)賽 Real Robot Challenge 中,,參與者必須學(xué)會(huì)控制三指機(jī)器人,,以將立方體移動(dòng)到目標(biāo)位置或?qū)⑵涠ㄎ辉诳臻g的特定點(diǎn)上,且要面朝正確的方向,。參與者的策略每周在物理機(jī)器人上運(yùn)行,,結(jié)果更新到排行榜上。獎(jiǎng)勵(lì)為 5000 美元的獎(jiǎng)品,,以及在 NeurIPS 研討會(huì)上演講的學(xué)術(shù)榮譽(yù),。雖然人們都知道 Kaggle 和天池,但目前也有很多機(jī)器學(xué)習(xí)競(jìng)賽平臺(tái)組成了活躍的生態(tài)系統(tǒng),。- Kaggle 是最成熟的平臺(tái)之一,,它在 2017 年被谷歌收購(gòu),并擁有最大的社區(qū),,最近吸引了 1000 萬(wàn)用戶(hù),。在 Kaggle 上進(jìn)行帶獎(jiǎng)金的比賽可能非常昂貴。除了舉辦比賽外,,Kaggle 還允許用戶(hù)托管數(shù)據(jù)集,,筆記和模型。
- Codalab 是一個(gè)開(kāi)源競(jìng)賽平臺(tái),,由巴黎大學(xué) - 薩克萊大學(xué)維護(hù),。任何人都可以注冊(cè),主持或參加比賽,。其提供免費(fèi)的 CPU 資源可用于推理,,比賽組織者可以用自己的硬件進(jìn)行補(bǔ)充。
- Zindi 是一個(gè)較小的平臺(tái),,具有非?;钴S的社區(qū),專(zhuān)注于將機(jī)構(gòu)與非洲的數(shù)據(jù)科學(xué)家聯(lián)系起來(lái),。Zindi 還舉辦面對(duì)面的黑客馬拉松和社區(qū)活動(dòng),。
- Drivendata 專(zhuān)注于具有社會(huì)影響的競(jìng)賽,并為 NASA 和其他組織開(kāi)展了比賽,。競(jìng)賽總是在深入的研究報(bào)告后跟進(jìn),。
- Aicrowd 最初是瑞士聯(lián)邦理工學(xué)院(EPFL)的研究項(xiàng)目,現(xiàn)在是前五名競(jìng)賽平臺(tái)之一,。它舉辦了幾次 NeurIPS 官方比賽,。
在大型平臺(tái)上運(yùn)行的比賽的大部分獎(jiǎng)金都來(lái)自工業(yè)界,,但是機(jī)器學(xué)習(xí)競(jìng)賽顯然在學(xué)術(shù)界擁有更加豐富的歷史,正如 Isabelle Guyon 今年在 NeurIPS 邀請(qǐng)演講中所討論的那樣,。NeurIPS 是全球最負(fù)盛名的學(xué)術(shù)機(jī)器學(xué)習(xí)會(huì)議之一,,過(guò)去十年中最重要的機(jī)器學(xué)習(xí)論文經(jīng)常會(huì)在大會(huì)上呈現(xiàn),包括 AlexNet,,GAN,,Transformer 和 GPT-3。NeurIPS 在 2014 年首次在機(jī)器學(xué)習(xí)(CIML)研討會(huì)方面舉辦了數(shù)據(jù)挑戰(zhàn)賽,,自 2017 年以來(lái)一直有競(jìng)賽環(huán)節(jié),。從那時(shí)起,競(jìng)賽和總獎(jiǎng)金不斷增長(zhǎng),,在 2022 年 12 月達(dá)到了接近 40 萬(wàn)美元,。其他機(jī)器學(xué)習(xí)會(huì)議也舉辦了比賽,包括 CVPR,、ICPR,、IJCAI、ICRA,、ECCV,、PCIC 和 AutoML。大約一半的機(jī)器學(xué)習(xí)比賽有超過(guò) 1 萬(wàn)美元的獎(jiǎng)池,。毫無(wú)疑問(wèn),,許多有趣的比賽獎(jiǎng)金不多,本報(bào)告僅考慮那些有貨幣獎(jiǎng)品或?qū)W術(shù)榮譽(yù)的部分,。通常,,與享有聲望的學(xué)術(shù)會(huì)議相關(guān)的數(shù)據(jù)比賽為獲獎(jiǎng)?wù)咛峁┝寺眯匈?zèng)款,以便他們參加會(huì)議,。雖然平均而言,一些比賽平臺(tái)確實(shí)傾向于擁有比其他平臺(tái)更大的獎(jiǎng)池(見(jiàn)平臺(tái)比較圖表),,但許多平臺(tái)在 2022 年至少舉辦過(guò)一場(chǎng)獎(jiǎng)池非常大的比賽 —— 總獎(jiǎng)金排名前十的比賽包括在 DrivenData,、Kaggle、CodaLab 和 AIcrowd 上運(yùn)行的,。該調(diào)查通過(guò)問(wèn)卷和觀察代碼的方式分析獲勝算法使用的技術(shù),。相當(dāng)一致的是,Python 是競(jìng)賽獲勝者的首選語(yǔ)言,,這對(duì)于人們來(lái)說(shuō)可能不是個(gè)預(yù)料之外的結(jié)果,。在使用 Python 的人中,大約一半主要使用 Jupyter Notebook,,另一半使用標(biāo)準(zhǔn) Python 腳本,。一個(gè)主要使用 R 語(yǔ)言的獲勝解決方案是:Amir Ghazi 贏得了 Kaggle 上預(yù)測(cè) 2022 年美國(guó)男子大學(xué)籃球錦標(biāo)賽獲勝者的比賽,。他通過(guò)使用 —— 顯然是逐字復(fù)制 ——2018 年同類(lèi)競(jìng)賽獲勝解決方案的代碼來(lái)做到這一點(diǎn),該方法由 Kaggle Grandmaster Darius Baru?auskas 撰寫(xiě),。讓人難以想象的是,,Darius 也參加了 2022 年的這場(chǎng)比賽,他使用新的方法,,并獲得了第 593 名,。獲獎(jiǎng)?wù)呤褂玫?Python 包在觀察獲勝解決方案中使用的軟件包時(shí),結(jié)果顯示所有使用 Python 的獲獎(jiǎng)?wù)叨荚谝欢ǔ潭壬鲜褂昧?PyData 堆棧,。將最流行的軟件包分為三類(lèi) —— 核心工具包,、NLP 類(lèi)和計(jì)算機(jī)視覺(jué)類(lèi)。其中,,深度學(xué)習(xí)框架 PyTorch 的增長(zhǎng)一直穩(wěn)定,,其從 2021 年到 2022 年的躍升非常明顯:PyTorch 從獲勝解決方案的 77% 增加到了 96%。在 46 個(gè)使用深度學(xué)習(xí)的獲獎(jiǎng)解決方案中,,44 個(gè)使用 PyTorch 作為他們的主要框架,,只有兩個(gè)使用 TensorFlow。更明顯的是,,使用 TensorFlow 贏得的兩項(xiàng)比賽之一,,Kaggle 的大堡礁競(jìng)賽,提供額外的 5 萬(wàn)美元獎(jiǎng)金給使用 TensorFlow 的獲勝團(tuán)隊(duì),。另一個(gè)使用 TensorFlow 獲勝的比賽使用了高級(jí)的 Keras API,。雖然有 3 名獲勝者使用 pytorch-lightning 和 1 名使用 fastai—— 兩者都建立在 PyTorch 之上 —— 但絕大多數(shù)人直接使用 PyTorch。現(xiàn)在或許可以說(shuō)至少在數(shù)據(jù)競(jìng)賽上,,PyTorch 贏得了機(jī)器學(xué)習(xí)框架之爭(zhēng),。這與更廣泛的機(jī)器學(xué)習(xí)研究趨勢(shì)一致。值得注意的是,,我們沒(méi)有發(fā)現(xiàn)任何獲勝團(tuán)隊(duì)使用其他神經(jīng)網(wǎng)絡(luò)庫(kù)的實(shí)例,,例如 JAX(由 Google 構(gòu)建,由 DeepMind 使用),、PaddlePaddle(由百度開(kāi)發(fā))或 MindSpore(由華為開(kāi)發(fā)),。工具有一統(tǒng)江湖的趨勢(shì),技術(shù)卻不是,。在 CVPR 2022 上,,ConvNext 架構(gòu)被介紹為「2020 年代的 ConvNet」,并證明其性能優(yōu)于最近的基于 Transformer 的模型,。它被用于至少兩個(gè)贏得比賽的計(jì)算機(jī)視覺(jué)解決方案,,而 CNN 總體上仍是迄今為止計(jì)算機(jī)視覺(jué)競(jìng)賽獲獎(jiǎng)?wù)咧凶類(lèi)?ài)用的神經(jīng)網(wǎng)絡(luò)架構(gòu)。計(jì)算機(jī)視覺(jué)與語(yǔ)言建模非常相似的地方在于使用預(yù)訓(xùn)練模型:在公共數(shù)據(jù)集(例如 ImageNet)上訓(xùn)練的易于理解的架構(gòu),。最受歡迎的存儲(chǔ)庫(kù)是 Hugging Face Hub,,可通過(guò) timm 訪(fǎng)問(wèn),,這使得加載數(shù)十種不同計(jì)算機(jī)視覺(jué)模型的預(yù)訓(xùn)練版本變得極其方便。使用預(yù)訓(xùn)練模型的優(yōu)勢(shì)是顯而易見(jiàn)的:真實(shí)世界的圖像和人類(lèi)生成的文本都有一些共同的特征,,使用預(yù)訓(xùn)練模型可以帶來(lái)常識(shí)的知識(shí),,類(lèi)似于使用了更大、更通用的訓(xùn)練數(shù)據(jù)集,。通常,,預(yù)先訓(xùn)練好的模型會(huì)根據(jù)特定任務(wù)的數(shù)據(jù)(例如比賽組織者提供的數(shù)據(jù))進(jìn)行微調(diào) —— 進(jìn)一步訓(xùn)練,但并非總是如此,。Image Matching Challenge 的獲勝者使用了預(yù)訓(xùn)練模型,,完全沒(méi)有任何微調(diào) ——「由于本次比賽中訓(xùn)練和測(cè)試數(shù)據(jù)的質(zhì)量(不同),我們沒(méi)有使用提供的訓(xùn)練進(jìn)行 fine-tuning,,因?yàn)槲覀冋J(rèn)為它會(huì)不太有效,。」這個(gè)決定得到了回報(bào),。到目前為止,,2022 年獲獎(jiǎng)?wù)咧凶钍軞g迎的預(yù)訓(xùn)練計(jì)算機(jī)視覺(jué)模型類(lèi)型是 EfficientNet,顧名思義,,它的優(yōu)勢(shì)在于比許多其他模型占用資源更少,。自 2017 年問(wèn)世以來(lái),基于 Transformer 的模型一直主導(dǎo)著自然語(yǔ)言處理(NLP)領(lǐng)域,。Transformer 是 BERT 和 GPT 中的「T」,,也是 ChatGPT 中的核心。因此,,自然語(yǔ)言處理競(jìng)賽中所有獲勝的解決方案都是基于 Transformer 的模型為核心也就不足為奇了,。它們都是在 PyTorch 中實(shí)現(xiàn)的,這并不奇怪,。他們都使用了預(yù)訓(xùn)練模型,,使用 Hugging Face 的 Transformers 庫(kù)加載,幾乎所有模型都使用了 Microsoft Research 的 DeBERTa 模型版本 —— 通常是 deberta-v3-large,。它們其中的許多都需要大量的計(jì)算資源,。例如,谷歌 AI4Code 獲勝者運(yùn)行 A100(80GB)大約 10 天,,以訓(xùn)練單個(gè) deberta-v3-large 用于他們的最終解決方案,。這種方法是個(gè)例外(使用單個(gè)主模型和固定的訓(xùn)練 / 評(píng)估拆分)—— 所有其他解決方案都大量使用集成模型,,并且?guī)缀醵际褂酶鞣N形式的 k-fold 交叉驗(yàn)證,。例如,Jigsaw Toxic Comments 比賽的獲勝者使用了 15 個(gè)模型輸出的加權(quán)平均值,。基于 Transformer 的集成有時(shí)會(huì)與 LSTM 或 LightGBM 結(jié)合使用,,也有至少兩個(gè)偽標(biāo)簽實(shí)例被有效地用于獲勝的解決方案,。XGBoost 曾經(jīng)是 Kaggle 的代名詞。然而,,LightGBM 顯然是 2022 年獲獎(jiǎng)?wù)咦钕矚g的 GBDT 庫(kù) —— 獲獎(jiǎng)?wù)咴谒麄兊慕鉀Q方案報(bào)告或問(wèn)卷中提到 LightGBM 的次數(shù)與 CatBoost 和 XGBoost 的總和相同,,CatBoost 位居第二,XGBoost 出人意料地排名第三,。正如大致預(yù)期的,,大多數(shù)獲勝者使用 GPU 進(jìn)行訓(xùn)練 —— 這可以極大地提高梯度提升樹(shù)的訓(xùn)練性能,并且實(shí)際上是深度神經(jīng)網(wǎng)絡(luò)所必需的,。相當(dāng)多的獲獎(jiǎng)?wù)呖梢栽L(fǎng)問(wèn)其雇主或大學(xué)提供的集群,,通常包括 GPU。有點(diǎn)令人驚訝的是,,我們沒(méi)有發(fā)現(xiàn)任何使用 Google 的張量處理單元 TPU 來(lái)訓(xùn)練獲勝模型的實(shí)例,。我們也沒(méi)有看到任何關(guān)于蘋(píng)果 M 系列芯片上訓(xùn)練的獲勝模型,蘋(píng)果芯片自 2022 年 5 月以來(lái)一直得到 PyTorch 的支持,。谷歌的云筆記本解決方案 Colab 很受歡迎,,有一位獲勝者使用免費(fèi)套餐,一位使用 Pro 套餐,,另一位使用 Pro+(我們無(wú)法確定第四位獲勝者使用 Colab 所使用的套餐),。本地個(gè)人硬件比云硬件更受歡迎,盡管九名獲獎(jiǎng)?wù)咛岬搅怂麄冇糜谟?xùn)練的 GPU,,但沒(méi)有具體說(shuō)明他們使用的是本地 GPU 還是云 GPU,。最受歡迎的 GPU 是最新的高端 AI 加速卡 NVIDIA A100(這里將 A100 40GB 和 A100 80GB 放在一起,因?yàn)楂@勝者并不總能區(qū)分兩者),,而且通常使用多塊 A100—— 例如,,Zindi 的 Turtle Recall 競(jìng)賽的獲勝者使用 8 塊 A100(40GB)GPU,另外兩個(gè)獲勝者使用 4 塊 A100,。許多比賽允許每個(gè)團(tuán)隊(duì)最多 5 名參賽者,,團(tuán)隊(duì)可以由個(gè)人或較小的團(tuán)隊(duì)在成績(jī)提交截止日期前的某個(gè) deadline 前「合并」在一起組成。一些比賽允許更大的團(tuán)隊(duì),,例如,,Waymo 的開(kāi)放數(shù)據(jù)挑戰(zhàn)允許每個(gè)團(tuán)隊(duì)最多 10 個(gè)人。這是對(duì) 2022 年機(jī)器學(xué)習(xí)競(jìng)賽的大致觀察,。希望你可以從中找到一些有用信息,。2023 年有許多激動(dòng)人心的新比賽,我們期待在這些比賽結(jié)束時(shí)發(fā)布更多見(jiàn)解,。原文鏈接:https:///state-of-competitive-machine-learning-2022/?ref=mlc_reddit探尋隱私計(jì)算最新行業(yè)技術(shù),,「首屆隱語(yǔ)開(kāi)源社區(qū)開(kāi)放日」報(bào)名啟程 春暖花開(kāi)之際,誠(chéng)邀廣大技術(shù)開(kāi)發(fā)者&產(chǎn)業(yè)用戶(hù)相聚活動(dòng)現(xiàn)場(chǎng),體驗(yàn)數(shù)智時(shí)代的隱私計(jì)算生態(tài)建設(shè)之旅:高效交流——與眾多技術(shù)專(zhuān)家&社區(qū)KOL面對(duì)面深入交流,,探討隱私計(jì)算技術(shù)現(xiàn)狀及未來(lái)趨勢(shì),,一站構(gòu)建隱私計(jì)算產(chǎn)業(yè)體系知識(shí);最新資訊——隱語(yǔ)開(kāi)源指導(dǎo)委員會(huì)共享未來(lái)展望,,與開(kāi)發(fā)者們共話(huà)行業(yè)新發(fā)展,,共建社區(qū)生態(tài);精彩發(fā)布——隱語(yǔ)版本更新發(fā)布及開(kāi)源 Roadmap,,了解更多技術(shù)未來(lái)趨勢(shì)及路徑,。3月29日,北京·798機(jī)遇空間,,隱語(yǔ)開(kāi)源社區(qū)開(kāi)放日,,期待線(xiàn)下面基。
|