數(shù)百名研究人員試圖利用歷時(shí)15年的數(shù)據(jù)預(yù)測(cè)兒童和家庭的結(jié)局,。但沒有人能夠準(zhǔn)確地做到這一點(diǎn),。 在美國,政策制定者經(jīng)常利用社會(huì)科學(xué)家的工作來預(yù)測(cè)具體政策可能會(huì)如何影響社會(huì)結(jié)果,,比如就業(yè)或犯罪率,。他們的想法是,如果能夠理解不同的因素如何潛在改變一個(gè)人的生活軌跡,,他們就可以提出干預(yù)措施,,以促進(jìn)最佳結(jié)果。 然而,,近年來,,社會(huì)科學(xué)研究者越來越依賴于機(jī)器學(xué)習(xí),期望機(jī)器學(xué)習(xí)通過處理大量數(shù)據(jù)來產(chǎn)生更精確的預(yù)測(cè),。這樣的模型現(xiàn)在被用來預(yù)測(cè)被告因第二起犯罪而被捕的可能性,,或者一個(gè)孩子在家里受到虐待而被忽視的風(fēng)險(xiǎn)。這個(gè)假設(shè)是,,與人類或更基本的統(tǒng)計(jì)分析相比,,一個(gè)提供了有關(guān)給定情況的足夠數(shù)據(jù)的算法將做出更準(zhǔn)確的預(yù)測(cè)。 近日發(fā)表在《美國國家科學(xué)院院刊》上的一項(xiàng)新研究對(duì)這種方法的有效性提出了質(zhì)疑,。普林斯頓大學(xué)的三位社會(huì)學(xué)家利用4000多個(gè)家庭的近13000個(gè)數(shù)據(jù)點(diǎn),,讓數(shù)百名研究人員預(yù)測(cè)兒童、父母和家庭的六種生活結(jié)果,。無論研究人員使用的是簡單的統(tǒng)計(jì)數(shù)據(jù)還是前沿的機(jī)器學(xué)習(xí),,他們都沒有接近合理的準(zhǔn)確度。 非營利組織人工智能伙伴關(guān)系(Partnership on AI)的公平與問責(zé)研究主管Alice Xiang表示:“這項(xiàng)研究確實(shí)強(qiáng)調(diào)了這樣一個(gè)觀點(diǎn),,即機(jī)器學(xué)習(xí)工具終究不是魔法,,不是萬能的?!?/span> 研究人員使用了一項(xiàng)歷時(shí)15年的社會(huì)學(xué)研究數(shù)據(jù),,該研究名為《脆弱的家庭與兒童健康研究》(Fragile Families and Child study),,由普林斯頓大學(xué)社會(huì)學(xué)和公共事務(wù)教授薩拉·麥克拉納漢(Sara McLanahan)牽頭,。麥克拉納漢是這篇新論文的主要作者之一。最初的研究試圖了解未婚父母所生孩子的生活狀況,。這些家庭是從2000年出生在美國大城市醫(yī)院的兒童中隨機(jī)挑選出來的,。在兒童1歲、3歲,、5歲,、9歲和15歲時(shí)進(jìn)行隨訪,并收集數(shù)據(jù),。 麥克拉納漢和她的同事Matthew Salganik和Ian Lundberg隨后設(shè)計(jì)了一個(gè)挑戰(zhàn),,眾包預(yù)測(cè)他們認(rèn)為在最后階段具有重要社會(huì)意義的六種結(jié)果,。這些數(shù)據(jù)包括孩子們?cè)趯W(xué)校的平均績點(diǎn);他們的“毅力”水平,或在學(xué)校自我報(bào)告的毅力;以及他們家庭的整體貧困水平,。來自不同大學(xué)的挑戰(zhàn)參與者只得到了部分?jǐn)?shù)據(jù)來訓(xùn)練他們的算法,,而組織者則保留了部分?jǐn)?shù)據(jù)以進(jìn)行最后的評(píng)估。在五個(gè)月的時(shí)間里,,數(shù)百名研究人員,,包括計(jì)算機(jī)科學(xué)家、統(tǒng)計(jì)學(xué)家和計(jì)算社會(huì)學(xué)家,,提交了他們最好的預(yù)測(cè)技術(shù),。 事實(shí)上,沒有一份提交的報(bào)告能夠在任何一項(xiàng)結(jié)果上達(dá)到較高的準(zhǔn)確性,。社會(huì)學(xué)教授薩爾加尼克表示:“你不能以任何特定研究人員或任何特定機(jī)器學(xué)習(xí)或人工智能技術(shù)的失敗為依據(jù),,來解釋它?!?strong>最復(fù)雜的機(jī)器學(xué)習(xí)技術(shù)也不比簡單得多的方法精確多少,。 對(duì)于研究人工智能在社會(huì)中的應(yīng)用的專家來說,結(jié)果并不那么令人驚訝,。即使是刑事司法系統(tǒng)中最精確的風(fēng)險(xiǎn)評(píng)估算法,,例如,最高也只有60%或70%,。也許在理論上聽起來還不錯(cuò),,但無論如何,再犯罪率可以低于40%,。這意味著預(yù)測(cè)沒有再犯將會(huì)使你的準(zhǔn)確率超過60%,。 同樣,研究一再表明,,在算法評(píng)估風(fēng)險(xiǎn)或選擇將資源導(dǎo)向何處的情況下,,簡單、可解釋的算法通常具有與深度學(xué)習(xí)等黑箱技術(shù)類似的預(yù)測(cè)能力,。因此,,黑盒技術(shù)的額外好處在可解釋性方面付出的巨大代價(jià)并不值得。 這些結(jié)果并不一定意味著預(yù)測(cè)算法(無論是否基于機(jī)器學(xué)習(xí))在政策領(lǐng)域都永遠(yuǎn)不會(huì)是有用的工具,。例如,,一些研究人員指出,為社會(huì)學(xué)研究而收集的數(shù)據(jù)與通常在決策過程中分析的數(shù)據(jù)不同,。 Now人工智能研究所(AI Now institute)的政策主管拉什達(dá)·理查森(Rashida Richardson)也指出了預(yù)測(cè)問題的構(gòu)建方式令人擔(dān)憂,。該研究所研究人工智能的社會(huì)影響。例如,一個(gè)孩子是否有“勇氣”是一種固有的主觀判斷,,研究表明,,這是“一種衡量成功和表現(xiàn)的主觀狹隘構(gòu)想,”這個(gè)細(xì)節(jié)也表明,,此類方式或許根本行不通,。 Salganik也承認(rèn)這項(xiàng)研究的局限性。但他強(qiáng)調(diào),,這說明了為什么政策制定者應(yīng)該更謹(jǐn)慎地以透明的方式評(píng)估算法工具的準(zhǔn)確性,。擁有大量的數(shù)據(jù)和復(fù)雜的機(jī)器學(xué)習(xí)并不能保證準(zhǔn)確的預(yù)測(cè),而沒有太多機(jī)器學(xué)習(xí)經(jīng)驗(yàn)的政策制定者可能對(duì)此抱有不切實(shí)際的期望,。 |
|