學(xué)者們對ChatGPT有各種看法,,大部分是支持,少部分擔心,,也有一些觀望,。但無論如何,人工智能代替人類承擔部分科學(xué)思考和學(xué)術(shù)日常工作,,已經(jīng)不可避免,。你可以不直接用,,但無法阻擋別人使用。實際情況是,,許多科學(xué)家已經(jīng)擁抱了這一技術(shù),。雖然這種技術(shù)仍然存在瑕疵,例如提供虛假信息甚至編造虛假參考文獻,,但高超的語法和語言應(yīng)用能力已經(jīng)超過大多數(shù)普通學(xué)者,。科學(xué)家從繁瑣的文本處理工作中解放的時代已經(jīng)到來,。當然這也意味著科學(xué)研究領(lǐng)域普通人類資源過剩的趨勢,,也給未來科學(xué)家如何培養(yǎng)帶來了新的問題。 What ChatGPT and generative AI mean for science () 2022年12月,,計算生物學(xué)家凱西·格林(Casey Greene)和米爾頓·皮維多里(Milton Pividori)開始了一項不尋常的實驗:他們請一位不是科學(xué)家的助手幫他們修改三篇研究論文,。助手建議在幾秒鐘內(nèi)對文件的各個部分進行修改。每份手稿的審閱時間約為5分鐘,。在一份生物學(xué)手稿中,,這個助手甚至發(fā)現(xiàn)了對方程的引用錯誤。評閱過程雖然不總是順利非常進行,,但最終手稿確實更容易閱讀,,而且費用也不高,每份文件不到 0.50 美元,。
這個助手,,正如格林和皮維多里最近在預(yù)印本中報道的那樣,不是人,,而是一種名為 GPT-3 的人工智能 (AI) 算法,,于2020年首次發(fā)布。它是最近火爆的人工智能聊天機器人風(fēng)格的工具之一,,可以制作出令人信服的流暢文本,,無論是被要求制作散文、詩歌,、計算機代碼,,還是像科學(xué)家一樣編輯研究論文。 這些工具中最著名的,,也稱為大型語言模型或LLM,,是ChatGPT,這是GPT-3的一個版本,,在去年11月發(fā)布后一舉成名,,因為它是免費的且易于訪問。其他生成AI可以產(chǎn)生圖像或聲音,。 “我真的很感動,,”在費城賓夕法尼亞大學(xué)工作的Pividori說,。“這將有助于我們作為研究人員提高工作效率,。其他科學(xué)家表示,,他們現(xiàn)在經(jīng)常使用LLMs,不僅用于編輯手稿,,還幫助他們編寫或檢查代碼以及集思廣益,。“我現(xiàn)在每天都使用LLM,”雷克雅未克冰島大學(xué)的計算機科學(xué)家Hafsteinn Einarsson說,。他從 GPT-3 開始,,但后來切換到 ChatGPT,這有助于他編寫演示幻燈片,、學(xué)生考試和課程作業(yè)問題,,并將學(xué)生論文轉(zhuǎn)換為論文?!霸S多同事都將其用作數(shù)字秘書或助手,,”他說。 LLM是搜索引擎,,代碼編寫助手甚至聊天機器人的一部分,,與其他公司的聊天機器人進行談判以獲得更好的產(chǎn)品價格。ChatGPT的創(chuàng)建者,,加利福尼亞州舊金山的OpenAI宣布了一項每月20美元的收費訂閱服務(wù),,承諾更快的響應(yīng)時間和優(yōu)先訪問新功能,。已經(jīng)投資OpenAI的科技巨頭微軟在1月份宣布進一步投資,,據(jù)報道約為100億美元。LLM注定要被納入通用的文字和數(shù)據(jù)處理軟件中,。生成式人工智能未來在社會中的普遍存在似乎是有保證的,,特別是因為今天的工具代表了處于起步階段的技術(shù)。 但LLM也引發(fā)了廣泛的關(guān)注——從它們具有提供虛假信息的傾向,,到擔心人們將人工智能生成的文本冒充自己的文本,。當《自然》雜志向研究人員詢問ChatGPT等聊天機器人的潛在用途時,特別是在科學(xué)領(lǐng)域,,他們的興奮被擔憂所緩和?!叭绻阆嘈胚@項技術(shù)有變革的潛力,那么我認為你必須對此感到緊張,,”奧羅拉科羅拉多大學(xué)醫(yī)學(xué)院的格林說。研究人員表示,,這在很大程度上將取決于未來的法規(guī)和指導(dǎo)方針如何限制人工智能聊天機器人的使用,。 一,、流利但不真實的文本信息 一些研究人員認為,,只要有人類監(jiān)督,,LLM非常適合加速撰寫論文或資助等任務(wù)。“科學(xué)家們再也不用發(fā)愁坐下來為申請基金寫大本子,,”瑞典哥德堡Sahlgrenska大學(xué)醫(yī)院的神經(jīng)生物學(xué)家Almira Osmanovic Thunstr?m說,,他與人合著了一篇手稿。如何使用 GPT-3 作科學(xué)實驗,,只需要給系統(tǒng)發(fā)布指令就可以,。 總部位于倫敦的軟件咨詢公司InstaDeep的研究工程師Tom Tumiel表示,,他每天都使用LLM作為助手來幫助編寫代碼,?!斑@幾乎就像一個更好的Stack Overflow,”他說的是流行社區(qū)網(wǎng)站,,程序員互相回答對方的查詢。 但研究人員強調(diào),,LLM在回答問題方面從根本上是不可靠的,,有時會產(chǎn)生錯誤的回答,。“當我們使用這些系統(tǒng)來產(chǎn)生知識時,,我們需要保持警惕,”Osmanovic Thunstr?m說,。 這種不可靠性體現(xiàn)在LLM的構(gòu)建方式中,。ChatGPT 及其競爭對手通過學(xué)習(xí)龐大的在線文本數(shù)據(jù)庫中的語言統(tǒng)計模式來工作——包括任何不實、偏見或過時的知識,。當LLM得到提示時(例如Greene和Pividori精心設(shè)計的重寫部分手稿的請求),,他們只是逐字逐句地吐出任何繼續(xù)對話的方式,這在風(fēng)格上似乎是合理的,。 結(jié)果是LLM很容易產(chǎn)生錯誤和誤導(dǎo)性信息,,特別是對于他們可能幾乎沒有數(shù)據(jù)可以訓(xùn)練的技術(shù)主題,。LLM也無法顯示其信息的來源。如果被要求寫一篇學(xué)術(shù)論文,,ChatGPT會編造虛構(gòu)參考文獻,。“不能相信該工具可以正確獲取事實或產(chǎn)生可靠的參考資料,,”一月份在《自然機器智能》雜志上發(fā)表的一篇關(guān)于ChatGPT的社論指出,。 有了這些警告,,ChatGPT和其他LLM可以成為研究人員的有效助手,,他們有足夠的專業(yè)知識直接發(fā)現(xiàn)問題或輕松驗證答案,例如計算機代碼的解釋或建議是否正確,。 但是這些工具可能會誤導(dǎo)那些天真的用戶。例如,,在十二月,,Stack Overflow暫時禁止使用ChatGPT,,因為網(wǎng)站版主發(fā)現(xiàn)自己充斥著熱情用戶發(fā)送的不正確但看似有說服力的LLM生成的答案。這對搜索引擎來說可能是一場噩夢,。 二,、ChatGPT的缺點將來能克服嗎? 一些搜索引擎工具,,例如以研究人員為中心的Elicit,通過首先利用它們的功能來指導(dǎo)對相關(guān)文獻的查詢,,然后簡要總結(jié)引擎找到的每個網(wǎng)站或文檔,,從而產(chǎn)生明顯引用內(nèi)容的輸出(盡管LLM可能仍然錯誤地總結(jié)每個單獨的文檔)。 建立LLM的公司也很清楚這些問題,。去年9月,,谷歌子公司DeepMind發(fā)表了一篇論文。該公司首席執(zhí)行官兼聯(lián)合創(chuàng)始人德米斯·哈薩比斯(Demis Hassabis)告訴《時代》雜志,,該“對話代理”將于今年以私人測試版發(fā)布,。該雜志報道稱,谷歌的目標是開發(fā)包括引用來源的能力在內(nèi)的功能,。其他競爭對手,,如Anthropic,表示他們已經(jīng)解決了ChatGPT的一些問題,。 一些科學(xué)家說,,目前ChatGPT還沒有接受過足夠?qū)I(yè)的內(nèi)容培訓(xùn),無法在技術(shù)主題上有所幫助,??ɡ锬?/span>·卡爾(Kareem Carr)是馬薩諸塞州劍橋市哈佛大學(xué)的生物統(tǒng)計學(xué)博士生,當他試用它進行工作時,,他感到不知所措,?!拔艺J為ChatGPT很難達到我需要的特異性水平,”他說,。即便如此,,卡爾說,,當他向ChatGPT詢問解決研究查詢的20種方法時,,雖然它吐出了胡言亂語,但也提供了一個有用的想法,,這一個是他過去沒有聽說過的統(tǒng)計術(shù)語,,將他指向了學(xué)術(shù)文獻的新領(lǐng)域。 一些科技公司正在根據(jù)專門的科學(xué)文獻對聊天機器人進行培訓(xùn)——盡管它們也遇到了自己的問題,。去年11月,,擁有Facebook的科技巨頭Meta發(fā)布了一個名為Galactica的LLM,該法學(xué)碩士接受了科學(xué)摘要的培訓(xùn),,目的是使其特別擅長制作學(xué)術(shù)內(nèi)容和回答研究問題,。該演示在用戶獲得它產(chǎn)生不準確和種族主義后從公共訪問中撤出(盡管其代碼仍然可用)?!安辉倏赡芡ㄟ^隨意濫用它來獲得一些樂趣,。快樂,?“Meta的首席人工智能科學(xué)家Yann LeCun在推特上回應(yīng)批評者,。(Meta沒有回應(yīng)通過他們的新聞辦公室提出的與LeCun交談的請求。 三,、安全與責(zé)任 卡拉狄加遇到了倫理學(xué)家多年來一直指出的一個熟悉的安全問題:如果沒有輸出控制,,LLM很容易被用來產(chǎn)生仇恨言論和垃圾郵件,以及種族主義,,性別歧視和其他可能隱含在其訓(xùn)練數(shù)據(jù)中的有害關(guān)聯(lián),。 除了直接產(chǎn)生有毒內(nèi)容外,人們還擔心人工智能聊天機器人會從他們的訓(xùn)練數(shù)據(jù)中嵌入關(guān)于世界的歷史偏見或想法,,例如特定文化的優(yōu)越性,,密歇根大學(xué)安娜堡分校科學(xué),,技術(shù)和公共政策項目主任Shobita Parthasarathy說,。她補充說,因為創(chuàng)建大型LLM的公司大多來自這些文化,,他們可能很少嘗試克服這種偏見,,這些偏見是系統(tǒng)性的,難以糾正,。 OpenAI在決定公開發(fā)布ChatGPT時試圖回避其中的許多問題,。它將其知識庫限制在 2021 年,,阻止它瀏覽互聯(lián)網(wǎng)并安裝過濾器,試圖讓該工具拒絕為敏感或有毒提示生成內(nèi)容,。然而,,要實現(xiàn)這一目標,需要人工版主標記有毒文本的熨平板,。記者報告說,,這些工人的工資很低,有些人遭受了創(chuàng)傷,。社交媒體公司也對工人剝削提出了類似的擔憂,,這些公司雇用人員訓(xùn)練自動機器人來標記有毒內(nèi)容。 OpenAI的護欄并不完全成功,。去年12月,,加州大學(xué)伯克利分校的計算神經(jīng)科學(xué)家史蒂文·皮安塔多西(Steven Piantadosi)在推特上表示,他已要求ChatGPT開發(fā)一個Python程序,,以確定一個人是否應(yīng)該根據(jù)其原籍國遭受酷刑,。聊天機器人回復(fù)了邀請用戶輸入國家/地區(qū)的代碼;如果那個國家是朝鮮、敘利亞,、伊朗或蘇丹,,則印上“這個人應(yīng)該受到酷刑”。(OpenAI隨后關(guān)閉了這類問題,。 去年,,一群學(xué)者發(fā)布了一個名為BLOOM的替代LLM。研究人員試圖通過在較小的高質(zhì)量多語言文本源上進行訓(xùn)練來減少有害輸出,。參與的團隊還使其訓(xùn)練數(shù)據(jù)完全開放(與OpenAI不同),。研究人員敦促大型科技公司負責(zé)任地效仿這一榜樣,但目前尚不清楚他們是否會遵守,。 一些研究人員表示,,學(xué)者應(yīng)該完全拒絕支持大型商業(yè)LLM。除了偏見,、安全問題和被剝削的工人等問題外,,這些計算密集型算法還需要大量的能量來訓(xùn)練,這引發(fā)了人們對其生態(tài)足跡的擔憂,。另一個擔憂是,,通過將思維轉(zhuǎn)移到自動聊天機器人,研究人員可能會失去表達自己想法的能力,?!白鳛閷W(xué)者,我們?yōu)槭裁匆释褂煤托麄鬟@種產(chǎn)品,?”荷蘭奈梅亨Radboud大學(xué)的計算認知科學(xué)家Iris van Rooij在一篇博客文章中寫道,,敦促學(xué)者抵制他們的拉扯,。 進一步令人困惑的是一些LLM的法律地位,這些LLM接受了從互聯(lián)網(wǎng)上抓取的內(nèi)容的培訓(xùn),,有時權(quán)限不太明確,。版權(quán)和許可法目前涵蓋像素、文本和軟件的直接復(fù)制,,但不包括其風(fēng)格的模仿,。當這些通過人工智能生成的仿制品通過攝取原件進行訓(xùn)練時,就會引入皺紋,。一些人工智能藝術(shù)項目的創(chuàng)作者,,包括穩(wěn)定擴散和中途,,目前正在被藝術(shù)家和攝影機構(gòu)起訴;OpenAI和微軟(以及其子公司技術(shù)網(wǎng)站GitHub)也因創(chuàng)建AI編碼助手Copilot而被起訴軟件盜版,。這種強烈抗議可能會迫使法律發(fā)生變化,英國紐卡斯爾大學(xué)互聯(lián)網(wǎng)法律專家莉蓮·愛德華茲(Lilian Edwards)說,。 四,、強制誠實使用 因此,為這些工具設(shè)定界限可能至關(guān)重要,,一些研究人員說,。愛德華茲建議,現(xiàn)有的關(guān)于歧視和偏見的法律(以及對人工智能危險用途的計劃監(jiān)管)將有助于保持LLM的使用誠實,,透明和公平,。“那里有很多法律,,”她說,,“這只是應(yīng)用它或稍微調(diào)整它的問題。 與此同時,,有人推動透明地披露LLM的使用,。學(xué)術(shù)出版商(包括《自然》的出版商)表示,科學(xué)家應(yīng)在研究論文中披露LLM的使用(另見Nature 613 ,,612; 2023);老師們表示,,他們希望學(xué)生有類似的行為?!犊茖W(xué)》雜志走得更遠,,稱ChatGPT或任何其他AI工具生成的文本都不能在論文中使用。5. 一個關(guān)鍵的技術(shù)問題是人工智能生成的內(nèi)容是否可以輕松被發(fā)現(xiàn),。許多研究人員正在研究這個問題,,其中心思想是使用LLM本身來發(fā)現(xiàn)AI創(chuàng)建的文本的輸出。 例如,,去年2月,,新澤西州普林斯頓大學(xué)計算機科學(xué)本科生愛德華·田(Edward Tian)發(fā)表了GPTZero,。此 AI 檢測工具以兩種方式分析文本。一個是“困惑”,,衡量文本對法學(xué)碩士的熟悉程度,。Tian的工具使用早期模型,稱為GPT-<>;如果它發(fā)現(xiàn)大多數(shù)單詞和句子都是可預(yù)測的,,那么文本很可能是人工智能生成的,。該工具還檢查文本的變化,這種衡量標準被稱為“爆發(fā)性”:人工智能生成的文本在語氣,、節(jié)奏和困惑方面往往比人類編寫的文本更一致,。 許多其他產(chǎn)品同樣旨在檢測AI編寫的內(nèi)容。OpenAI本身已經(jīng)發(fā)布了GPT-2的探測器,,并在一月份發(fā)布了另一個檢測工具,。對于科學(xué)家來說,由反抄襲軟件開發(fā)商Turnitin公司開發(fā)的工具可能特別重要,,因為Turnitin的產(chǎn)品已經(jīng)被世界各地的學(xué)校,,大學(xué)和學(xué)術(shù)出版商使用。該公司表示,,自 3 年 GPT-2020 發(fā)布以來,,它一直在開發(fā)人工智能檢測軟件,預(yù)計將在今年上半年推出,。 然而,,這些工具都沒有聲稱是絕對可靠的,特別是如果人工智能生成的文本隨后被編輯,。此外,,探測器可能會錯誤地暗示一些人類編寫的文本是人工智能產(chǎn)生的,德克薩斯大學(xué)奧斯汀分校的計算機科學(xué)家,、OpenAI的客座研究員斯科特·亞倫森(Scott Aaronson)說,。該公司表示,在測試中,,其最新工具在9%的時間內(nèi)錯誤地將人類編寫的文本標記為AI編寫的文本,,并且僅正確識別了26%的AI編寫文本。Aaronson說,,在指控學(xué)生僅根據(jù)探測器測試隱藏他們對AI的使用之前,,可能需要進一步的證據(jù)。 另一個想法是AI內(nèi)容將帶有自己的水印,。去年 24 月,,Aaronson 宣布他和 OpenAI 正在研究一種為 ChatGPT 輸出加水印的方法。它尚未發(fā)布,但 <> 月 <> 日的預(yù)印本6由馬里蘭大學(xué)帕克分校的計算機科學(xué)家湯姆·戈德斯坦(Tom Goldstein)領(lǐng)導(dǎo)的一個團隊提出了一種制作水印的方法,。這個想法是在LLM生成其輸出的特定時刻使用隨機數(shù)生成器,,以創(chuàng)建LLM被指示從中選擇的合理替代詞列表。這會在最終文本中留下一些選定的單詞痕跡,,這些單詞可以通過統(tǒng)計識別,,但對讀者來說并不明顯。編輯可能會破壞這種痕跡,,但Goldstein建議編輯必須改變一半以上的單詞,。 水印的一個優(yōu)點是它永遠不會產(chǎn)生誤報,Aaronson指出,。如果水印在那里,,則文本是用 AI 生成的。不過,,它不會是萬無一失的,,他說?!叭绻阌凶銐虻臎Q心,,肯定有辦法擊敗任何水印計劃?!睓z測工具和水印只會使欺騙性地使用人工智能變得更加困難——并非不可能。 與此同時,,LLM的創(chuàng)建者正忙于開發(fā)基于更大數(shù)據(jù)集的更復(fù)雜的聊天機器人(OpenAI預(yù)計將于今年發(fā)布GPT-4),,包括專門針對學(xué)術(shù)或醫(yī)學(xué)工作的工具。十二月下旬,,谷歌和DeepMind發(fā)布了一份關(guān)于臨床重點LLM的預(yù)印本,,名為Med-PaLM。7.該工具幾乎可以像普通人類醫(yī)生一樣回答一些開放式的醫(yī)學(xué)問題,,盡管它仍然存在缺點和不可靠,。 加利福尼亞州圣地亞哥斯克里普斯研究轉(zhuǎn)化研究所所長埃里克·托波爾(Eric Topol)表示,他希望在未來,,包括LLM在內(nèi)的AI甚至可以通過將學(xué)術(shù)文獻中的文本與身體掃描圖像進行交叉檢查來幫助診斷癌癥和理解疾病,。但他強調(diào),這一切都需要專家的明智監(jiān)督,。 生成式人工智能背后的計算機科學(xué)發(fā)展如此之快,,以至于每個月都有創(chuàng)新出現(xiàn)。研究人員選擇如何使用它們將決定他們和我們的未來,。“認為在 2023 年初,,我們已經(jīng)看到了這一切的結(jié)束,這太瘋狂了,”Topol 說,?!斑@才剛剛開始?!?/span> |
|