文獻(xiàn)閱讀的文本分析流派 讀文獻(xiàn)是科研人員的基本功,,一方面是了解學(xué)科發(fā)展,另一方面更現(xiàn)實一點,,就是為了發(fā)文章,。 起步階段讀論文一般是模仿與學(xué)習(xí),但到了中后期如果你的視野不夠開闊,,很容易陷入到安全區(qū)陷阱,,認(rèn)為自己做自己那一小攤就挺好,其實很有可能大浪過來,,全軍覆沒,,說直白點就是申不到錢,,課題與項目運轉(zhuǎn)不下去,思路也會枯竭,。 當(dāng)你去開學(xué)術(shù)會議時,,那些大會報告的報告人的開場總有個全局概覽的視野,這種評論是需要經(jīng)驗去堆的,,但其實也挺虛的:你回頭去看容易知道哪里有坑哪里有丘,,但身處時代浪潮之中是不太容易感知趨勢的。 但傳統(tǒng)基于核心關(guān)鍵詞的檢索跟全局觀是本質(zhì)相悖的,,核心關(guān)鍵詞往往限制了內(nèi)容,,雖然有利于聚焦但不利于發(fā)散與概覽。不過當(dāng)前文獻(xiàn)數(shù)據(jù)空前開放,,如果你有類似全局視野問題,,是可以自己探索的。 這里要用到一個名為自然語言處理(NLP)的工具,,簡單說就是我不去看單篇文獻(xiàn)或薈萃分析,,而是通過語義關(guān)系探索大量文獻(xiàn)中的潛在模式,進(jìn)而找出熱點,。 今天我用pubmed這個免費的文摘數(shù)據(jù)庫來做個演示,,探索下科學(xué)研究的整體前沿,結(jié)論不一定對,,但方法思路如果你能掌握并舉一反三,,會有發(fā)現(xiàn)新大陸的感覺。 數(shù)據(jù)獲取思路是這樣的:如果想知道整體前沿,,最需要的是綜合類期刊,全文的數(shù)據(jù)量我的筆記本也跑不了,,就考慮摘要,,這樣也過濾了那些沒有摘要的評論與觀點,更多關(guān)注研究性論文,。 期刊選擇為綜合類的《科學(xué)》,、《自然》與《美國科學(xué)院院刊》,收集2016年一整年的論文摘要,,用easyPubmed包來搜索并整理成相對干凈的數(shù)據(jù)集,。 這里我只收集了題目、摘要,、出版期刊與日期進(jìn)行文本數(shù)據(jù)挖掘,。 首先我們先看看著三份期刊的發(fā)文量: 這三份期刊里,PNAS發(fā)文量最大,,占總數(shù)一半,。 然后我們看一下各期刊的前十大摘要高頻詞: 這里解釋一下,,如果我們單純尋找高頻詞其實這幾個期刊都應(yīng)該差不多,但這里我們用的是TF-IDF來加權(quán)篩選,,這個加權(quán)不嚴(yán)謹(jǐn)?shù)恼f就是這個詞出現(xiàn)在該期刊的詞頻與出現(xiàn)在所有期刊詞頻的比例,,通過這個值我們可以找到單個期刊比較重要的詞。 我們可以看到腫瘤與行為均出現(xiàn)在三個期刊的十大關(guān)鍵詞中,,推測相關(guān)研究應(yīng)該是去年的重點,。此外,《自然》與《美國科學(xué)院院刊》都出現(xiàn)了模型這個詞,。 就特色而言,,《自然》去年更關(guān)注造血過程、信號傳遞與衰老問題,;《科學(xué)》雜志則關(guān)心磷酸化,、spo11蛋白與火山口還有小尺度問題;《美國科學(xué)院院刊》主題特色不算明顯,,但比較喜歡強調(diào)研究重要性,。 這里我們可以看出,,《自然》上的論文題目跟摘要內(nèi)容契合度比較高,;《科學(xué)》上論文題目喜歡出現(xiàn)中美的國家標(biāo)簽;《美國科學(xué)院院刊》看意思題目里專業(yè)名詞比較多,。此外,,三份期刊的題目里都出現(xiàn)了勘誤,這倒是前沿高影響力期刊的特點:容易被質(zhì)疑,。 看完整體你應(yīng)該想到,,單個詞并非孤立,那么這些詞之間會不會有相關(guān)性呢,? 這個問題我們也可以用NLP工具來研究: 其實這個技術(shù)更常見,,平時你用的輸入法就實現(xiàn)去考察一些字詞的關(guān)系,然后讓其出現(xiàn)的排序更符合常識,。 這里我們可以看到,,從題目里我們能看到氣候變化、干細(xì)胞以及前面提到的勘誤問題,。從摘要里我們則會發(fā)現(xiàn)大多數(shù)是生物相關(guān)的主題,,也就是前沿科研應(yīng)該是生命科學(xué)在導(dǎo)向。 但到目前為止我們都是把這一些文本當(dāng)成一個整體,,但科學(xué)是分科的,,也就是有不同的主題,此時我們就要用到主題模型來探索去年前沿科研關(guān)注的主題分類,。 所謂主題模型,,就是通過探索字詞間內(nèi)部關(guān)系對文本進(jìn)行分類的模型,,舉例來說某個潛在的主題包含7個關(guān)鍵詞,如果某篇文章命中6個,,那么這篇文章大概率就屬于這個潛在主題,。 當(dāng)然,現(xiàn)實生活我們并不知道這些潛在主題會是什么,,但通過隱含狄利克雷分布,,也就是LDA方法我們就可以去探索結(jié)構(gòu),然后去擬合實際經(jīng)驗,。 從上面我們可以看出,,有些探索出來的主題大概我們知道是哪個領(lǐng)域的,有些則屬于誤判或者說界限不明顯的綜合領(lǐng)域,,這說明跨學(xué)科研究正在崛起,。 其中,我能識別出來的主題大體有癌癥,、腦科學(xué),、病毒、社會行為,、基因組,、膜蛋白結(jié)構(gòu)、氣候變化,、進(jìn)化,、動態(tài)系統(tǒng)、材料,。 總體來看,,細(xì)胞生物學(xué)與分子生物學(xué)還是主流,但病毒,、氣候變化等問題導(dǎo)向的學(xué)科也在發(fā)展,。 其實也可以直接分析10年的時間變化趨勢,不過這個就留成課后題吧(其實是我個人電腦跑不動),。 一般認(rèn)為科研人員都是比較樂觀的,但其實文字背后究竟是否樂觀可以用文本的情感分析來回答,。 這個分析的原理就是事先找個標(biāo)注過情感的語料庫,,然后通過語料庫與詞頻來分析具體文本的情感傾向性。 正常這個語料庫是要自己根據(jù)語境去構(gòu)建的,,例如商品的好評差評,,但作為資深懶漢,我直接用了現(xiàn)成的AFINN語料庫: 結(jié)果基本符合樂觀為主的預(yù)期,,不過按說有些詞在科研中屬于中性詞,,我們可以通過這個分析來考慮論文寫作的用詞方法,。 其實這只是一個很初步的分析,我甚至沒用用到引用與被引用的關(guān)系,,也沒有考慮作者與研究機構(gòu)的時空分布特征,,但類似這樣的文本分析應(yīng)該是一個現(xiàn)代科研人員所具備的屬性。 這種分析的好處在于你不是在采樣,,而是直接分析所擁有的整體,,也就幾十兆的文本量,如果你電腦跑得動,,把十年二十年的文獻(xiàn)沿革都可以概覽一下,,這是這個時代給我們的紅利,不要白不要,。 你可以研究一個大牛幾十年的論文發(fā)表來發(fā)現(xiàn)其獨到的眼光,;也可以針對某個期刊挖掘其關(guān)注點的變更;還可以構(gòu)建自己認(rèn)可的課題組的文獻(xiàn)庫,,通過其發(fā)表內(nèi)容探索同行那些自己都沒意識到的行為改變,。 這個時代學(xué)科內(nèi)的經(jīng)驗貶值飛速,很多東西沒必要閉門造車慢慢悟,,利用開放數(shù)據(jù)的便利性你可以很快了解整體學(xué)術(shù)動態(tài),,這樣不至于隨波逐流。 更麻煩的是如果你不懂而別人懂,,那你將很容易體會到別人眼神中的憐憫,,做一個好奇心使然的科研人員,現(xiàn)在起步從來都不晚,。 更重要的是,,這類技術(shù)本質(zhì)是讓你滿足好奇心的,你可以用這個來了解社會,,例如紐約時報就給個人提供API,,你可以看看其對川普用詞風(fēng)格的變化;為什么最近比特幣搜索指數(shù)集中在拉美,? 歐洲吸引難民究竟是政治正確還是勞動力人口不足,? 不要等著看新聞來指導(dǎo)自己,要學(xué)會發(fā)現(xiàn)生活中的閃光點,;不要通過鍵盤上情感喧囂來面對社會,,要用鍵盤甚至語音編程(我果然很自然的想到了最懶的方法)從繁復(fù)的公開數(shù)據(jù)中挖掘趨勢;不要總是等著大牛來帶,,在未知的領(lǐng)域人人都可能成為大牛,,你需要掌握一些實現(xiàn)方法而已,你甚至不需要太了解算法細(xì)節(jié)(會忘,比如我),,但要有自己的兵器庫隨想隨用,。 你不需要帶著目的性去學(xué),這說到底只是一種生活方式,,你變強了也禿了的可能性是存在的(你能否感到我最近在看漫畫),。 轉(zhuǎn)載本文請聯(lián)系原作者獲取授權(quán),同時請注明本文來自于淼科學(xué)網(wǎng)博客,。 鏈接地址:http://blog.sciencenet.cn/blog-430956-1061477.html |
|