【刊載信息】賈維辰,李文光,余明媚.2020.中文期刊知識圖譜研究范式的優(yōu)化[J].中國遠程教育(11):1-10. 【摘要】在科學知識圖譜領(lǐng)域,,代表性軟件CiteSpace對于期刊數(shù)據(jù)的分析具有重要價值,但是CiteSpace軟件對中文期刊數(shù)據(jù)的分析僅能完成幾類基礎(chǔ)聚類和數(shù)據(jù)分析,,如若希望做深入解讀就需要對已有中文期刊CiteSpace研究范式進行完善和創(chuàng)新,。本研究通過深入分析CiteSpace兩篇代表性文獻,提取了標準研究范式,,從CSSCI收錄的文獻中梳理出通用的CiteSpace中文期刊研究范式,,并將兩種范式進行對比,探究中文期刊研究范式需要優(yōu)化之處,?;诖耍狙芯客ㄟ^使用自然語言處理技術(shù)(簡稱“NLP”)主題挖掘的典型模型Latent Dirichlet Allocation(簡稱“LDA”)處理論文摘要數(shù)據(jù),,通過這種技術(shù)完善文獻檢索策略和文獻數(shù)據(jù)處理方法,,提出的“優(yōu)化范式”豐富了中文期刊CiteSpace研究來源數(shù)據(jù),增強了中文期刊CiteSpace研究內(nèi)容的深度和系統(tǒng)性,并通過對國內(nèi)人工智能在教育領(lǐng)域應(yīng)用的研究進一步驗證了該“優(yōu)化范式”的可操作性,,揭示出國內(nèi)人工智能在教育領(lǐng)域應(yīng)用研究的前沿主要聚焦于智慧學習環(huán)境的構(gòu)建和相關(guān)技術(shù)支持,。在與國內(nèi)CSSCI同類型文獻的對比中,“優(yōu)化范式”在數(shù)據(jù)收集,、數(shù)據(jù)分析,、數(shù)據(jù)解讀三個階段的表現(xiàn)均優(yōu)于傳統(tǒng)中文期刊CiteSpace研究范式。 【關(guān)鍵詞】期刊知識圖譜,;文獻計量,;LDA模型;CiteSpace,;研究范式,;人工智能教育,;中文社會科學引文索引(CSSCI) 隨著20世紀90年代信息可視化技術(shù)的發(fā)展,,科學知識圖譜在21世紀初迅速成為科學計量學的一個新領(lǐng)域,,諸多可視化分析軟件被陸續(xù)引進國內(nèi)。CiteSpace軟件引入中國后,,得到學術(shù)界極大關(guān)注和推廣應(yīng)用,,并取得豐碩成果(Lu, T., Hu, & X. 2019)。但是隨著研究的深入,,我們發(fā)現(xiàn)CiteSpace軟件對中文期刊的數(shù)據(jù)分析仍處在表層(郭麗君, 等, 2018; 劉勇, 等, 2018; 王建華, 等, 2019),,僅能完成幾類基礎(chǔ)聚類和數(shù)據(jù)分析。要解決這一問題,,迫切需要對已有中文期刊CiteSpace研究范式進行完善和創(chuàng)新,。 一、 CiteSpace回顧 (一)CiteSpace理論基礎(chǔ) CiteSpace軟件是美國德雷塞爾大學計算與信息計量學院陳超美教授在懷特(White & Griffith, 1981)作者共被引分析理論和庫恩(Kuhn, 1962)科學結(jié)構(gòu)演進理論的基礎(chǔ)上使用Java語言開發(fā)的信息可視化軟件,。該軟件主要用于分析和可視化作者共被引網(wǎng)絡(luò),,生成知識概念圖譜、知識聚類圖譜,,幫助研究者探索知識領(lǐng)域中的研究熱點,、前沿和潛在新趨勢。 CiteSpace主要包括“研究前沿”和“知識基礎(chǔ)”兩個概念模型(陳悅, 等, 2015),。 研究前沿模型,。某個科學領(lǐng)域中的施引文獻聚類。從施引文獻群組本身內(nèi)容和施引文獻群組引用參考文獻兩個方面體現(xiàn)研究前沿的特征,。 知識基礎(chǔ)模型。某個學科領(lǐng)域中相對于研究前沿的所有前期文獻集合,。 CiteSpace基于以上兩個概念模型,,通過信息可視化技術(shù)基礎(chǔ)實現(xiàn)對研究領(lǐng)域的研究熱點、前沿和潛在新趨勢的探索和預測。 (二)CiteSpace在教育學領(lǐng)域的應(yīng)用 CiteSpace軟件在教育學領(lǐng)域的應(yīng)用涵蓋教育學多個子領(lǐng)域或研究主題,,研究者借助CiteSpace對子領(lǐng)域的研究熱點,、前沿和潛在趨勢進行文獻計量分析和預測。涉及的子領(lǐng)域主要包括大數(shù)據(jù)學習分析(Wang, J., et al., 2016; Tho, S. W., et al., 2017; 閔光輝, 2020),、新技術(shù)在教育領(lǐng)域的應(yīng)用(Wang, F., et al., 2018; Jing, et al., 2019; 徐堅, 等, 2017; 任利強, 等, 2018),、學科教學(Wang, B., Wang, & Z., 2018; 李韜, 等, 2019; 孟宇, 等, 2019)、教師專業(yè)發(fā)展(何燦娟, 等, 2017; 張華陽, 等, 2018; 郭麗君, 等, 2018)和學生素養(yǎng)(Zhao, Y., et al., 2016; Yu, L., et al., 2018; Stopar, K., et al., 2019; 任艷莉, 等, 2018),。CiteSpace可以幫助教育學領(lǐng)域研究者發(fā)現(xiàn)領(lǐng)域研究熱點,,對教育學發(fā)展趨勢和研究方向進行預判并做出決策。 二,、 CiteSpace研究范式 (一)英文期刊CiteSpace研究范式 在英文期刊CiteSpace研究范式方面,,CiteSpace開發(fā)者、大連理工大學教授陳超美教授最具權(quán)威性,,我們對陳超美教授在2012年和2017年發(fā)表的兩篇論文(Chen, et al., 2012; Chen, 2017)進行分析后進行了總結(jié),,如圖1所示。 圖1 英文期刊CiteSpace研究范式 英文期刊研究范式包括三個階段:數(shù)據(jù)收集,、數(shù)據(jù)分析,、數(shù)據(jù)解讀。 數(shù)據(jù)收集階段,。選擇Web of Science(WoS)數(shù)據(jù)庫,,通過采用系統(tǒng)的綜合檢索策略,優(yōu)先保證文獻查全率,。完成數(shù)據(jù)采集和數(shù)據(jù)清洗后將數(shù)據(jù)傳入CiteSpace進行處理,。 數(shù)據(jù)分析階段。生成“雙圖疊加圖譜”“概念樹圖”“時間線分析”“聚類圖譜”等數(shù)據(jù)可視化圖譜,。 數(shù)據(jù)解讀階段,。對各類圖譜進行解讀,陳超美教授的研究路徑是從宏觀到微觀,,從直觀到復雜,,從整體到局部。具體分析內(nèi)容包括:“學科分析(宏觀)”“主題詞分析(微觀與直觀)”“共被引分析(復雜與整體)”“典型聚類分析(局部)”“結(jié)構(gòu)變異性分析(特殊)”,。同時在聚類層面上分析,,一般會選取較大的或較新的典型聚類進行分析,在每個典型聚類分析中都會提供“概念樹”“時間線及細節(jié)圖”“重要被引文獻”“重要施引文獻”,?;谝陨系慕庾x,最后生成該領(lǐng)域的研究熱點,、研究前沿,、研究趨勢預測以及核心研究者研究動向等結(jié)論。 (二)中文期刊CiteSpace研究范式 與英文期刊類似,中文期刊CiteSpace研究同樣包括三個階段:數(shù)據(jù)收集,、數(shù)據(jù)分析,、數(shù)據(jù)解讀,如圖2所示,。但是因為數(shù)據(jù)庫字段不完整等原因,,能夠?qū)崿F(xiàn)的分析項目遠少于英文期刊。 圖2 中文期刊CiteSpace研究范式 數(shù)據(jù)收集階段,。通常選擇中國知網(wǎng)(CNKI)數(shù)據(jù)庫或中文社會科學引文索引(CSSCI)數(shù)據(jù)庫其中一個數(shù)據(jù)庫,,采用單關(guān)鍵詞或多關(guān)鍵詞的方式進行檢索。數(shù)據(jù)采集完成后大多數(shù)研究者不會對數(shù)據(jù)進行清洗(在近幾年發(fā)表的CSSCI文獻中仍可以找到研究機構(gòu)重復的聚類分析圖(王小明, 2018))就直接傳入CiteSpace進行處理,。 數(shù)據(jù)分析階段,。基于輸入數(shù)據(jù)生成“時間線分析”“聚類圖譜”等數(shù)據(jù)可視化圖譜,。 數(shù)據(jù)解讀階段,。對生成的圖譜進行解讀,內(nèi)使用時間線分析圖譜對研究領(lǐng)域進行階段劃分,,而后基于聚類圖譜和聚類關(guān)鍵詞凸顯表進行進一步解讀,,最后生成該領(lǐng)域的研究熱點、研究前沿,、研究趨勢預測等結(jié)論,。 將圖1和圖2對比后可以發(fā)現(xiàn),中文期刊CiteSpace研究范式在數(shù)據(jù)收集,、數(shù)據(jù)分析和數(shù)據(jù)解讀三個階段都存在一定缺陷:數(shù)據(jù)收集缺少系統(tǒng)檢索策略,、缺少數(shù)據(jù)清洗這一關(guān)鍵步驟;數(shù)據(jù)分析缺少“雙圖疊加圖譜”和“概念樹圖譜”,;數(shù)據(jù)解讀在缺少對應(yīng)圖譜的前提下,,僅能基于聚類圖譜進行共被引分析和典型聚類分析,不再是一個從宏觀到微觀,、從直觀到復雜,、從整體到局部的完整體系,而CNKI數(shù)據(jù)庫因為缺少引文數(shù)據(jù)字段,,無法進行共被引分析,。研究者只能基于自身學科知識背景進行主觀解讀,這與CiteSpace“讓一個沒有相關(guān)專業(yè)知識的人也能給出有價值的綜述”的軟件設(shè)計初衷相背離,。 三,、 中文期刊CiteSpace研究范式存在的問題 (一)數(shù)據(jù)來源問題 對于知識圖譜軟件而言,“一切皆為數(shù)據(jù)”,,后續(xù)研究均圍繞輸入數(shù)據(jù)展開,,輸入數(shù)據(jù)的深度,、覆蓋面與研究質(zhì)量和可信度有較強相關(guān)性,。傳統(tǒng)中文期刊CiteSpace研究存在數(shù)據(jù)庫單一,、關(guān)鍵字段缺失等問題。 CiteSpace軟件數(shù)據(jù)是來自于期刊數(shù)據(jù)庫的文獻索引文件,,因此文獻索引中包含的字段決定了后續(xù)研究的深度和廣度,。英文期刊數(shù)據(jù)庫Web of Science(WoS)為研究者提供涵蓋從“文件名”到“研究方向”多達66個字段,使英文期刊CiteSpace研究能夠?qū)崿F(xiàn)“概念圖”“重要被引/施引文獻”“結(jié)構(gòu)變異性”等數(shù)據(jù)可視化,,進而完成“聚類主要研究對象,、主要研究內(nèi)容”“領(lǐng)域高被引文獻、最相關(guān)施引文獻”“高產(chǎn)作者引用足跡”等深層數(shù)據(jù)分析,。 我們對2008—2019年CSSCI收錄的125篇CiteSpace知識圖譜文獻進行統(tǒng)計,,發(fā)現(xiàn)中文期刊知識圖譜研究主要數(shù)據(jù)來源是CNKI(90篇)和CSSCI(45篇)兩個數(shù)據(jù)庫(部分文獻同時使用CNKI和CSSCI數(shù)據(jù))。國內(nèi)研究者通常會基于一個數(shù)據(jù)庫,,下載研究領(lǐng)域內(nèi)近若干年的文獻索引進行分析,。與WoS數(shù)據(jù)庫相比,中文期刊數(shù)據(jù)庫存在字段不完整的情況,。CSSCI和CNKI的文獻索引字段覆蓋面有較大差異,。CSSCI索引文件包含文獻引文數(shù)據(jù),缺乏文獻摘要字段,;CNKI索引文件包含文獻摘要數(shù)據(jù),,缺乏文獻引文數(shù)據(jù)。同時,,兩個數(shù)據(jù)庫對期刊劃分和收錄標準的不同導致相同檢索策略獲得的檢索結(jié)果存在較大差異,。不同的檢索結(jié)果、字段缺失導致研究者的數(shù)據(jù)存在較大差異,,其研究結(jié)果的質(zhì)量和可信度都存在問題,。 (二)研究內(nèi)容問題 在研究內(nèi)容方面,如上文所述,,英文期刊CiteSpace分析能夠?qū)?shù)據(jù)進行深入挖掘和分析,,而中文期刊CiteSpace的研究內(nèi)容主要集中在對領(lǐng)域內(nèi)研究熱點、研究前沿,、研究趨勢進行探索(陳悅, 2014),。在閱讀近年CiteSpace在教育領(lǐng)域應(yīng)用的相關(guān)文獻后我們發(fā)現(xiàn),由于缺乏有效的分析和可視化方法,,很多研究者僅基于關(guān)鍵詞聚類圖和突顯詞分析圖對該領(lǐng)域近10年的研究熱點,、研究前沿和研究趨勢展開分析。另外,,在對CiteSpace數(shù)據(jù)解讀方面,,研究者主要依賴自身在領(lǐng)域內(nèi)的經(jīng)驗和知識儲備,,不可避免地導致結(jié)果分析中摻雜研究者的主觀經(jīng)驗。 綜上所述,,我們認為目前中文期刊CiteSpace研究范式在數(shù)據(jù)來源和研究內(nèi)容等方面均存在一定問題,。 四、 基于LDA模型的中文期刊CiteSpace研究范式優(yōu)化 針對上文提出的中文期刊CiteSpace研究范式存在的問題,,本研究提出基于Latent Dirichlet Allocation(簡稱“LDA”)模型的中文期刊文獻計量研究范式(簡稱“優(yōu)化范式”),。與英文期刊CiteSpace研究范式不同,“優(yōu)化范式”對數(shù)據(jù)收集和數(shù)據(jù)分析階段進行延伸,,引入文獻摘要作為新的分析數(shù)據(jù),,使用自然語言處理對文獻摘要進行主題抽取?;凇皟?yōu)化范式”的變化,,需要設(shè)計相關(guān)文獻收集策略、選擇合適的主題抽取算法等,,最終形成完整的范式體系,。 (一)范式的改進思路 1. 新的文獻計量數(shù)據(jù) 文獻在出版前都要通過嚴格的同行評議,這一過程保證了研究成果的可靠性和先進性,。論文摘要是具有獨立性和完整性的短文,,是對論文內(nèi)容的簡短陳述,作者在摘要中扼要說明研究目的,、研究方法和最終結(jié)論,。論文摘要比論文關(guān)鍵詞所攜帶的信息更加全面、具體,。如果能對目標領(lǐng)域內(nèi)所有文獻的摘要進行全樣本分析,,配合CiteSpace聚類功能,就可以更加系統(tǒng),、清晰,、立體地分析該領(lǐng)域的研究脈絡(luò),彌補中文期刊CiteSpace研究范式中體系不完整的缺陷,。因此,,有必要將論文摘要作為文獻計量的新數(shù)據(jù)。 2. 論文摘要的數(shù)據(jù)處理 論文摘要屬于長文本數(shù)據(jù),,具有非結(jié)構(gòu)化,、多主體、數(shù)據(jù)稀疏等特征(Wu, et al., 2020),。Citespace軟件5.0版本具備“概念樹(Concept Tree)”功能,,能夠根據(jù)文獻題錄數(shù)據(jù)提取各主題概念間的相互聯(lián)系和強度。但是,,該功能不適配中文數(shù)據(jù),。我們希望通過構(gòu)建主題抽取模型來處理文獻摘要數(shù)據(jù),。主題抽取的研究方法主要有LDA模型、圖模型,、概率模型,、聚類分析等,實踐證實這些模型在長文本主題抽取方面取得了良好的效果(譚文堂, 等, 2013; 林萍, 等, 2014; 唐曉波, 等, 2014; 何建云, 等, 2015; 王鵬, 等, 2015; 關(guān)鵬, 等, 2016; 曲靖野, 等, 2018; 楊奕, 等, 2019),。本研究選取LDA模型作為論文摘要主題抽取模型,。LDA模型是自然語言處理(NLP)中主題挖掘的典型模型,,其基本思想是將每個文本表示為主題的多項分布,,每個主題表示為詞匯的多項分布,進而得到文本的潛在主題結(jié)構(gòu),。LDA模型可以從文本語料庫中抽取潛在的主題,,提供量化研究主題的方法,已經(jīng)被廣泛應(yīng)用到科學文獻主題發(fā)現(xiàn)中,,如研究熱點挖掘(王小明, 2018),、研究主題演化(楊星, 等, 2012; 范云滿, 等, 2014; 關(guān)鵬, 等, 2016)、研究趨勢預測(李湘東, 等, 2014; 曾利, 等, 2014)等,。 (二)“優(yōu)化范式”的提出 1.“優(yōu)化范式”的架構(gòu) 如圖3所示,,“優(yōu)化范式”對中文期刊CiteSpace研究范式的數(shù)據(jù)收集、數(shù)據(jù)分析和數(shù)據(jù)解讀三個階段進行補充,。在數(shù)據(jù)收集階段針對研究領(lǐng)域制定相應(yīng)的文獻檢索策略獲取查全率更高的原始數(shù)據(jù),;在完成對原始數(shù)據(jù)的清洗后,在數(shù)據(jù)分析階段通過使用自然語言處理技術(shù)對獲取的論文摘要進行主題抽取處理,,獲取相應(yīng)的主題詞列表和主題詞聚類分析圖譜,;基于以上數(shù)據(jù)分析圖表研究者可以進行“主題詞分析(微觀和直觀)”“共被引分析(復雜和整體)”“典型聚類分析(局部)”等數(shù)據(jù)解讀。 圖3 中文期刊CiteSpace研究范式優(yōu)化 2.“優(yōu)化范式”的數(shù)據(jù)獲取 (1)文獻檢索策略,。研究的原始數(shù)據(jù)由基于CSSCI的多主題搜索查詢和CNKI多主題搜索查詢得到的結(jié)果組合而成,。數(shù)據(jù)檢索策略是基于陳超美教授的“綜合檢索策略”(Chen, 2017)構(gòu)造針對目標領(lǐng)域的檢索策略。檢索策略原則如下: 確保文獻來源的規(guī)范性,、權(quán)威性和豐富性,。選擇中文社會科學引文索引(CSSCI)作為目標數(shù)據(jù)來源;選擇中國知網(wǎng)(CNKI)作為輔助數(shù)據(jù)來源,。在數(shù)據(jù)檢索和數(shù)據(jù)收集時,,兩個數(shù)據(jù)來源使用的檢索語法必須一致。 確保主題搜索查詢涵蓋目標領(lǐng)域各方面,。設(shè)置多個檢索階段,,通過“施引文獻擴展”和“主題詞綜合檢索”的策略提高檢索結(jié)果的查全率。 (2)數(shù)據(jù)清洗策略,。對CSSCI檢索結(jié)果進行數(shù)據(jù)清洗,,包括缺失值處理,、檢測和去除重復文獻記錄等。由于目標文獻來源CSSCI數(shù)據(jù)庫不包含文獻綜述字段,,需要用編寫腳本的方式對兩個數(shù)據(jù)源的檢索結(jié)果進行處理,。通過“標題”“第一作者”“年份”三個字段的比對進行匹配,得到的CSSCI記錄作為研究的基準數(shù)據(jù),,CNKI檢索結(jié)果作為目標領(lǐng)域語料庫數(shù)據(jù),。 3. 圖譜生成和解讀 文獻摘要數(shù)據(jù)具有非結(jié)構(gòu)化、多主體,、數(shù)據(jù)稀疏的特點,,我們使用LDA模型進行處理,通過編寫數(shù)據(jù)分析腳本輔助CiteSpace軟件實現(xiàn)主題詞表和主題詞可視化圖譜,。在分詞部分基于目標領(lǐng)域CNKI數(shù)據(jù)庫檢索結(jié)果生成細分領(lǐng)域詞庫,,比通用分詞模型更加精確。 五,、 兩種范式的對比分析 應(yīng)用“優(yōu)化范式”對2001—2019年國內(nèi)“人工智能”在教育領(lǐng)域的應(yīng)用研究進行可視化分析,。選取北京郵電大學劉勇教授發(fā)表于2018年的關(guān)于人工智能在教育領(lǐng)域應(yīng)用的同類型文獻《人工智能在我國教育領(lǐng)域應(yīng)用的可視化分析》(劉勇, 等, 2018)作為對比對象(簡稱“對比范式”)。從數(shù)據(jù)收集,、數(shù)據(jù)分析和數(shù)據(jù)解讀三個階段進行橫向比較,。由于篇幅限制,在關(guān)鍵聚類分析部分僅對一個關(guān)鍵聚類進行詳細闡述,。 (一)數(shù)據(jù)收集階段的對比 1.“優(yōu)化范式”的數(shù)據(jù)收集 我們選擇CSSCI數(shù)據(jù)庫作為目標數(shù)據(jù)來源,,選擇CNKI數(shù)據(jù)庫作為輔助數(shù)據(jù)來源,檢索年份設(shè)定為“2001~2019”,。圍繞人工智能主要領(lǐng)域,、人工智能與教育的結(jié)合產(chǎn)物、在教育中運用的相關(guān)技術(shù)設(shè)計了三輪數(shù)據(jù)檢索策略,。最終得到的數(shù)據(jù)集是包含1,840條CSSCI記錄和15,885條CNKI記錄的數(shù)據(jù)集,。完成對檢索結(jié)果的數(shù)據(jù)清洗后,按照“優(yōu)化范式”要求對兩個數(shù)據(jù)源的檢索結(jié)果進行匹配,。通過“標題”“第一作者”“年份”三個字段的比對共匹配出1,483條CSSCI記錄作為本研究的基準數(shù)據(jù),,CNKI檢索結(jié)果作為本研究的細分語料庫數(shù)據(jù)。 2.“對比范式”的數(shù)據(jù)收集 “對比范式”選取的是CNKI數(shù)據(jù)庫,,檢索包含關(guān)鍵詞“人工智能”/“AI”和“教育”的相關(guān)文獻,,得到1086條檢索記錄(629條為期刊、457條為學位論文),。 對比兩個范式的數(shù)據(jù)收集階段,,如表1所示,可以發(fā)現(xiàn)“優(yōu)化范式”的篩選標準是優(yōu)先數(shù)據(jù)查全率,,“對比范式”的篩選標準是優(yōu)先數(shù)據(jù)查準率,。陳超美教授認為,,“相對于不斷精煉和清洗檢索結(jié)果直到將所有無關(guān)的研究主題都排除在外(優(yōu)先查準率),更有效的辦法是留著它們(優(yōu)先查全率),,在對生成的科學知識圖譜解讀的時候可以跳過這些研究聚類或分支”,。(Chen, 2017) 表1 數(shù)據(jù)收集階段對比 (二)數(shù)據(jù)分析階段的對比 1.“優(yōu)化范式”的數(shù)據(jù)分析 在數(shù)據(jù)分析階段,我們主要進行描述性統(tǒng)計分析,、共被引網(wǎng)絡(luò)和時間軸網(wǎng)絡(luò)分析,、典型聚類分析和研究前沿分析。這里僅對各項分析的內(nèi)容和結(jié)論進行概述,。 (1)描述性統(tǒng)計分析 對2001—2019年歷年CSSCI期刊有關(guān)人工智能在教育領(lǐng)域應(yīng)用文獻的發(fā)文量,、研究機構(gòu)發(fā)文量等指標進行統(tǒng)計并繪制熱力圖進行可視化分析。 (2)共被引網(wǎng)絡(luò)和時間軸網(wǎng)絡(luò)分析 基于2001—2019年CSSCI有關(guān)國內(nèi)人工智能在教育領(lǐng)域應(yīng)用的文獻,,合成文獻共引分析網(wǎng)絡(luò)視圖,,如圖4所示。該網(wǎng)絡(luò)共包含32,344條引文信息,,被劃分為15個聚類(cluster)。2001—2019年國內(nèi)人工智能在教育領(lǐng)域應(yīng)用的文獻主要圍繞這15個主題展開,。 圖4 2001—2019年CSSCI國內(nèi)人工智能在教育領(lǐng)域應(yīng)用文獻共被引網(wǎng)絡(luò)(基于2001—2019年top100/年,,LRF=2.0,LBY=8,,e=1.0) 進一步使用CiteSpace中的時間軸功能對15個聚類沿水平時間線進行可視化,,展現(xiàn)各個聚類發(fā)展演變的時間跨度和研究進程,如圖5所示,。各個聚類(子領(lǐng)域)的可持續(xù)性在時間軸中清晰地展示出來,。 圖5 2001—2019年CSSCI國內(nèi)人工智能在教育領(lǐng)域應(yīng)用 文獻共被引聚類時間軸 (3)典型聚類分析 對15個聚類進行合并、刪減,,選取具有代表性的5個聚類,,如表2所示。在數(shù)據(jù)解讀階段的對比中,,我們將基于聚類1“人工智能”進行解讀,。 表2 2001—2019年CSSCI國內(nèi)人工智能在教育領(lǐng)域應(yīng)用文獻共引聚類 (4)研究前沿分析 通過CiteSpace生成2001—2019年CSSCI國內(nèi)人工智能在教育領(lǐng)域應(yīng)用文獻突顯詞列表,如圖6所示,。2011年以來“個性化學習”“智慧校園”“物聯(lián)網(wǎng)”“智慧學習環(huán)境”“教育信息化”等詞匯被引用量突增,。說明以上詞匯是近年來國內(nèi)人工智能在教育領(lǐng)域應(yīng)用的研究前沿。2007年物聯(lián)網(wǎng)的興起以及相應(yīng)大數(shù)據(jù)挖掘技術(shù)的成熟,,使與物聯(lián)網(wǎng)和學習分析相關(guān)的自適應(yīng)推薦系統(tǒng),、智慧學習環(huán)境開始逐步完善并得到推廣,學生個性化學習成為可能,,而智慧學習環(huán)境的完善進一步推動了智慧學習的發(fā)展,。我們認為,,CSSCI文獻體現(xiàn)出的國內(nèi)人工智能在教育領(lǐng)域應(yīng)用研究的前沿,主要聚焦于智慧學習環(huán)境的構(gòu)建和相關(guān)技術(shù)支持,。 圖6 2001—2019年CSSCI國內(nèi)人工智能在教育領(lǐng)域應(yīng)用突顯詞 2.“對比范式”的數(shù)據(jù)分析 “對比范式”在完成數(shù)據(jù)收集和清洗之后就對最終1,086條文獻記錄進行研究熱點分析和前沿分析,。 對比兩個范式的數(shù)據(jù)分析階段,如表3所示,。在數(shù)據(jù)分析階段“優(yōu)化范式”和“對比范式”均采用CiteSpace進行數(shù)據(jù)處理,,處理手法類似。 表3 數(shù)據(jù)分析階段對比 (三)數(shù)據(jù)解讀階段的對比 1.“優(yōu)化范式”的數(shù)據(jù)解讀 “優(yōu)化范式”的數(shù)據(jù)解讀是對典型聚類分析結(jié)果的解讀,。每一個典型聚類都提供主題詞解讀,、時間軸解讀和重要被引文獻的圖譜和研究內(nèi)容。這里以聚類1“人工智能”為例,。 人工智能聚類是目標領(lǐng)域中最大聚類,。我們篩選出包含該聚類關(guān)鍵詞的文獻共1,205篇,占本研究總數(shù)據(jù)的81%,。使用LDA模型對篩選結(jié)果的摘要部分進行主題抽取,,共得到6個主題,如表4所示,,對主題詞做進一步可視化處理,,如圖7所示。 表4 聚類1“人工智能”主題詞 圖7 聚類1“人工智能”主題詞聚類分析 在聚類分析圖譜中,,不同主題之間的距離代表主題之間的關(guān)聯(lián)性,,研究者可以據(jù)此將圖譜劃分為不同區(qū)域(Sievert, C., et al., 2014)。結(jié)合圖7和表4可以將6個主題劃分為4部分,,分別是位于第一象限的主題6“國外人工智能的應(yīng)用”,,位于第二象限的主題5“人工智能技術(shù)在學校教學環(huán)境中的應(yīng)用”,位于第三,、四象限的主題2“智慧教育”和主題1“教育大數(shù)據(jù)”,,位于第四象限的主題3“人工智能技術(shù)對傳播等領(lǐng)域的影響”和主題4“人工智能的哲學思辨”。其中,,主題1和主題2,、主題3和主題4存在較大重疊,其原因是教育領(lǐng)域中教育大數(shù)據(jù)為智慧學習環(huán)境提供數(shù)據(jù)支撐,,二者相互依托,;人工智能在各個領(lǐng)域的應(yīng)用導致對其存在的優(yōu)勢和隱患的反思?;诳梢暬Y(jié)果,,我們認為2001—2019年CSSCI人工智能在教育領(lǐng)域應(yīng)用文獻在聚類1中主要關(guān)注以上6個主題。 本研究結(jié)合圖8在時間軸中出現(xiàn)的高被引作者,篩選出該聚類下影響最大的25位被引用作者和相應(yīng)文獻,,如圖9所示,。對以上28篇文獻進行分析后發(fā)現(xiàn),聚類1的研究主要可以分為三大類:大數(shù)據(jù)在學校治理(教育管理)中的應(yīng)用,、基于教育大數(shù)據(jù)的學習分析應(yīng)用,、基于人工智能的教育應(yīng)用。 圖8 聚類1中影響最大的被引作者 圖9 聚類1中影響最大的25位被引用作者和相應(yīng)文獻 在分類1中,,研究者主要針對大數(shù)據(jù)為學校治理提供宏觀層面支持進行闡述,。宏觀層面涵蓋教育相關(guān)法律制度、管理方式,、教學模式,、教學觀念、個性化教育,、專業(yè)人才培養(yǎng)和專業(yè)課程建設(shè),,通過教育大數(shù)據(jù)的支持幫助決策者發(fā)現(xiàn)教育規(guī)律、實現(xiàn)精準管理(張燕南, 2013; 柯清超, 2013; 朱建平, 2014; 周湘林, 2014; 張俊超, 2014; 吳志龍, 2015; 孫洪濤, 2016; 姚松, 2016; 鐘婉娟, 2016),。 在分類2中,,研究者基于教育大數(shù)據(jù)進行學習分析。研究者搭建或借助現(xiàn)有教學平臺采集教育大數(shù)據(jù)(結(jié)構(gòu)化,、非結(jié)構(gòu)化數(shù)據(jù)),,通過學習分析技術(shù)構(gòu)建各類學習者模型,并基于模型繪制學習者肖像,、實現(xiàn)學習者個性化學習、預測學習者行為,、完成教育評價(李青, 2012; 武法提, 2014; 孟玲玲, 2014; 鄭燕林, 2015; 牟智佳, 2016; 武法提, 2016; 張治, 2017; 牟智佳, 2018; 蔣鑫, 2019),。 在分類3中,研究者主要闡述人工智能技術(shù)在教育中的應(yīng)用,。與分類2聚焦于學習分析不同,,分類3從單純的數(shù)據(jù)驅(qū)動擴展到線下硬件和情境支持。更加關(guān)注自適應(yīng)學習系統(tǒng),、智能學習空間設(shè)計以及人工智能對個性化學習的整體支持(賈積有, 2010; 徐鵬, 2011; 牟智佳, 2017; 張坤穎, 2017; 劉德建, 2018; 許亞鋒, 2018; 張治, 2018),。 2.“對比范式”的數(shù)據(jù)解讀 “對比范式”在完成數(shù)據(jù)收集和清洗之后,使用CiteSpace處理1,086條文獻記錄,。依據(jù)關(guān)鍵詞聚類得到12個聚類,,并進一步歸納為3個大類。在數(shù)據(jù)分析階段通過分析聚類特征詞(文獻的高頻關(guān)鍵詞)實現(xiàn)對該聚類的解讀,。 對比兩個范式的數(shù)據(jù)解讀階段,,如表5所示,可以發(fā)現(xiàn)由于使用LDA模型對摘要數(shù)據(jù)集進行了主題詞抽取分析和可視化呈現(xiàn),“優(yōu)化范式”在數(shù)據(jù)解讀階段能夠?qū)δ繕司垲愖龀龈酉到y(tǒng),、客觀,、具體的解讀,而“對比范式”的數(shù)據(jù)解讀由于過多依賴研究者自身知識背景導致解讀存在主觀性和片面性,。 表5 數(shù)據(jù)解讀階段對比 六,、 討論和結(jié)論 (一)研究結(jié)論 本研究提出的“優(yōu)化范式”并不是對已有中文期刊CiteSpace研究范式的顛覆,而是對目前研究范式進行調(diào)整和補充,。通過完善中文文獻檢索策略和文獻數(shù)據(jù)處理技術(shù),,采用更加系統(tǒng)全面的檢索策略和數(shù)據(jù)清洗方式整合CNKI和CSSCI索引數(shù)據(jù)。該方法使中文期刊CiteSpace研究來源數(shù)據(jù)更加豐富,,將非結(jié)構(gòu)化數(shù)據(jù)“摘要”納入數(shù)據(jù)集中,。我們使用NLP主題挖掘的典型模型LDA模型處理論文摘要數(shù)據(jù),增強了中文期刊CiteSpace研究內(nèi)容的深度和系統(tǒng)性,。對摘要數(shù)據(jù)的分析使CiteSpace數(shù)據(jù)分析不再局限于對結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計分析,,能夠獲取更加深入和立體的可視化數(shù)據(jù),為解讀提供依據(jù),。 本研究以對國內(nèi)人工智能在教育領(lǐng)域應(yīng)用的研究文獻的分析為例驗證了“優(yōu)化范式”的可操作性,。通過應(yīng)用“優(yōu)化范式”,增加目標領(lǐng)域引文摘要數(shù)據(jù)的采集和分析,,規(guī)范數(shù)據(jù)解讀流程,,得到更加清晰的可視化數(shù)據(jù)。在數(shù)據(jù)解讀環(huán)節(jié),,基于LDA模型可視化結(jié)果發(fā)現(xiàn)聚類1中包括人工智能技術(shù)在學校教學環(huán)境中的應(yīng)用,、智慧教育、教育大數(shù)據(jù)等六個主題,。在對關(guān)鍵被引文獻的梳理中得到大數(shù)據(jù)在學校治理(教育管理)中的應(yīng)用,、基于教育大數(shù)據(jù)的學習分析應(yīng)用、基于人工智能的教育應(yīng)用三個研究子類,,這三個子類的具體內(nèi)容與LDA模型可視化結(jié)果大部分重疊,。使用“優(yōu)化范式”得到的解讀結(jié)果更加客觀、可信,,能夠為今后該領(lǐng)域研究提供更加具體的趨勢預測,。 (二)研究展望 本研究使用LDA模型對文獻摘要進行降維可視化處理,借助對摘要部分信息的深度挖掘來克服研究者主觀經(jīng)驗造成的影響,。但是在實際使用中我們發(fā)現(xiàn),,聚類出來的主題詞分析依舊需要通過人工進行整合和闡述。我們希望在下一階段的研究中能夠通過深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)對主題詞的文本生成,,研究者僅負責對最后生成的主題句進行篩選,。 參考文獻 向上滑動閱覽 曾利,,李自力,譚躍進. 2014. 基于動態(tài)LDA的科研文獻主題演化分析[J]. 軟件,,35(05):102-107. 陳悅,,等. 2014. 引文空間分析原理與應(yīng)用[M]. 北京:科學出版社. 范云滿,馬建霞. 2014. 基于LDA與新興主題特征分析的新興主題探測研究[J]. 情報學報,,33(07):698-711. 關(guān)鵬,,王曰芬,傅柱. 2016. 不同語料下基于LDA主題模型的科學文獻主題抽取效果分析[J]. 圖書情報工作,,60(02):112-121. 郭麗君,,陳春平. 2019. 我國教師專業(yè)發(fā)展研究的知識圖譜——2002—2017年CSSCI期刊的文獻計量分析[J]. 現(xiàn)代教育管理,(02):86-92. 何燦娟,,徐文彬. 2017. 當代新教師專業(yè)發(fā)展研究現(xiàn)狀:基于知識圖譜CiteSpace的分析[J]. 上海教育科研(07):15-19. 何建云,,陳興蜀,杜敏,,等. 2015. 基于改進的在線LDA模型的主題演化分析[J]. 中南大學學報(自然科學版),,46(02):547-553. 胡三華,汪曉東. 2004. 博客在教育教學中的應(yīng)用初探[J]. 遠程教育雜志(01):10-12. 黃魯成,,張璐,,吳菲菲,等. 2016. 基于突現(xiàn)文獻和SAO相似度的新興主題識別研究[J]. 科學學研究,,34(06):814-821. 賈積有. 2010. 國外人工智能教育應(yīng)用最新熱點問題探討[J]. 中國電化教育(07):113-118. 蔣鑫,,洪明. 2019. 國際教育大數(shù)據(jù)研究的熱點[J]. 中國遠程教育(02):26-38. 柯清超. 2013. 大數(shù)據(jù)與智慧教育[J]. 中國教育信息化(24):8-11. 李青,王濤. 2012. 學習分析技術(shù)研究與應(yīng)用現(xiàn)狀述評[J]. 中國電化教育(08):129-133. 李韜,,趙雯. 2019. 國內(nèi)學術(shù)英語研究述評[J]. 外語電化教學(03):22-27. 李湘東,,張嬌,袁滿. 2014. 基于LDA模型的科技期刊主題演化研究[J]. 情報雜志,,33(07):115-121. 林萍,,黃衛(wèi)東. 2014. 基于LDA模型的網(wǎng)絡(luò)突發(fā)事件話題演化路徑研究[J]. 情報科學,32(10):20-23. 劉德建,,杜靜,姜男,,黃榮懷. 2018. 人工智能融入學校教育的發(fā)展趨勢[J]. 開放教育研究,,24(04):33-42. 劉勇,生曉婷,,李青. 2018. 人工智能在我國教育領(lǐng)域應(yīng)用的可視化分析[J]. 現(xiàn)代教育技術(shù),,28(10):27-34. 孟玲玲,顧小清,,李澤. 2014. 學習分析工具比較研究[J]. 開放教育研究,,20(04):66-75. 孟宇,陳堅林. 2019. 信息化時代外語學習方式動態(tài)演進研究——基于CiteSpace的可視化分析[J]. 外語教學理論與實踐(04):34-40. 閔光輝. 2020. 大數(shù)據(jù)背景下我國成人教育研究的熱點及路徑——基于CNKI數(shù)據(jù)庫的Citespace可視化和批判閱讀法分析[J]. 中國成人教育(04):19-23. 牟智佳. 2016. 學習者數(shù)據(jù)肖像支撐下的個性化學習路徑破解——學習計算的價值賦予[J]. 遠程教育雜志,34(06):11-19. 牟智佳. 2017. “人工智能+”時代的個性化學習理論重思與開解[J]. 遠程教育雜志,,35(03):22-30. 牟智佳,,李雨婷,嚴大虎. 2018. 混合學習環(huán)境下基于學習行為數(shù)據(jù)的學習預警系統(tǒng)設(shè)計與實現(xiàn)[J]. 遠程教育雜志,,36(03):55-63. 任利強,,郭強,王海鵬,,張立民. 2018. 基于 CiteSpace 的人工智能文獻大數(shù)據(jù)可視化分析[J]. 計算機系統(tǒng)應(yīng)用,,27(6):18-26. 任艷莉,王彤. 2018. 國內(nèi)信息素養(yǎng)教育研究知識圖譜分析:基于CSSCI論文(2008-2018)[J]. 黑龍江高教研究(09):36-39. 孫洪濤,,鄭勤華. 2016. 教育大數(shù)據(jù)的核心技術(shù),、應(yīng)用現(xiàn)狀與發(fā)展趨勢[J]. 遠程教育雜志,34(05):41-49. 王建華,,周瑩,,張靜茗. 2019. 中國影視翻譯研究三十年(1989—2018)——基于CiteSpace的可視化分析[J]. 上海翻譯(02):33-38. 吳志龍. 2015. 大數(shù)據(jù)時代下高校輔導員預警能力研究[J]. 國家教育行政學院學報(04):62-66. 武法提,牟智佳. 2014. 電子書包中基于大數(shù)據(jù)的學生個性化分析模型構(gòu)建與實現(xiàn)路徑[J]. 中國電化教育(03):63-69. 武法提,,牟智佳. 2016. 基于學習者個性行為分析的學習結(jié)果預測框架設(shè)計研究[J]. 中國電化教育(01):41-48. 徐堅,,王維平. 2017. 我國人工智能教育發(fā)展及現(xiàn)狀研究——基于 1976—2017 年中文文獻的 CiteSpace 可視化分析[J]. 信息化研究,43(6):1-6. 徐鵬,,王以寧. 2011. 國內(nèi)自適應(yīng)學習系統(tǒng)的研究現(xiàn)狀與反思[J]. 現(xiàn)代遠距離教育(01):25-27. 徐鵬,,王以寧,劉艷華,,張海. 2013. 大數(shù)據(jù)視角分析學習變革[J]. 遠程教育雜志,,31(06):11-17. 許亞鋒,高紅英. 2018. 面向人工智能時代的學習空間變革研究[J]. 遠程教育雜志,,36(01):48-60. 姚松. 2016. 大數(shù)據(jù)與教育治理現(xiàn)代化:機遇,、挑戰(zhàn)與優(yōu)化路徑[J]. 湖南師范大學教育科學學報,15(02):76-80. 張洪孟,,胡凡剛. 2015. 教育虛擬社區(qū):教育大數(shù)據(jù)的必然回歸[J]. 開放教育研究,,21(01):44-52. 張華陽,梁文玲. 2018. 全球教師專業(yè)發(fā)展研究的新進展——基于WOS數(shù)據(jù)庫的檢索[J]. 教育導刊(07):82-87. 張俊超. 2014. 大數(shù)據(jù)時代的院校研究與大學管理[J]. 高等工程教育研究(01):128-135. 張坤穎,,張家年. 2017. 人工智能教育應(yīng)用與研究中的新區(qū),、誤區(qū)、盲區(qū)與禁區(qū)[J]. 遠程教育雜志,,35(05):54-63. 張燕南,,趙中建. 2013. 大數(shù)據(jù)時代思維方式對教育的啟示[J]. 教育發(fā)展研究,33(21):1-5. 張志強. 2015. 建設(shè)現(xiàn)代大學制度完善高等教育治理體系[J]. 教育探索(06):55-58. 張治,,戚業(yè)國. 2017. 基于大數(shù)據(jù)的多源多維綜合素質(zhì)評價模型的構(gòu)建[J]. 中國電化教育(09):69-77. 張治,,劉小龍,,余明華,祝智庭. 2018. 研究型課程自適應(yīng)學習系統(tǒng):理念[J]. 中國電化教育(04):119-130. 鄭燕林,,柳海民. 2015. 大數(shù)據(jù)在美國教育評價中的應(yīng)用路徑分析[J]. 中國電化教育(07):25-31. 鐘婉娟,,侯浩翔. 2016. 大數(shù)據(jù)視角下教育決策機制優(yōu)化及實現(xiàn)路徑[J]. 教育發(fā)展研究,36(03):8-14. 周湘林. 2014. 大數(shù)據(jù)時代的教育管理變革[J]. 中國教育學刊(10):25-30. 朱建平,,李秋雅. 2014. 大數(shù)據(jù)對大學教學的影響[J]. 中國大學教學(09):41-44. Borko, H.(2004). Professional Development and Teacher Learning: Mapping the Terrain. Educational Researcher,33(8):3-15. Chen, C.(2017). Science Mapping:A Systematic Review of the Literature.數(shù)據(jù)與情報科學學報:英文版,,2(2):1-40. Chen, C., Hu, Z., Liu, S., et al. (2012). Emerging trends in regenerative medicine: a scientometric analysis in CiteSpace.Expert Opinion on Biological Therapy,12(5):593-608. Kuhn, T. S. 1962. The structure of scientic revolutions.Chicago and London. Lu, T., & Hu, X. (2019). Overview of Knowledge Mapping Construction Technology. In 2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC) (pp. 1572-1578). IEEE. Jing, L., Ruyu, X., & Anling, S. (2019). Analysis on Research Frontiers and Hotspots of “Artificial Intelligence Plus Education” in China-Visualization Research Based on Citespace V. In IOP Conference Series: Materials Science and Engineering (Vol. 569, No. 5, p. 052073). IOP Publishing. Sievert, C., & Shirley, K. (2014, June). LDAvis: A method for visualizing and interpreting topics. In Proceedings of the workshop on interactive language learning, visualization, and interfaces (pp. 63-70). Stopar, K., & Bartol, T. (2019). Digital competences, computer skills and information literacy in secondary education: mapping and visualization of trends and concepts. Scientometrics, 118(2), 479-498. Tho, S. W., Yeung, Y. Y., Wei, R., Chan, K. W., & So, W. W. M. (2017). A systematic review of remote laboratory work in science education with the support of visualizing its structure through the histcite and citespace software. International Journal of Science and Mathematics Education, 15(7), 1217-1236. Wang, J., Chen, S. C., Wang, L. L., & YANG, X. M. (2016). The analysis of research hot spot and trend on big data in education based on CiteSpace. Modern Educational Technology, 26(2), 5-13. Wang, B., & Wang, Z. (2018). Analysis of mapping knowledge domains of tennis teaching research in China. Educational Sciences: Theory & Practice, 18(6). Wang, F., & Tao, X. (2018). Visual Analysis of the Application of Artificial Intelligence in Education. In 2018 International Joint Conference on Information, Media and Engineering (ICIME) (pp. 187-191). IEEE. Webster-Wright A. (2009). Reframing Professional Development through Understanding Authentic Professional Learning. Review of Educational Research, 79(2): 702-739. White, H. D., Griffith, B. C. (1981). Author cocitation: A literature measure of intellectual structure. Journal of the American Society for information Science,32(3):163-171. Wu, Z., Yang, F. (2020). A Thematic Analysis Method of Academic Documents Based on TF-IDF and LDA. Computer Technology and Development, 30(1). Yu, L., Wu, D., Zhu, S., & Li, H. (2018). Visualizing and Understanding Information literacy Research Based on the CiteSpaceV. In Challenges and Solutions in Smart Learning (pp. 113-118). Springer, Singapore. Zhao, Y., Shan, C., Dong, H., & Hu, G. (2016). Evolution path and research hotspot in international information literacy education field based on citespace II. In Proceedings of the 2nd International Conference on Communication and Information Processing (pp. 79-82). 作者簡介 賈維辰,博士研究生,,澳門城市大學教育學院(999078),。 李文光,本文通訊作者,,博士,碩士生導師,,副教授,深圳大學教育信息技術(shù)系(518060),。 余明媚,,碩士,南方科技大學高等教育研究中心(518055),。 責任編輯: 張志禎劉 莉 |
|