久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

基于PLSA的智能學習支持系統(tǒng)

 昵稱132607 2009-05-13
 

論著選摘

基于PLSA的智能學習支持系統(tǒng)

姚紅玉1 劉粵鉗2

1 華東師范大學教育信息技術(shù)系;2 安徽師范大學數(shù)計學院

摘要LPSS是由多種功能模塊組成的職能學習支持系統(tǒng),,概率潛在語義分析PLSA是基于概率的一種新的潛在語義分析算法,。文種對比論述了PLSA與LSA算法,并在此基礎(chǔ)上分析了其他構(gòu)件學習支持系統(tǒng)的方法,,闡明PLSA相比于其他方法的優(yōu)勢,。提出了基于PLSA的學習支持系統(tǒng)的具體設(shè)計與實現(xiàn)。

關(guān)鍵詞】潛在語義分析  LPSS  概率潛在語義分析

LPSS(LearmngPerformanceSupportSystems)是張際平教授基于EPSS(ElectronicPerformanceSupportSystems)與PSS(PerfomlanceSuppomSystems)概念而提出的一種學習支持系統(tǒng),。LPSS在方法和理論上繼承了EPSS和PSS的主要思想,,在技術(shù)上依賴于計算機和網(wǎng)絡(luò)技術(shù)的發(fā)展。

LPSS是由多種功能模塊組成的智能學習支持系統(tǒng),能對文本自動分析,,在與學生對話過程中自主學習,、理解問題并給出問題答案,其核心模塊為“問題理解”和“問題解答”,,前者是系統(tǒng)實現(xiàn)的關(guān)鍵,。目前,構(gòu)建LPSS系統(tǒng)的方法大體分為基于知識本體,、人工神經(jīng)網(wǎng)及事例推理三大類”叫,,但都不盡如人意。

潛在語義分析(LatentSemanticAnalysis,,簡稱LSA)是一種知識歸納和知識表示的理論和方法,,可用于無監(jiān)督地對文本語料的分析、詞匯意義的確定和短文意義之間相似度的計算,,還能夠理解信息并在理解的基礎(chǔ)上進行推理和預(yù)測,。

本研究將運用潛在語義分析的新算法——概率潛在語義分析(PLSA)構(gòu)建智能化的LPSS。

一,、潛在語義分析與概率潛在語義分析

1.潛在語義分析LSA

LSA主要思想為通過對詞—文檔矩陣 的奇異值分解(SVD)實現(xiàn)把高維的向量空間模型(VSM)中的文檔映射到低維的潛在語義空間中,。即對任意矩陣??煞纸鉃?,其中U、V是正交陣,,對角陣,,其中()為N的奇異值。選取最大的K個奇異值,,并將剩余的值設(shè)為零,,可以近似地得到,由于文檔之間的相似性,,可以通過來表示,,因此文檔在潛在語義空間中的坐標可以通過來近似。這樣高維空間中表示的文檔就投影到低維的潛在語義空間中,,在高維中比較稀疏的向量在潛在語義空間中變得不再稀疏。即使兩篇文檔沒有任何共同詞項,,仍可能找到其間具有比較意義的關(guān)聯(lián)值,。

簡言之,通過奇異值分解,,將文檔投影到低維的潛在語義空間中,,便可有效地縮小問題的規(guī)模。

2.概率潛在語義分析PLSA

LSA存在諸多不足,主要有:矩陣的SVD分解對數(shù)據(jù)變化較為敏感,;缺乏先驗信息的植入而使其顯得過分機械,;無法對潛在空間中的方向作出明確解釋;LSA能夠?qū)W習并獲取知識主要依賴語義空間維數(shù)的選擇,。LSA語義空間的維數(shù)和答案選擇的正確性之間存在著非單調(diào)相關(guān),,通常這個最佳維數(shù)主要由經(jīng)驗式法則去確定等等。

PLSA算法是以概率為基礎(chǔ)的算法,,可以有效地克服LSA的缺陷,,其主要算法思想如下。

概率潛在語義分析的核心思想是示象模型(aspectmodel),。該模型使得一不可見的潛在類變量集與每一次觀測值相關(guān),。這里的觀測值為一特定文本中某詞的出現(xiàn)率。于是可得詞—文同現(xiàn)的聯(lián)合概率模型為:

          (1.2.1)

顯然,,上式須用所有可能的去模擬示象模型,,這樣必須假設(shè)在相關(guān)潛在變量的條件下和是獨立的。深入分析,,可以發(fā)現(xiàn)該條件概率分布是K個類條件概率平面的凸組合,。于是示象模型的思想可以直觀地理解為利用概率群分布函數(shù)的凸組合去盡可能如實地逼近特定的文—詞分布。其原理如圖1(1)所示,。

在問題的極大似然估計中,,對所有的概率群分布函數(shù)取最大值,考慮到潛在變量的基數(shù)K通常比文本或詞的數(shù)目要小得多,,將圖1(1)等價變換為圖1(2),,則(1.2.1)中的聯(lián)合概率為:

         1.2.2

圖1

該式關(guān)于文本和詞完全對稱;即可以實現(xiàn)文—文,、詞—詞,、文—詞、詞—文之間的任意相似度的計算,,進而實現(xiàn)對文本的理解與問題的解答,。

3.潛在語義分析在認知與教育中的應(yīng)用

潛在語義分析技術(shù)已成功應(yīng)用于信息濾波、文本索引等諸多方面,。由于LSA提供了一種知識的表示和模擬的方法,,所以學者們嘗試用LSA去研究人類的認知和理解過程,此方面的代表人物有ThomasK.Landauer,,PeterW.Foloz以及SusanT.Dumais等,。

同時,LSA具有的以下特點表明其在CAI方面的應(yīng)用前景也相當廣闊,。

首先,,LSA能夠理解信息,。LSA可以高精度地辨析同義詞,利用訓(xùn)練集分析獲得的語義知識,,對自然語言文本進行分析確定文本的主題,,從而自動提取文本的概要。當文本提供了關(guān)于主題的新的信息時,,還可潛在地修改和擴充語義空間,。其次,LSA可以判斷和預(yù)測,。LSA對詞語可見用法進行分析,,通過計算可以發(fā)現(xiàn)詞語的隱喻含義和類推含義。如果使用LSA空間表示的靜態(tài)的詞匯知識,,以此為基礎(chǔ)結(jié)合其他的理解模型和預(yù)測算法,,就可以在更好的信息理解的基礎(chǔ)上,作出進一步的判斷和預(yù)測,。如根據(jù)學生的預(yù)備知識,,預(yù)測什么樣的文本可以使學生獲得更多的知識;自動教學輔導(dǎo),、文章自動評價,、文本一致性預(yù)測、人類推理能力的模仿等等,。

目前在教育方面,,已經(jīng)開發(fā)成功的基于潛在語義分析的CAI系統(tǒng)為AutoTutor,該系統(tǒng)可以對學生用自然語言做出的反饋給以響應(yīng),。試驗表明AutoTutor在提高學生的計算機素養(yǎng)及抽象思維與動手操作能力方面有顯著的優(yōu)勢,。

可見在機器學習領(lǐng)域,問題的理解與解答表現(xiàn)為對問題域空間中的某種搜索和匹配策略,。

二,、基于概率潛在語義分析(PLSA)的學習支持系統(tǒng)

1、算法的選取

本文選用PLSA來構(gòu)建學習支持系統(tǒng)主要基于以下原因:

第一,,概率潛在語義分析比基于知識本體的方法在建構(gòu)系統(tǒng)時時間消耗少,,易于實現(xiàn)。后者根據(jù)學科的不同,,人工構(gòu)建多個較完備的領(lǐng)域知識本體,,從而構(gòu)造出本體知識庫。當用戶向系統(tǒng)輸入問題時通過對本體矢口識庫進行搜索尋找問題的答案,。但是,,領(lǐng)域知識本體的構(gòu)造是一項極為費時且繁瑣的工作,需要各領(lǐng)域?qū)<业膮f(xié)助,,花費長時間才能使之較為完善。目前國際上較矢口名的本體庫有WordNet及HowNet。而概率潛在語義分析方法僅需對語料稍作加工便可計算出文本間,、詞匯間以及詞文間的相似關(guān)系,,進而為用戶提供較滿意的答案。

第二,,PLSA作為一種無監(jiān)督的學習過程,,較事例推理的方法,其適應(yīng)性更強,,更適于構(gòu)建學習支持系統(tǒng),。后者需要先對以往的事例進行檢索,找出和新問題相近的事例,,把事例中的信息,、知識和解決方案經(jīng)調(diào)整后用來解決新問題,本質(zhì)上是一種有監(jiān)督的學習,。而PLSA是一種無監(jiān)督的學習,,自適應(yīng)性很強,由于用戶的問題通常無法預(yù)料.所以在LPSS中更適于采用PLSA,。

第三,,LSA相當于設(shè)計一個復(fù)雜的三層神經(jīng)網(wǎng)絡(luò),其難度和復(fù)雜度是非常大的,;且LSA的思想來自于線性代數(shù),,是基于對詞矩陣的奇異值分解SVD的L2最佳逼近,從概率論的觀點看,,運用L2最佳逼近原則常涉及高斯噪聲假設(shè),,而這在變量可數(shù)的文本中通常是很難證明的;更進一步,,由LSA獲得的概念表示不能處理文本的歧義問題,。另外兩者的對比測試也表明PLSA的準確率更高。

2.系統(tǒng)的整體架構(gòu)

基于以上考慮本文采用PLSA作為核心設(shè)計LPSS,,具體的設(shè)計思路如下,。本文以智能導(dǎo)師系統(tǒng)(IntelligentTutoringSystem,IST)系統(tǒng)作為LPSS系統(tǒng)設(shè)計的框架,,并嵌入PLSA問題理解與解答模塊,。IST是在良好的設(shè)計域中為學生提供一個智能的指導(dǎo)平臺。IST系統(tǒng)建立的基礎(chǔ)是人工智能AI技術(shù)與計算機輔助教學CAI,。IST系統(tǒng)可以向?qū)W生提供學習指導(dǎo)和支持,,并允許學生自主學習,動態(tài)地自由交互,。目前用于IST的著作系統(tǒng)已經(jīng)開發(fā)出來,,可以提供智能性的指導(dǎo)資源,,但大部分的IST著作工具用于完成基于特殊用途的IST系統(tǒng)模塊的開發(fā),如領(lǐng)域模塊,、指導(dǎo)模塊或?qū)W生模塊的開發(fā),。

與其他的具有良好的域知識和理想的指導(dǎo)模型的IST系統(tǒng)不同,本系統(tǒng)目的是借助IST系統(tǒng)的指導(dǎo)模塊與學生模塊的功能,,而領(lǐng)域模塊則是借助Web上已有的文本語料庫以及網(wǎng)絡(luò)中大量的可重用的教育資源作為領(lǐng)域知識模塊,。此外以AutoTutor系統(tǒng)作參考,本系統(tǒng)運用PLSA技術(shù)可以提供針對學生的問題的智能反饋以及GUI界面GraphicUserInterface(GUl)等,。

基于PLSA的LPSS系統(tǒng)的整體架構(gòu)如圖2所示,。該系統(tǒng)能夠?qū)崿F(xiàn)的主要功能為:向用戶提供GUI界面,通過智能導(dǎo)師模塊嵌入核心的PLSA問題理解與解答模塊,。當用戶向系統(tǒng)提出問題后,,調(diào)用核心模塊計算新問題與知識庫中文本的相似度進行匹配,結(jié)果通過智能導(dǎo)師模塊生成一個卡通導(dǎo)師的形象將答案提供給用戶,,同時將該學生的記錄及所提問題存儲到主要用于存放個人信息,,以及所提問題信息的學生檔案庫中。

圖2 

知識庫為一個海量的文本庫,,如果經(jīng)過計算無法找到匹配的問題的答案,,則PLSA問題理解與解答模塊將列出計算結(jié)果中最大的幾項提供給用戶進行選擇。

系統(tǒng)運作時,,為提高用戶的參與的積極性,,以卡通導(dǎo)師的形象作為中介通過手勢或者表情與用戶進行交互,同時將系統(tǒng)計算出的問題答案輸出給用戶,。該卡通導(dǎo)師可以不斷地擴展,,如可以調(diào)用多媒體演示系統(tǒng)向用戶提供視、音頻信息,,還可以嵌入VR系統(tǒng)以更加逼真地呈現(xiàn)知識等,。

3.系統(tǒng)的核心模塊

PLSA問題理解與解答模塊是系統(tǒng)的核心模塊,如圖3所示,。

圖3 

首先,,對文本進行訓(xùn)練和預(yù)處理。以知識庫為基礎(chǔ)選取適當?shù)挠?xùn)練文本集,,對文本進行預(yù)處理,,運用ICTCLAS中文詞法分析器對文本進行詞性標注;用概率句法分析器ICTPROP對文本進行句法分析,,從文本中抽取詞匯和短語,。

其次,依據(jù)具體情況進行概率潛在語義空間的更新,。當有新的文本或詞匯加入時,,可采用兩種方式對潛在語義空間進行更新,。默認情況下,采用切拌(Fold-in)方式對潛在語義空間進行更新,,即在初始構(gòu)造的語義空間基礎(chǔ)上加入新的詞匯和文本,,不重新構(gòu)造不可見的類變量集,加入新文本時利用已生成的文本詞頻信息和類變量集生成概率語義空間,。另一種更新通過根據(jù)新的詞匯和文本,重新構(gòu)造新的概率語義空間,。系統(tǒng)依據(jù)用戶提出的具體問題自動選擇更新的方式,。

第三,問題理解與解答運算,。用戶通過交互界面輸入問題后,,系統(tǒng)依據(jù)計算檢索到的相似度的大小對所有的文本向量進行排序,然后將所有的相似度大于用戶預(yù)先設(shè)定的閾值的文本路徑鏈接列表,,通過卡通導(dǎo)師將相似度最大的一個答案提交給用戶,。

第四,用戶的相關(guān)反饋,。由于用戶常常不能使用最佳的詞,、句來準確地表示問題要求,從而影響了檢索的效果,,因此本系統(tǒng)采用交互式反饋加以改善,,其基本思想是高效的檢索性能必定依賴于正確的用戶反饋。因此系統(tǒng)中加入用戶的相關(guān)反饋,,以調(diào)整檢索策略增強系統(tǒng)的準確度,。

僅需對海量的文本語料庫以及可重用網(wǎng)絡(luò)文本教育資源這些文本資源進行初步的加工便可以構(gòu)造一個知識庫。對中文文本來說通常這種操作為切分詞的操作,。生成的知識庫可通過智能導(dǎo)師模塊的協(xié)調(diào)被PLSA模塊調(diào)用計算文本相似度,,如圖4所示。

圖4 

三,、結(jié)論

綜上所述,,基于LPSA構(gòu)建的LPSS系統(tǒng)的優(yōu)點如下:第一,過程簡單,,建立知識庫的開銷?。坏诙?,智能化程度高,;第三,具有很好的可移植性,、可維護性和可擴展性,。

【參考文獻】(略)

文章選自《遠程教育研究》(2005.4)

 

 

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多