久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

對外經(jīng)濟貿(mào)易大學(xué):用大數(shù)據(jù)描繪“教師畫像” | 數(shù)據(jù)服務(wù)

 高校信息化 2020-11-07

隨著互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的發(fā)展,,人們可以通過網(wǎng)絡(luò)獲取到用戶的海量數(shù)據(jù),通過對海量數(shù)據(jù)進(jìn)行多維度的數(shù)據(jù)分析,,能夠?qū)崿F(xiàn)精準(zhǔn)快速地分析用戶的特征和行為習(xí)慣,。

用戶畫像(User Profile)的概念應(yīng)運而生,它完美地抽象出一個用戶的信息全貌,。用戶畫像應(yīng)用到學(xué)校的信息化環(huán)境中,,催生出了“教師畫像”的概念?!敖處煯嬒瘛笔峭ㄟ^對學(xué)校信息化系統(tǒng)和校園網(wǎng)數(shù)據(jù)分析教師的數(shù)據(jù)信息,,將教師“數(shù)據(jù)化”,本研究中的“教師畫像”均基于此概念,。

職業(yè)發(fā)展是個人在自我認(rèn)知的基礎(chǔ)上,,對決定個人職業(yè)發(fā)展的主客觀因素進(jìn)行分析,并結(jié)合個人發(fā)展和組織發(fā)展的雙重需要,,確定職業(yè)發(fā)展目標(biāo),、規(guī)劃職業(yè)發(fā)展的各個方面,根據(jù)目標(biāo)的實現(xiàn)程度,,不斷反饋和調(diào)整,,最終實現(xiàn)既定目標(biāo)的過程。

合理的職業(yè)發(fā)展規(guī)劃對教師的發(fā)展尤其重要,,其職業(yè)發(fā)展發(fā)展如何,,決定了教師的生命質(zhì)量和教育質(zhì)量。

“教師畫像”通過分析挖掘教師個人信息中的知識與規(guī)律,,創(chuàng)新研究教師職業(yè)發(fā)展的路徑,,教師在自我認(rèn)知的數(shù)據(jù)分析基礎(chǔ)之上,制定個人的職業(yè)發(fā)展規(guī)劃,。

特征工程理論

特征工程是機器學(xué)習(xí)領(lǐng)域的一個重要概念,,目前并沒有普遍接受的定義,一般可以認(rèn)為是為機器學(xué)習(xí)應(yīng)用而設(shè)計特征集的相關(guān)工作,。

在機器學(xué)習(xí)領(lǐng)域,,特征是用于預(yù)測的一種獨立的、可描述的、可測量的屬性,,在結(jié)構(gòu)化的數(shù)據(jù)表中,,數(shù)據(jù)由不同的變量或者屬性構(gòu)成,這里的屬性其實就是特征,,但與屬性一詞不同的是,,特征是對于分析解決問題有用的、有價值的,、有意義的屬性。選擇合理的,、全面的,、信息量足夠大的、有差別性的特征是機器學(xué)習(xí)的關(guān)鍵步驟,。

特征工程的本質(zhì)是一項工程活動,,其目的是用目標(biāo)問題所在的特定領(lǐng)域知識或者自動化的方法從原始數(shù)據(jù)中提取或生成特征,以供機器學(xué)習(xí)所使用,。

基于特征工程構(gòu)建“教師畫像”

構(gòu)建教師畫像的核心工作是為教師打標(biāo)簽,,打標(biāo)簽的目的是為了用數(shù)據(jù)描述人物,方便人們理解,,并且能夠讓計算機進(jìn)行處理,。

標(biāo)簽可以看做特征的一種表現(xiàn)方式,因此,,教師畫像比其他的機器學(xué)習(xí)更加依賴特征工程,,利用特征工程來提取教師這些“標(biāo)簽化”的特征。在提取“標(biāo)簽化”特征的過程中,,模型和算法的選擇非常重要,,合適的模型和算法更能夠逼近真實的特征。

教師畫像的特征提取和預(yù)處理

數(shù)據(jù)采集

本研究的原始數(shù)據(jù)提取主要來自業(yè)務(wù)數(shù)據(jù),、用戶日志數(shù)據(jù),、網(wǎng)頁公開數(shù)據(jù)爬取等方式。來自學(xué)校業(yè)務(wù)系統(tǒng)的數(shù)據(jù)一般都是存在MySQL,、Oracle,、SQlserver等數(shù)據(jù)庫中,比如教師的基本屬性,、專業(yè)技能,、獎勵榮譽、培訓(xùn)進(jìn)修等數(shù)據(jù)來自學(xué)校人力資源管理系統(tǒng),,科研成果來自科研管理系統(tǒng),,教學(xué)成果來自教務(wù)管理系統(tǒng);上網(wǎng)行為來自校內(nèi)網(wǎng)絡(luò)日志數(shù)據(jù),記錄用戶的瀏覽搜索等行為,;消費數(shù)據(jù),、閱讀偏好數(shù)據(jù)來自對主流互聯(lián)網(wǎng)平臺的公開數(shù)據(jù)的爬取。

數(shù)據(jù)清洗

數(shù)據(jù)清洗主要解決原始數(shù)據(jù)的異常數(shù)據(jù),、重復(fù)數(shù)據(jù),、缺失數(shù)據(jù)和不規(guī)范數(shù)據(jù)。

(1)數(shù)據(jù)類型檢查

原始數(shù)據(jù)里的數(shù)據(jù)類型可能有很多不一致的,,比如出生日期,,有的是字符串類型,有的是日期類型,,需要轉(zhuǎn)換成同一類型或者從身份證號里截取,。比如年齡,有的是數(shù)值類型,,有的是字符串類型,,可以根據(jù)身份證號來計算,并設(shè)置成同一類型,。

(2)缺失值處理

原始數(shù)據(jù)存在大量缺失值,,有很多重要屬性數(shù)據(jù)的缺失,改變了原始數(shù)據(jù)的真實有效性,,對數(shù)據(jù)模型的效果存在很大的影響,,因此,需要對缺失值進(jìn)行處理,,本研究采用了人工干預(yù)的方法和機器學(xué)習(xí)的插補方法,,人工干預(yù)主要應(yīng)用在業(yè)務(wù)系統(tǒng)數(shù)據(jù)上,教師的基本屬性,、科研成果,、教學(xué)成果、獎勵榮譽等信息存在缺失值時,,進(jìn)行人工補錄,;

機器學(xué)習(xí)的插補方法主要應(yīng)用在無法進(jìn)行人工補錄的業(yè)務(wù)系統(tǒng)數(shù)據(jù)、用戶日志數(shù)據(jù)和網(wǎng)頁公開爬取的數(shù)據(jù)上,,插補方法多數(shù)采用均值插補或多重插補,。

(3)異常值分析過濾

異常值分析過濾是分析檢查原始數(shù)據(jù)中是否有錯誤數(shù)據(jù)或者不合理數(shù)據(jù),如果有,,需要對這些數(shù)據(jù)進(jìn)行處理,,不重要的屬性可以刪除,重要的屬性要進(jìn)行修改,。

常見的異常值分析過濾的方法有簡單統(tǒng)計量分析法,,設(shè)定數(shù)據(jù)值的范圍,,如果超過了最大值和最小值的范圍,即判定為異常值,,例如在職教師的年齡,,設(shè)定最大值為65,最小值為20,,超過這一數(shù)值范圍的即判定為異常,,篩選出來后進(jìn)行相應(yīng)的處理。

還有一種異常值分析過濾方法為正態(tài)分布3σ原則,,正態(tài)分布又名高斯分布,,曲線以x=μ為對稱軸,σ代表標(biāo)準(zhǔn)差,,μ代表均值,,3σ原則為:數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6826,,數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9544,,數(shù)值分布在(μ-3σ,,μ+3σ)中的概率為0.9974,分布在(μ-3σ,,μ+3σ)區(qū)間外的取值概率不到0.3%,。可以認(rèn)為凡分布在(μ-3σ,,μ+3σ)區(qū)間外的數(shù)值,,就屬于異常值,應(yīng)予以剔除,。該方法僅局限于對正態(tài)或近似正態(tài)分布的樣本數(shù)據(jù)處理,。

(4)特殊字符處理

原始數(shù)據(jù)的某些字段中包含空格、換行符,、制表符等特殊字符,,這些特殊字符會影響到數(shù)據(jù)統(tǒng)計分析,因此有必要清洗掉這些字符,。

數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)里面的臟數(shù)據(jù)進(jìn)行處理,,這些臟數(shù)據(jù)會極大地影響最后模型的效果,所以數(shù)據(jù)預(yù)處理是非常重要的一個步驟,。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)集成,、數(shù)據(jù)變換、數(shù)據(jù)歸約等,。

教師畫像特征選擇

標(biāo)簽是特征空間中的維度,,是特征的一種呈現(xiàn)方式,,因此,我們利用特征工程來提取這些“標(biāo)簽化”的特征,。

特征分為直接特征和間接特征,,直接特征是一些顯而易見的,能夠直接從信息系統(tǒng)獲取到,,比如教師的性別,、年齡、民族,、政治面貌,、籍貫、學(xué)歷,、學(xué)位,、研究方向、科研成果等,。

而間接特征是從直接特征或者各種數(shù)據(jù)組合里計算推導(dǎo)出來的,,可能需要復(fù)雜的模型計算,比如閱讀偏好,、科研偏好,、消費偏好、運動偏好等,。

以閱讀偏好特征的生成為例,,根據(jù)圖書分類可將閱讀偏好類型分為經(jīng)濟類、文化類,、藝術(shù)類,、語言文學(xué)類、歷史地理類,、科學(xué)類,、教育類、工業(yè)技術(shù)類等,,值處理為1,、2、3,、4,、5、6,、7,、8,樣本數(shù)據(jù)選擇性別,、年齡,、研究方向,、講授課程、研究成果,、借閱圖書類別,、購買圖書類別等7個內(nèi)容,每個樣本用一個多維向量來描述,,x=[x1,,x2,x3,,x4,,x5,x6,,x7],,其中x1=性別,x2=年齡,,x3=研究方向,,x4=講授課程,x5=研究成果,,x6=借閱圖書類別,,x7=購買圖書類別。采樣足夠多的樣本數(shù)據(jù)構(gòu)造訓(xùn)練集,,樣本數(shù)據(jù)集規(guī)模要足夠大,一般情況下,,數(shù)據(jù)集規(guī)摸越大,,機器學(xué)習(xí)的效果越好,通過監(jiān)督式學(xué)習(xí)(Supervised learning)對訓(xùn)練集進(jìn)行學(xué)習(xí),,學(xué)習(xí)出“閱讀偏好”的相關(guān)變量,,得出閱讀偏好特征,并把該特征作為標(biāo)簽輸出,。

教師畫像特征構(gòu)建

教師畫像的特征構(gòu)建需要對實際樣本數(shù)據(jù)進(jìn)行處理,,思考數(shù)據(jù)的結(jié)構(gòu),并需要依靠知識經(jīng)驗,,以教師職業(yè)發(fā)展規(guī)劃為目標(biāo),,結(jié)合教師的個人特征、職業(yè)特征和社會特征來構(gòu)建,,一般包括教師的基本屬性,、專業(yè)技能、科研成果,、獎勵榮譽,、培訓(xùn)進(jìn)修,、性格特征、興趣愛好,、行為偏好等幾個方面,,本研究中特征構(gòu)建以標(biāo)簽的形式展現(xiàn)。

標(biāo)簽是人為規(guī)定的高度精煉的特征標(biāo)識,,呈現(xiàn)出兩個重要特征:語義化,,人們能夠很方便地理解每個標(biāo)簽的含義,這也使得教師畫像模型具備實際意義,;短文本,,每個標(biāo)簽通常只是表示一種含義,標(biāo)簽本身無需再做過多文本分析等預(yù)處理工作,,這為利用機器提取標(biāo)準(zhǔn)化信息提供了便利,。以這兩個特征為依據(jù),歸納出上表中的教師畫像標(biāo)簽,。

模型與算法

不同的特征需要選擇不同的機器學(xué)習(xí)算法,,選擇模型和算法的因素包括訓(xùn)練集的大小、問題是否線性可分,、特征維度大小,、特征獨立性等,本研究的特征工程多采用樸素貝葉斯(Naive Bayes,,NB)或Logistic回歸(Logistic Regression,,LR)模型,如果條件獨立假設(shè)成立的話,,樸素貝葉斯模型比Logistic回歸模型收斂的更快,,只需要少量的訓(xùn)練數(shù)據(jù)即可得到有效的結(jié)果,即使條件獨立假設(shè)不成立,,NB在實際中仍然表現(xiàn)出驚人的好處,。比起NB的條件獨立性假設(shè),LR不需要考慮樣本是否是相關(guān)的,,LR有很多方法來對模型正則化,。

變量之間很多情況下存在非線性關(guān)系,采用線性模型可能會帶來結(jié)果的偏差,,因此可選擇人工神經(jīng)網(wǎng)絡(luò)或者決策樹來完成非線性的模型設(shè)計,,采樣足夠多的樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),建立神經(jīng)網(wǎng)絡(luò)模型,,結(jié)合樣本的變量,,對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行有監(jiān)督的訓(xùn)練,直到模型的損失函數(shù)值達(dá)到規(guī)定的閾值或者損失函數(shù)的值不再變化,,表示該模型訓(xùn)練完成,。

嘗試多種分類器,,根據(jù)交叉驗證的結(jié)果來挑選性能最好的算法,并為模型和算法設(shè)置評價標(biāo)準(zhǔn),,不斷調(diào)整模型的各種參數(shù),,最后根據(jù)評價標(biāo)準(zhǔn)訓(xùn)練出最優(yōu)模型。

“教師畫像”在教師職業(yè)發(fā)展中的應(yīng)用

教師在進(jìn)行職業(yè)發(fā)展規(guī)劃時,,最重要的前提就是了解自己,,而教師畫像就是一個很好的工具,能夠讓教師很客觀地了解自己,。它用抽象的數(shù)據(jù)來描述人物,,通過分析挖掘用戶盡可能多的數(shù)據(jù)信息得到的一個虛擬的人物形象,以此來代表個人的背景,、需求,、喜好等。教師畫像在教師職業(yè)發(fā)展規(guī)劃中的具體作用如圖2所示,。

自我認(rèn)知

明晰準(zhǔn)確的自我認(rèn)知是個人制訂職業(yè)發(fā)展規(guī)劃的前提和關(guān)鍵,,只有認(rèn)真分析自己的實際情況,充分認(rèn)識和了解自己,,才能對自己的職業(yè)方向做出正確的選擇,,制訂出適合自己的職業(yè)發(fā)展之路。

教師的自我認(rèn)知包括對自己的性格特征,、興趣愛好,、專業(yè)技能水平、科研成果,、教學(xué)成果,、獲獎與榮譽、個人需求等各方面的認(rèn)識和了解,,傳統(tǒng)的自我認(rèn)知建立在自己感知的基礎(chǔ)上,是感性的認(rèn)知,,不是量化的,,而教師畫像可以將“人”數(shù)據(jù)化,通過標(biāo)簽的方式來描述,,標(biāo)簽是某一種特征的符號,,如“男”、“45歲”,、“黨員”,、“院長”、“博士生導(dǎo)師”等都是典型的教師畫像標(biāo)簽,。

當(dāng)然,,這種基本屬性類的標(biāo)簽是能夠被個人很容易感知和記憶的,,似乎對自我認(rèn)知并沒有多大幫助,但打標(biāo)簽的重要目的是讓人容易理解并且方便計算機進(jìn)行處理,,比如分類統(tǒng)計:全校博士生導(dǎo)師有多少,?45歲以下的博士生導(dǎo)師有多少?這些數(shù)據(jù)建立了多維度的自我認(rèn)知,。

此外,,用戶偏好類的標(biāo)簽是通過數(shù)據(jù)挖掘得到的,例如“喜歡閱讀經(jīng)濟類書籍”,、“學(xué)生評價和藹可親”等這些數(shù)據(jù)并不能夠被感知,,必須以具體的數(shù)據(jù)來描述,以支撐教師進(jìn)一步認(rèn)識自己,。

以教師畫像為基礎(chǔ),,構(gòu)建教師個人信息中心,全面地展示與教師相關(guān)的各類信息,,如基本信息,、學(xué)習(xí)工作經(jīng)歷、教學(xué)信息,、科研成果,、個人資產(chǎn)、工資信息,、消費信息等,。教師可以隨時查看到個人的實時信息,了解自己,,輔助決策,,以期進(jìn)行正確的職業(yè)方向選擇。

圍繞個人信息中心構(gòu)建自助表格系統(tǒng),,根據(jù)教師的身份(ID),,從標(biāo)簽數(shù)據(jù)庫中獲取相應(yīng)信息,自動填充到表格中,,大大減輕了高校各項申報,、填表的重復(fù)工作,也保證了數(shù)據(jù)的一致性,、真實性和實時性,,是為教師減輕行政工作負(fù)擔(dān)的有效工具之一。

個性化推薦

教師畫像的標(biāo)簽化的描述方法為個性化推薦提供了可能,,標(biāo)簽是個性化推薦的基礎(chǔ),,因為標(biāo)簽是描述教師特征的數(shù)據(jù)符號,而只有了解用戶特征才能實現(xiàn)個性化推薦。此外,,運用機器學(xué)習(xí)模型對教師進(jìn)行相關(guān)性分析,,并根據(jù)相關(guān)性特征進(jìn)行相應(yīng)的推薦。

以教師畫像的標(biāo)簽為基礎(chǔ),,圍繞教師職業(yè)發(fā)展相關(guān)特性,,構(gòu)建精準(zhǔn)推薦系統(tǒng),實現(xiàn)教學(xué),、科研,、圖書、進(jìn)修培訓(xùn)等個性化推薦,,并結(jié)合移動終端,,實現(xiàn)移動化推送。

教學(xué)的推送,,包括任課課程的時間,、地點、學(xué)生人數(shù),、學(xué)生院系分布,、學(xué)生成績分布、特殊學(xué)生提示,、學(xué)生預(yù)警詳情,、教學(xué)評價指標(biāo)、教學(xué)評價結(jié)果,;相關(guān)推薦包括平行課程推薦,、課程資料推薦、相關(guān)課程推薦,、相關(guān)科研成果推薦,。圍繞教學(xué)內(nèi)容,實行全方位的推送,,為教師教學(xué)提供更精準(zhǔn)的教學(xué)數(shù)據(jù)服務(wù),。

科研的推送包括個人科研成果的及時推送、院系科研成果數(shù)據(jù)匯總,、學(xué)??蒲谐晒麛?shù)據(jù)匯總,智能推薦以教師的研究方向,、教學(xué)內(nèi)容、科研成果關(guān)鍵字,、圖書閱讀偏好關(guān)鍵字為特征,,分析出科研偏好,進(jìn)而推薦科研成果、科研項目團隊,、科研資料,、相關(guān)圖書、相關(guān)課程等,,以期最大化地提升科研環(huán)境,,立足服務(wù)于教師科研工作。

圖書推送包括應(yīng)還圖書,、逾期圖書,、進(jìn)館人數(shù)、個人借閱年度統(tǒng)計,、館藏慨況,、近期熱門圖書、新書推薦,、周圍的人在看,、只有男生讀的書、只有女生讀的書等,。

目標(biāo)預(yù)測

分析和預(yù)測是大數(shù)據(jù)挖掘的重要方向,,基于教師畫像的數(shù)據(jù)挖掘主要是以標(biāo)簽為基礎(chǔ),挖掘和發(fā)現(xiàn)教師發(fā)展過程中的知識和規(guī)律,,對特定目標(biāo)進(jìn)行預(yù)測,,例如:職稱評定預(yù)測、崗位評定預(yù)測,、考核評價預(yù)測等,。

階段性成果報告

以教師畫像的標(biāo)簽為基礎(chǔ),可形成教師的階段性成果報告,,在教師職業(yè)規(guī)劃的過程中,,最后一個環(huán)節(jié)就是根據(jù)目標(biāo)的實現(xiàn)程度,不斷反饋和調(diào)整,,最終實現(xiàn)既定目標(biāo),。報告對教師各方面的數(shù)據(jù)進(jìn)行總結(jié)和分析,隨時生成的報告可以讓教師隨時了解和掌握目標(biāo)實現(xiàn)的情況,,對于產(chǎn)生的偏差進(jìn)行不斷修正和調(diào)整,。

隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,特征工程技術(shù)在用戶畫像,、推薦系統(tǒng)等領(lǐng)域被廣泛應(yīng)用,,本文把特征工程理論和技術(shù)引入到教師職業(yè)發(fā)展領(lǐng)域,以技術(shù)為支撐,,為教師職業(yè)發(fā)展規(guī)劃提供新方法和新思路,,但在具體的應(yīng)用過程中,數(shù)據(jù)的完整收集、數(shù)據(jù)質(zhì)量的保證是非常關(guān)鍵的因素,,也是必須要解決的難點,,需結(jié)合各學(xué)校的具體情況,采取機制建設(shè),、業(yè)務(wù)推動等多方面的手段,,整合高校數(shù)據(jù)資源,并利用大數(shù)據(jù)技術(shù),,為教師職業(yè)發(fā)展提供數(shù)據(jù)支撐,,是一個漫長的探索和實踐過程,也是管理與技術(shù)高度結(jié)合的產(chǎn)物,。

作者:方丹丹 王海濤 李穎 張燁青

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多