久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

【書摘】數(shù)據(jù)挖掘中的算法

 非著名問天 2022-07-18 發(fā)布于內蒙古

今天給大家推薦《數(shù)據(jù)挖掘:你必須知道的32個經(jīng)典案例》,,并摘取書中的一些數(shù)據(jù)清洗和數(shù)據(jù)分析算法推送給大家,。

1.數(shù)據(jù)清洗的作用:填充空缺值、平滑噪點,、識別顯著離群點,。在個別空缺值處理中通常采用人工規(guī)則、平均值,、中位數(shù),、拉格郎日插值、牛頓插值,、線性規(guī)則求解等方法,。

2.噪聲平滑:其中箱形技術用得比較多,平滑方法有滑動窗口法,、按箱平均值/中值平滑法等,。

3.離群點檢測:其經(jīng)典算法是K近鄰算法(KNN,還有一元/多元回歸分析來擬合光滑數(shù)據(jù),從而使噪聲點暴露出來,。

4.數(shù)據(jù)規(guī)約:用于降低數(shù)據(jù)量,、提取核心信息。其中屬性/特征維度規(guī)約是刪除不相關/不重要的屬性來減少數(shù)據(jù)量,,通常方法是子集選擇和樹形合并,,即通過決策樹歸納、前向選擇,、向后刪除等完成集合篩選,。

5.數(shù)據(jù)壓縮:小波變換是數(shù)據(jù)壓縮領域的典型算法,對于有稀疏,、傾斜等情況出現(xiàn)的數(shù)據(jù)集,,基于小波變換的有損壓縮方法往往可以得到很好的結果,。主成分分析方法(PCA)將原有的多維特征根據(jù)重要性排序,只提取重點關注的特征,,它和它的擴展算法在實際中應用非常廣泛。

6.數(shù)值規(guī)約:小到將整型數(shù)據(jù)屬性類型從long變?yōu)?/span>int,,大到使用對數(shù)線性模型等方法將數(shù)據(jù)劃分為多維空間并進行相應規(guī)約,。

7.數(shù)據(jù)離散:用于解決特征中連續(xù)特征比例過高的問題,其主要思路是基于分箱或直方圖分析的方法將連續(xù)特征變?yōu)殡x散特征,,從而達到減少連續(xù)特征的目的,。這種方法對于處理連續(xù)特征比較困難的ID3決策樹算法,有非常大的幫助,。

8.異常值:遠離大部分樣本數(shù)據(jù)的數(shù)據(jù)值,。

9.對比分析:常見的數(shù)據(jù)分析方法,通常局限于數(shù)值型數(shù)據(jù)中,。它將兩個以上的相似數(shù)據(jù)進行比較和分析,。最重要的是選擇合適的對比標準。

10.相關性分析:對存在關聯(lián)關系的變量進行分析,,進而用量化的方式判斷變量的相關性程度的分析方法,。缺點:對數(shù)值型數(shù)據(jù)分析效果較好,對其他數(shù)據(jù)則可能出現(xiàn)偏差,。同時還受數(shù)據(jù)樣本量影響較大,,較小的樣本相關系數(shù)常常較高。

11.相關系數(shù):經(jīng)典方法有皮爾遜相關系數(shù),、肯德爾相關系數(shù),、斯皮爾曼相關系數(shù)、等級相關系數(shù),、偏相關系數(shù),。

12.回歸分析法:是經(jīng)典的因果分析法。根據(jù)自變量個數(shù)的不同,,將回歸分析分為一元回歸和多元回歸分析,。回歸分析通過擬合線或面乃至高維結構,,使得數(shù)據(jù)點到線,、面和高維結構的距離最小。

13.皮爾遜相關系數(shù):也叫簡單相關系數(shù),,是一種用途最廣泛的相關系數(shù),。對絕大多數(shù)數(shù)值型變量都適用。皮爾遜相關系數(shù)總是在-1~1之間,,系數(shù)為正表示兩個變量正相關,,即一個變量增大時另外一個變量也增大,。系數(shù)為負表示兩個變量為負相關,即一個變量增大時另外一個變量則會減小,。系數(shù)大于0.6表示兩個變量為強關聯(lián),,系數(shù)小于0.4表示兩個變量為弱關聯(lián)。

14.時間序列分析:根據(jù)過去的變化趨勢預測未來的發(fā)展,,通常用于研究一定時間內的社會事務問題或金融經(jīng)濟問題,。在時間序列分析中,歷史數(shù)據(jù)需要滿足三條前提假設:過去的數(shù)據(jù)規(guī)律會延續(xù)到未來,;數(shù)據(jù)呈現(xiàn)明顯的周期性,;在某一周期內,數(shù)據(jù)的變化趨勢符合某種規(guī)律,。根據(jù)所平均的數(shù)據(jù)是全部數(shù)據(jù)還是部分數(shù)據(jù),,時間序列模型可分為序時平均數(shù)法和移動平均法;根據(jù)不加權還是令時間較近的數(shù)據(jù)權重更大,,時間序列模型可以分為簡單平均法和加權平均法,。

缺點:對于周期性和趨勢性的變化不敏感,只有周期性和趨勢性都符合固定規(guī)律的數(shù)據(jù)才能夠得到可信的時間序列模型,。

15.線性回歸分析:一種研究自變量和因變量之間因果關系的分析方法,。當自變量只有一個時,稱為一元線性回歸分析,,自變量有多個時,,稱為多元線性回歸分析。線性回歸分析使用最小二乘法度量散點到回歸線的距離,,并尋找使得直線到所有散點的距離之和達到最小的解,,以此為依據(jù)寫出距離所有散點最近的回歸線的方程。

缺點:只能用于分析線性關系,。每個自變量和因變量所成的散點圖都應當圍繞一條直線波動,。對于非線性分布,如指數(shù)分布或二次分布,,就應當將其轉化為線性分布后再精選分析,。線性回歸分析要求所有的自變量相互獨立。若自變量之間有相關性,,就需要使用因子分析等方法消除自變量相關帶來的影響,。

16.Logistic回歸分析:適用于因變量為分類變量的情況。使用一個對數(shù)轉換,,將事件發(fā)生的概率轉換為成因變量,,是一種非線性回歸。具有靈活多變可擬合復雜的曲線的特點,。能夠比較不同自變量對因變量影響的強弱,。也能比較不同自變量組合有什么差別,。

缺點:適用范圍不廣泛,通常用于流行病學研究,。也用于研究社會科學問題,。

17.降維算法:提取數(shù)據(jù)中重要特征并摒棄無用特征,以加快計算速度并為后序分析提供類似數(shù)據(jù)清洗的工作,。

18.線性降維算法:是降維算法中最早被使用的算法,。從子集選擇(屬性選擇)開始,慢慢演變發(fā)展出因子分析,、主成分分析等可解釋性強且效果不錯的算法。

缺點:忽略了特征之間的非線性關系,。

19.因子分析:基本思想是根據(jù)特征相關性將原始特征分組,,使得同組內的特征相關性盡可能高,不同組內的特征相關性盡可能低,。此算法在心理學領域得到廣泛應用,。由于因子分析需要預先做好的假設,對誤差有特殊要求等原因,,它的計算需要很多輪迭代,,非常復雜。因子分析也是降維算法明星,。因子分析可以提前將多個相關的自變量映射成較少的不相關的自變量,,從而提高回歸分析的準確性。

缺點:構建因子模型需要非常大的計算量,,因此因子分析局限于小樣本數(shù)據(jù)分析,;因子分析十分依賴數(shù)據(jù)真實性;因子分析依賴數(shù)據(jù)分析師經(jīng)驗,,若將不該放在一起的變量放到一個因子中,,結論就會大錯特錯。

20.主成分分析法:是目前典型降維算法,,擴展得到奇異值分解法以及判別分析法,。在減少數(shù)據(jù)集特征維度的同時,盡可能保持數(shù)據(jù)集對方差貢獻最大的特征,。其基本步驟:(1)數(shù)據(jù)去中心化,;(2)構建協(xié)方差矩陣;(3)做特征值分解,,得到特征值和對應的特征向量,;(4)將特征值從大到小排序,特征值大的維度即對應數(shù)據(jù)集中的重要特征,,特征值小的維度即對應數(shù)據(jù)集中的次要特征,,對數(shù)據(jù)集特征進行篩除,。

21.非線性降維算法:典型的非線性降維算法有“核方法+線性降維算法”、“流形學習”等,。

22.核方法+線性降維算法:通過利用核函數(shù)的性質將低維輸入空間(歐式空間或離散集合)映射到高維特征空間(希爾伯特空間),,在新的特征空間中數(shù)據(jù)即從線性不可分變成了線性可分了。

23.流形學習:等距離映射是流形學習代表算法,,它的作用是將流形上的位置映射到歐式空間中(如將一個三維足球的每塊格子映射到二維平面中),,它是多維尺度分析方法的改進算法,用測地線距離代替歐式距離作為空間距離的表示,。

缺點:由于流形方法是基于數(shù)據(jù)分布在一個流形上的假設,,而實際情況并不能確定這個假設的存在。

24.粗糙集算法:可以同時研究多個自變量和多個因變量之間的關系,。使用粗糙集算法的前提是將原始數(shù)據(jù)離散化為算法可以識別的數(shù)據(jù),。粗糙集可以完成屬性簡約、測度屬性重要性,、提取決策規(guī)則工作,。該算法具有計算速度快、準確度高,、結果易于理解等優(yōu)點,。

缺點:決策過程十分簡單,決策規(guī)則不夠穩(wěn)定,,不同的數(shù)據(jù)集會導致不同的決策規(guī)則,;當訓練數(shù)據(jù)增多時,粗糙集的精確度會得到提高,,這意味著粗糙集需要大量有效的訓練數(shù)據(jù),;粗糙集只能處理離散數(shù)據(jù),如果不能較合理地將連續(xù)數(shù)據(jù)離散化,,將極大影響粗糙集的結果,;當條件屬性過多時,屬性組合會無限多,,簡約屬性將變得十分困難,。

25.最優(yōu)尺度分析:通過主成分分析法來描述多個分類變量不同水平之間的相關性,它用圖形反應變量之間的關系,,兼具理論基礎堅實和結果易解讀兩方面優(yōu)點,,在市場細分、產(chǎn)品定位,、品牌形象,、顧客滿意度研究方面都有深遠影響。

缺點:不能和其他分析方法產(chǎn)生協(xié)作關系,,也不能像因子分析那樣為其他分析方法進行數(shù)據(jù)處理工作,;能分析的變量數(shù)有限,;不能回答定量問題,也不能回答兩個變量的相關程度有多高,。

26.遺傳算法:是一種梯度上升的最優(yōu)化算法,,每次繁衍都會得到比上一次繁衍更好的結果,適合解決各類復雜的非線性問題,。遺傳算法不作用于單獨的解,,而是從一組解迭代到另一組解;遺傳算法不需要過多的先驗知識,,只需設定號適應度函數(shù)即可完成求解過程,;遺傳算法不會陷入局部最優(yōu)解,而是直接得出全局最優(yōu)解,;遺傳算法能提供的解不是唯一的,。傳算法具有高度并行性,因此可以在分布式系統(tǒng)上實現(xiàn)遺傳算法,,可以處理更龐大的數(shù)據(jù)量。

缺點:傳算法的數(shù)學基礎不完善,,它主要使用概率知識來求得最優(yōu)解,;傳算法過度依賴二進制表達,不使用二進制表達時如何推廣遺傳算法仍是一個難題,。工程師嘗試使用格雷編碼和實數(shù)編碼表示染色體,。

27.決策樹分析:決策樹是一種電信的分類方法,是最著名的模式識別算法之一,。它能夠從數(shù)據(jù)集中抽取有價值的規(guī)則,,并廣泛用于各類決策問題。與粗糙集和遺傳算法不同,,決策樹在判斷決策條件時,,是按照順序進行判斷的。即,,決策樹的最終結果和決策樹的條件羅列順序有關,。即便數(shù)據(jù)集和決策變量都完全相同,但改變決策條件的順序,,就有可能改變決策結果,。為了得到最優(yōu)的決策結果,需要引入熵和信息增益的概念,。在二分類決策熵中,,某個變量所包含的變量越單一,其熵就越低,;某個變量所包含的變量越混雜,,其熵就越高,。只有熵還不足以確定決策樹中變量的排序,而信息增益算法則可計算每個變量的數(shù)值,。在安排決策樹時可按照信息增益大到小的順序對決策變量加以排序,,并從信息增益較大的變量開始進行決策,即可保證決策樹的結果最優(yōu)化,。決策樹是一種非常實用的逼近離散函數(shù)值的方法,。本質上是一種映射關系,將對象的一組屬性和對象的值映射到一起,,就是一組映射關系,。決策樹能夠解決分類問題、預測問題和回歸問題,。決策樹具有適合處理多類變量,、對異常值不敏感、準確度高等優(yōu)點,。

缺點:一個決策樹僅能輸出一個結果,,需要輸出多個結果時,需要構建多個決策樹,。決策樹在訓練時需要大量的數(shù)據(jù)和計算空間,。為了得到最好的決策變量排序順序,決策樹需要反復計算變量的熵和信息增益,。決策樹的剪枝技術幫助決策樹使用最少的節(jié)點完成分類的任務,,但錯誤的剪枝會使得決策樹的結果準確性大幅度下降,同時剪枝過程需要大量的計算,。

28.K均值聚類分析:最簡單的一種聚類方法,,在二維平面或者三維平面上,聚類結果最直觀易理解,。K均值聚類中聚類的個數(shù)由數(shù)據(jù)分析師手動指定,,一般是根據(jù)原始數(shù)據(jù)的形成散點圖觀察得到。有的很容易得到,,有的需要反復嘗試,。K均值聚類是一種迭代算法,需多次調整各個類別的中心和所屬的散點,。K均值聚類原理簡單,,實現(xiàn)程序簡潔,能處理大多數(shù)的分類問題,。優(yōu)點是計算速度快,、易解釋性強、能夠處理多種數(shù)據(jù)類型。

缺點:只對圓形或橢圓形的散點分布敏感,,若三代分布式不規(guī)則的月牙形或者環(huán)形,,K均值聚類就會犯錯,此時適合使用密度聚類方法,;K均值聚類要求每個類別中的散點數(shù)量都差不多,。如果有一小部分點單獨聚成一類,K均值聚類就會把它們打散并和其他類別合并,;K均值聚類需要手動設定聚類個數(shù),,當處于二維或者三維時,問題不大,,但處于更高維數(shù)時,,人眼就不能直觀判斷聚類結果是否合理;K均值聚類對噪聲點和離群值較為敏感,,以及要求一定數(shù)據(jù)量,,否則聚類結果就不理想。

29.順序分析:是關聯(lián)分析的一種,,能夠在大量數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)的關聯(lián)性或相關性,。順序分析關心數(shù)據(jù)的縱向排列,即一件事情發(fā)生后緊接著會發(fā)生什么事情,。順序分析所使用的頻繁模式算法是一種實用且簡單的算法,,比如輸入法利用順序分析挖掘用戶固有的輸入習慣。

缺點:結果準確度和計算效率是順序分析中一個不可調和的矛盾,;順序分析僅能發(fā)現(xiàn)事件和事件之間的相關性,而不能發(fā)現(xiàn)一個事件引發(fā)另外一個事件的原因,;順序分析只有在樣本積累足夠多時才能起到作用,。

30.文本分析:是一系列算法的合稱,需要完成分詞,、清洗,、信息提取等工作。這些可以通過K均值算法,、支持向量機或樸素貝葉斯算法完成,。

31.協(xié)同過濾:是利用集體智慧編程的一種典型算法,但它保留了一定的個體特征,,因此可以用于預測每個人的品味偏好,。優(yōu)點在于能夠基于抽象概念和信息來過濾某些難以分析的內容。為用戶瀏覽到更多感興趣的品牌提供了可能,。

32.支持向量機:能夠同時最小化經(jīng)驗誤差并最大化幾何誤差,,在保證分類效果的同時,讓兩個類別的樣本盡可能遠離。和線性分類器相比,,它具有較高的精度和靈敏度,,因此常常應用于對分類結果要求較高的地方。在信息生物學,、工業(yè)勘探和文本分析領域都有重要應用,。

33.感知器神經(jīng)網(wǎng)絡:一種基礎神經(jīng)網(wǎng)絡,使用BP算法優(yōu)化后,,感知器神經(jīng)網(wǎng)絡將具有更好的非線性映射能力,、泛化能力和容錯能力,這是由于BP算法利用了誤差的反向傳播思想,,將誤差平攤給隱含層,。

缺點:不能準確預測較長時間內的函數(shù);神經(jīng)網(wǎng)絡訓練時間較長,,當數(shù)據(jù)較少且隱含層和神經(jīng)元都較少時,,神經(jīng)網(wǎng)絡能夠在幾分鐘內訓練好,并且能夠很好解決問題,;當數(shù)據(jù)很多,、隱含層很多、神經(jīng)元很多,,即啟動典型的深度學習模式時,,神經(jīng)網(wǎng)絡就需要訓練很長時間;另外神經(jīng)網(wǎng)絡的好壞依賴于初始值的設定,,這是因為誤差曲面會將神經(jīng)網(wǎng)絡引入局部最優(yōu)值,。

34.自主神經(jīng)網(wǎng)絡:將網(wǎng)絡切割為一個一個小的部分,每部分對應一種模式,,這種結構使自組織神經(jīng)網(wǎng)絡在分析比較,、尋找規(guī)律和正確歸類等方面具有特殊的優(yōu)勢。其最重要的部分在于設計神經(jīng)元個數(shù)和神經(jīng)元排列方式,。
35.RBM算法:全稱是受限玻爾茲曼機算法,,其一個重要用途就是為神經(jīng)網(wǎng)絡做預處理,替神經(jīng)網(wǎng)絡找出最佳的初始值,。RBM算法利用了統(tǒng)計熱力學的思想,。它將可視層的數(shù)據(jù)轉化為隱含層的數(shù)據(jù),通過監(jiān)督學習的方法進行分類或回歸,。由于隱含層的節(jié)點數(shù)一般少于可視層,,因此RBM算法就完成了降維工作;通過能量函數(shù)的最優(yōu)化,,RBM算法可以求出自變量和因變量之間的權重矩陣和偏移量,,用兩者作為神經(jīng)網(wǎng)絡的初始值,可以是神經(jīng)網(wǎng)絡進入全局最優(yōu)值點,而不會陷入局部最優(yōu)值點處,。RBM算法能夠計算自變量和因變量的聯(lián)合概率,,以及兩者構成的條件概率。有了這些概率,,RBM算法可以像貝葉斯網(wǎng)絡或者隱馬爾可夫鏈那樣計算每種狀態(tài)出現(xiàn)的概率,,即作為一個生成模型或分類模型來使用。最大優(yōu)點是能求得全局最優(yōu)值

36.判別分析:是一種典型的以統(tǒng)計理論為基礎的分類方法,,它所使用的降維方法和主成分分析十分類似,,但主成分分析的目標是將不同維度的信息整合為一個維度,而判別分析的目標是將不同類別的數(shù)據(jù)盡量分離,。和回歸分析類似,,判別分析有十分嚴苛的假設條件。判別分析假設分組類型在兩種以上,,且每個類別都具有一定的樣本數(shù)量,;各組樣本的協(xié)方差矩陣相等,且各組樣本服從正態(tài)分布,;判別分析中涉及的各個變量不能相關,。判別分析擅長處理那些樣本數(shù)據(jù)量介于多和少之間、自變量個數(shù)較多問題,。

圖片

    本站是提供個人知識管理的網(wǎng)絡存儲空間,,所有內容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內容中的聯(lián)系方式,、誘導購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權內容,,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多