戳我加群 ▼ 機械雞邀你與數(shù)萬名人工智能人才 共贏未來! 毫無疑問,,機器學習在過去幾年越來越受歡迎。由于大數(shù)據(jù)是目前技術(shù)行業(yè)最熱門的趨勢,,機器學習是非常強大的,,可以根據(jù)大量數(shù)據(jù)進行預測或計算推理。 如果你想學習機器算法,要從何下手呢,? 以我為例,,我是在哥本哈根留學期間,學習AI課程入門的,。我們用的教科書是一本AI經(jīng)典書籍:《Peter Norvig’s Artificial Intelligence?—?A Modern Approach》,。 最近我在繼續(xù)學習這些,包括在舊金山聽了幾個關(guān)于深度學習的技術(shù)演講,,參加機器學習大會,。這篇文章,我想分享一些我所學到的,、最常見的機器學習算法,。 機器學習算法可以分為三個大類——有監(jiān)督學習、無監(jiān)督學習和強化學習,。
▍監(jiān)督學習 1. 決策樹:決策樹是一種決策支持工具,使用的決策及其可能產(chǎn)生的后果,,包括隨機事件的結(jié)果,,資源消耗和效用的樹狀圖或模型。 從業(yè)務決策的角度來看,,決策樹是人們必須要選擇是/否的問題,,以評估大多數(shù)時候作出正確決策的概率。它允許您以結(jié)構(gòu)化和系統(tǒng)的方式來解決問題,,以得出邏輯結(jié)論,。 2. 樸素貝葉斯分類:樸素貝葉斯分類器是一種簡單的概率分類器,基于貝葉斯定理,,其特征之間具有強大(樸素)的獨立性假設,。 特征圖像是方程 - P(A | B)是后驗概率,P(B | A)是似然度,,P(A)是類先驗概率,,P(B)是預測先驗概率。 一些現(xiàn)實世界的例子是:
3. 普通最小二乘回歸:如果你了解統(tǒng)計學,,你可能已經(jīng)聽說過線性回歸。最小二乘法是一種執(zhí)行線性回歸的方法,。 您可以將線性回歸視為擬合直線穿過點狀分布的任務,。有多種可能的策略可以做到這一點,,“普通最小二乘法”策略就像這樣 - 你可以畫一條線,然后把每個數(shù)據(jù)點,,測量點和線之間的垂直距離,,添加上去; 擬合線將是距離總和的盡可能小的線。 線性是指您正在使用的模型來迎合數(shù)據(jù),,而最小二乘可以最小化線性模型誤差,。 4. 邏輯回歸: Logistic回歸是一個強大的統(tǒng)計學方法,用一個或多個解釋變量建模二項式結(jié)果,。它通過使用邏輯函數(shù)估計概率,,來衡量分類因變量與一個或多個獨立變量之間的關(guān)系,后者是累積邏輯分布,。 邏輯回歸用于生活中:
5. 支持向量機: SVM是二元分類算法,。給定N維空間中兩種種類型的點,SVM生成(N-1)維的超平面將這些點分成2組,。 假設你有一些可以線性分離的紙張中的兩種類型的點,。SVM將找到一條直線,將這些點分成兩種類型,,并盡可能遠離所有這些點,。 在規(guī)模上,使用SVM解決的一些特大的問題(包括適當修改的實現(xiàn))是:廣告,、人類基因剪接位點識別,、基于圖像的性別檢測,大規(guī)模圖像分類... 6. 集成方法:集成方法是構(gòu)建一組分類器的學習算法,,然后通過對其預測進行加權(quán)投票來對新的數(shù)據(jù)點進行分類,。原始的集成方法是貝葉斯平均法,但更新的算法包括糾錯輸出編碼,、bagging和boosting,。 那么集成方法如何工作,為什么它們優(yōu)于單個模型,?
▍無監(jiān)督學習 7. 聚類算法:聚類是對一組對象進行分組的任務,,使得同一組(集群)中的對象彼此之間比其他組中的對象更相似。 每個聚類算法是不同的,,比如:
8. 主成分分析: PCA是使用正交變換將可能相關(guān)變量的觀察值轉(zhuǎn)換為主成分的線性不相關(guān)變量值的一組統(tǒng)計過程,。 PCA的一些應用包括壓縮、簡化數(shù)據(jù),、便于學習,、可視化。請注意,,領域知識在選擇是否繼續(xù)使用PCA時非常重要,。數(shù)據(jù)嘈雜的情況(PCA的所有組件都有很大差異)的情況不適用。 9. 奇異值分解:在線性代數(shù)中,,SVD是真正復雜矩陣的因式分解,。對于給定的m * n矩陣M,存在分解,,使得M =UΣV,,其中U和V是酉矩陣,Σ是對角矩陣,。 PCA實際上是SVD的簡單應用,。在計算機視覺技術(shù)中,第一個人臉識別算法使用PCA和SVD,,以將面部表示為“特征臉”的線性組合,,進行降維,然后通過簡單的方法將面部匹配到身份; 雖然這種方法更復雜,,但仍然依賴于類似的技術(shù),。 10. 獨立成分分析: ICA是一種統(tǒng)計技術(shù),用于揭示隨機變量,、測量或信號集合的隱藏因素,。ICA定義了觀察到的多變量數(shù)據(jù)的生成模型,通常將其作為大型樣本數(shù)據(jù)庫,。 在模型中,,假設數(shù)據(jù)變量是一些未知潛在變量的線性混合,混合系統(tǒng)也是未知的,。潛變量被假定為非高斯和相互獨立的,,它們被稱為觀測數(shù)據(jù)的獨立成分。 ICA與PCA相關(guān),,但它是一種更強大的技術(shù),,能夠在這些經(jīng)典方法完全失敗時找到潛在的源因素,。其應用包括數(shù)字圖像、文檔數(shù)據(jù)庫,、經(jīng)濟指標和心理測量,。 ★推薦閱讀★ 吳恩達注冊了1.5億美元基金公司,專注于AI投資 Google科學家研究的新算法,,可以自動烘焙美味的餅干 不用再數(shù)羊了,!MIT的新算法讓你不再失眠 埃森哲報告:到2035年,人工智能將影響16個行業(yè) 2017斯坦福大學CS224N深度學習NLP通關(guān)課程 李飛飛主講 ‖ 斯坦福大學基于卷積神經(jīng)網(wǎng)絡的視覺識別 重磅 ‖ 科學家利用機器學習技術(shù)解碼大腦(paper) 有人@你,,領取27本免費的數(shù)據(jù)挖掘書籍 專訪陸奇:我與李彥宏分工明確,,百度要征服世界! 從收銀員到斯坦??茖W家,,李飛飛如何鳳凰涅槃? 長期招聘志愿者 加入「AI從業(yè)者社群」請備注個人信息 添加小雞微信 liulailiuwang
|
|
來自: 昵稱16619343 > 《辦公技能》