久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

《大數(shù)據(jù)》精華連載6:如何開(kāi)展大數(shù)據(jù)研發(fā)

 LZS2851 2017-03-20

《大數(shù)據(jù)》精華連載6:如何開(kāi)展大數(shù)據(jù)研發(fā)

《大數(shù)據(jù)》精華連載6:如何開(kāi)展大數(shù)據(jù)研發(fā)

1.5 如何開(kāi)展大數(shù)據(jù)研發(fā)

大數(shù)據(jù)正帶來(lái)一場(chǎng)信息社會(huì)的變革[5]。大量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的廣泛應(yīng)用,,致使人們需要重新思考已有的IT模式;與此同時(shí),,大數(shù)據(jù)將推動(dòng)進(jìn)行又一次基于信息革命的業(yè)務(wù)轉(zhuǎn)型,使社會(huì)能夠借助大數(shù)據(jù)獲取更多的社會(huì)效益和發(fā)展機(jī)會(huì),。

龐大的數(shù)據(jù)需要我們進(jìn)行剝離,、整理、歸類(lèi),、建模,、分析等操作,通過(guò)這些動(dòng)作后,,我們開(kāi)始建立數(shù)據(jù)分析的維度,,通過(guò)對(duì)不同的維度數(shù)據(jù)進(jìn)行分析,最終才能得到想到的數(shù)據(jù)和信息,。例如,,項(xiàng)目立項(xiàng)前的市場(chǎng)數(shù)據(jù)分析,為決策提供支撐;目標(biāo)用戶群體趨勢(shì)分析,,為產(chǎn)品市場(chǎng)支撐;通過(guò)對(duì)運(yùn)營(yíng)數(shù)據(jù)的挖掘和分析,,為企業(yè)提供運(yùn)營(yíng)數(shù)據(jù)支撐;通過(guò)對(duì)用戶行為數(shù)據(jù)進(jìn)行分析,為用戶提供生活信息服務(wù)數(shù)據(jù)支撐和消費(fèi)指導(dǎo)數(shù)據(jù)支撐,,等等,,這些都是大數(shù)據(jù)帶來(lái)的支撐。

因此,,如何進(jìn)行大數(shù)據(jù)的采集,、導(dǎo)入/預(yù)處理、統(tǒng)計(jì)/分析和大數(shù)據(jù)挖掘,,是“做”好大數(shù)據(jù)的關(guān)鍵基礎(chǔ),。

1.大數(shù)據(jù)的采集

大數(shù)據(jù)的采集通常采用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收終端數(shù)據(jù),包括智能硬件端,、多種傳感器端,、網(wǎng)頁(yè)端、移動(dòng)APP應(yīng)用端等,,并且可以使用數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)單的處理工作,。例如,,電商平臺(tái)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle來(lái)存儲(chǔ)每筆事務(wù)數(shù)據(jù),除此之外,,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集,。

在大數(shù)據(jù)的采集過(guò)程中,主要面對(duì)的挑戰(zhàn)是并發(fā)數(shù)高,,因?yàn)橥瑫r(shí)可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作,,例如,12306售票網(wǎng)站和淘寶網(wǎng)站,,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),,所以,需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐,,并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片也是需要深入思考和設(shè)計(jì)的,。

2.導(dǎo)入/預(yù)處理

雖然采集端本身有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,,還是應(yīng)該將這些數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù)或者分布式存儲(chǔ)集群當(dāng)中,,同時(shí),在導(dǎo)入的基礎(chǔ)上完成數(shù)據(jù)清洗和預(yù)處理工作,。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求,。

現(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整,、不一致的“臟”數(shù)據(jù),無(wú)法直接進(jìn)行數(shù)據(jù)挖掘,,或挖掘結(jié)果差強(qiáng)人意,,為了提高數(shù)據(jù)挖掘的質(zhì)量,產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù),。數(shù)據(jù)預(yù)處理有多種方法,,包括數(shù)據(jù)清理、數(shù)據(jù)集成,、數(shù)據(jù)變換,、數(shù)據(jù)歸約等,大大提高了數(shù)據(jù)挖掘的質(zhì)量,,降低數(shù)據(jù)挖掘所需要的時(shí)間,。

(1)數(shù)據(jù)清理主要是達(dá)到數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除,、數(shù)據(jù)錯(cuò)誤糾正,、重復(fù)數(shù)據(jù)的清除等目標(biāo)。

(2)數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)并統(tǒng)一存儲(chǔ),,建立數(shù)據(jù)倉(cāng)庫(kù),。

(3)數(shù)據(jù)變換是通過(guò)平滑聚集,、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式,。

(4)數(shù)據(jù)歸約是指在對(duì)挖掘任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,,尋找依賴(lài)于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,,最大限度地精簡(jiǎn)數(shù)據(jù)量。

在大數(shù)據(jù)的導(dǎo)入與預(yù)處理過(guò)程中,,主要面對(duì)的挑戰(zhàn)是導(dǎo)入的數(shù)據(jù)量大,,每秒的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別,。

3.統(tǒng)計(jì)/分析

統(tǒng)計(jì)與分析主要是利用分布式數(shù)據(jù)庫(kù),,或分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類(lèi)匯總,以滿足大多數(shù)常見(jiàn)的分析需求,,在這些方面可以使用R語(yǔ)言,。R語(yǔ)言是用于統(tǒng)計(jì)分析、繪圖的語(yǔ)言和操作環(huán)境,,屬于GNU系統(tǒng)的一個(gè)自由,、免費(fèi)、源代碼開(kāi)放的軟件,,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具,。

R語(yǔ)言在國(guó)際和國(guó)內(nèi)的發(fā)展差異非常大,國(guó)際上R語(yǔ)言已然是專(zhuān)業(yè)數(shù)據(jù)分析領(lǐng)域的標(biāo)準(zhǔn),,但在國(guó)內(nèi)依舊任重而道遠(yuǎn),,這固然有數(shù)據(jù)學(xué)科地位的原因,國(guó)內(nèi)很多人版權(quán)概念薄弱,,以及學(xué)術(shù)領(lǐng)域相對(duì)閉塞也是原因,。

R語(yǔ)言是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),。它是數(shù)據(jù)存儲(chǔ)和處理系統(tǒng),、數(shù)組運(yùn)算工具、完整連貫的統(tǒng)計(jì)分析工具,、優(yōu)秀的統(tǒng)計(jì)制圖功能,、簡(jiǎn)便而強(qiáng)大的編程語(yǔ)言。與其說(shuō)R語(yǔ)言是一種統(tǒng)計(jì)軟件,,不如說(shuō)是一種數(shù)學(xué)計(jì)算的環(huán)境,,因?yàn)镽語(yǔ)言并不是僅僅提供若干統(tǒng)計(jì)程序,使用者只需指定數(shù)據(jù)庫(kù)和若干參數(shù)便可進(jìn)行統(tǒng)計(jì)分析,。R語(yǔ)言的思想是:它可以提供一些集成的統(tǒng)計(jì)工具,,但更大量的是它提供各種數(shù)學(xué)計(jì)算,、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活機(jī)動(dòng)地進(jìn)行數(shù)據(jù)分析,,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法,。

在大數(shù)據(jù)的統(tǒng)計(jì)與分析過(guò)程中,主要面對(duì)的挑戰(zhàn)是分析涉及的數(shù)據(jù)量太大,,其對(duì)系統(tǒng)資源,,特別是I/O會(huì)有極大的占用。

4.大數(shù)據(jù)挖掘

與大數(shù)據(jù)的統(tǒng)計(jì)與分析不同的是,,大數(shù)據(jù)挖掘一般沒(méi)有預(yù)先設(shè)定好的主題,,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)效果,,實(shí)現(xiàn)高級(jí)別數(shù)據(jù)分析的需求,。

數(shù)據(jù)挖掘常用的方法有預(yù)測(cè)建模、關(guān)聯(lián)分析,、聚類(lèi)分析,、偏差分析等。

(1)預(yù)測(cè)建模:根據(jù)數(shù)據(jù)集的特征以目標(biāo)結(jié)果為目的建立映射關(guān)系,。預(yù)測(cè)建模有兩類(lèi)任務(wù),,一是分類(lèi),用于預(yù)測(cè)具有多種屬性的數(shù)據(jù)的類(lèi)別;二是回歸,,用于預(yù)測(cè)連續(xù)數(shù)據(jù)集未來(lái)的變化趨勢(shì),。

(2)關(guān)聯(lián)分析:關(guān)聯(lián)分析是針對(duì)數(shù)據(jù)集中存在的一類(lèi)重要的、可被發(fā)現(xiàn)的知識(shí),,關(guān)聯(lián)分析的目標(biāo)在于發(fā)現(xiàn)數(shù)據(jù)集中隱藏的相關(guān)聯(lián)系。

(3)聚類(lèi)分析:聚類(lèi)分析的目的在于將數(shù)據(jù)集內(nèi)具有相似特征屬性的數(shù)據(jù)聚集在一起,,同一個(gè)數(shù)據(jù)群中的數(shù)據(jù)特征要盡可能相似,,不同的數(shù)據(jù)群中的數(shù)據(jù)特征要有明顯的區(qū)別。

(4)偏差分析:包括很多潛在的有趣的知識(shí),,如分類(lèi)中的反常實(shí)例,、模式的例外、觀察結(jié)果對(duì)期望的偏差等,,其目的是尋找觀察結(jié)果與參照量之間有意義的差別,。

數(shù)據(jù)挖掘算法是創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計(jì)算方法,通過(guò)對(duì)提供的數(shù)據(jù)進(jìn)行分析,,查找特定類(lèi)型的模式和趨勢(shì),,最終形成創(chuàng)建模型。常用的算法有如下幾種,。

(1)C4.5算法:一種決策樹(shù)算法,,它是決策樹(shù)核心算法ID3的改進(jìn)算法,。C4.5算法的優(yōu)點(diǎn)是產(chǎn)生的分類(lèi)規(guī)則易于理解,準(zhǔn)確率較高,。缺點(diǎn)是在構(gòu)造樹(shù)的過(guò)程中,,需要對(duì)數(shù)據(jù)集進(jìn)行多次順序掃描和排序,因而導(dǎo)致算法的低效,。此外,,C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)訓(xùn)練集大得無(wú)法在內(nèi)存容納時(shí)程序無(wú)法運(yùn)行,。

(2)CART算法:也是一種決策樹(shù)算法,,CART算法考慮到每個(gè)節(jié)點(diǎn)都有成為葉子節(jié)點(diǎn)的可能,對(duì)每個(gè)節(jié)點(diǎn)都分配類(lèi)別,,分配類(lèi)別的方法可以用當(dāng)前節(jié)點(diǎn)中出現(xiàn)最多的類(lèi)別,,也可以參考當(dāng)前節(jié)點(diǎn)的分類(lèi)錯(cuò)誤或者其他更復(fù)雜的方法。

(3)K近鄰算法:是一個(gè)理論上比較成熟的方法,,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一,。該方法的思路是,如果一個(gè)樣本在特征空間中的K個(gè)最相似的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,,則該樣本也屬于這個(gè)類(lèi)別,。

(4)樸素貝葉斯算法:貝葉斯分類(lèi)是一系列分類(lèi)算法的總稱(chēng),這類(lèi)算法均以貝葉斯定理為基礎(chǔ),,故統(tǒng)稱(chēng)為貝葉斯分類(lèi),。樸素貝葉斯算法是其中應(yīng)用最為廣泛的分類(lèi)算法之一。

(5)支持向量機(jī)SVM算法:支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,,以求獲得最好的推廣能力。

(6)期望最大化算法(EM算法):期望最大化算法是一種迭代算法,,每次迭代由兩步組成,,E步求出期望,M步將參數(shù)極大化,。EM算法在處理缺失值上,,實(shí)際驗(yàn)證是一種非常穩(wěn)健的算法。

(7)Apriori算法:Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集,。而且算法已經(jīng)被廣泛應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域,。

(8)FP-Tree算法:使用了一種緊縮的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)查找頻繁項(xiàng)集所需要的全部信息,。

(9)PageRank算法:Google的創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學(xué)發(fā)明了這項(xiàng)技術(shù),以Google公司創(chuàng)辦人拉里·佩奇之姓來(lái)命名。Google用它來(lái)體現(xiàn)網(wǎng)頁(yè)的相關(guān)性和重要性,,在搜索引擎優(yōu)化操作中是經(jīng)常被用來(lái)評(píng)估網(wǎng)頁(yè)優(yōu)化的成效因素之一,。

(10)HITS算法:HITS算法是一種連接分析算法,它是由IBM首先提出的,。用戶輸入關(guān)鍵詞后,,算法對(duì)返回的匹配頁(yè)面計(jì)算兩種值,一種是樞紐值,,另一種是權(quán)威值,,這兩種值是互相依存、互相影響的,。所謂樞紐值,,指的是頁(yè)面上所有導(dǎo)出鏈接指向頁(yè)面的權(quán)威值之和,權(quán)威值是指所有導(dǎo)入鏈接所在的頁(yè)面中樞紐之和,。

(11)K-Means算法:K-Means算法是一種很典型的基于距離的聚類(lèi)算法,,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,,其相似度就越大,。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此,,把得到緊湊且獨(dú)立的簇作為最終目標(biāo),。

(12)BIRCH算法:BIRCH算法是一種綜合的層次聚類(lèi)算法,它用到了聚類(lèi)特征和聚類(lèi)特征樹(shù)兩個(gè)概念,,用于概括聚類(lèi)描述,。聚類(lèi)特征樹(shù)概括了聚類(lèi)的有用信息,并且占用空間較元數(shù)據(jù)集合小得多,,可以存放在內(nèi)存中,,從而可以提高算法在大型數(shù)據(jù)集合上的聚類(lèi)速度及可伸縮性。

(13)AdaBoost算法:AdaBoost算法是一種迭代算法,,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器),,然后把這些弱分類(lèi)器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類(lèi)器(強(qiáng)分類(lèi)器),。

(14)GSP算法:GSP算法是一種序列挖掘算法,,類(lèi)似于Apriori算法,,采用冗余候選模式的剪除策略和特殊的數(shù)據(jù)結(jié)構(gòu)——哈希樹(shù)來(lái)實(shí)現(xiàn)候選模式的快速訪存,。

在大數(shù)據(jù)挖掘的過(guò)程中,主要面對(duì)的挑戰(zhàn)是用于挖掘的算法很復(fù)雜,,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,,常用數(shù)據(jù)挖掘算法都以單機(jī)/單線程為主。

整個(gè)大數(shù)據(jù)的處理過(guò)程,至少應(yīng)該包括上述四個(gè)方面的步驟,,即大數(shù)據(jù)的采集,、導(dǎo)入/預(yù)處理、統(tǒng)計(jì)分析,、大數(shù)據(jù)挖掘,,才能算得上一個(gè)比較完整的大數(shù)據(jù)處理流程。

精彩回顧:

↓↓↓

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多