久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

大數(shù)據(jù)分析的眾包平臺(tái)—Kaggle

 心不留意外塵 2016-03-28

 

時(shí)間:2013-01-18  來(lái)源:中云網(wǎng) 作者:陳弢 

眾包(Jeff Howe,2006)是一種在互聯(lián)網(wǎng)蓬勃發(fā)展的背景下產(chǎn)生的一種創(chuàng)新的生產(chǎn)組織形式,。在這樣的商業(yè)模式下,企業(yè)利用網(wǎng)絡(luò)將工作分配出去,,通過(guò)讓更合適的人群參與其中來(lái)發(fā)現(xiàn)創(chuàng)意和解決技術(shù)問(wèn)題。比較成功的眾包例子有像wikipedia這樣的知識(shí)貢獻(xiàn)類(lèi)平臺(tái),,GitHub這樣的IT類(lèi)平臺(tái),也有我們要著重介紹的大數(shù)據(jù)分析類(lèi)的眾包平臺(tái)Kaggle,。

 

Figure 1 Kaggle的工作方式。

Kaggle的工作方式如圖中右上角的流程所示,。假設(shè)一個(gè)互聯(lián)網(wǎng)廣告公司收集了大量的關(guān)于用戶(hù)廣告點(diǎn)擊行為的數(shù)據(jù),想從這些數(shù)據(jù)中發(fā)現(xiàn)用戶(hù)點(diǎn)擊的規(guī)律,、模式,,希冀以此來(lái)優(yōu)化廣告投放,、提高用戶(hù)點(diǎn)擊轉(zhuǎn)化率,。一種做法是,,公司雇傭一個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì)來(lái)洞察數(shù)據(jù),為決策提供支持。這種做法的成本可能比較高,,小公司難以承受,。Kaggle提供了另外一種方式,。公司可以將他們的數(shù)據(jù)、問(wèn)題的描述,、以及期望的指標(biāo)整理后發(fā)布到Kaggle上,,通過(guò)舉辦競(jìng)賽的方式讓網(wǎng)上的數(shù)據(jù)科學(xué)家參與解決。數(shù)據(jù)分析師們或獨(dú)立,、或組隊(duì)參加比賽,,利用自己的專(zhuān)業(yè)知識(shí)和數(shù)據(jù)分析工具得到優(yōu)化模型。最后,,這些結(jié)果經(jīng)過(guò)原定指標(biāo)的檢驗(yàn),,被公布到排行版上;最好的結(jié)果將獲得競(jìng)賽的獎(jiǎng)金(幾百美元到幾百萬(wàn)美元不等),。而公司也能最終擁有數(shù)據(jù)分析的結(jié)果、模型等知識(shí)產(chǎn)權(quán),。圖中左表列出了Kaggle上面一個(gè)問(wèn)題的例子,,這是關(guān)于Twitter對(duì)其用戶(hù)的個(gè)性分析的案例。包含了訓(xùn)練集,、測(cè)試集,、示例代碼和作為基準(zhǔn)的隨機(jī)森林模型,。而右表則是排行版上前六位的團(tuán)隊(duì)以及他們?cè)趌oss這個(gè)指標(biāo)上的表現(xiàn),。

Kaggle的流行是由兩方面的因素決定的,。首先,隨著數(shù)據(jù)量的爆炸性增長(zhǎng),,尤其是互聯(lián)網(wǎng)企業(yè)掌握的數(shù)據(jù)越來(lái)越多,如何利用這些數(shù)據(jù)成為了決策者們所關(guān)心的問(wèn)題,。大多數(shù)依靠互聯(lián)網(wǎng)掙錢(qián)的企業(yè)技術(shù)門(mén)檻較低,競(jìng)爭(zhēng)激勵(lì),。像2010年興起的團(tuán)購(gòu),,一時(shí)間中國(guó)大地上出現(xiàn)了5000多家類(lèi)似的公司,,大家有著同樣的網(wǎng)站模板,相似的業(yè)務(wù),,卻沒(méi)有任何差異化的東西。如何提高技術(shù)壁壘,,脫穎而出,數(shù)據(jù)驅(qū)動(dòng)(data-driven)成為了大家關(guān)注的焦點(diǎn),。商家們需要收集用戶(hù)的行為數(shù)據(jù),,分析不同用戶(hù)群體的行為規(guī)律,,從而為商品的定向投放,精準(zhǔn)推薦提供有力支持,。另一方面,,數(shù)據(jù)科學(xué)家成為了21世紀(jì)最稀缺的資源。Kaggle總裁兼首席科學(xué)家Jeremy Howard認(rèn)為一個(gè)偉大的數(shù)據(jù)科學(xué)家應(yīng)具備創(chuàng)新,、堅(jiān)韌,、好奇、深厚技術(shù)這四項(xiàng)素質(zhì),。具備數(shù)據(jù)收集,、數(shù)據(jù)改寫(xiě)、可視化,、機(jī)器學(xué)習(xí),、計(jì)算機(jī)編程等技術(shù)的數(shù)據(jù)科學(xué)家使數(shù)據(jù)驅(qū)動(dòng)決策并主導(dǎo)產(chǎn)品。根據(jù)McKinsey的預(yù)測(cè),,在未來(lái)6年,僅在美國(guó)本土就可能面臨缺乏14萬(wàn)至19萬(wàn)具備深入分析數(shù)據(jù)能力人才的情況,同時(shí)具備通過(guò)分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)的管理人員和分析師也有150萬(wàn)人的缺口,。如何充分利用現(xiàn)有的數(shù)據(jù)科學(xué)家的專(zhuān)業(yè)知識(shí)來(lái)幫助有需要的企業(yè)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)支持,Kaggle正是基于這樣的想法,,建立起了一個(gè)聯(lián)通領(lǐng)域和專(zhuān)業(yè)技能的橋梁,。

眾包方式的大數(shù)據(jù)分析絕不僅僅只有Kaggle一家,類(lèi)似的還有CrowdAnalytixTunedIT,。而最早的學(xué)術(shù)界的Kaggle可以認(rèn)為是從1997年開(kāi)始的由ACM組織的KDD CUP(知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘競(jìng)賽),。KDD每年一次,,涉及的領(lǐng)域從生物,、營(yíng)銷(xiāo),、安全,、醫(yī)學(xué),一直到最近火熱的用戶(hù)行為分析和社交網(wǎng)絡(luò)分析,。比如,,今年(KDD2012)的分析任務(wù)就是由騰訊微博提供,,通過(guò)對(duì)微博的社交分析,,期望預(yù)測(cè)出最有可能的關(guān)注(Follow)關(guān)系。

現(xiàn)在已經(jīng)是“大數(shù)據(jù)”的時(shí)代,,所有的人都預(yù)測(cè)在這個(gè)領(lǐng)域內(nèi)將來(lái)會(huì)產(chǎn)生一批偉大的公司,。目前,在Kaggle上吸引了將近六萬(wàn)的參與者,,競(jìng)賽的內(nèi)容也從單純的預(yù)測(cè)性分析拓展到所有關(guān)于數(shù)據(jù)的創(chuàng)意,,比如如何實(shí)現(xiàn)工作職位網(wǎng)站上的數(shù)據(jù)可視化,。可以說(shuō),,聚集了如此多智慧和機(jī)會(huì)的大數(shù)據(jù)眾包平臺(tái)Kaggle一定會(huì)成為這些偉大公司的一員,,讓我們拭目以待。

(責(zé)任編輯:呂光)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶(hù)發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多