大數(shù)據(jù)這個概念是怎么起源的,已經(jīng)不太可考,,但Google在大數(shù)據(jù)領(lǐng)域的領(lǐng)軍地位,卻從未被質(zhì)疑,如今很多人提起大數(shù)據(jù),,仍然言必稱 Google 的“三駕馬車”:Google FS,、MapReduce、BigTable,。其實(shí),,新技術(shù)層出不窮,,“三駕馬車”已不再是浪潮之巔,。 近年來,,大數(shù)據(jù)技術(shù)的發(fā)展,,不論是技術(shù)迭代,還是生態(tài)圈的繁榮,,都遠(yuǎn)超我們的想象,。從 Spark 成為 Hadoop 生態(tài)的一部分,,到 Flink 橫空出世挑戰(zhàn) Spark 成為大數(shù)據(jù)處理領(lǐng)域的新星,,再到如今 Google 又決心用 Apache Beam 一統(tǒng)天下,。大數(shù)據(jù)技術(shù)的發(fā)展可謂跌宕起伏,,波瀾壯闊,。
豐富的工具,,繁榮的生態(tài),,也增加了開發(fā)者選擇合適工具的難度,。把開源框架,工具,,類庫,平臺整合到一起,,所需要的工作量以及復(fù)雜度,可想而知,。技術(shù)的選擇與使用,也是大數(shù)據(jù)開發(fā)者非常頭疼的問題,。 之前和 Google Brain 的工程師交流的時候,,他提到在大數(shù)據(jù)領(lǐng)域,,能把技術(shù)想明白,用明白的開發(fā)者太少了,,一些中小型公司的技術(shù) VP ,往往也是在“趕技術(shù)的時髦”的狀態(tài)中,,更別說普通的開發(fā)者。對大數(shù)據(jù)處理,,比較常見的誤區(qū)有下面幾種: 1.低估了數(shù)據(jù)處理的重要性,。 沒有高質(zhì)量的數(shù)據(jù)處理,,人工智能只有人工沒有智能。例如在語義理解上,,Google 就曾犯過這樣的錯誤,直到被一家德國的小公司超過,,才認(rèn)識到高質(zhì)量的數(shù)據(jù)標(biāo)注和處理的重要性。 2.低估了數(shù)據(jù)處理工程師在組織架構(gòu)上的重要性,。 大數(shù)據(jù)領(lǐng)域泰斗級人物Jesse Anderson曾做過一項(xiàng)研究,,一個人工智能團(tuán)隊(duì)的合理組織架構(gòu),需要4/5的數(shù)據(jù)處理工程師,。其實(shí),,即使是一個寫前端的工程師,很多工作還是數(shù)據(jù)處理,。很不幸,,很多團(tuán)隊(duì)沒有認(rèn)識到這一點(diǎn),。 3.低估了數(shù)據(jù)處理規(guī)模變大帶來的復(fù)雜度。 很多人還沒有遇到過“大規(guī)?!钡膯栴},,因此容易把問題想的過于簡單,。Google有很多優(yōu)秀的候選人,,他們對常見的編程問題可以很好的解決,,但只要追問數(shù)據(jù)規(guī)模變大時怎么設(shè)計(jì)系統(tǒng),,回答卻常常不盡人意,。 4.高估了上手?jǐn)?shù)據(jù)處理的難度,。 一方面我們需要認(rèn)識到大規(guī)模的數(shù)據(jù)處理是有復(fù)雜的因素的。但另一方面,,有了正確的工具和技術(shù)理念,,現(xiàn)在上手?jǐn)?shù)據(jù)處理并不困難,。在Google,很多應(yīng)屆生入職半年后也能輕松應(yīng)對上億的數(shù)據(jù)量,。 為了幫你比別人更準(zhǔn)確深入地掌握實(shí)用的大規(guī)模數(shù)據(jù)處理技術(shù),甚至達(dá)到硅谷一線系統(tǒng)架構(gòu)師的水平,,給你推薦一個極客時間的專欄《大規(guī)模數(shù)據(jù)處理實(shí)戰(zhàn)》,,作者就是我上文提到的 Google Brain 的資深工程師,蔡元楠,。
為什么是蔡元楠,? 蔡元楠是 Google Brain 資深工程師,負(fù)責(zé) AI Healthcare (人工智能的健康醫(yī)療應(yīng)用) 領(lǐng)域,,領(lǐng)導(dǎo)開發(fā)超大規(guī)模數(shù)據(jù)驅(qū)動的全新AI應(yīng)用與商業(yè)模式。在 Google 期間,,也曾任職于搜索廣告系統(tǒng),,智能語音助手系統(tǒng),,除了技術(shù)工作外,,還兼任 C++ 語言評審,,AI 挑戰(zhàn)賽評委會委員。 在《大規(guī)模數(shù)據(jù)處理設(shè)實(shí)戰(zhàn)》中,,蔡元楠想帶你培養(yǎng) Google 工程師精神,,敢于打碎任何權(quán)威,,從問題出發(fā)思考最佳方案,。 具體地,他會從兩方面入手:一是為你介紹硅谷最前沿技術(shù)和真實(shí)的案例,,例如最新的框架層面的前后端分離理念,,和批處理流處理統(tǒng)一的思想,。二是帶你剖析技術(shù)框架產(chǎn)生的原因和他們解決的問題,讓你在遇到相似的問題的時候,,做到心中有數(shù)。 為什么是這個專欄,? 我仔細(xì)看了下專欄的目錄,,六個部分非常值得期待: 第一部分,先會用原汁原味最實(shí)際的硅谷一線大廠的案例,,向你解釋曾經(jīng)風(fēng)靡的 MapReduce 為什么不能應(yīng)對最新的技術(shù)挑戰(zhàn)。然后我會從實(shí)際的問題出發(fā),,從頭開始引導(dǎo)你怎樣從頂層設(shè)計(jì)一個數(shù)據(jù)處理框架。 第二部分,,同樣是結(jié)合實(shí)戰(zhàn)案例,講解在數(shù)據(jù)處理框架的使用和設(shè)計(jì)中,,必需的一些基礎(chǔ)知識。這些案例緊貼應(yīng)用,,可能就是你的團(tuán)隊(duì)明天會碰到的問題,。 第三、第四部分深入拆解了Apache Spark和 Apache Beam,。不僅會用實(shí)際的案例教會你如何使用,還要教會你為什么它們這么設(shè)計(jì),,你會發(fā)現(xiàn)它們的設(shè)計(jì)其實(shí)大致和第一部分的頂層設(shè)計(jì)是一致的,。這樣下一次即使這個世界一無所有,,你也能構(gòu)建類似的框架解決一系列問題,。 第五部分按 Google T6 級別設(shè)計(jì),是帶著代碼的真槍實(shí)彈的架構(gòu)設(shè)計(jì),。毫不夸張地說,,能完整掌握第五部分內(nèi)容,你就能比肩硅谷一線大規(guī)模數(shù)據(jù)處理架構(gòu)師,。 第六部分著重培養(yǎng)你的技術(shù)遠(yuǎn)見。因?yàn)槭欠衲墁F(xiàn)在就開始準(zhǔn)備應(yīng)對10年后人類社會的技術(shù)挑戰(zhàn),,是你拉開與別人差距的重要一站,。 對于我的讀者,現(xiàn)在訂閱有什么福利,? 1.上新優(yōu)惠¥68 (原價¥99),。如果你是極客時間的新用戶還能獲得5元優(yōu)惠券,,券后僅需¥63 |
|