2016年即將過去,,各位大數(shù)據(jù)的程序員們,是否覺得這一年都不斷的追著新技術(shù)跑?這個(gè)大數(shù)據(jù)公眾號(hào)是今年一月底創(chuàng)立的,,一年過去,我們積累了不少好內(nèi)容,。回過頭來我們看看這一年的腳印,,這里我按照文章內(nèi)容做了一次匯總,,分為:流處理,、機(jī)器學(xué)習(xí),、用戶畫像、數(shù)據(jù)驅(qū)動(dòng),、Hadoop,、Apache Spark、Apache Kylin,、Druid,、推薦系統(tǒng)和大數(shù)據(jù)平臺(tái)架構(gòu)。 流處理 2016年流式數(shù)據(jù)處理已逐漸開始成為主流,,對(duì)于流數(shù)據(jù)的處理存在很多技術(shù),即使在開源社區(qū)中,,也存在很多撲朔迷離的選擇,。在大數(shù)據(jù)雜談里我們包含了一些優(yōu)秀的流處理文章,包括Kafka流,,Spark流,,Storm,,F(xiàn)link,,Samza等,。 Apache Flink是今年新軍突起的流處理技術(shù),,完全兼容Hadoop,。Apache Flink與Apache Spark的主要差別在于計(jì)算模型不同。Spark采用了微批處理模型,,而Flink采用了基于操作符的連續(xù)流模型,。 大數(shù)據(jù)分析引擎Apache Flink: What, How, Why, Who, Where? 以Flink為例,,消除流處理常見的六大謬見 LinkedIn在2010年開發(fā)了Kafka,是Kafka的重度使用者,,他們總結(jié)的經(jīng)驗(yàn)是非常有參考意義的。而“微服務(wù)架構(gòu):kafka的崛起”這篇文章詳盡的探討了在微服務(wù)架構(gòu)升級(jí)的過程中,,如何使用Kafka將微服務(wù)之間耦合降到最低,,同時(shí)能讓整個(gè)系統(tǒng)在保證高可用的前提下做到高可擴(kuò)展。 同時(shí)Samza也是LinkedIn研發(fā)的一款流處理器,,下面的文章介紹了Samza在LinkedIn公司的應(yīng)用情況,,Samza在流處理方面的優(yōu)勢(shì)、新特性以及下一步的規(guī)劃,。 剖析Linkedln遭遇的Kafka“危機(jī)故障” 微服務(wù)架構(gòu)界的“網(wǎng)紅”來了——崛起的Kafka LinkedIn開源流處理器Samza的應(yīng)用場景,、優(yōu)勢(shì),、新特性與未來規(guī)劃 下面這篇文章,集中比較了主流的流處理器的優(yōu)缺點(diǎn),。 實(shí)時(shí)流處理框架Storm、Spark Streaming,、Samza、Flink,,孰優(yōu)孰劣?! 下面是一些企業(yè)自研流處理架構(gòu)的情況,。JMQ是京東自研的消息中間件,,InfoQ前后發(fā)過兩篇文章來解析他們的中間件情況;另外我們也給出了一系列文章來說明Yelp的數(shù)據(jù)管道,,并且Yelp的數(shù)據(jù)管道剛剛宣布了開源,大家可在Github上下載閱讀源碼,。 京東消息中間件JMQ:架構(gòu),與Kafka的對(duì)比,,主要特性和應(yīng)用場景 Facebook的實(shí)時(shí)流處理技術(shù) Yelp的數(shù)據(jù)管道開源了:ETL已死,實(shí)時(shí)流技術(shù)永生? Kafka和Twitter新開源的DistributedLog技術(shù)對(duì)比 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)經(jīng)過近年來的強(qiáng)勢(shì)生長之后,,很快地從一個(gè)很少被人關(guān)注的技術(shù)主題,轉(zhuǎn)變?yōu)楸缓芏嗳耸褂玫墓芾砉ぞ?。其有效性被無數(shù)企業(yè)成功驗(yàn)證和應(yīng)用,為了避免錯(cuò)失良機(jī),,企業(yè)需要設(shè)計(jì)自己的機(jī)器學(xué)習(xí)項(xiàng)目,比如在電商平臺(tái)的推薦,、排序業(yè)務(wù)中,。在業(yè)務(wù)的多樣性大的時(shí)候企業(yè)就需要考慮將機(jī)器學(xué)習(xí)系統(tǒng)平臺(tái)化,。對(duì)于學(xué)術(shù)界來說,,學(xué)者們更希望機(jī)器學(xué)習(xí)平臺(tái)容易調(diào)試、靈活性要強(qiáng),、迭代要快;而對(duì)于工業(yè)界更看重的是平臺(tái)的穩(wěn)定性強(qiáng)、處理大數(shù)據(jù)量,、容易進(jìn)行數(shù)據(jù)整合、高效率,、低開發(fā)成本等,。 我們?cè)诖髷?shù)據(jù)雜談上實(shí)際上已經(jīng)積累了不少企業(yè)機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建的內(nèi)容,,包括:騰訊的Angel,,優(yōu)點(diǎn)是效率快于Spark幾十倍,,支持維度達(dá)到十億;另外是阿里巴巴的參數(shù)服務(wù)器,,講述了涉及理念以及在阿里的實(shí)際應(yīng)用;還有第四范式的先知平臺(tái),從系統(tǒng)和工程方面的優(yōu)化方向,,在開發(fā)平臺(tái)產(chǎn)品時(shí)的一些經(jīng)驗(yàn);還有就是TalkingData的Fregata,優(yōu)點(diǎn)第一是速度快,,第二是算法無需調(diào)參或者調(diào)參相對(duì)簡單。 騰訊大數(shù)據(jù)宣布開源第三代高性能計(jì)算平臺(tái)Angel:支持十億維度 大規(guī)模大數(shù)據(jù)的有效利用,,阿里巴巴參數(shù)服務(wù)器設(shè)計(jì)理念與實(shí)踐 為什么已有TensorFlow和Spark,第四范式還要開發(fā)“先知”平臺(tái)? ]輕量級(jí)大規(guī)模機(jī)器學(xué)習(xí)算法庫Fregata開源:快速,,無需調(diào)參 下面兩篇文章講的是怎么將深度學(xué)習(xí)平臺(tái)應(yīng)用到企業(yè)生產(chǎn)環(huán)境中,,這也是大名鼎鼎的兩個(gè)平臺(tái):Tensorflow和Deeplearning4j,。 如何通過TensorFlow實(shí)現(xiàn)深度學(xué)習(xí)算法并運(yùn)用到企業(yè)實(shí)踐中 深度學(xué)習(xí)在Spark平臺(tái)上如何進(jìn)入生產(chǎn)環(huán)境 下面是各公司針對(duì)企業(yè)的業(yè)務(wù)利用機(jī)器學(xué)習(xí)來提高產(chǎn)品體驗(yàn)的一些經(jīng)驗(yàn)。依次是Twitter,,1號(hào)店,攜程,,搜狗,達(dá)觀數(shù)據(jù),。最后是一篇總結(jié)深度學(xué)習(xí)全球進(jìn)展和預(yù)測2017的文章。 Twitter機(jī)器學(xué)習(xí)平臺(tái)的設(shè)計(jì)與搭建 1號(hào)店11.11:機(jī)器排序?qū)W習(xí)在電商搜索中的實(shí)戰(zhàn) 想要愉快入住酒店?缺了它還真不行! 深度學(xué)習(xí)在搜狗無線搜索廣告中的應(yīng)用 海量數(shù)據(jù)挖掘最優(yōu)解?機(jī)器學(xué)習(xí)! 深度學(xué)習(xí):2016年的進(jìn)展綜述及2017年的預(yù)測 用戶畫像 “對(duì)企業(yè)而言,,得用戶者得天下,能夠有一套科學(xué)的精準(zhǔn)營銷,、個(gè)性化推薦模型,無疑會(huì)促進(jìn)業(yè)務(wù)的增長;對(duì)開發(fā)者而言,用戶畫像也是頻繁被提及的技術(shù),,這樣可以根據(jù)目標(biāo)用戶的動(dòng)機(jī)和行為上進(jìn)行產(chǎn)品設(shè)計(jì),,遠(yuǎn)遠(yuǎn)優(yōu)于為腦中虛構(gòu)的東西做設(shè)計(jì)?!?/p> 這里有來自去哪兒,、TalkingData,、FreeWheel、百分點(diǎn),、天云大數(shù)據(jù)的5篇優(yōu)質(zhì)內(nèi)容教你如何設(shè)計(jì)精準(zhǔn)的用戶畫像產(chǎn)品。 Qunar用戶畫像構(gòu)建策略及應(yīng)用實(shí)踐 40億移動(dòng)設(shè)備的用戶畫像和標(biāo)簽架構(gòu)實(shí)踐 廣告平臺(tái)中用戶畫像和標(biāo)注噪聲處理的實(shí)踐 百分點(diǎn)蘇海波博士:為什么你做的用戶畫像模型不精準(zhǔn)? 用戶畫像不應(yīng)脫離社會(huì)關(guān)系,,談復(fù)雜網(wǎng)絡(luò)的關(guān)鍵技術(shù)和應(yīng)用實(shí)踐 數(shù)據(jù)驅(qū)動(dòng) 講大數(shù)據(jù)離不開數(shù)據(jù)驅(qū)動(dòng)。數(shù)據(jù)驅(qū)動(dòng)相關(guān)案例分別來自鏈家網(wǎng),、諸葛io、LinkedIn和滴滴,。 數(shù)據(jù)驅(qū)動(dòng)在鏈家網(wǎng)搜索優(yōu)化與推薦策略中的實(shí)踐 基于Spark的用戶行為路徑分析的產(chǎn)品化實(shí)踐 4億用戶的LinkedIn數(shù)據(jù)產(chǎn)品設(shè)計(jì)原則和架構(gòu)實(shí)現(xiàn) 數(shù)據(jù)驅(qū)動(dòng)管理竟成滴滴獲10億美元投資的最大黑手? Hadoop 今年1月,Hadoop過上了10歲生日,,我也在年初策劃了Hadoop十年的專欄,共約了十篇稿件,,Cloudera的陳飚老師的文章在這一年中流傳甚廣,非常值得一看,。另外InfoQ將這十篇文章集中到一起,做成了《架構(gòu)師特刊:Hadoop十年回顧》的電子書分享給了大家,,有興趣可以下載下來讀一讀,,將對(duì)Hadoop生態(tài)形成非常好的理解,。在這里再次對(duì)十位作者老師表示謝意,謝謝大家的無私分享! 深度 | 資深架構(gòu)師教你一篇文看懂Hadoop 《架構(gòu)師特刊:Hadoop十年回顧》迷你書免費(fèi)下載 Apache Spark 在2016年,,Spark迎來了最近兩年的一個(gè)最大的版本的發(fā)布:Spark 2.0,。但是在Spark上我做的工作并不夠,,原本很想做個(gè)很好的專題,但是屢屢碰壁之后只能罷了,,畢竟對(duì)于Spark開發(fā)者來說,這么大熱的一年,,任何實(shí)踐都足夠上沙龍和大會(huì)。 關(guān)鍵七步,,用Apache Spark構(gòu)建實(shí)時(shí)分析Dashboard Spark在GrowingIO數(shù)據(jù)無埋點(diǎn)全量采集場景下的實(shí)踐 是時(shí)候了解一些Spark生態(tài)系統(tǒng)中的圖數(shù)據(jù)分析知識(shí)了 以Python為例,教你Spark 應(yīng)用開發(fā) Apache Kyline Bay的大數(shù)據(jù)OLAP框架Kylin項(xiàng)目一經(jīng)開源,,即獲得了業(yè)界眾多的稱贊,并被邀請(qǐng)加入Apache軟件基金會(huì)的孵化項(xiàng)目,,在2014年11月,正式經(jīng)投票加入了Apache大家庭,,項(xiàng)目名字也改成了“Apache Kylin”,。 InfoQ在Kylin開源的一開始就持續(xù)關(guān)注這個(gè)項(xiàng)目,,分享了很多的案例,促進(jìn)了Kylin社區(qū)的進(jìn)一步發(fā)展,。這些內(nèi)容我們也集中到了電子書中:《架構(gòu)師特刊:Apache Kylin實(shí)踐》。 Apache Kylin發(fā)布新版流處理引擎 使用超大規(guī)模數(shù)據(jù)分析技術(shù)支持大數(shù)據(jù)預(yù)測 Apache Kylin在電信運(yùn)營商的實(shí)踐和案例分享 Apache Kylin在美團(tuán)數(shù)十億數(shù)據(jù)OLAP場景下的實(shí)踐 漲姿勢(shì):百度地圖的工程師都是如何利用Apache Kylin處理數(shù)據(jù)的 Apache Kylin企業(yè)實(shí)踐,,電子書免費(fèi)下載! Druid Druid作為一個(gè)大數(shù)據(jù)的OLAP系統(tǒng),在這一年里收獲了很多的關(guān)注,。國內(nèi)也有了Druid中文社區(qū),組織了好幾次Druid Meetup,。 PB級(jí)數(shù)據(jù)快速聚合查詢,Druid和Caravel在去哪兒大住宿的實(shí)踐 驅(qū)動(dòng)海量大數(shù)據(jù)實(shí)時(shí)多維分析,優(yōu)酷為什么會(huì)選擇Druid? 推薦系統(tǒng) 推薦系統(tǒng)部分有百分點(diǎn),、京東,、達(dá)觀數(shù)據(jù)的企業(yè)實(shí)踐,,也有解說播客和博客的推薦系統(tǒng)原理和實(shí)踐的文章,。還有一篇最新的推薦系統(tǒng)進(jìn)展,,Youtube的大規(guī)模推薦系統(tǒng),。 最后也同樣奉上兩本電子書:《推薦系統(tǒng):理論篇》和《推薦系統(tǒng):實(shí)踐篇》,。 百分點(diǎn)億級(jí)個(gè)性化推薦系統(tǒng)的發(fā)展歷程和實(shí)踐架構(gòu) 京東618智能賣場:個(gè)性化技術(shù)在大促會(huì)場上的實(shí)踐 推薦系統(tǒng)實(shí)踐與優(yōu)化 如何基于用戶歷史行為進(jìn)行精準(zhǔn)個(gè)性化推薦 三周時(shí)間,,搭建一個(gè)產(chǎn)品級(jí)的播客podcast推薦系統(tǒng)實(shí)踐解析 博客推薦系統(tǒng):防過載又創(chuàng)價(jià)值 用一個(gè)大家都懂的方式來聊聊YouTube基于深度神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng) 想抓住用戶的心思?《推薦系統(tǒng)(理論篇)》免費(fèi)電子書下載! 架構(gòu)師必讀:《推薦系統(tǒng)(實(shí)踐)》免費(fèi)電子書下載! 大數(shù)據(jù)平臺(tái)與數(shù)據(jù)挖掘?qū)嵺` 數(shù)據(jù)平臺(tái)部分積攢的內(nèi)容也非常多:攜程、去哪兒,、百分點(diǎn)、諸葛io,、騰訊,、挖財(cái)、有贊,、鏈家網(wǎng)、美團(tuán),、卷皮、達(dá)觀數(shù)據(jù)和明略數(shù)據(jù),。 攜程大數(shù)據(jù)實(shí)時(shí)風(fēng)控的架構(gòu)及實(shí)踐 去哪兒網(wǎng)支付系統(tǒng)架構(gòu)演進(jìn) 如何針對(duì)技術(shù)和業(yè)務(wù)人員痛點(diǎn),搭建標(biāo)準(zhǔn)智能數(shù)據(jù)平臺(tái)? 大數(shù)據(jù)平臺(tái)變革浪潮中,,這家初創(chuàng)公司積累的值得借鑒的業(yè)務(wù)架構(gòu)實(shí)踐經(jīng)驗(yàn) 騰訊億級(jí)排行榜系統(tǒng)實(shí)踐及挑戰(zhàn) 挖財(cái)基于大數(shù)據(jù)的信貸審批系統(tǒng)實(shí)踐 用Elasticsearch構(gòu)建電商搜索平臺(tái),一個(gè)極有代表性的基礎(chǔ)技術(shù)架構(gòu)和算法實(shí)踐案例 房源推薦,、房屋估價(jià)、經(jīng)紀(jì)人畫像...,,鏈家如何利用數(shù)據(jù)挖掘技術(shù)服務(wù)房地產(chǎn)? 攜程基于Storm的實(shí)時(shí)大數(shù)據(jù)平臺(tái)實(shí)踐 美團(tuán)大數(shù)據(jù)平臺(tái)架構(gòu)實(shí)踐 [ 文章 + 視頻 ] 從搭臺(tái)到唱戲,,電商卷皮BI的實(shí)踐演進(jìn)和架構(gòu)體系 從Storm到Heron,Twitter的實(shí)時(shí)計(jì)算框架有哪些重大進(jìn)化? 如何建立完整可用的安全大數(shù)據(jù)平臺(tái) 達(dá)觀數(shù)據(jù)分析平臺(tái)架構(gòu)和Hive實(shí)踐 一線專家談?wù)劊簲?shù)據(jù)挖掘在實(shí)際領(lǐng)域中的那些事兒 這5種必知的大數(shù)據(jù)處理框架技術(shù),,你的項(xiàng)目到底應(yīng)該使用其中的哪幾種 數(shù)據(jù)庫 大數(shù)據(jù)少不了數(shù)據(jù)存儲(chǔ),推薦大家再看看第一篇黃東旭老師的開源數(shù)據(jù)庫現(xiàn)狀,。 一篇文章,掌握所有開源數(shù)據(jù)庫的現(xiàn)狀 如何在不增加投入的情況下讓你的數(shù)據(jù)庫快上200倍 GPU高速查詢統(tǒng)計(jì)和典型場景:從“小時(shí)”到“毫秒”級(jí)的進(jìn)化 一文掌握云數(shù)據(jù)庫現(xiàn)狀與前沿技術(shù) 怎樣打造一個(gè)分布式數(shù)據(jù)庫 | 數(shù)據(jù)庫功能深度解析 MongoDB在58同城百億量級(jí)數(shù)據(jù)下的應(yīng)用實(shí)踐 10億級(jí)流數(shù)據(jù)交互查詢,,為什么拋棄MySQL選擇VoltDB? 優(yōu)酷土豆的Redis服務(wù)平臺(tái)化之路 分布式MySQL集群方案,看看京東是怎么做的 知識(shí)圖譜 LinkedIn知識(shí)圖譜的構(gòu)建與實(shí)踐 企業(yè)級(jí)大數(shù)據(jù)知識(shí)圖譜產(chǎn)品構(gòu)建與應(yīng)用 |
|