2016年大數(shù)據(jù)80篇爆款文章：這一年你追過的那些技術(shù)

LZS2851 2016-12-27

展開全文

2016年即將過去,，各位大數(shù)據(jù)的程序員們，是否覺得這一年都不斷的追著新技術(shù)跑?這個(gè)大數(shù)據(jù)公眾號(hào)是今年一月底創(chuàng)立的,，一年過去，我們積累了不少好內(nèi)容,。回過頭來我們看看這一年的腳印,，這里我按照文章內(nèi)容做了一次匯總,，分為：流處理,、機(jī)器學(xué)習(xí),、用戶畫像、數(shù)據(jù)驅(qū)動(dòng),、Hadoop,、Apache Spark、Apache Kylin,、Druid,、推薦系統(tǒng)和大數(shù)據(jù)平臺(tái)架構(gòu)。

2016年大數(shù)據(jù)80篇爆款文章：這一年你追過的那些技術(shù)

流處理

2016年流式數(shù)據(jù)處理已逐漸開始成為主流,，對(duì)于流數(shù)據(jù)的處理存在很多技術(shù)，即使在開源社區(qū)中,，也存在很多撲朔迷離的選擇,。在大數(shù)據(jù)雜談里我們包含了一些優(yōu)秀的流處理文章，包括Kafka流,，Spark流,，Storm,，F(xiàn)link,，Samza等,。

Apache Flink是今年新軍突起的流處理技術(shù),，完全兼容Hadoop,。Apache Flink與Apache Spark的主要差別在于計(jì)算模型不同。Spark采用了微批處理模型,，而Flink采用了基于操作符的連續(xù)流模型,。

大數(shù)據(jù)分析引擎Apache Flink: What, How, Why, Who, Where?

以Flink為例,，消除流處理常見的六大謬見

LinkedIn在2010年開發(fā)了Kafka，是Kafka的重度使用者,，他們總結(jié)的經(jīng)驗(yàn)是非常有參考意義的。而“微服務(wù)架構(gòu)：kafka的崛起”這篇文章詳盡的探討了在微服務(wù)架構(gòu)升級(jí)的過程中,，如何使用Kafka將微服務(wù)之間耦合降到最低,，同時(shí)能讓整個(gè)系統(tǒng)在保證高可用的前提下做到高可擴(kuò)展。

同時(shí)Samza也是LinkedIn研發(fā)的一款流處理器,，下面的文章介紹了Samza在LinkedIn公司的應(yīng)用情況,，Samza在流處理方面的優(yōu)勢(shì)、新特性以及下一步的規(guī)劃,。

剖析Linkedln遭遇的Kafka“危機(jī)故障”

微服務(wù)架構(gòu)界的“網(wǎng)紅”來了——崛起的Kafka

LinkedIn開源流處理器Samza的應(yīng)用場景,、優(yōu)勢(shì),、新特性與未來規(guī)劃

下面這篇文章，集中比較了主流的流處理器的優(yōu)缺點(diǎn),。

實(shí)時(shí)流處理框架Storm、Spark Streaming,、Samza、Flink,，孰優(yōu)孰劣?!

下面是一些企業(yè)自研流處理架構(gòu)的情況,。JMQ是京東自研的消息中間件,，InfoQ前后發(fā)過兩篇文章來解析他們的中間件情況;另外我們也給出了一系列文章來說明Yelp的數(shù)據(jù)管道,，并且Yelp的數(shù)據(jù)管道剛剛宣布了開源，大家可在Github上下載閱讀源碼,。

京東消息中間件JMQ：架構(gòu)，與Kafka的對(duì)比,，主要特性和應(yīng)用場景

Facebook的實(shí)時(shí)流處理技術(shù)

Yelp的數(shù)據(jù)管道開源了：ETL已死，實(shí)時(shí)流技術(shù)永生?

Kafka和Twitter新開源的DistributedLog技術(shù)對(duì)比

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)經(jīng)過近年來的強(qiáng)勢(shì)生長之后,，很快地從一個(gè)很少被人關(guān)注的技術(shù)主題，轉(zhuǎn)變?yōu)楸缓芏嗳耸褂玫墓芾砉ぞ?。其有效性被無數(shù)企業(yè)成功驗(yàn)證和應(yīng)用，為了避免錯(cuò)失良機(jī),，企業(yè)需要設(shè)計(jì)自己的機(jī)器學(xué)習(xí)項(xiàng)目，比如在電商平臺(tái)的推薦,、排序業(yè)務(wù)中,。在業(yè)務(wù)的多樣性大的時(shí)候企業(yè)就需要考慮將機(jī)器學(xué)習(xí)系統(tǒng)平臺(tái)化,。對(duì)于學(xué)術(shù)界來說,，學(xué)者們更希望機(jī)器學(xué)習(xí)平臺(tái)容易調(diào)試、靈活性要強(qiáng),、迭代要快;而對(duì)于工業(yè)界更看重的是平臺(tái)的穩(wěn)定性強(qiáng)、處理大數(shù)據(jù)量,、容易進(jìn)行數(shù)據(jù)整合、高效率,、低開發(fā)成本等,。

我們?cè)诖髷?shù)據(jù)雜談上實(shí)際上已經(jīng)積累了不少企業(yè)機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建的內(nèi)容,，包括：騰訊的Angel,，優(yōu)點(diǎn)是效率快于Spark幾十倍,，支持維度達(dá)到十億;另外是阿里巴巴的參數(shù)服務(wù)器,，講述了涉及理念以及在阿里的實(shí)際應(yīng)用;還有第四范式的先知平臺(tái)，從系統(tǒng)和工程方面的優(yōu)化方向,，在開發(fā)平臺(tái)產(chǎn)品時(shí)的一些經(jīng)驗(yàn);還有就是TalkingData的Fregata，優(yōu)點(diǎn)第一是速度快,，第二是算法無需調(diào)參或者調(diào)參相對(duì)簡單。

騰訊大數(shù)據(jù)宣布開源第三代高性能計(jì)算平臺(tái)Angel：支持十億維度

大規(guī)模大數(shù)據(jù)的有效利用,，阿里巴巴參數(shù)服務(wù)器設(shè)計(jì)理念與實(shí)踐

為什么已有TensorFlow和Spark，第四范式還要開發(fā)“先知”平臺(tái)?

]輕量級(jí)大規(guī)模機(jī)器學(xué)習(xí)算法庫Fregata開源：快速,，無需調(diào)參

下面兩篇文章講的是怎么將深度學(xué)習(xí)平臺(tái)應(yīng)用到企業(yè)生產(chǎn)環(huán)境中,，這也是大名鼎鼎的兩個(gè)平臺(tái)：Tensorflow和Deeplearning4j,。

如何通過TensorFlow實(shí)現(xiàn)深度學(xué)習(xí)算法并運(yùn)用到企業(yè)實(shí)踐中

深度學(xué)習(xí)在Spark平臺(tái)上如何進(jìn)入生產(chǎn)環(huán)境

下面是各公司針對(duì)企業(yè)的業(yè)務(wù)利用機(jī)器學(xué)習(xí)來提高產(chǎn)品體驗(yàn)的一些經(jīng)驗(yàn)。依次是Twitter,，1號(hào)店，攜程,，搜狗，達(dá)觀數(shù)據(jù),。最后是一篇總結(jié)深度學(xué)習(xí)全球進(jìn)展和預(yù)測2017的文章。

Twitter機(jī)器學(xué)習(xí)平臺(tái)的設(shè)計(jì)與搭建

1號(hào)店11.11：機(jī)器排序?qū)W習(xí)在電商搜索中的實(shí)戰(zhàn)

想要愉快入住酒店?缺了它還真不行!

深度學(xué)習(xí)在搜狗無線搜索廣告中的應(yīng)用

海量數(shù)據(jù)挖掘最優(yōu)解?機(jī)器學(xué)習(xí)!

深度學(xué)習(xí)：2016年的進(jìn)展綜述及2017年的預(yù)測

用戶畫像

“對(duì)企業(yè)而言,，得用戶者得天下，能夠有一套科學(xué)的精準(zhǔn)營銷,、個(gè)性化推薦模型，無疑會(huì)促進(jìn)業(yè)務(wù)的增長;對(duì)開發(fā)者而言，用戶畫像也是頻繁被提及的技術(shù),，這樣可以根據(jù)目標(biāo)用戶的動(dòng)機(jī)和行為上進(jìn)行產(chǎn)品設(shè)計(jì),，遠(yuǎn)遠(yuǎn)優(yōu)于為腦中虛構(gòu)的東西做設(shè)計(jì)?！?/p>

這里有來自去哪兒,、TalkingData,、FreeWheel、百分點(diǎn),、天云大數(shù)據(jù)的5篇優(yōu)質(zhì)內(nèi)容教你如何設(shè)計(jì)精準(zhǔn)的用戶畫像產(chǎn)品。

Qunar用戶畫像構(gòu)建策略及應(yīng)用實(shí)踐

40億移動(dòng)設(shè)備的用戶畫像和標(biāo)簽架構(gòu)實(shí)踐

廣告平臺(tái)中用戶畫像和標(biāo)注噪聲處理的實(shí)踐

百分點(diǎn)蘇海波博士：為什么你做的用戶畫像模型不精準(zhǔn)?

用戶畫像不應(yīng)脫離社會(huì)關(guān)系,，談復(fù)雜網(wǎng)絡(luò)的關(guān)鍵技術(shù)和應(yīng)用實(shí)踐

數(shù)據(jù)驅(qū)動(dòng)

講大數(shù)據(jù)離不開數(shù)據(jù)驅(qū)動(dòng)。數(shù)據(jù)驅(qū)動(dòng)相關(guān)案例分別來自鏈家網(wǎng),、諸葛io、LinkedIn和滴滴,。

數(shù)據(jù)驅(qū)動(dòng)在鏈家網(wǎng)搜索優(yōu)化與推薦策略中的實(shí)踐

基于Spark的用戶行為路徑分析的產(chǎn)品化實(shí)踐

4億用戶的LinkedIn數(shù)據(jù)產(chǎn)品設(shè)計(jì)原則和架構(gòu)實(shí)現(xiàn)

數(shù)據(jù)驅(qū)動(dòng)管理竟成滴滴獲10億美元投資的最大黑手?

Hadoop

今年1月，Hadoop過上了10歲生日,，我也在年初策劃了Hadoop十年的專欄，共約了十篇稿件,，Cloudera的陳飚老師的文章在這一年中流傳甚廣，非常值得一看,。另外InfoQ將這十篇文章集中到一起，做成了《架構(gòu)師特刊：Hadoop十年回顧》的電子書分享給了大家,，有興趣可以下載下來讀一讀,，將對(duì)Hadoop生態(tài)形成非常好的理解,。在這里再次對(duì)十位作者老師表示謝意，謝謝大家的無私分享!

深度 | 資深架構(gòu)師教你一篇文看懂Hadoop

《架構(gòu)師特刊：Hadoop十年回顧》迷你書免費(fèi)下載

Apache Spark

在2016年,，Spark迎來了最近兩年的一個(gè)最大的版本的發(fā)布：Spark 2.0,。但是在Spark上我做的工作并不夠,，原本很想做個(gè)很好的專題，但是屢屢碰壁之后只能罷了,，畢竟對(duì)于Spark開發(fā)者來說，這么大熱的一年,，任何實(shí)踐都足夠上沙龍和大會(huì)。

關(guān)鍵七步,，用Apache Spark構(gòu)建實(shí)時(shí)分析Dashboard

Spark在GrowingIO數(shù)據(jù)無埋點(diǎn)全量采集場景下的實(shí)踐

是時(shí)候了解一些Spark生態(tài)系統(tǒng)中的圖數(shù)據(jù)分析知識(shí)了

以Python為例，教你Spark 應(yīng)用開發(fā)

Apache Kyline

Bay的大數(shù)據(jù)OLAP框架Kylin項(xiàng)目一經(jīng)開源,，即獲得了業(yè)界眾多的稱贊，并被邀請(qǐng)加入Apache軟件基金會(huì)的孵化項(xiàng)目,，在2014年11月，正式經(jīng)投票加入了Apache大家庭,，項(xiàng)目名字也改成了“Apache Kylin”,。

InfoQ在Kylin開源的一開始就持續(xù)關(guān)注這個(gè)項(xiàng)目,，分享了很多的案例，促進(jìn)了Kylin社區(qū)的進(jìn)一步發(fā)展,。這些內(nèi)容我們也集中到了電子書中：《架構(gòu)師特刊：Apache Kylin實(shí)踐》。

Apache Kylin發(fā)布新版流處理引擎

使用超大規(guī)模數(shù)據(jù)分析技術(shù)支持大數(shù)據(jù)預(yù)測

Apache Kylin在電信運(yùn)營商的實(shí)踐和案例分享

Apache Kylin在美團(tuán)數(shù)十億數(shù)據(jù)OLAP場景下的實(shí)踐

漲姿勢(shì)：百度地圖的工程師都是如何利用Apache Kylin處理數(shù)據(jù)的

Apache Kylin企業(yè)實(shí)踐,，電子書免費(fèi)下載!

Druid

Druid作為一個(gè)大數(shù)據(jù)的OLAP系統(tǒng)，在這一年里收獲了很多的關(guān)注,。國內(nèi)也有了Druid中文社區(qū)，組織了好幾次Druid Meetup,。

PB級(jí)數(shù)據(jù)快速聚合查詢，Druid和Caravel在去哪兒大住宿的實(shí)踐

驅(qū)動(dòng)海量大數(shù)據(jù)實(shí)時(shí)多維分析，優(yōu)酷為什么會(huì)選擇Druid?

推薦系統(tǒng)

推薦系統(tǒng)部分有百分點(diǎn),、京東,、達(dá)觀數(shù)據(jù)的企業(yè)實(shí)踐,，也有解說播客和博客的推薦系統(tǒng)原理和實(shí)踐的文章,。還有一篇最新的推薦系統(tǒng)進(jìn)展,，Youtube的大規(guī)模推薦系統(tǒng),。

最后也同樣奉上兩本電子書：《推薦系統(tǒng)：理論篇》和《推薦系統(tǒng)：實(shí)踐篇》,。

百分點(diǎn)億級(jí)個(gè)性化推薦系統(tǒng)的發(fā)展歷程和實(shí)踐架構(gòu)

京東618智能賣場：個(gè)性化技術(shù)在大促會(huì)場上的實(shí)踐

推薦系統(tǒng)實(shí)踐與優(yōu)化

如何基于用戶歷史行為進(jìn)行精準(zhǔn)個(gè)性化推薦

三周時(shí)間,，搭建一個(gè)產(chǎn)品級(jí)的播客podcast推薦系統(tǒng)實(shí)踐解析

博客推薦系統(tǒng)：防過載又創(chuàng)價(jià)值

用一個(gè)大家都懂的方式來聊聊YouTube基于深度神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng)

想抓住用戶的心思?《推薦系統(tǒng)(理論篇)》免費(fèi)電子書下載!

架構(gòu)師必讀：《推薦系統(tǒng)(實(shí)踐)》免費(fèi)電子書下載!

大數(shù)據(jù)平臺(tái)與數(shù)據(jù)挖掘?qū)嵺`

數(shù)據(jù)平臺(tái)部分積攢的內(nèi)容也非常多：攜程、去哪兒,、百分點(diǎn)、諸葛io,、騰訊,、挖財(cái)、有贊,、鏈家網(wǎng)、美團(tuán),、卷皮、達(dá)觀數(shù)據(jù)和明略數(shù)據(jù),。

攜程大數(shù)據(jù)實(shí)時(shí)風(fēng)控的架構(gòu)及實(shí)踐

去哪兒網(wǎng)支付系統(tǒng)架構(gòu)演進(jìn)

如何針對(duì)技術(shù)和業(yè)務(wù)人員痛點(diǎn)，搭建標(biāo)準(zhǔn)智能數(shù)據(jù)平臺(tái)?

大數(shù)據(jù)平臺(tái)變革浪潮中,，這家初創(chuàng)公司積累的值得借鑒的業(yè)務(wù)架構(gòu)實(shí)踐經(jīng)驗(yàn)

騰訊億級(jí)排行榜系統(tǒng)實(shí)踐及挑戰(zhàn)

挖財(cái)基于大數(shù)據(jù)的信貸審批系統(tǒng)實(shí)踐

用Elasticsearch構(gòu)建電商搜索平臺(tái)，一個(gè)極有代表性的基礎(chǔ)技術(shù)架構(gòu)和算法實(shí)踐案例

房源推薦,、房屋估價(jià)、經(jīng)紀(jì)人畫像...,，鏈家如何利用數(shù)據(jù)挖掘技術(shù)服務(wù)房地產(chǎn)?

攜程基于Storm的實(shí)時(shí)大數(shù)據(jù)平臺(tái)實(shí)踐

美團(tuán)大數(shù)據(jù)平臺(tái)架構(gòu)實(shí)踐 [ 文章 + 視頻 ]

從搭臺(tái)到唱戲,，電商卷皮BI的實(shí)踐演進(jìn)和架構(gòu)體系

從Storm到Heron,Twitter的實(shí)時(shí)計(jì)算框架有哪些重大進(jìn)化?

如何建立完整可用的安全大數(shù)據(jù)平臺(tái)

達(dá)觀數(shù)據(jù)分析平臺(tái)架構(gòu)和Hive實(shí)踐

一線專家談?wù)劊簲?shù)據(jù)挖掘在實(shí)際領(lǐng)域中的那些事兒

這5種必知的大數(shù)據(jù)處理框架技術(shù),，你的項(xiàng)目到底應(yīng)該使用其中的哪幾種

數(shù)據(jù)庫

大數(shù)據(jù)少不了數(shù)據(jù)存儲(chǔ)，推薦大家再看看第一篇黃東旭老師的開源數(shù)據(jù)庫現(xiàn)狀,。

一篇文章，掌握所有開源數(shù)據(jù)庫的現(xiàn)狀

如何在不增加投入的情況下讓你的數(shù)據(jù)庫快上200倍

GPU高速查詢統(tǒng)計(jì)和典型場景：從“小時(shí)”到“毫秒”級(jí)的進(jìn)化

一文掌握云數(shù)據(jù)庫現(xiàn)狀與前沿技術(shù)

怎樣打造一個(gè)分布式數(shù)據(jù)庫 | 數(shù)據(jù)庫功能深度解析

MongoDB在58同城百億量級(jí)數(shù)據(jù)下的應(yīng)用實(shí)踐

10億級(jí)流數(shù)據(jù)交互查詢,，為什么拋棄MySQL選擇VoltDB?

優(yōu)酷土豆的Redis服務(wù)平臺(tái)化之路

分布式MySQL集群方案，看看京東是怎么做的

知識(shí)圖譜

LinkedIn知識(shí)圖譜的構(gòu)建與實(shí)踐

企業(yè)級(jí)大數(shù)據(jù)知識(shí)圖譜產(chǎn)品構(gòu)建與應(yīng)用

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： LZS2851 > 《云計(jì)算與大數(shù)據(jù)》

舉報(bào)/認(rèn)領(lǐng)