吳寧川
·
2016-10-17 17:35
摘要: 阿里云就是這樣一個永遠在線的軟硬一體的虛擬計算機,,這個虛擬計算機龐大到了每個人都生活在其中卻感覺不到它的存在。 云棲大會上放出的觀點成為這幾日行業(yè)人士乃至社交網(wǎng)絡(luò)上的熱議話題,,包括馬云的主題演講,。馬云在這場主題演講中,,只字未提“阿里云”,但這并不說明阿里云不重要,,而是在某種意義上來講,,阿里云“從0到1”的階段已經(jīng)完成了。 在10月13日杭州云棲大會開幕當天,,馬云發(fā)表了就上一財年致股東信,,信中提及,“阿里云承載了中國35%的網(wǎng)站并為之提供云計算和大數(shù)據(jù)的服務(wù),,而截至2016年3月31日的阿里財報顯示阿里云擁有超過230萬用戶,,其中云計算付費用戶達50萬。” 從2009年2月寫下阿里云的第一段代碼開始,,阿里云上上下下的負責人們就一直在試圖解釋阿里云到底是什么,。成立七年的阿里云的業(yè)務(wù)邏輯是什么?現(xiàn)任阿里云首席架構(gòu)師唐洪,、阿里云資深技術(shù)總監(jiān)李津通過密密麻麻的圖表清晰地做出了解析,。 三句話道破阿里云的天機阿里云的核心人物王堅最近出版了一本書《在線》。王堅自2008年9月加入阿里任阿里巴巴集團任首席架構(gòu)師,,2009年9月創(chuàng)建阿里云計算公司并任總裁,,現(xiàn)任阿里巴巴集團技術(shù)委員會主席。 王堅和其團隊自主研發(fā)的大規(guī)模分布式計算系統(tǒng)“飛天”,,是阿里云的核心,,建立了互聯(lián)網(wǎng)規(guī)模的通用計算平臺,完成了云計算公共服務(wù)的商業(yè)化,。 阿里巴巴集團技術(shù)委員會主席王堅 《在線》一書中,王堅對過去8年自主技術(shù)創(chuàng)新道路進行了反思與總結(jié),。摘出書中三句話,,就能從根本上說清楚阿里云的本質(zhì)以及過去與未來:
再進一步精煉總結(jié)的話,如果把全世界的計算資源看成是一臺龐大的虛擬計算機的話,,阿里云的核心“飛天”就是這臺虛擬計算機的操作系統(tǒng),,而“內(nèi)存”、“硬盤”,、“顯卡”等都是由巨大的通用服務(wù)器集群組成,。阿里云除了核心“飛天”操作系統(tǒng)外,還向上提供云服務(wù)版本的中間件,、安全,、文件系統(tǒng)、數(shù)據(jù)庫以及面向應(yīng)用的通用API等高級服務(wù),。用戶使用阿里云的方法卻很簡單,,只需要通用瀏覽器或通用API簡單調(diào)用即可。 除了谷歌外,,微軟云也是同樣的思路,。 阿里云就是這樣一個永遠“在線”的軟硬一體的虛擬計算機,這個虛擬計算機龐大到了每個人都生活在其中卻感覺不到它的存在——當然,,這不僅僅是阿里云的終極夢想,亞馬遜云,、谷歌云,、微軟云三大巨頭都在朝同一個方向?qū)嵺`,。 描述下阿里云的規(guī)模:百萬級服務(wù)器、單集群1萬臺的“有機體”既然阿里云“飛天”系統(tǒng)是一個規(guī)模很大的有機整體,,這個有機體目前到底有多大,?綜合今年杭州的“云棲大會”上阿里云提供的各種資料,可以初步描繪出這個有機體的規(guī)模:
簡單的對比,,亞馬遜云與微軟云目前都是百萬臺服務(wù)器級別的規(guī)模,,亞馬遜云在全球有17個數(shù)據(jù)中心區(qū)域、35個可用區(qū)域(AZ),,微軟云有34個數(shù)據(jù)中心區(qū)域,,而谷歌雖然自身達千萬臺服務(wù)器級別但只有一小部分對外提供公有云服務(wù)。 按阿里云資深技術(shù)總監(jiān)李津在本屆杭州云棲大會上的說法,,從規(guī)模來看,,阿里云與亞馬遜云已經(jīng)沒有多大的差距。 飛天系統(tǒng)與PC系統(tǒng)的邏輯對比 因此,,在過去的7年時間里,阿里云一直在發(fā)布這個龐大體系的不同組件,,并且在把不同的組件連接起來形成一個有機體,。 眾所周知,傳統(tǒng)操作系統(tǒng)在升級硬件的時候需要重啟系統(tǒng),,而阿里云在升級飛天的時候卻不能“重啟”——這個很好理解,,阿里云已經(jīng)與社會經(jīng)濟息息相連,必須7*24小時不間斷在線,。 另外一個問題是:這樣的一個有“生命”的有機是怎么自我調(diào)節(jié),、自我平衡、部分組織自我重生的呢,? 根據(jù)唐洪的介紹,,阿里云的生命機理就是阿里云的自動化運維系統(tǒng)“天基”,。在“天基”看來,系統(tǒng)里每一臺機器都無時無刻地處在部署,、升級,、遷移以及各個狀態(tài)的轉(zhuǎn)換中,“天基”在整個系統(tǒng)運行中精準地控制每個進程,、每個組件的狀態(tài),,從而控制每個系統(tǒng)的狀態(tài)。 “天基”采用了一個面向恢復(fù)的計算模型,。每臺由“天基”管理的機器上會定期向“天基”發(fā)送自己的狀態(tài),,而“天基”還維護一個系統(tǒng)預(yù)期的狀態(tài),“天基”會定期地比較預(yù)期狀態(tài)和當前狀態(tài),,根據(jù)其差別來制定出詳細的執(zhí)行計劃并下發(fā)到“天基”的執(zhí)行AGENT機器上,,通過這樣的過程迭代使得整個系統(tǒng)的狀態(tài)逐步逼近到預(yù)期狀態(tài)。 而在離線應(yīng)用與在線應(yīng)用的系統(tǒng)資源混合管理方面,,阿里云會將離線應(yīng)用和在線應(yīng)用放在同一個集群上,,當在線應(yīng)用比較空閑時就將資源分配調(diào)度離線應(yīng)用,當在線應(yīng)用的負載比較高時就將資源從離線應(yīng)用“搶占”過來,。這樣既可以保證整個系統(tǒng)資源的利用率,,也可以確保在線服務(wù)的質(zhì)量。通過這兩個策略,,可以將集群中日常資源的使用率從5%提升至54%,、將集群峰值的利用率從22%提升至64%。 云的“生命機制”可以概括為從無到有,、從小到大,。為了保證用戶業(yè)務(wù)的不間斷以及阿里云的組織更新,阿里云曾經(jīng)創(chuàng)造了全球首例整體機房帶業(yè)務(wù)熱搬遷,,也就是說,,“整個機房帶著用戶不停頓的業(yè)務(wù)搬遷到新址,形象的說法就是開著汽車換輪子,、開著飛機換引擎,。” 然而,,一旦阿里云的所有必要組件全部都對外發(fā)布出來而且已經(jīng)彼此互連成合體的話,,這個有機整體就可以脫離人工的管理,而由機器自治,。李津介紹說,,目前他的團隊已經(jīng)在把深度學習等人工智能算法用于阿里云基礎(chǔ)設(shè)施的自我管理,由機器自己探測并自動修復(fù)故障,。 與社會化應(yīng)用協(xié)同進化的邏輯回顧阿里云7年的發(fā)展,,還有一個重要的邏輯:不斷用真實世界的應(yīng)用來刺激阿里云的生長,。 阿里云的早期階段,,由于大量用戶把自己的應(yīng)用架設(shè)到阿里云上,,但早期的阿里云因為經(jīng)常宕機而導(dǎo)致一片罵聲,可以說阿里云就是被“炮轟”長大的,,甚至有一個博客網(wǎng)站專門記錄阿里云的各種問題,。 在《在線》這本書中,其實收錄了不少“炮轟”阿里云的報道,,包括阿里集團內(nèi)部也一度因為是否要把核心應(yīng)用搬到阿里云上而爆發(fā)激烈爭吵,。 到今天,盡管阿里云依然會出現(xiàn)問題,,但出現(xiàn)問題的幾率已經(jīng)大幅降低,。可以說明這一點的就是阿里巴巴正在把自己內(nèi)部的核心應(yīng)用,、甚至每年的「雙11」這樣的高難度挑戰(zhàn),,都逐漸遷移到了阿里云上。 當一個企業(yè)的云服務(wù)達到一定規(guī)模,,產(chǎn)生了巨大的規(guī)模經(jīng)濟效益后,,對于其使用者來說,最直接的好處就是獲得了不小的降價空間,。阿里巴巴集團2016財報顯示,,過去一年里阿里云曾17次下調(diào)云服務(wù)的價格。 2016杭州云棲大會介紹了杭州城市大腦項目 國內(nèi)開源界,,阿里巴巴也是最大貢獻者之一。在開源方面,,本次杭州云棲大會上 AliSQL 正式開放了源代碼的下載,。AliSQL是阿里巴巴基于開源數(shù)據(jù)庫MySQL官方版本的一個分支,應(yīng)用于阿里巴巴集團業(yè)務(wù)以及阿里云數(shù)據(jù)庫服務(wù),,目前由阿里云數(shù)據(jù)庫團隊維護,。阿里云在AliSQL上進行了300多個改進,包括針對電商秒殺,、物聯(lián)網(wǎng)大數(shù)據(jù)壓縮,、金融數(shù)據(jù)安全等場景提供個性化解決方案。 隨著阿里云在技術(shù)上的成熟,,現(xiàn)有的阿里內(nèi)部應(yīng)用以及社會上的應(yīng)用已經(jīng)不能滿足進一步“刺激”阿里云的未來成長的作用,,如何通過社會化力量來反哺云服務(wù)呢,? 阿里巴巴在杭州立項的“城市大腦”是其中一個嘗試?!俺鞘写竽X”,,主要是把人工智能用于城市治理,成為整個城市的人工智能中樞,,讓城市能夠自我調(diào)節(jié),、與人類更好的互動,交通道路優(yōu)化與管理是第一個挑戰(zhàn)的課題,。 “城市大腦”由五大系統(tǒng)組成——超大規(guī)模計算平臺,、數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)交換中心,、開放算法平臺,、數(shù)據(jù)應(yīng)用平臺;阿里云的人工智能引擎ET還為“城市大腦”其它四大系統(tǒng)提供人工智能內(nèi)核,。 舉個例子來說,,杭州城區(qū)內(nèi)5萬多路視頻攝像頭都將成為這個“城市大腦”的數(shù)據(jù)來源。從2016年3月開始,,杭州交警,、城管、建委等11個政府部門和西湖區(qū),,以及阿里巴巴,、華三通信、富士康等13家企業(yè)的上百名人員,,聚集在云棲小鎮(zhèn)進行研發(fā),。 如此大規(guī)模的研發(fā)目前取得了一定成果。據(jù)悉,,9月在杭州蕭山區(qū)部分路段的初步試驗中,,城市大腦通過智能調(diào)節(jié)紅綠燈,車輛通行速度最高提升了11%,。 除了用人工智能優(yōu)化和管理城市外,,阿里云還在著力解決全社會物流挑戰(zhàn)。阿里云和菜鳥網(wǎng)絡(luò)合作推出的中國首個物流云平臺“菜鳥物流云”就是在這方面的嘗試,。根據(jù)預(yù)測,,未來的幾年內(nèi)中國日均包裹量很快突破1個億,無法再依靠傳統(tǒng)的人力勞動模式去送遞包括,,必須使用物流云來保證物流網(wǎng)絡(luò)高效運轉(zhuǎn),。因此,菜鳥網(wǎng)絡(luò) CTO 王文彬?qū)γ襟w表示,未來物流行業(yè)的競爭力已經(jīng)不是單純依靠規(guī)模和價格的競爭了,,技術(shù)競爭將成為關(guān)鍵,。 目前阿里云平臺上已經(jīng)出現(xiàn)了單個ISV的年營收過千萬人民幣水平,李津則希望“能在不遠的將來出現(xiàn)過億元營收水平的軟件企業(yè)”,。而現(xiàn)在,,正是企業(yè)級軟件與服務(wù)創(chuàng)業(yè)的好機會,由于阿里云的成熟和230萬使用者,,再加上淘寶與天貓上數(shù)以億計的活躍商戶,,任何SaaS軟件都有機會觸達這些潛在小企業(yè)用戶,,因此在未來很有可能出現(xiàn)中國自己的企業(yè)級軟件巨頭,。(本文首發(fā)鈦媒體,記者/吳寧川) |
|