阿里妹導(dǎo)讀:開源 SQLFlow,,反哺業(yè)界,,同時(shí)小小秀出AI肌肉。這就是螞蟻金服近日開源首個(gè)將 SQL 應(yīng)用于 AI 引擎項(xiàng)目 SQLFlow 后,,業(yè)界給出的反應(yīng),。帶領(lǐng)團(tuán)隊(duì)研發(fā)出 SQL 正是螞蟻金服計(jì)算存儲(chǔ)首席架構(gòu)師何昌華。今天,,我們邀請(qǐng)到何昌華,,聊聊他最近的一些想法和探索。 5月6日,,螞蟻金服副 CTO 胡喜正式宣布開源機(jī)器學(xué)習(xí)工具 SQLFlow:“未來三年,,AI 能力會(huì)成為每一位技術(shù)人員的基本能力。我們希望通過開源 SQLFlow,,降低人工智能應(yīng)用的技術(shù)門檻,,讓技術(shù)人員調(diào)用 AI 像 SQL 一樣簡(jiǎn)單?!?/p> 螞蟻金服副 CTO 胡喜宣布開源 SQLFlow 與早前的 JavaScript,、Swift 等技術(shù)極為相似,人工智能技術(shù)雖擁躉眾多,,但門檻極高,,不具備廣泛的“普適性”,相關(guān)的專業(yè)人才也非常稀缺,。當(dāng)前人工智能的核心領(lǐng)域是“機(jī)器學(xué)習(xí)”,,而深入掌握“機(jī)器學(xué)習(xí)”需要極為豐富的知識(shí)儲(chǔ)備,如高等數(shù)學(xué),、統(tǒng)計(jì)學(xué),、概率論以及編程等,同時(shí)還需要他在其他領(lǐng)域保持非常高的知識(shí)水平,,這些苛刻的要求讓很多技術(shù)人很難成為機(jī)器學(xué)習(xí)領(lǐng)域的專家,,從而制約著整個(gè)人工智能產(chǎn)業(yè)的發(fā)展。 具備易學(xué),、易用特點(diǎn)的 SQLFlow 正是為了解決上述問題而來,。胡喜表示,“開源 SQLFlow 是希望通過技術(shù)的簡(jiǎn)化革命,讓機(jī)器學(xué)習(xí)的能力掌握在業(yè)務(wù)專家的手中,,從而推動(dòng)更多的人工智能應(yīng)用場(chǎng)景被發(fā)現(xiàn)和創(chuàng)造,。” 開源地址 該項(xiàng)目已經(jīng)在 Github 開源,,長(zhǎng)按識(shí)別以下二維碼,,關(guān)注“阿里技術(shù)”官方公眾號(hào),并在對(duì)話框內(nèi)回復(fù)“機(jī)器學(xué)習(xí)”,,即可獲得 Github 下載鏈接,、了解更多詳情。 SQLFlow 把艱深的 AI 與簡(jiǎn)單的 SQL 結(jié)合起來,,大大簡(jiǎn)化了數(shù)據(jù)工程師使用AI技術(shù)的門檻,。而研發(fā)出 SQLFlow 的,正是螞蟻金服計(jì)算存儲(chǔ)首席架構(gòu)師何昌華帶領(lǐng)下的 AI Infra 團(tuán)隊(duì),。 何昌華斯坦福博士畢業(yè),,先在 Google 總部工作7年,贏得過公司最高技術(shù)獎(jiǎng)項(xiàng),,其后又在獨(dú)角獸 Airbnb 工作2年,,負(fù)責(zé)后臺(tái)系統(tǒng)的應(yīng)用架構(gòu)。 2017年5月,,他正式加盟螞蟻金服,擔(dān)任計(jì)算存儲(chǔ)首席架構(gòu)師,。 在螞蟻金服,,何昌華的工作是開發(fā)新一代計(jì)算引擎,搭建金融型數(shù)據(jù)智能平臺(tái),。 而 SQLFlow,,就是計(jì)算引擎主線上的結(jié)晶之一。 不過對(duì)何昌華來說,,世界正在巨變,,他還要帶隊(duì)探索一些沒人做成的事情。比如全實(shí)時(shí)的大數(shù)據(jù)智能系統(tǒng),。 未來技術(shù)基石大數(shù)據(jù)的概念,,最早來自于搜索引擎行業(yè),因?yàn)樗阉饕婷鎸?duì)的是人類在互聯(lián)網(wǎng)上留下的爆炸性增長(zhǎng)的龐大數(shù)據(jù),。 2010年底,,谷歌宣布新一代搜索引擎“咖啡因”正式上線,這項(xiàng)技術(shù)的革命性在于,,任何時(shí)刻,,世界上的任何網(wǎng)頁發(fā)生了變化,都可以實(shí)時(shí)地添加到索引中,,用戶也可以實(shí)時(shí)地搜索到,,解決了傳統(tǒng)搜索引擎的延時(shí)問題,。 何昌華當(dāng)時(shí)正是咖啡因開發(fā)團(tuán)隊(duì)的核心技術(shù)負(fù)責(zé)人之一。 他解釋,,“咖啡因所實(shí)現(xiàn)的最核心的功能,,就是實(shí)時(shí)?!?/p> 而現(xiàn)在何昌華在螞蟻金服工作的目標(biāo),,同樣是搭建一個(gè)“完全實(shí)時(shí)”的大數(shù)據(jù)處理系統(tǒng),或稱之為大數(shù)據(jù)智能平臺(tái),。由于線下生活場(chǎng)景的多樣性和復(fù)雜性,,這是個(gè)比構(gòu)建實(shí)時(shí)搜索更有挑戰(zhàn)性的任務(wù)。 他認(rèn)為,,這將成為未來技術(shù)的基石,。 對(duì)于計(jì)算機(jī)來說,實(shí)時(shí)就是在發(fā)出請(qǐng)求到返回響應(yīng)之間的延遲盡量小,,對(duì)于大數(shù)據(jù)處理系統(tǒng)來說,,這還意味著從數(shù)據(jù)生產(chǎn)到消費(fèi)的延遲盡可能低,所有這些都意味著計(jì)算速度和能力的提升,。 此前常用的大數(shù)據(jù)計(jì)算模型 MapReduce,,對(duì)數(shù)據(jù)的處理是“分片式”的,數(shù)據(jù)的片與片之間有邊界的概念,,這種批處理的模式不可避免地會(huì)帶來延時(shí)問題,。 以搜索的場(chǎng)景為例,假如以天為時(shí)間單位對(duì)數(shù)據(jù)進(jìn)行批處理,,那就意味著今天更新的網(wǎng)頁,,用戶明天才能搜索到,調(diào)高處理的頻率可以部分解決問題,,一天兩次,、一天四次、兩小時(shí)一次…… 雖然能逐步接近“準(zhǔn)實(shí)時(shí)”,,但成本也會(huì)急劇上升,。 要實(shí)現(xiàn)真正的實(shí)時(shí),就必須打破這種批處理的邊界,,讓數(shù)據(jù)處理的過程像水流一樣,,隨來隨算,隨時(shí)反饋,。 這也催生了后來流式計(jì)算引擎的蓬勃發(fā)展,。 而在何昌華看來,除了快,“實(shí)時(shí)系統(tǒng)”還有兩層重要含義,。 第一是 OLTP(聯(lián)機(jī)事務(wù)處理)和 OLAP(聯(lián)機(jī)分析處理)的融合,。 在以往的觀念里,OLTP 對(duì)實(shí)時(shí)性的要求高,,OLAP 對(duì)時(shí)效性的要求不那么高,。 舉例而言,用支付寶進(jìn)行一筆交易,,需要即時(shí)查詢和增刪記錄,,就是由 OLTP 來處理的。而對(duì)用戶行為特征的數(shù)據(jù)分析,,則由 OLAP 來處理,。 但現(xiàn)在隨著業(yè)務(wù)場(chǎng)景需求的不斷變化,OLAP 的時(shí)效性要求也越來越高,。 例如互聯(lián)網(wǎng)金融中的風(fēng)控場(chǎng)景,,就需要在完成一筆交易的極短時(shí)間中,通過分析用戶的特征數(shù)據(jù)判斷風(fēng)險(xiǎn),,這要求 OLAP 也要能實(shí)時(shí)反饋,,且反饋結(jié)果馬上就能夠在線訪問。 第二是智能和數(shù)據(jù)系統(tǒng)的融合,。 人工智能和機(jī)器學(xué)習(xí)是大數(shù)據(jù)應(yīng)用最熱門的領(lǐng)域,,而現(xiàn)在絕大多數(shù)公司的做法,是將數(shù)倉(cāng)和機(jī)器學(xué)習(xí)平臺(tái)分開,,從數(shù)倉(cāng)取一批數(shù)據(jù),,放到機(jī)器學(xué)習(xí)平臺(tái)上去訓(xùn)練模型。 隨著業(yè)務(wù)場(chǎng)景的復(fù)雜化和多樣化,,這種模式逐漸顯露問題,因?yàn)槟P湍芊駥?shí)時(shí)更新,,能否能用更實(shí)時(shí)的數(shù)據(jù)來訓(xùn)練模型,,直接影響了應(yīng)對(duì)復(fù)雜場(chǎng)景的能力。 “數(shù)據(jù)實(shí)時(shí)流入,、實(shí)時(shí)訓(xùn)練模型,,模型實(shí)時(shí)上線決策并反饋數(shù)據(jù)——這一條線如果能完全打通,對(duì)于業(yè)務(wù)將產(chǎn)生不可估量的價(jià)值”,, 何昌華說,。 數(shù)據(jù)、計(jì)算,、智能,,所有這一切構(gòu)成了何昌華設(shè)想中的“高效率的大數(shù)據(jù)底盤”,也就是一個(gè)融合的實(shí)時(shí)數(shù)據(jù)智能平臺(tái),或者叫“Big Data Base”,,就像曾經(jīng)數(shù)據(jù)庫(kù)成為無數(shù)場(chǎng)景的數(shù)據(jù)底盤一樣,。 如今,不僅是螞蟻金服或者阿里巴巴,,在各行各業(yè)中,,數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)都越來越多。 但大數(shù)據(jù)開發(fā)的門檻很高,,如果每一項(xiàng)業(yè)務(wù)都從數(shù)據(jù)開發(fā)的底層做起,,將會(huì)非常耗時(shí)耗力。 如何才能讓做業(yè)務(wù)的人有更多精力專注于業(yè)務(wù),? 何昌華認(rèn)為這就是“Big Data Base”的使命,,同樣也是“基石”的含義:
離真正的智能有多遠(yuǎn),?降低數(shù)據(jù)和智能的門檻,這是何昌華對(duì)于新引擎和數(shù)據(jù)智能平臺(tái)的期望,。 目前,,他帶領(lǐng)團(tuán)隊(duì)開發(fā)的金融型多模融合計(jì)算引擎,已經(jīng)實(shí)現(xiàn)了流計(jì)算與圖計(jì)算,、流計(jì)算與機(jī)器學(xué)習(xí)的融合打通,,距離他設(shè)想中的“大融合”越來越近了。 何昌華透露團(tuán)隊(duì)目標(biāo),,就是讓業(yè)務(wù)變得“極簡(jiǎn)”:
他甚至勾畫了一幅很科幻的未來場(chǎng)景:你寫一個(gè)功能交給引擎,引擎會(huì)決定調(diào)用多少資源去計(jì)算,,你無需關(guān)心具體的計(jì)算過程,,結(jié)果將會(huì)在最短的時(shí)間內(nèi)反饋給你,。 當(dāng)你構(gòu)想出一種新型業(yè)務(wù),數(shù)據(jù)智能平臺(tái)會(huì)判斷需要哪些數(shù)據(jù),,采用哪種模型,,如何上線,如何運(yùn)營(yíng)流量,。 這些流程,,都可以智能化地自動(dòng)完成。
這樣一個(gè)融合多種能力的實(shí)時(shí)數(shù)據(jù)智能平臺(tái),目前在世界上還沒有哪家公司能完全研發(fā)出來,。 何昌華也謹(jǐn)慎而滿懷信心地展望著未來:“我們也是在探索,,如果完全實(shí)現(xiàn)了探索目標(biāo),我們就將真正站到全世界領(lǐng)先的位置,?!?/p> 無人之境世界瞬息萬變,數(shù)據(jù)作為物理世界的鏡像,,理論上是無窮無盡的,,問題只在于人類有沒有辦法去記錄和采集它們。 互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的普及,,讓人類的行為數(shù)據(jù)采集成本大大降低,。 IoT 傳感器設(shè)備的普及,讓工業(yè)生產(chǎn)和社會(huì)生活中的數(shù)據(jù)也能夠大量地沉淀下來,。 因此在過去的二十年中,,數(shù)據(jù)總量出現(xiàn)了爆炸性的增長(zhǎng)。 在整個(gè)世界發(fā)生數(shù)字化巨變的同時(shí),,我們的生活也在悄然改變,。 基于數(shù)據(jù)應(yīng)用的發(fā)展,我們享受到了一二十年之前無法想象的便捷——電商,、O2O、移動(dòng)支付,、智能家居…… 但在何昌華看來,,數(shù)字化還處在非常初級(jí)的、在把線下的數(shù)據(jù)搬到線上的階段,。 真正需要思考的問題,,是未來當(dāng)高度數(shù)據(jù)化的社會(huì)到來時(shí),,我們擁有什么樣的能力去處理和應(yīng)用海量的數(shù)據(jù)。 這關(guān)系到我們是否能夠基于數(shù)據(jù)做到更多的事,,催生出更高的智能,,進(jìn)而推動(dòng)人類社會(huì)向著下一階段發(fā)展。 這就是他回國(guó)加入螞蟻金服所要尋找的答案,。
在這場(chǎng)全新的探索中,和海量的數(shù)據(jù)打交道是必修課,,因此,,他反復(fù)強(qiáng)調(diào)著計(jì)算能力的重要性:大數(shù)據(jù)、人工智能,、深度學(xué)習(xí)……無不需要強(qiáng)大的計(jì)算能力,,否則,向前的探索寸步難行,。 人工智能的發(fā)展趨勢(shì),,也是用更大更高更海量的計(jì)算,來模擬人的能力,。 “真正的人工智能=數(shù)據(jù)+100倍的計(jì)算”,,谷歌最新的人工智能模型水平,換算出來相當(dāng)于數(shù)百塊 GPU 持續(xù)計(jì)算一整年,。 何昌華和團(tuán)隊(duì)一起傾力開發(fā)的新一代計(jì)算引擎和數(shù)據(jù)智能平臺(tái),,實(shí)際上是高效計(jì)算能力和強(qiáng)大數(shù)據(jù)處理能力的綜合載體。 它自螞蟻金服海量的業(yè)務(wù)場(chǎng)景和數(shù)據(jù)之中誕生,,初衷是支撐螞蟻金服的各項(xiàng)業(yè)務(wù),,但隨著技術(shù)逐步成熟,它也可以具備多場(chǎng)景下的通用性,。 金融屬性帶來的高可用性和高安全性,,讓它可以廣泛用于其他行業(yè),應(yīng)對(duì)生活服務(wù)場(chǎng)景更加不在話下,。 這項(xiàng)工作的意義,,往大了說,是在推動(dòng)社會(huì)的變革,,雖然聽上去是個(gè)宏大的命題,,但它并非那么高高在上。 “每一項(xiàng)技術(shù)都必有它的落腳點(diǎn),。具體到螞蟻金服,,這些技術(shù)跟數(shù)億人的日常生活緊密相連,。” 每一天,,當(dāng)何昌華自己掏出手機(jī)使用支付寶結(jié)賬付款時(shí),,都能直觀地感受到自己的工作成果。就像他在谷歌工作時(shí),,每天也都會(huì)使用搜索功能一樣:“自己做出的成果,,自己每天都在使用,非常切實(shí)地感覺到技術(shù)對(duì)生活的改變,?!?/p> 他這樣陳述自己的人生理想。在通往理想的征程中,,他既站在技術(shù)的最前沿,,也身處最為日常的場(chǎng)景中,這二者本就密不可分:
|
|