原作者:Bo?tjanKaluza 譯者:李凌
IT Ops(ITOparations,,IT運維)依靠云計算和自動化技術(shù)已經(jīng)進入了第三代,,相比于第二代需要安裝裸機服務(wù)器,第三代只需點擊幾下鼠標就能搭建出滿足你需求的新環(huán)境,。 開發(fā)者可以總結(jié)出基于每個應(yīng)用程序基礎(chǔ)的實例,,或者根據(jù)增加用戶的下載量來進行自動總結(jié)。這個計算的復(fù)雜程度和需要計算的活躍用戶數(shù)的大幅提升,,給開發(fā)者增加了非常多需要整理和追蹤的數(shù)據(jù),。 根據(jù)2015年程序性能監(jiān)控調(diào)查顯示,60%被調(diào)查的公司都擁有超過10種的不同監(jiān)控工具,。盡管儀器的性能和收集到的數(shù)據(jù)量都有所增長,,但企業(yè)幾乎不會去使用更大的數(shù)據(jù)集來進行根本原因分析和事件的預(yù)測以提高其可用性和性能過程的有效性。
為了弄清楚這些成堆的數(shù)據(jù),,IT運維轉(zhuǎn)向機器學(xué)習(xí)尋找解決方案,。 這個領(lǐng)域研究的是如何設(shè)計出合適的機器學(xué)習(xí)算法,這些算法可以通過觀察數(shù)據(jù),,從數(shù)據(jù)中挖掘出有用信息,,開發(fā)出可以自動適應(yīng)和自我定制的系統(tǒng),并且設(shè)計出合適的方案來解決由于過于復(fù)雜又消耗成本而難以實現(xiàn)所有情況的系統(tǒng)(就像搜索引擎和自動駕駛),。
在IT運維中,,機器學(xué)習(xí)應(yīng)用程序的數(shù)量已經(jīng)有了顯著的增長,這很大程度上取決于機器學(xué)習(xí)理論,、算法和計算資源需求的日益增加,。許多機構(gòu)發(fā)現(xiàn),機器學(xué)習(xí)可以讓他們更有效地去分析大量數(shù)據(jù),,獲得有價值的信息,,減少事故調(diào)查時間,,確定哪些是相關(guān)性強的警報、哪些又造成了事件風(fēng)暴,,甚至是在第一時間阻止事件的發(fā)生,。
例如,美國最大的政府承包商之一——VSE公司,,他們實施了一個機器學(xué)習(xí)的方案來精減其大量的數(shù)據(jù),。通過這種方式,VSE能夠提供一種在極大程度上減少事件調(diào)查時間的方法,,這將有助于檢測環(huán)境的變化并且?guī)椭鶹SE在法規(guī)范圍內(nèi)提高工作效率,。 為了解決當下IT運維所面臨的主要挑戰(zhàn),,以下是之前被使用過的六種不同的機器學(xué)習(xí)趨勢
趨勢一:自然語言中的行為洞察力 審查,,處理和解釋越來越多的數(shù)據(jù)已經(jīng)成為IT運營的日常業(yè)務(wù)中的一個組成部分。一個典型的場景:一個IT運維用戶正查看包含著不同維度數(shù)據(jù)的儀表盤,,并且試圖去通過一些由手動繪制的餅狀圖或趨勢線來分析這些數(shù)據(jù),。
為了達到一定程度的自動化,通常情況下,,用戶必須對他們面前的數(shù)據(jù)有一個初步的理解,,選擇部分(即整個數(shù)據(jù)中一部分的數(shù)據(jù)集),并選擇適合分析的分析工具(如趨勢公式,,圖表參數(shù)等),。對于少量的數(shù)據(jù)來說,或許任務(wù)不會那么艱巨,,但是這些少量的數(shù)據(jù)同樣無法精確地整體描述整個數(shù)據(jù)的信息,。
當需要更準確的結(jié)果或者是我們擁有一個龐大的可用數(shù)據(jù)量時,常用的基于手動處理數(shù)據(jù)的工具就可能顯得不夠合適,,而最壞的情況則可能是變得無法使用,。 去年,我們能看到ITOA(ITOperations Analytics)在空間混合和關(guān)聯(lián)多個數(shù)據(jù)源方面所取得的重大進展,。然而,,大多數(shù)ITOA的解決方案仍然要求客戶將混合分析的結(jié)果進行剝離,以便以一種復(fù)雜的專業(yè)的方式來解釋和呈現(xiàn)這些結(jié)果,。
今年,,ITOA科技將利用機器學(xué)習(xí)中的最新進展來對數(shù)據(jù)進行自動解讀。其結(jié)果將成為一代具體的,,易于理解的表達方式,,IT運維團隊無需投入大量的培訓(xùn)和費用調(diào)查就可以運用。分析機制對于用戶而言是透明的,,將會自動生成以用戶母語顯示出來的調(diào)查結(jié)果,,指南和說明,。
趨勢二:智能聊天機器人 聊天機器人是科技圈中一個令人興奮的新趨勢,它開始成為企業(yè)級的應(yīng)用,,被稱為“新應(yīng)用程序”,,企業(yè)也正在逐步適應(yīng)這種聊天機器人平臺來提高企業(yè)自身運作效率,促進IT圈間的相互聯(lián)系,,并幫助用戶找到信息完成任務(wù),。 如今的聊天機器人還非常原始,但是在不久的將來他們將變得更富有科技感,。他們將提供能讓用戶從天氣資訊,,個人財產(chǎn)管理,網(wǎng)購等方面,、做各種事情的自動對話,。當然,在商業(yè)上的應(yīng)用是無限的,。 聊天機器人的認知系統(tǒng)通過使用一套包含自然語言理解,,機器學(xué)習(xí)和人工智能的體系來進行工作。聊天室能越過明確的指令去理解語言,,記住會話中的上下文,,并且從他們已掌握的對話中學(xué)習(xí),進而變的更加智能,。
趨勢三:使用行為特征檢測異常 檢測關(guān)鍵性能指標的基本問題之一就是決定采取合適的行動,。一般來說,我們對以下兩個方面最感興趣: 1 監(jiān)控潛在的不利情況,,這種方法通常被認為是識別已知問題的策略 ,。(例如,低剩余磁盤空間的警報閥值) 2 監(jiān)測有利的情況并獲悉什么時候該事件停止,。這對于弄清那些未知的問題是非常重要的,,例如偏離了穩(wěn)定狀態(tài),系統(tǒng)的行為變化和性能突然下降,,等等,。 檢測這種情況的方法通常依賴于用標準偏差計算動態(tài)閥值。這是為了來檢測這種誤差,,但是在實踐中,,這種模型太過簡單以至于不足以處理卷積信號,造成了太多虛假警報,。 機器學(xué)習(xí)算法來解決這個問題,,是為了弄清常規(guī)的系統(tǒng)行為并匯報任何與其偏離的異常狀態(tài)。這可以通過構(gòu)建一段時間內(nèi)的行為特征,,并在其之上應(yīng)用異常檢測算法來實現(xiàn),。 這種算法首先要觀察系統(tǒng)的正常運行情況,,然后才會開始報告與之相關(guān)的顯著偏差。此外,,該算法能夠不間斷的去適應(yīng)它的行為特征庫,,從而了解行為是怎樣隨著時間的變化而改變的。 趨勢四:警報收集-建立情景意識 隨著IT圈的擴張,,警報數(shù)量也會隨之增加,。例如,一家大型國際銀行在40,000臺服務(wù)器上安裝了一套監(jiān)控工具,,它們每小時能產(chǎn)生60萬個事件,。反過來,這些監(jiān)控工具每年又會產(chǎn)生47000次維修信息,,其中包含2000多個2級升級——平均每天超過60次升級,。然而,在大多數(shù)情況下,,各個警報之間密切相關(guān),。
操作系統(tǒng)驅(qū)動的更改可能會導(dǎo)致數(shù)據(jù)庫服務(wù)的脫離,從而導(dǎo)致依賴于該數(shù)據(jù)庫的各種應(yīng)用程序發(fā)出警報的狂潮,。查看每個獨立的警報會導(dǎo)致響應(yīng)時間長,交易失敗,,服務(wù)不可用等問題,。每個獨立的警報不會對發(fā)生的情況作出明確答復(fù)。而調(diào)查又將會花費大量時間,,精力和專門人員去確定根本原因,。我們能自動檢查數(shù)以萬計的警報,然后得出相同的結(jié)論嗎,?這就是機器學(xué)習(xí)的范疇了,,尤其是聚類算法。聚類是一種無監(jiān)督的機器學(xué)習(xí)技術(shù),,它將一些相似的對象合乎邏輯地組合在一起,。 “無監(jiān)督”的機器學(xué)習(xí)表明,即便是沒有包含學(xué)習(xí)導(dǎo)向性 - 該算法也將會自動識別那些有意義的關(guān)系,。聚類有兩種基本的方法:從上到下和自下而上,,在自下而上的情況中,算法首先將每個警報作為自己的類別進行處理,,然后反復(fù)合并相似的類別,,直到剩余的都是些彼此間不相同的類別。相似度可以被定義為在時間,,主機,,服務(wù)等方面的距離,。自上而下的方法是從預(yù)選的一組集合開始的,然后反復(fù)將每一個警報添加到最近的一個類別里,。從而通過使用消除多余的低質(zhì)量警報和將警報集中到一些有意義的組群中的方法來建立高階情境意識,。 趨勢五: 使用因果推理的根本原因分析 根本原因分析是IT運維團隊正在攻克的幾大問題之一。 Gartner報告說,,“相對于2005年平均花費的8天,,且僅有2%的事件能被預(yù)測來說,在2016年中,,性能問題的根本原因平均需要7天才能得到診斷,,并且有3%的事件能夠被預(yù)測?!?/span> 用于監(jiān)控和管理應(yīng)用程序生命周期的IT工具通常不會相互交流,。 例如,要部署新服務(wù),,一個新的更改請求就會通過自動部署的腳本被打開并且被執(zhí)行,。 一旦應(yīng)用程序啟動并運行,它的性能和可用性將通過日志,,網(wǎng)絡(luò)活動和主要的APM指數(shù)來監(jiān)控,。 沒有人會用一條紅線將所有事件串聯(lián)成一個關(guān)于業(yè)務(wù)操作的整體性概述。 自動根源分析能力取決于是否建立了數(shù)據(jù)源之間的關(guān)系,。相關(guān)事件,,票證,警報和更改可以弄清數(shù)據(jù)間的因果關(guān)系,。為了實現(xiàn)這一點,,機器學(xué)習(xí)可以分成兩個階段的應(yīng)用。 第一個階段是鏈接來自不同IT工具的數(shù)據(jù),,第二個階段是確定哪里的關(guān)聯(lián)是最有意義的,。在處理非結(jié)構(gòu)化數(shù)據(jù)的第一階段,聯(lián)系的過程是并不明顯的,。 機器學(xué)習(xí)可以推斷出不同數(shù)據(jù)源之間的關(guān)系,,并確定如何才能將它們鏈接到有關(guān)的運行環(huán)境中去。 算法包括模糊的匹配規(guī)則和如何去識別同時頻繁出現(xiàn)的事件的關(guān)聯(lián)規(guī)則,,自然語言中的數(shù)據(jù)語言分析和根據(jù)預(yù)測模型建立的估算系統(tǒng),。而在這個過程中又產(chǎn)生了一系列的跨數(shù)據(jù)的帶有語義標注的數(shù)據(jù)樣本。 第二階段建立了基于環(huán)境拓撲,,組件依賴關(guān)系和配置依賴關(guān)系的環(huán)境依賴模型,。 這樣的環(huán)境依賴模型可以被應(yīng)用于基于拓撲結(jié)構(gòu)的相關(guān)性中,通過拓撲關(guān)系分析出無法訪問的環(huán)境中問題產(chǎn)生的根本原因,。另一方面,,這種關(guān)聯(lián)圖可以用概率貝葉斯網(wǎng)絡(luò)建模,,但這可能會增加模型的誤差傳播,使其缺陷被放大,,造成嚴重影響,。 建立這樣一個模型實際上是不可行的,因為即使不考慮不斷發(fā)展的環(huán)境結(jié)構(gòu),,環(huán)境組件之間也有很多的因素需要確定,。然而,通過利用機器學(xué)習(xí)和大量能描述歷史性能的數(shù)據(jù),,建立一個能自動估算所有必需可能因素,,并且可以即時更新的數(shù)據(jù)模型是可行的。 趨勢六:IT過程挖掘 精密的儀器和收集的大量數(shù)據(jù)不僅可以使每個機構(gòu)去跟蹤規(guī)定的流程,,還可以去辨別在IT基礎(chǔ)架構(gòu)中所發(fā)生的一些的非正式的,,沒有記錄的流程和活動。 這個任務(wù)背后的核心機器學(xué)習(xí)技術(shù)就是過程挖掘,。過程挖掘?qū)詣铀阉鱅T系統(tǒng)中現(xiàn)有的更改請求記錄,,事件記錄,部署信息,,事件日志和事實的更改,,以確定在一個組織中的IT操作流程。幕后的算法能分析出事件之間的依賴關(guān)系,,并標識出頻繁出現(xiàn)的步驟,。相同類型的算法支持電子商務(wù)中對零售行業(yè)的分析,確定哪些是人們經(jīng)常會一起購買商品,,客戶可能購買的下一個產(chǎn)品是什么,以及如何將產(chǎn)品/服務(wù)捆綁在一起以便能最大限度地提高收入,。 這種分析不僅可以讓人對整個事件的發(fā)生過程有個更好理解,,還可以促使過程挖掘自身的改進并加強自動化能力。 結(jié)論 IT運維的發(fā)展足以使所有的可自動化功能變得自動,,并使用精密的組件工具來確保一切正常運行,。IT運維分析已經(jīng)進入了一個新的時代 - 一個由算法處理IT運維的領(lǐng)域,將學(xué)習(xí)算法的過程融入在收集的大量數(shù)據(jù),,警報,,票證 |
|