與許多其他行業(yè)一樣,信息技術(shù) (IT) 正在利用機(jī)器學(xué)習(xí) (ML) 和人工智能 (AI) 的最新進(jìn)展來解決 IT 管理領(lǐng)域中存在數(shù)十年的問題。歷史可以教給我們很多東西,通過深入研究多年積累的 IT 數(shù)據(jù),我們可以找到有意義的見解并用它們來指導(dǎo)未來。然而,在現(xiàn)代 IT 中,典型組織需要監(jiān)控的設(shè)備和服務(wù)的絕對數(shù)量,計算范式的復(fù)雜性;而且,生成的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過人類能夠掌握的數(shù)據(jù)量。
在當(dāng)前的全球大流行中,擁有可靠的 IT 環(huán)境對幾乎所有組織都至關(guān)重要。如果前面段落中的內(nèi)容與您相關(guān),您可能已經(jīng)聽說過 AI for IT Operations 或“?AIOps?”一詞。作為 IT 基礎(chǔ)設(shè)施監(jiān)控領(lǐng)域的行業(yè)領(lǐng)導(dǎo)者,相信有一種系統(tǒng)的方式來設(shè)計和實(shí)施 AIOps。下圖從我們的數(shù)據(jù)科學(xué)家的角度展示了對 AIOps 的愿景:
AIOps 的總體主題是從混亂中建立秩序——采用的方法稱為DAPA:蒸餾、分析、預(yù)測和行動。
從噪聲中提取信號
IT 警報可以來自基礎(chǔ)架構(gòu)中的任何位置,而且很少有事件僅發(fā)出一個警報。設(shè)備、服務(wù)和應(yīng)用程序是共生的,一個小小的變化就可能引發(fā)數(shù)據(jù)海嘯。為了最大限度地減少連鎖反應(yīng)并徹底查看數(shù)據(jù),同時仍然能夠從噪聲中識別導(dǎo)入單,可以利用分類、聚類和時間序列分析等算法來更深入地了解每條數(shù)據(jù)以及它們之間的關(guān)系他們。
基于這種更深入的理解,降噪可以將主要信號從擴(kuò)展的波中分離出來,并且只顯示重要信息。還可以訓(xùn)練 ML 或 AI 模型以了解受監(jiān)控資源的維護(hù)模式和季節(jié)性變化,從而抑制誤報。
信號加權(quán)是另一種可以應(yīng)用的分析技能。通過將每個信號與權(quán)重相關(guān)聯(lián),系統(tǒng)可以按重要性級別對信息進(jìn)行排序,并將注意力集中在更嚴(yán)重的問題上。
分析混亂以獲得結(jié)構(gòu)
模型 IT 基礎(chǔ)架構(gòu)很復(fù)雜。在物理基礎(chǔ)設(shè)施上可以有多種抽象,例如虛擬化和容器化。一套計算能力的調(diào)試和退役可以在幾分鐘甚至幾秒內(nèi)完成,計算能力的虛擬移動性可以輕松超越服務(wù)器集群或數(shù)據(jù)中心的邊界。
資源聚類可以從被監(jiān)控資源的元數(shù)據(jù)中學(xué)習(xí),對資源進(jìn)行啟發(fā)式分類。拓?fù)浒l(fā)現(xiàn)將進(jìn)一步連接相關(guān)資源,并勾勒出物理資源、虛擬化或業(yè)務(wù)用例的整體結(jié)構(gòu)。通過應(yīng)用時間序列分析,Event Correlation可以根據(jù)事件的邏輯關(guān)系將事件拼接在一起,并以更有條理的方式呈現(xiàn)。
通過學(xué)習(xí)過去來預(yù)測未來
當(dāng)發(fā)現(xiàn)某種事件的模式時,因果關(guān)系分析可以繞過許多笨拙的分步分類,并指出問題最可能的根本原因。Trending Prediction可以自信地提供預(yù)測,并主動提出預(yù)防措施。
以周到的計劃行事
劇本自動化是 IT 運(yùn)營的終極夢想。但是,在完全理解問題并仔細(xì)評估各種修復(fù)的相關(guān)性之前,無法實(shí)現(xiàn)深思熟慮的解決方案。無需手忙腳亂,解決方案組裝旨在從過去的事件和解決方案中學(xué)習(xí),召集相關(guān)解決方案并評估每個解決方案或某些解決方案組合的有效性。最后,機(jī)器智能和人類智能將在Playbook Automation中融合,并及時執(zhí)行建議的解決方案。