國外有一項針對800多家企業的CIO采訪調查,得出的結論:

“企業云生態系統規模和復雜性伴隨著日益擴大的需求,與IT 資源管理能力之間的差距越來越大。”

被采訪的很多人對自己企業IT團隊有效支持業務的能力感到擔憂,因為傳統的監控解決方案使他們的團隊淹沒在數據和警報中。

就數據來看,平均而言團隊每天從他們的監控和管理工具中收到近3000個告警。面對如此多的告警,IT團隊平均要花費15%的可用時間來識別哪些告警需要關注,哪些告警是不相關的,這使得企業每年平均花費150萬美元以上的管理費用在這些事情上。

這可是個很嚴重的問題。

讓我們從熵開始說起

熵是一個科學概念,也是一種可測量的物理特性,最常與無序、隨機或不確定狀態相關聯。這個術語和概念被用于不同的領域,從最初被認可的經典熱力學,到統計物理學中對自然的微觀描述,再到信息論的原理。

熵亦被用于計算一個系統中的失序現象,也就是計算該系統混亂的程度。熵是一個描述系統狀態的函數,但是經常用熵的參考值和變化量進行分析比較,在不同的學科中也有引申出的更為具體的定義,是各領域十分重要的參量。

(圖片來自:中文百科)

在熱力學領域熵產生的原因,可以理解為能量轉換的時候,大部分能量會轉換成預先設定的狀態,比如熱能變成機械能、電能變成光能。但是,還有一部分能量會生成新的狀態,這部分能量就可以看作是熵。總之,能量轉換會創造出新的狀態,熵就是進入這些狀態的能量。

社會進步都是處理熵的過程

回顧下人類發展的歷史軌跡不難發現,人類社會的重大變革都是伴隨著技術的進步,新技術使人類獲得了新的力量(包括新的知識)用于解決原有的熵問題。

告警其實也是一種熵

我們把IT系統環境初始化的狀態假設成是一個封閉狀態,如果此時沒有任何外界的能量變化例如:停電、斷網,或者是任何來自外部的輸入輸出(例如:系統訪問量等)變化時,我們有理由認為此時的環境將一直會是個穩定狀態。

但是,當外界因素發生變化時,這個系統就會因改變狀態而產生熵,熵多則代表產生的新狀態多,可能性表現增多,系統將趨向混亂。產生的熵少則代表產生的新狀態少,可能性表現較少,系統趨向穩定,相對來說就比較有秩序。可以說狀態變化會讓系統的混亂度增加,熵此時可以用來描述系統的混亂度,在系統里可以表現為告警的數量。

(圖片來自:比特流技術)

在復雜的IT環境中,這個影響系統的外界因素是成倍數在增加的。而傳統的監控工具并不是為了處理在高動態、復雜網絡規模的企業云中運行的應用程序所產生的大量、快速和多樣化的數據而設計的,這些工具通常是孤立的,缺乏對整個技術棧中發生的事件的更廣泛的了解。因此,它們才會每天向IT團隊發出數百甚至數千條警報。

不處理熵會怎樣?

在熱力學系統里轉換的能量越大,創造出來的新狀態就會越多,所以高能量系統不如低能量的系統來得穩定,高壓鍋不如普通鍋安全就是這個道理。

熱力學第二定律告訴我們,如果任由產生熵的系統自行運行下去最終都會趨向混亂度最大的狀態,除非外部注入能量來處理熵。延伸到生活中來,熵的存在可以證明,如果不施加外力影響,事物永遠向著更混亂的狀態發展。比如,房間如果沒人打掃,只會越來越亂,不可能越來越干凈。

(圖片來自互聯網用戶分享)

這只是房間的干凈與否問題,如果換成前邊說的高壓鍋,在加熱過程中泄壓閥壞了且你還不知道的情況下又會發生什么?

換到信息系統也一樣,有著高并發高訪問,復雜的架構、技術棧或代碼邏輯特點的系統越容易出現問題。這些問題會由我們的監控工具“發現”,然后轉換成告警發給IT人員,如果關鍵問題的告警沒有被及時處理,那結果可能就是系統最后崩潰掉……

我們迫切需要新的手段來幫助自己應對這種復雜的情況。

AI可以幫我們處理告警這種熵

多源混合環境的數據自動整合

對來自不同平臺,不同資源的告警能夠進行數據的自動整合,并以統一的報表形式進行展現,這能夠使用戶不再受限于不同數據格式帶來的可觀測性障礙。

基于機器學習技術的場景化告警觸發

在人工智能的幫助下,數據會在展示給用戶之前進行預處理和初步分析——去除原始數據中通常會出現的噪音和混亂。AI識別的不再是發生的特定的單個事件或一系列事件,而是故障或攻擊的整體模式。神經網絡可以了解 IT 基礎設施是如何適應日常工作的,不是發現惡意活動的跡象,而是確保操作可以檢測到系統內的異常,這實質上使其與基于固定觸發規則的系統完全相反。

聚合以避免告警風暴及告警疲勞

AI能夠幫助我們對警報事件進行聚類形成故障,確定其嚴重性和影響并決定是否應將一個或多個故障上報以供IT人員處理。這個過程目前在許多企業中都是手動完成的,這在不久的將來會變成是一種不可接受的方法。

此種方式能夠避免因海量不準確告警帶來的風暴效應,進而避免因告警準確度低及數量龐大帶來的告警疲勞。

總結

任何偉大的技術都是有它的雙面性,AI的出現從大的范圍看解決的或許是人類做為生物體的局限性,包括疾病、衰老、死亡。智能化的機器將不再存在實際中的生產力上限,甚至于思考能力的上限。

借助于它們的力量人類將第一次無限接近于神,我知道這聽起來有些可怕,但這很可能成為事實。就如以色列學者尤瓦爾·赫拉利在《未來簡史》一書中的感嘆:

“包括人工智能在內的現代科技已經讓人類擁有了超過遠古諸神的力量,我們的后代勢必將會擁有神一樣的創造力和毀滅力。”

話扯遠了,總結下來使用AI來提升處理告警的能力可以說是百利而無一害的,也是值得每一個企業應該大膽去嘗試的方案。

  • 隨著互聯網應用的持續發展以及用戶對于網絡質量的不斷追求,網絡性能監控將會繼續發揮重要作用,為用戶不斷提供良好的網絡體驗,為企業的發展提供可靠支撐。未來,服務端監控網絡性能也會不斷優化發展,為企業提供更多幫助,為互聯網應用的穩定運行提供有力支撐。??

    2023-10-07

  • 數字化時代,應用性能管理是企業和組織中不可或缺的關鍵環節。本文將探討如何建立信賴的應用性能管理,以確保系統的穩定運行和優化性能。信賴的應用性能管理是建立在可靠的工具和方法之上,通過監測、分析和優化應用程序的性能,為用戶提供可靠、高效的應用體驗,提升用戶滿意度和忠誠度。

    2023-07-26