基調聽云北冥

AI實現告警收斂,場景化告警觸發避免告警風暴

AI實現告警收斂,場景化告警觸發避免告警風暴

基調聽云北冥統一告警管理平臺,利用AI技術實現對Zabbix、Prometheus等監控平臺的告警收斂,以及基于機器學習技術的場景化告警觸發,有效避免告警風暴及告警疲勞。

統一監控

從不同的監控工具和平臺采集運維數據,對數據進行標準化和豐富化處理,最終實現集中可視化展現,使數據間實現關聯分析,達到全局監控、統籌分析、精準決策。

智能降噪

通過 “規則+AI”雙重模式實現對事件的智能降噪,在減少頻繁干擾的同時,還可以從低級別事件中識別出重要告警自動升級通知用戶,避免漏報警。

事件關聯

通過人工智能基于大數據分析找出事件關聯的本質,輔以CMDB資源拓撲、應用調用鏈等數據模型,構建關聯知識庫,將相關聯事件進行聚合。

故障定位

構建事件因果關系圖模型,通過歷史的事件數據、領域知識和相關信息對模型進行訓練和學習,根據事件因果關系進行根因分析和故障定位。

AI增強

通過可視化、便于用戶理解的語言告知AI如何更好的學習數據背后的邏輯和規律,加快模型訓練效果,使AI能力得到加倍增強。

團隊高效協同

對發現的故障及時處理,記錄處理動作通過事件評論和回復使團隊成員及時了解情況,高效溝通、協同處理、快速響應。

多數據接入

多元數據采集

多元數據采集

在建的監控系統多,各自產生的數據相互割裂,無法形成有效的關聯,產生不了價值。針對運維數據(指標、日志、事件和拓撲),可從開源監控工具、商用監控軟件、API、消息隊列、郵件、文檔等多種數據來源中實時采集元數據,并對數據進行數據清洗、加工、計算和分析,最終作集中統一的可視化展現。

異常檢測

指標異常檢測

指標異常檢測

指標告警的閾值太高會導致漏報遭到投訴,閾值太低會導致噪音太多錯過真正的異常。告別傳統指標固定閾值、基線閾值不準確問題,根據指標波動的變化例如周期、趨勢、時間模式等因素來綜合判斷指標的波動變化,系統自動優選合適的異常檢測算法,針對指標動態變化數據進行實時檢測,識別出真正的異常行為觸發告警,提高告警準確率。

告警收斂

告警風暴抑制

告警風暴抑制

當管理大規模的服務架構時,一旦發生系統故障,將導致大量重復無用的告警風暴,給運維人員造成困擾。基調聽云北冥告警平臺對警報事件智能的、自動的進行過濾、壓縮、合并、去重,最終聚合成一種高級事件即故障通知用戶進行處理,減少警報噪音,降低信息干擾,減輕運維人員處理警報的壓力。

根因分析

故障根因分析

故障根因分析

在當今虛擬化和高度冗余的IT環境中,如何快速確定故障發生原因?基調聽云北冥告警平臺致力于調查影響業務服務的根本原因,利用機器學習技術對大數據提供的上下文信息進行分析,了解事件的相關性、依賴關系和因果關系等相關性特征,推斷出可能的根本原因;還可根據用戶的反饋提升根因分析算法的準確度,提高運維解決效率,降低服務中斷的影響。

多元管理

與外圍系統結合

與外圍系統結合

通過集成CMDB使告警事件豐富化,并根據CMDB的資源關聯關系增強事件關聯能力,在擴大聚合范圍、提升聚合精準度的同時,將聚合后的故障與ITSM工單系統打通,形成故障閉環的全生命周期管理,還可通過與呼叫中心集成實現故障語音呼叫。

產品案例

產品案例

基調聽云服務百行百業,積累了大量客戶案例,成功助力客戶洞察優化數字化業務,提升用戶體驗。