2021 年下旬,有關可觀測性的研討如雨后春筍般層出不窮,在解讀 CNCF 云原生計算基金會 2021 年度云原生調查時,CNCF 執行董事 Priyanka Sharma 曾表示:“隨著容器基礎設施的上層和底層不斷成熟,2022年將成為邊緣、可觀測性和安全等新興云原生領域的標志性一年。”

當前傳統監控體系所面臨的諸多局限真的能夠通過可觀測性解決嗎?企業又該如何構建適配自身的可觀測性體系?

可觀測性“火熱出圈”

“可觀測性”并不是一個新詞,其概念最早由現代控制理論之父 Rudolf Kalman 提出:“如果對于狀態和控制向量的任何可能演變,僅使用輸出的信息就可以估計當前狀態,則稱系統是可觀測的。”

那為什么近年來可觀測性的熱度不斷飆升,一度火熱出圈呢?

主要原因在于云原生時代下,系統復雜性的逐步增強。數字化浪潮推動,企業 IT 業務開始向云上遷移,為提高遷移效率、運行效率以及服務的靈活性,企業大多會采用多云/混合云架構,這將大大增加 IT 模型的復雜性。

過去簡單、變更不頻繁的單體式架構可以使用監控查看系統運行狀態,但隨著分布式架構、云原生架構的變遷,越來越多的新訴求開始逐步顯現。

用戶體驗和應用比以往任何時候都重要,企業依賴于體系化的 IT 系統來實現增長。

數字化轉型過程中,應用的數量、數據的體量、變化的頻率和增加的速度,都已經遠遠超越了僅通過固定儀表盤就可以管理復雜 IT 系統的能力。

多云/混合云的部署模式都是容器化且動態變化的,容器創建的速度和規模及其生命周期,已超出數據中心時代管理邊界。

多種多樣的開發語言、運行時以及當前采用的支持軟件和數據庫等,都已經超越了IT從業者的溝通界面,單獨的溝通形式難以滿足開發者之間的溝通需求。

企業資源是有限的,不斷增加的系統復雜性、故障排查難度正在竊取企業的創新時間,消耗 IT 從業者的時間。

點亮監控變革信號燈

企業上云或服務改造的過程中,通常會引入大量新興工具,服務業務爆炸性增長。云、微服務及容器的使用,將會對 IT 運維及數字化轉型帶來巨大挑戰。顯然,開源集成或傳統監控工具的管理方式已不合時宜,難以助力企業的數字化轉型。

●? ?每位用戶每一秒的體驗都非常重要,APM采樣方法無法做到全面、全量監控。

●? ?微服務快速更新的需求會使得監控的對象和指標量呈指數級增長,傳統方式難以實現海量數據的采集和分析。

相比傳統監控,可觀測性的側重點不同。傳統監控是對被監控設施所進行的明確的、可預測的審視和度量,是為了提高系統可觀測性而使用的手段,注重現實狀態的變化。而可觀測性是一種方法,通過檢查系統的外部輸出衡量系統內部狀態的能力,也是系統的核心能力。

因此,Gartner認證的應用性能管理(APM)解決方案提供商基調聽云認為,可觀測性是 IT 建設過程中的必要手段。在開發與維護的生命周期中,都應具備可觀測性能力,動態高效地定位并解決突發性問題,在系統不可用時,快速了解問題現狀及原因,有效預防故障發生,而不是簡單地降級限流。

可觀測性構建的正確打開方式

既然可觀測性相比傳統監控體系具有諸多優勢和價值,那么該如何構建呢?首先需要了解一個優秀的可觀測性平臺應具備什么樣的能力:

●? ?全面、全量的數據采集能力,擴大數據采集的廣度、深度及數量;

●? ?通過自動化技術實現數據采集的可伸縮和完整性;

●? ?高基分析的能力;

●? ?超大規模實時計算能力;

●? ?多源集成能力;

●? ?基于AI和確定性因果關系的根因分析能力;

●? ?業務實時洞察能力。

(基調聽云智能業務可觀測性平臺)

不同企業訴求不同,又該如何快速構建適合自身業務系統的可觀測性呢?以基調聽云可觀測性平臺的發展為例,構建完備的可觀測性平臺可以分三步走。

融匯:以用戶體驗和業務為中心,夯實數據基礎

全面豐富的數據是一切分析工具及決策的來源,盡可能收集基礎數據將有利于后續分析,否則當系統故障需要排查分析時,將難以有效評估當時的狀態。

為完善技術棧可觀測性數據的采集能力,基調聽云以Tracing為核心,全面采集APP、Web、小程序及系統應用的指標數據,以業務承載關系采集主機、云原生組件、數據庫、信息隊列指標數據。

●? ?融合撥測平臺(STM)主動采集可觀測性數據;

●? ?OneSDK / OneJS 采集集DEM終端的性能,會話和行為可觀測數據;

●? ?一體化 Agent 采集后端應用性能、基礎組件及日志數據,覆蓋從業務層、應用層到云原生基礎資源層全量可觀測數據采集;

●? ?支持 OpenTelemetry,第三方 APM 數據接入,指標體系基于 OpenMetrics 實現廣泛第三方可觀測性指標及元數據的接入。

融通:注重數據的治理與應用,數據關聯豐富化

眾所周知,傳統意義上可觀測性有三大支柱:Metrics 、Logging、Tracing,但割裂、無關聯的數據會對數據檢索帶來嚴峻的挑戰,更難進一步定位根因。

基調聽云將用戶體驗、Metrics 、Logging、Tracing為可觀測性的四大支柱,重點關注用戶體驗數據,以Tracing為核心,連通Mertrics、Logs 數據,實現數據間的關聯分析、統一建模與轉化關聯,做到問題的精準定位與數據的精準檢索,有效解決傳統監控的數據孤島問題。

?Tracing 為核心融合可觀測性三大支柱

此外,基調聽云通過實時的業務洞察、業務影響及流程分析,實現性能數據與客戶業務數據的有機結合,讓 IT 和業務在同一套平臺下協作,這也是基調聽云可觀測性平臺的核心競爭力之一。?

如上圖所示,通過指標與 Tracing 的結合可以對 VIP 用戶進行識別,設置 VIP 用戶的業務性能閾值,最終實現 VIP 用戶的告警和體驗保障。

融智:多元數據整合,增強數據應用能力及可觀測性

智能化技術在可觀測性數據分析中的作用不可或缺,可觀測性的數據只有被關聯起來一起分析時才能發揮出它們最大的價值,但可觀測性的數據是海量的,只靠人力分析、運維很難全面考慮,而人工智能算法是當前處理海量數據最有希望的方法。

此外,智能化技術在云原生系統運維中還將作為可觀測性的重要補充,發揮不可替代的作用,通過引入 AI 算法模型和機器學習,整合原有數據,可以進一步增強可觀測能力,如使用AI 進行容量預測,提前發現系統性能容量瓶頸,實現故障發現與預防。

智能故障管理

可觀測性體系的實踐案例

案例一:常見場景之客戶投訴

任何行業都有可能遇到客戶投訴的場景,面對客戶投訴,在使用可觀測性平臺的情況下,只需知道一個用戶標識即可輕松查詢相關信息。

相較傳統監控將信息傳給運維部門,再由研發人員檢索日志的方式,使用可觀測性平臺能夠大大提升檢索效率,減少時間成本。此外,除了快速響應客戶投訴解決問題外,還能夠通過對投訴時間段內所觀測信息的分析復盤,挖掘深層次的原因并掌握故障的影響范圍。

案例二:某大型銀行可觀測性實踐

隨著應用系統架構由傳統向新的架構平臺轉換,硬件架構由獨立服務器向虛擬資源池、容器環境轉換,某大型銀行面臨監控數據割裂,缺乏端到端應用性能觀測手段、用戶體驗觀測手段亟待建設等諸多業務挑戰。

如上圖所示,融合基調聽云SDK、SkyWalking和 OpenTelemetry 的調用鏈數據,通過抽取鏈路指標、關聯日志,實現可觀測數據的關聯融合。通過UserId及 TraceId的關聯,實現端到端的交易全鏈路問題追溯;通過基于真實用戶的用戶旅途,還原用戶會話行為;通過異常檢測、相關性分析和根因分析,實現IT系統問題的根因定位。

案例三:某運營商可觀測性建設

面對運營商缺少統一的DevOps監控工具、缺乏全鏈路調用追蹤和故障異常快速分析手段、難以保障重大體育賽事直播等種種業務挑戰,基調聽云從容迎戰。

通過基調聽云智能可觀測性平臺,將基調聽云APM監控、Zabbix基礎監控、日志易日志監控有機集合,實現一體化可觀測平臺。

最終該運營商從容地支撐了高達70萬tps的業務峰值,在國家級奧運盛事的直播期間,經第三方中立機構評測,用戶體驗性能得分第一。

案例四:某頭部城商行可觀測性一體化平臺建設

某銀行隨著信息科技系統架構日趨復雜、 客戶人數急劇增長,對需求快速交付,系統的穩定性、高效性、服務水平等方面都提出了更高的要求。

針對該銀行對實現管理對象統一調度、數據統一加工、工具統一治理,以及統一采控、統一數據、工具打通,優先解決故障告警分析的需求,基調聽云從多個方面助力改造:

●? ?通過可觀測性一體化平臺對接已有各專業運維工具,形成一體化的智能運維平臺,提升系統運行狀態感知能力,問題分析定位,應急處置能力,并提供統一運維門口,提升運維效率和業務連續性服務水平;

●? ?通過可觀測性一體化平臺構建智能運維大數據平臺,提供運維管理數據加工,指標體系計算能力,性能容量分析能力,業務系統健康度分析能力,智能告警分析能力;

●? ?通過可觀測性一體化平臺建設以用戶旅程為抓手的業務體驗端到端可觀測體系,為提升用戶體驗、系統健壯性提供支撐。?

可觀測性的用武之地才剛剛開始

龐大的數據量,系統架構的演化,讓容器、數據之間的關系變得錯綜復雜,故障排查棘手,此時打造具備可觀測性的系統成為應對之策。

可觀測性是云原生時代下能夠聯動 IT 與業務的能力,它本質上符合云原生環境以業務應用為核心的趨勢。從監控到可觀測性的發展,拓寬了傳統監控的能力邊界,打破了傳統被動監控方式,形成了主動、全局式的統一智能觀測能力,更有利地幫助我們掌握系統健康程度。

未來,隨著云原生的快速發展,可觀測性的發展潛力巨大,其用武之地才剛剛開始。

  • 隨著網絡和應用程序在生活和工作中變得越來越重要,很多人企事業單位對網絡和應用程序的依賴性越來越高。只有確保網絡運行良好、應用程序性能優越,才能提供更好的使用體驗。在這種情況下,網絡與應用性能監控?成為了不可或缺的工具。那么,該平臺有什么功能?

    2023-11-15

  • 近日,基調聽云關注到Apache Commons FileUpload 在1.5版本之前未限制要處理的請求部分的數量,導致攻擊者可以通過惡意上傳或一系列上傳來觸發拒絕服務。

    2024-03-19

  • 隨著企業信息化的不斷推進IT基礎運維監控的重要性日益凸顯,在it基礎運維監控?中指標選擇是至關重要的。正確選擇監控指標能幫助企業及時發現潛在問題,預測可能出現的故障從而有效避免損失,還可以大幅度的降低問題概率,監控指標主要包括以下幾個方面:

    2023-09-21

  • 移動應用性能管理系統是一種移動網絡管理方向,旨在對企業的關鍵業務進行監控、診斷和優化,提高企業應用程序性能的質量和可靠性。移動APM可以幫助各行業數字轉型,提升應用性能管理的效率。

    2023-08-11

  • 在當今數字化時代,基礎設施監控已經成為企業成功的關鍵因素之一。無論是數據中心、網絡設備還是工業自動化系統,有效的監控可以提高可靠性、安全性和效率。

    2023-11-08