?

俗話說:“巧婦難為無米之炊”。想要把系統性能問題查個水落石出,就必須先準備好充足而細致的數據。性能數據不僅是可觀測性分析的基礎,定位故障的基石,更是做出正確優化決策的前提。
觀云從多種維度采集豐富的監控數據,包括指標(Metrics)、日志(Logs)和鏈路(Traces)等,從而支撐可觀測平臺全面、準確的定位及分析系統問題。

?

?

?

鏈路(Traces)數據的采集方式

?

?

鏈路(Traces)數據的采集方式主要包括:探針(Agent)方式 和 SDK 方式。
·?其中,探針(Agent)方式:
無需修改應用源碼,通過自動注入的方式實現數據采集。目前支持多種主流技術棧,包括 Java、.NET、.NET Core、Node.js、PHP、Python、Go、Nginx 等。
支持Linux、Windows等主流操作系統,支持Amd64和Arm64 CPU架構。
支持對運行在 Docker 容器 和 Kubernetes Pod 中的應用自動注入探針,實現無侵入部署。
同時,提供 黑白名單過濾機制 與 標簽(Label)控制策略,可靈活選擇采集范圍,顯著簡化部署與管理復雜度,更貼近實際運維管理模式。·?其中,SDK 方式:
通過在應用中嵌入采集代碼并重新編譯實現數據采集,適用于無法自動注入的語言或有更高自定義需求的場景。目前提供 C/C++ 與 Go Lang SDK。

?

?

?

采集的數據內容主要包括

?

?

采集的數據內容主要包括:事務、數據庫、NoSQL、MQ、網絡I/O、異常、錯誤、JVM、HTTP Headers、自定義的方法參數等各種數據及業務指標。

?

?

?

指標(Metrics)數據的采集方式

?

?

指標(Metrics)數據的采集方式主要包括:使用自研基礎設施Infra探針采集 、promethus指標接入、 opentelemetry指標接入方式。自研基礎設施Infra探針目的是采集操作系統和組件的監控指標,與APM的應用指標關聯,快速幫用戶定位問題,同時基調聽云基礎設施希望最小化用戶部署的工作量,所以設計上希望能原生接入用戶原有的監控系統如Zabbix、Promethus等·?其中,自研基礎設施Infra探針不但可以采集本機主機CPU、內存、網絡、磁盤IO等基礎指標數據,還可以通過讀取遠程主機的狀態接口,獲取組件、服務、數據庫等監控對象的性能指標數據,例如Nginx指標,Mysql指標,MQ指標等·?其中,promethus指標接入可以通過promethus的Remote read或Remote write 接口接入標準promethus格式的監控指標數據,經過指標治理接入觀云平臺。
·?其中,opentelemetry指標接入可以通過opentelemetry的Metric接口接入標準opentelemetry格式的監控指標數據,經過指標治理接入觀云平臺。

?

?

?

日志(Logs)數據的采集方式

?

?

日志(Logs)數據的采集方式主要包括:使用自研基礎設施Infra探針采集 和 opentelemetry指標接入方式:·?其中,自研基礎設施Infra探針不但可以采集本機應用產生的日志數據,還可以采集容器內應用產生的日志數據。
·?其中,opentelemetry指標接入可以通過opentelemetry的Logs接口接入標準opentelemetry格式的日志數據,經過治理接入觀云平臺。除了上述三大類數據外,觀云平臺還支持基于 eBPF(Extended Berkeley Packet Filter) 技術的數據采集能力,能夠對進程執行 on-CPU 堆棧剖析、off-CPU 堆棧剖析,以及對進程的網絡行為進行深度觀察與分析。堆棧剖析(Stack Profiling)
觀云通過 eBPF 技術采集進程中所有線程的堆棧信息,不僅覆蓋 應用層函數調用棧,還包含 內核態調用棧。采集到的堆棧地址會自動進行符號化轉換,映射為可讀的源代碼與函數名稱。
·?結合 火焰圖(Flame Graph)?展示形式,用戶可以直觀地分析進程當前正在執行的操作路徑,從而快速定位性能熱點與故障根因。網絡觀測(Network Observation)
觀云利用 eBPF 技術無侵入地采集進程產生的網絡數據,
·?采集的維度包括:進程 PID、對應網卡名稱、對端主機 IP 與端口等;
·?采集的指標包括:連接失敗次數、連接成功次數及耗時、發包次數與字節數、收包次數與字節數、丟包次數、重傳次數、通信中斷次數、RTT 網絡時延、RTT 波動方差、擁塞窗口大小、零窗口探測次數等。通過這些維度與指標,觀云能夠構建應用間的實時拓撲關系,揭示節點間的網絡依賴與性能瓶頸,幫助用戶快速定位復雜系統中的網絡異常與性能問題。


推薦閱讀

  • Web前端性能測試是一種測試方法,用于檢測網站或應用程序的前端性能,包括頁面加載速度、響應時間、資源使用等方面。它可以幫助開發人員和運維人員了解前端頁面的性能瓶頸,找出問題并優化,從而提高用戶體驗。

    2023-06-30

  • 隨著數字化時代的不斷發展,各類應用逐漸滲透進了大眾生活的各方各面,而如何保證應用穩定運行并為用戶提供良好體驗便成為了企業關注的熱點,因此,APM應用監控便走進了我們的視野。APM應用監控?作為一種全方面監控應用性能的解決方案,正在逐漸成為企業和開發團隊不能缺少的重要工具,為越來越多企業提供便利和幫助。

    2023-10-10

  • 隨著信息技術的快速發展,企業的IT基礎設施規模不斷擴大,系統運維管理變得越來越復雜。為了確保系統的穩定性和高效性,運維團隊逐漸采用了各種運維監控工具? 。本文將從其定義、功能和優勢等方面介紹,幫助讀者了解和選用適合自己企業的運維監控工具。

    2024-01-18

  • CDN質量優化是指通過一系列技術手段,對內容分發網絡(CDN)進行優化,提升其性能和可靠性,從而提高網站訪問速度和用戶體驗。內容交付網絡(CDN)是一種基于用戶地理位置、網頁來源和內容交付服務器的分布式服務器的系統,該系統將頁面和其他Web內容交付給用戶。CDN質量優化常用的技術手段有哪些?

    2023-06-14

  • 服務器網絡壓測工具成為了保證服務器運行穩定性和可靠性的重要手段。但是,市面上各種類型的網絡壓力測試工具琳瑯滿目,如何選擇一款適合自己的工具,是每個企業和個人在進行網絡壓力測試時都需要面對的問題。下面將為大家介紹如何選擇服務器網絡壓力測試工具。

    2023-05-23