近日,成都核酸、東軟集團回應等詞條頻頻沖上熱搜,而多次的回應也被網友們戲稱為“甩鍋”行為,那么,成都核酸系統的崩潰究竟是誰的鍋呢?這要從成都市9月1日發布通知說起。
據成都相關部門消息,9月1日至4日,成都在全市范圍內開展全員核酸檢測。9月2日晚,核酸檢測系統出現異常,導致采樣排隊時間過長,核酸檢測進度緩慢,給市民群眾帶來困擾和不便。做核酸的隊伍至少排3個小時,還有工作人員齊齊舉起手機找信號的場面也令人唏噓,網友調侃原來抬頭并不一定是看星星。這也是繼西安健康碼崩潰后的又一大核酸系統故障事件。

而根據東軟的回應來看,東軟認為此次問題的出現并不是系統層面的問題,而是網絡性能問題導致。隨后,四川省通信管理局發文反駁了東軟說法,表示全市通信網絡運行平穩,各核酸檢測點移動網絡覆蓋良好,沒有出現網絡擁塞和故障。
各方說法不一,對故障原因始終沒有明確的界定,讓輿論不斷發酵,最重要的是影響了全市用戶生活。



所以,在面對突如其來的甩鍋問題上,我們應該如何正確界定故障發生的責任從而避免甩鍋行為呢?
要知道的是,外包項目在交付和驗收過程中,我們除了驗證基本的功能可用外,不能忽視一個很重要的問題就是壓力測試與性能監控。
爭做事前諸葛亮,提早預知問題
?
爭做事前諸葛亮,提早預知問題
?
據統計成都市人口2千萬多人。假設集中在6小時內做核酸,平均每小時支持的并發人數是3531666。每秒支持的并發約為1000。基于檢測人員的集中度不均衡的因素,假設高峰期是平均并發的2-3倍。則每秒并發“核酸登記”2000-3000左右。
基于以上問題,我們可以在系統上線前針對服務商提供的系統進行全方位的健康度檢測,針對使用過程中的任意場景完成壓力測試,以確保系統正式使用中能夠達到交付標準,從而對系統供應商有量級的考核標準,也就是完成事前定量。
明確問題所在,防止被“甩鍋”
?
明確問題所在,防止被“甩鍋”
?
中國企業家采訪報道,核酸系統看似簡單,但背后涉及到電信運營商、云服務平臺、運維系統、數據庫等多個供應商,還要協調官方管理體系,在執行層面就像裝滿水的木桶,抽掉任何一條木板,工作都會停擺。有時候某一家供應商出現問題,就會影響整體工作。因此在系統正式上線后的日常運行中,了解用戶體驗情況,實時分析用戶所遇到的問題從而在用戶訪問過程中對波動情況進行及時分析極為重要。
這里推薦一套基調聽云壓測和性能監控解決方案。這套方案首先可以幫我們明確以下幾點:系統正常運轉需要關注的指標;用戶體驗良好,這些指標需要達到什么樣的標準;系統不能達到預期瓶頸和問題根源所在。
基調聽云很明確的指出保障小程序用戶體驗良好需要關注的指標有:頁面加載耗時、卡頓率、操作可用性、請求耗時、JS錯誤率、請求錯誤率、onReady。

同時基調聽云也會給出每個指標的評分標準和行業參考值,最終產出一個性能評分,基于性能評分即可判斷系統的用戶體驗和可用性。
借助基調聽云的壓力測試產品即可基于軟件未來交付后需要支撐的用戶規模進行模擬壓力,通過逐步增加并發數,可以看到頁面打開時間、接口響應時間、卡頓率等關鍵指標等變化。

在看到前端用戶體驗的指標變化的同時,也能看到后端服務指標的變化,如下圖。

根據服務的指標再去分析性能變差的原因和錯誤率上升的原因。
分析性能變差可以通過請求分析、追蹤分析定位具體慢的原因。下圖是一個獲取數據庫連接超時造成的整個請求變慢。


錯誤是服務變差的重要信息,基調聽云的錯誤分析可以通過錯誤趨勢->錯誤列表->錯誤Message的匯總->Stracetace來由粗粒度到細粒度的逐層分析錯誤的原因。

一般來說造成服務錯誤率升高或者響應時間變慢的原因是基礎組件問題導,如JVM GC時間過長、CPU利用率過高、內存不足、IO延遲過高、網卡帶寬占滿等。確認了服務問題后還可以進一步下鉆主機、進程、Pod等相關的指標信息,從而確認故障的根因。




基調聽云不僅僅在前期壓測工作可以提供幫助,在日常系統運行中,如用戶遇到性能問題,我們也可以快速定位該用戶的訪問軌跡,以及針對問題進行全鏈路追蹤問題定位??~
用戶訪問軌跡,可以看到每個用戶訪問系統的全過程以及是否發現性能問題,每一步都可以追蹤。

當接口慢的時候可以直觀分析是當前用戶網絡還是服務端響應比較慢。

如果確認為服務端響應慢,還可以進行深入的全鏈路追蹤到服務端,查看調用鏈路。系統會自動判斷疑似問題。

全方位可觀測體系建立,讓問題無所遁形
?
全方位可觀測體系建立,讓問題無所遁形
?
目前,疫情形勢仍十分嚴峻,各省市的核酸檢測機構均承擔著較大的責任,因為其承擔著全省市級別的用戶,無論是對系統的容量、穩定性還是網絡性能,都面臨著更為嚴格的挑戰和考驗。
此次成都核酸檢測系統崩潰事件,面對東軟突如其來的甩鍋行為,成都市疫情防控指揮部相關負責人對媒體表示是核酸系統對短時超大并發量預估不足,導致系統出現卡頓問題。四川省通信管理局隨后也第一時間自查網絡性能數據指標公布了系統運行數據確認了所出問題并非網絡層面,對這口鍋格擋并成功防守。
由此可見,在問題出現后,除了要保證自家系統性能穩定,如何精準識別“甩鍋”和如何利用性能數據有理有據地“甩鍋”也是應具備的技能。基調聽云新一代貫通全棧IT與業務的智能可觀測性平臺的五大層面能力升級:全棧數據采集、多維多源智能分析、以應用和業務為中心、可觀測數據的縱橫融合打通、全方位可觀測。強調了數據所發揮的強大作用。智能可觀測性平臺的建立,可以極大的保障核酸檢測應用系統的穩定運行,從而保障市民權益。

新一代貫通全棧IT與業務的智能可觀測性平臺,通過對600+技術棧進行適配擴展,將追蹤、日志、指標、行為、業務等多源數據統一采集、處理和分析模型,構建基調聽云可觀測中臺,納入現有技術實踐成果,對其進行融合分析,通過OneTrace模型展示整個應用的調用結構,結合獨有的AI能力實現根因診斷、異常監測、智能告警,形成完整的可觀測體系,最終建立基于業務分析的可視化模型,更深入的幫助用戶實現業務可觀測性。
在數字化時代,應用程序的性能和可靠性對于企業的成功至關重要。無論是在線零售、金融服務、醫療保健還是任何其他行業,apm應用性能管理都成為了保持競爭力的核心要素。本文將深入探討apm應用性能管理廠家的角色,他們的產品種類以及如何通過apm提高業務競爭力和用戶滿意度。
2023-09-05
java有著非常多的優勢,例如:可跨平臺、穩定性高、安全等都是它具有的優勢,這些優勢也深受廣大java程序愛好者的喜歡,但java應用程序也有它不好的地方,例如:大量數據處理等,都影響應用程序的性能和穩定性,因此,apm監控java應用對于我們來說是非常重要的。
2023-09-15



