2025年6月13日,AWS、Google Cloud 和 Cloudflare 幾乎同時遭遇服務中斷,引發全球范圍的社交媒體熱議。“這三家公司管理著近90%的互聯網活動和應用程序,怎么可能同時宕機?”一位軟件工程師的質疑,迅速成為行業共鳴。

這次事件并非局部問題。谷歌云明確表示,這是一場全球性影響的事故。據其狀態頁通報,由于身份和訪問管理服務(IAM)出現問題,GCP 多項產品受到波及,涵蓋 Gmail、Google Docs、Drive、Meet、Voice 等關鍵服務,Google Workspace 亦不同程度受影響。這意味著,不僅是云端應用,連企業協作與通信基礎設施也遭遇嚴重阻斷。與此同時,并未有任何關于 DNS 或 BGP 的異常報告,互聯網主干運行正常,指向此次問題源自云平臺控制層的系統性故障。

?
?

AWS 和 Cloudflare:狀態“正常”,但用戶“感知異常”

?
AWS 在其健康儀表盤上并未顯示異常,但用戶在美國東部地區普遍報告出現訪問緩慢、服務不可用等問題。AWS 回應稱服務整體正常,強調官方狀態頁面是“唯一可信信息來源”。Cloudflare 則在聲明中承認多個服務出現間歇性故障,包括 Access、WARP、Workers KV、Stream、AI Gateway 等。公司指出,受影響服務在緩存重試期間仍可能出現間歇性錯誤,團隊正在評估并持續修復。

到了美國東部時間下午5點,谷歌表示已在 us-central1 和其他美國區域實施緩解措施,并開始觀察到恢復跡象,預計服務將在一小時內全面回歸。

?

去中心化的云世界,依然有“單點風險”

?
從市場與用戶側的視角看,這次事件揭示了一個耐人尋味的事實:盡管企業早已進入多云架構與邊緣計算時代,但關鍵控制節點的集中性依賴仍舊存在。當 IAM 或平臺控制層服務中斷,現代云原生應用的“自恢復能力”將瞬間失效。更令人擔憂的是,多個云廠商幾乎同時出問題,難免引發關于“底層依賴是否存在共震鏈條”的疑問。

在企業紛紛追求 DevOps、自主可觀測與 AI Ops 的當下,“只信官方儀表板”顯然已不能滿足運維團隊對高頻變動、異地可用性與真實用戶體驗的感知需求。

?

?

在不可控的“云波動”中,聽云撥測如何提供確定性的答案?

?

從6月13日的集體宕機事件可以看出,無論是谷歌云IAM系統的失效,還是Cloudflare邊緣服務的間歇性中斷,又或是AWS狀態頁“無事發生”背后用戶真實感知的反常,都指向了一個核心問題——企業無法通過云廠商的自有狀態視角,獲取真正的服務可用性狀況。

在這類突發事件中,基調聽云Network 撥測產品體系提供了一套“模擬用戶真實訪問路徑 + 多云環境主動感知”的解決方案,讓企業在混亂之中獲得真正的“外部視角”和“用戶視角”。

?

我們通過全球200+運營商/地域節點,在美國、歐洲、亞太等區域持續撥測多家云平臺和業務應用,可有效完成以下任務:

?

  • 發現異常更早:

    在官方狀態頁更新前,通過 API 接口、登錄鏈路、CDN 加速路徑的探測,快速識別服務是否“功能性不可用”;

  • 明確是“你掛了”,還是“云掛了”:

    支持按地區/鏈路分布式對比,清晰判斷問題是否出在自身業務系統、目標云平臺,還是某段網絡路徑;

  • 支持多協議多場景監控:

    不僅支持 HTTP、Ping、DNS、TCP 等基礎協議,還可模擬用戶交互(如登錄、上傳、支付等業務關鍵路徑);

  • 實時熱力圖與告警聯動:

    通過撥測地圖與自定義 SLA 閾值策略,實時展示全球服務抖動態勢,并聯動 APM/RUM 產品完成故障定位;

  • 支持多云/跨云平臺統一監控視圖:

    幫助企業建立 AWS/GCP/Cloudflare/Azure 等平臺在各地的質量對比基線,支撐流量切換或多云容災策略。

簡而言之,在官方“報喜不報憂”的世界里,基調聽云撥測可以做企業真正的“預警哨兵”,提前感知風險,快速做出決策,為全球業務連續性提供保障。

?

預告:基調聽云即將推出針對手機廠商的全球用戶體驗相關分析報告,以真實撥測數據揭示云廠商服務質量波動,敬請關注。

?

推薦閱讀