代號橙色:小範圍故障防護計畫提升網路韌性
日期:2025年12月19日
作者:Dane Knecht
2025年11月18日,Cloudflare的網路經歷了約兩小時十分鐘的重大故障,三週後的12月5日,又出現了影響28%應用程式約25分鐘的中斷。我們已針對這些事件發布詳細的事後報告,但我們知道需要做更多工作以重拾您的信任。今天,我們分享Cloudflare目前進行中的工作細節,以避免類似中斷再次發生。
計畫名稱為「代號橙色:小範圍故障防護」,其目的是使我們的網路更具韌性,能夠抵抗可能導致重大中斷的錯誤或失誤。「代號橙色」意味著此計畫的工作優先於其他所有工作。過去在Cloudflare發生重大事件後,我們曾宣告過「代號橙色」,需要全公司的最高優先處理。我們認為最近的事件需要同樣的關注,以便讓跨部門團隊能夠專注完成任務,暫停其他工作。
計畫的三大方向
- 控制配置變更:要求對任何傳播至網路的配置變更進行受控的滾動發布,就像我們目前對軟體二進制發布的做法。
- 強化系統故障模式:審查、改進和測試所有處理網路流量系統的故障模式,以確保在所有條件下(包括意外的錯誤狀態)均表現出明確的行為。
- 優化緊急程序:更改內部的「破壞玻璃」程序,消除任何循環依賴,以便在事件期間我們和客戶都能迅速行動並無障礙地存取所有系統。
這些項目將在進行中逐步帶來改進,而不是在結束時進行一次性大變革。每次更新都將提高Cloudflare的韌性。最終,我們期望Cloudflare的網路能夠更加堅韌,包括那些引發過去兩個月全球事件的問題。
發生了什麼事?
在第一次事件中,用戶訪問Cloudflare客戶網站時看到錯誤頁面,顯示Cloudflare無法響應他們的請求。在第二次事件中,他們看到空白頁面。
這兩次中斷都遵循類似的模式。在每次事件發生前,我們立即在全球數百個城市的數據中心部署了一次配置變更。
11月的變更是自動更新我們的機器人管理分類器。我們運行多個人工智能模型,從流經我們網路的流量中學習,以構建識別機器人的檢測。我們不斷更新這些系統,以超越試圖避開我們安全保護的惡意行為者,從而抵達客戶網站。
12月事件期間,為了保護我們的客戶免受流行的開源框架React中的漏洞影響,我們部署了一種用於改進我們簽名的安全工具的變更。與新的機器人管理更新的緊迫性類似,我們需要先發制人地阻止試圖利用漏洞的攻擊者。這一變更觸發了事件的開始。
這一模式揭示了我們在Cloudflare部署配置變更與釋放軟體的方式之間存在的嚴重差距。