可觀測性稅

當你花在「看系統」的錢超過「跑系統」的錢

$7.5M/年 真實案例 82% 企業感到帳單衝擊 0 個 Skill 在解決

你是 SRE Lead。今天是每月的第一個星期二。
雲端帳單到了。上個月總額:$847,000
你打開明細,胃開始翻攪...

每月雲端帳單

每月基礎設施費用
2025 年 6 月
運算(EC2/EKS)$186,000
儲存(S3/EBS/RDS)$94,000
網路(ALB/NAT)$67,000
其他 AWS 服務$52,000
小計:基礎設施$399,000
Datadog(APM + Logs + Infra)$228,000
PagerDuty$18,000
Splunk(安全日誌)$142,000
New Relic(合成監控)$34,000
Sentry(錯誤追蹤)$26,000
小計:可觀測性$448,000
TOTAL$847,000
可觀測性:$448K  >  基礎設施:$399K

你花在「看系統」的錢比「跑系統」多了 12%

費用解剖

你拉出 Datadog 用量報告。結果令人震驚。

Datadog:每月 $228K 明細

發現

Datadog 帳單的 85% 是自訂指標和日誌攝取。追蹤下去發現:

你要怎麼做?

砍掉日誌

移除 DEBUG 日誌,立即每月省 $67K

全部保留

你不敢冒險漏掉下一次事故——那些日誌可能很重要

可觀測性兩難

如果砍掉

每月省 $67K。三週後支付系統出 bug,沒有日誌可以 debug。事後檢討寫著「可觀測性不足」。你被究責。

每月節省$67K
職涯風險
決策依據直覺

如果保留

帳單維持 $448K。財務部問「為什麼監控花的比基礎設施多?」你說「我們需要。」他們問「證明一下。」你證明不了。

每月浪費$67K
職涯風險
決策依據恐懼

真正的問題

無從得知哪些日誌、指標和 trace 真正幫助了事故排查,哪些是純粹的浪費。沒有人知道。所以每個人都全部留著,繼續繳稅。

r/devops — 847 讚
「我們的可觀測性費用現在比 AWS 帳單還高。我們把 metrics 從 Datadog 遷到自建的 Prometheus/Grafana,只保留 DD 的 APM。帳單從 $180K 降到 $45K。但花了 3 個工程師 4 個月。」
r/sre
「我們目前每年花大約 750 萬美元在可觀測性工具上。最後我們自建了內部可觀測性平台,但光維護每年也要 200 萬。」

470 億美元的可觀測性市場

$47B
2026 可觀測性市場規模
82%
企業將雲端成本列為首要顧慮
15-20%
運算支出花在監控上
0
個 skill 在降低這個成本

Skill 市場的諷刺

我們掃描了 1,995 個 agent skill,找到 74 個監控相關的。它們在做什麼:

這些 skill 教你怎麼設定正在讓你破產的工具。
沒有一個幫你搞清楚該砍什麼。

目前市場上有什麼

Datadog 成本估算只看總額,不分服務
Vantage / CloudZero只管基礎設施,不管可觀測性
Prometheus + Grafana便宜但要自己搬遷
每行日誌成本歸因不存在
日誌/指標 ROI 分析不存在

每月檢視應該長這樣

可觀測性 ROI 報告 — 2025 年 6 月
可觀測性總支出$448,000
用於事故排查(值得保留):
  APM traces(payment-processor)$34,000 — 3 次事故使用
  錯誤追蹤(Sentry)$26,000 — 47 個警報被處理
  基礎設施指標(CPU/mem/disk)$42,000 — 12 次擴展事件
  安全日誌(認證失敗)$38,000 — 2 次事故調查
合理支出$140,000
從未使用(可安全刪除或降頻):
  DEBUG 日誌(payment-processor)$67,000 — 90 天內 0 次查詢
  高基數自訂指標$89,000 — 3 個儀表板、0 個警報
  重複 traces(3 個工具重疊)$52,000 — 冗餘覆蓋
  K8s 事件日誌(冗長)$41,000 — 從未被調查
  合成監控(廢棄路由)$18,000 — 測試已死的端點
可削減支出$267,000
尚未分類$41,000 — 需要審查

現在:基於恐懼的決策

每月支出$448K
已知浪費不明
決策方式「搞不好會用到」
砍的信心

有成本歸因

合理支出$140K
可安全削減$267K(60%)
決策方式用量數據
年度節省$3.2M

核心發現

可觀測性成本危機的數字

60%
可觀測性支出是浪費(基於模擬)
0
個工具將成本歸因到事故價值
$3.2M
年度節省潛力(中型公司)
74
個監控 skill — 全是設定指南,0 個成本最佳化

缺失的工具

每個可觀測性廠商告訴你系統裡發生了什麼。沒有一個告訴你知道這件事花了多少錢,以及知道這件事是否值那個價

缺失的工具應該能:

又是同一個規律

這和我們在所有 8 個痛點類別發現的規律一模一樣:

Skill 在做的

幫你設定 Datadog、配置儀表板、寫 PromQL 查詢、部署 Grafana

使用者需要的

知道哪些儀表板沒人看、哪些日誌花 $67K 卻省了 $0、哪些警報只在製造噪音

「Skill 市場為設定而最佳化,不是為求生而最佳化。」

研究方法