Anthropicが自社で検証「AI SREは相関を因果と誤認する」

はじめに

「AIにインシデント対応を任せれば、もうオンコールで深夜に叩き起こされることはない」——そう期待するエンジニアは少なくないでしょう。しかし、AIを開発する側のAnthropicが自ら「AI SREには構造的な限界がある」と認める発表を行いました。QCon London 2026（3月19日）で、Anthropicの信頼性エンジニアリングマネージャーAlex Palcuie氏が、Claudeを使ったインシデント対応の実体験と、そこから見えた根本的な課題を公開。はてなブックマークで182 usersを記録し、国内でも大きな注目を集めています。

「Claudeで Claudeを直す」——Anthropicの運用体制

Palcuie氏は元Google Cloud PlatformのSREで、現在はAnthropicでClaudeの信頼性を担当しています。チームは2026年1月からLLMをインシデント対応に本格導入し、ログ解析やアラート対応にClaudeを活用してきました。

Claudeの強みは明確です。ログを「I/Oの速度で」読み込み、人間には不可能な規模でパターンを検出できます。疲労もなく、24時間稼働可能。実際に大晦日のHTTP 500エラー対応では、Claudeが4,000件の同期アカウントを発見し、単純なバグではなく不正アクセスであることを特定しました。これは大量のログから異常パターンを拾い上げるAIの得意分野そのものです。

しかし、Palcuie氏が強調したのは「AIには根本的にできないこと」でした。

核心的な限界：相関と因果の混同

発表で最もインパクトがあったのは、KVキャッシュ障害の事例です。

キャッシュが破損した際、モニタリングはリクエスト数の増加を検知しました。Claudeはこれを「キャパシティの問題」と診断し、サーバーの増設を提案。しかし実際の根本原因はキャッシュの喪失そのものでした。リクエスト増加はキャッシュが効かなくなった結果であり、原因ではありません。

これがLLMの構造的限界です。LLMはパターンマッチングで動作します。学習データ上で「Aの後にBが起きた」というパターンを認識し、それを因果関係として扱います。「メモリ使用量が急増した後にレスポンスタイムが劣化した」というログを見れば、メモリが原因だと結論づける。しかし実際にはロックコンテンションが真の原因で、メモリ使用量はその副作用に過ぎない——こうした判断はAIには困難です。

Palcuie氏はこう述べています。

“This is why we can’t trust LLMs for incident response”

「80%のストーリー」問題

もう一つの重要な指摘が、ポストモーテム（障害報告書）の生成に関するものです。

Claudeにポストモーテムを書かせると、体裁は整い、読みやすく、説得力のある文書が出力されます。しかしそれは「80%のストーリー」に過ぎません。表面的には完成度が高く見えるため、レビューする側が見落としやすい。真の根本原因にたどり着けていないにもかかわらず、「もっともらしい」報告書が組織に受け入れられてしまうリスクがあります。

この問題の根底にあるのは、AIが持てない文脈の欠如です。

10年間の運用で蓄積されたシステムの癖や挙動パターン
過去のインシデントで得た「傷跡」（scar tissue）としての暗黙知
組織のプロセスや人間関係が障害にどう寄与したかの理解
複合的な障害を単一原因に帰着させない判断力

これらは学習データには載っていません。ベテランSREが持つ暗黙知であり、AIが最も苦手とする領域です。

AI SRE導入の現実的なアプローチ

では、AI SREは使えないのでしょうか。そうではありません。重要なのは「何に使い、何に使わないか」を明確にすることです。

Palcuie氏の発表と業界のベストプラクティスを総合すると、AI SREの導入には段階的な成熟度モデルが有効です。

Read-Only（観察）: AIがログ・メトリクスを監視し、相関パターンを要約する。人間が判断する
Advised（助言）: AIが対応アクションを提案する。実行は人間が行う
Approved（承認制）: AIが修復を実行するが、人間の承認を必須とする
Autonomous（自律）: ガードレール付きで、限定的な修復をAIが自動実行する

現時点で安全なのは1〜2のレベルです。Palcuie氏が示した3つの検証プラクティスも実践的です。

代替仮説の要求: AIが原因を提示したら「他にどんな可能性があるか」を問う
タイミングの独立検証: 「直近の変更が原因」という結論を鵜呑みにせず、時系列を自分で確認する
デプロイ無関係シナリオの検討: デプロイと無関係な原因（キャッシュ破損、外部依存の障害など）を意識的に洗い出す

まとめ

Anthropicが自社のAI運用で得た知見は明快です。AIはSREの仕事を「速くする」が「置き換える」ことはできない。ログの高速解析や異常パターンの検出はAIの独壇場ですが、根本原因の特定には人間の文脈理解と因果推論が不可欠です。Palcuie氏は「システムはさらに複雑化する（ジェヴォンズのパラドックス）」とも指摘しており、SREエンジニアの育成と知識の蓄積は今後も続けるべきだと強調しました。AI SREツールを導入する際は、段階的な成熟度モデルに従い、人間の判断を中心に据えた運用設計が重要です。

今日のその他のニュース

WebAssemblyの現在地 — 期待とのギャップを分析

What Happened To WebAssembly（Reddit 105pts）。ブラウザ外でのユースケース拡大が進む一方、当初期待された「JavaScriptキラー」にはなっていない現状を詳細に分析。WASIやコンポーネントモデルの進展が今後の鍵。

さくらインターネット、ガバメントクラウド事業者に採択

さくらインターネット公式発表（はてブ 138 users）。日本のガバメントクラウドサービス提供事業者に選定。国内クラウドインフラの自立性強化に向けた動き。

Microsoft社内でWindows 11のMSアカウント必須撤廃の動き

Windows Central報道（HackerNews 268pts）。Microsoft社内からWindows 11セットアップ時のMicrosoftアカウント必須要件の撤廃を求める声。ユーザーの長年の不満に社内からも同調。

Anthropicが自社で検証「AI SREは相関を因果と誤認する」— QCon 2026で語られた限界と現実解