業界動向

Claude Code「品質が落ちた」と言われた
3つの原因をAnthropicが公開

Claude Code品質低下の3つの原因を分析したAnthropicの公式報告

2026年3月から4月にかけて、AIコーディングツール「Claude Code」のユーザーから「品質が落ちた」という声が相次ぎました。Anthropicはこれを受けて、原因となった3つの問題を公式に分析・公開しています。

この記事では、Anthropicが公開した技術的な詳細を、中小企業の担当者にも分かるように噛み砕いて解説します。AIツールを運用している方にとって、「こういう落とし穴がある」という参考にしていただければと思います。

lightbulb

この記事を読むとわかること

  • check_circleClaude Codeの品質低下を引き起こした3つの具体的な原因
  • check_circle各原因の技術的な仕組み(専門用語を避けた説明)
  • check_circleAnthropicが採った修正策と再発防止の取り組み
  • check_circleAIツール運用において学べる教訓

背景:何が起きたのか

2026年3月頃から、Claude Codeのユーザーを中心に「以前より賢くなった気がする」「同じ質問なのに違う結果が返ってくる」といった報告が相次ぎました。Anthropicはこれを「品質低下の報告」として正式に認識し、徹底的な調査を実施。

その結果、3つの独立した問題が重なって発生していたことが判明しました。API(直接プログラムから使う方)には影響がなく、Claude Code、Claude Agent SDK、Claude Coworkといった対話型ツールにのみ影響がありました。

原因1:推論レベルの勝手なダウングレード

1つ目の原因は、推論の「力加減」が変えられていたということです。

Claude Codeには、AIがどれだけ深く考えるかを制御する設定があります。Anthropicは3月4日、Opus 4.6で「高(high)」だった推論レベルを「中(medium)」に下げました。理由は、高設定だとUIが固まって見えるため、レスポンスを速くするためです。

しかし、ユーザーは速さよりも賢さを求めていたため、これは間違えたトレードオフでした。4月7日に元に戻され、Opus 4.7ではさらに「超(xhigh)」がデフォルトになっています。

時期 推論レベル 影響
3月4日high → mediumレスポンス速いが賢さ低下
4月7日medium → xhigh修正。より深く考えるように

原因2:キャッシュバグで「思考の記憶」が消えていた

2つ目が最も深刻で、発見にも時間がかかりました。

Claude Codeは、長時間アイドル状態だったセッションを再開する際の待ち時間を短くするため、古い「思考履歴」を削除する最適化を施しました。ところが、バグにより1回だけ削除するはずが、以降のすべてのターンで思考が消去され続けていたのです。

これにより、Claudeは「なぜその編集をしたか」の記憶を失い、忘却っぽく、同じことを繰り返し、奇妙なツール選択をするようになりました。さらにキャッシュヒットも低下し、使用量制限が速く使い切られるという報告にもつながりました。

このバグは3月26日に導入され、4月10日に修正(v2.1.101)されるまで、実に2週間以上にわたって影響していました。発見が遅れた理由は、他の2つの無関係な実験(サーバーサイドのメッセージキューイング実験と、思考の表示方法の変更)が原因をマスキングしていたためです。

lightbulb

興味深いエピソード

事後の検証で、Opus 4.7にリポジトリ全体のコンテキストを与えたコードレビューを依頼したところ、このバグを発見できました。一方、Opus 4.6では見つけられなかったそうです。モデルの性能差が、バグ発見の可否を分ける一例です。

原因3:プロンプトによる発言量制限

3つ目は、Opus 4.7の冗長さ(verbosity)に対処するために入れた制限が裏目に出たケースです。

Anthropicは4月16日、システムプロンプトに「ツール呼び出し間のテキストは25語以内、最終回答は100語以内」という制限を追加しました。Opus 4.7は難しい問題ほど長く考える性質があり、それは賢さの源だったのですが、トークン消費を抑えるために制限をかけたのです。

内部テストでは問題が見つかりませんでしたが、より幅広いテスト(アブレーションテスト)を実施したところ、Opus 4.6と4.7の両方で3%の性能低下が確認されました。4月20日に即座に元に戻されています。

3つの原因が重なった影響

これら3つの問題は、それぞれ独立して発生しましたが、時期が重なったことで相乗効果を生みました。

原因 発生 修正 影響モデル
推論ダウングレード3月4日4月7日Sonnet 4.6, Opus 4.6
キャッシュバグ3月26日4月10日Sonnet 4.6, Opus 4.6
プロンプト制限4月16日4月20日Sonnet 4.6, Opus 4.6, Opus 4.7

Anthropicが採った再発防止策

Anthropicは以下の再発防止策を発表しています。

  • check_circle社内スタッフのより多くのメンバーが、公開版と同じビルドを使用する体制に移行
  • check_circleシステムプロンプトの変更時、モデルごとの幅広い評価スイートを実行する義務化
  • check_circle知性とのトレードオフがある変更には、浸透期間・段階的ロールアウトを導入
  • check_circleX(@ClaudeDevs)やGitHub上で、製品判断の背景を積極的に説明するコミュニケーション体制
  • check_circle全サブスクライバーの使用量制限をリセット(4月23日時点)

i-Styleでは、AIツールを日々業務で使っていますが、この事例を通じて「AIの出力が変わったと感じたとき、それはモデルの問題だけとは限らない」ということを改めて認識しました。設定やプロンプトの変更がないか確認する癖をつけることが、安定したAI活用には重要だと感じています。

まとめ

  • check_circleClaude Codeの品質低下は、推論設定・キャッシュバグ・プロンプト制限の3原因が重なった結果
  • check_circle最も深刻なキャッシュバグは2週間以上発見されず、他の実験にマスキングされていた
  • check_circleAPIユーザーには影響がなく、対話型ツール(Claude Code等)のみが対象
  • check_circleAnthropicは全問題を修正済み(最終修正: v2.1.116、4月20日)
  • check_circleAIツールの品質は「モデル」だけでなく「運用」で決まる。設定変更に注意を払うことが重要

お問い合わせ

AIツールの導入や運用について、お気軽にお問い合わせください。

お問い合わせページへ arrow_forward

まずはチャットボットで相談できます

記事の内容について「自社の場合はどう考えればいいか」を軽く確認したい方は、i-Styleサポートデスクbotもご利用ください。問い合わせ前の整理や、AI活用・Web活用の最初の相談窓口としてお使いいただけます。

i-Styleサポートデスクbotで相談する arrow_forward