AIコーディングエージェントを日常的に使っていると、「なんか最近、品質が落ちた気がする」「以前ほど的確に動いてくれない」という感覚を覚えることがある。しかし、その「感覚」を定量的に証明するのは難しかった。そこに登場したのがcc-canaryだ。セッションログを解析し、モデルのドリフト(挙動変化・性能劣化)を統計的に検出するオープンソースツールで、コミュニティから注目を集めている。

そもそも「ドリフト」とは何か

AIモデルのドリフトとは、同じプロンプト・同じタスクに対してモデルの挙動が時間をかけて変化していく現象だ。モデルのアップデート、コンテキストの変化、あるいはユーザー側の使い方の変容など、複数の要因が絡み合う。問題は「気づきにくい」こと。じわじわと変化するため、「なんか違う」と感じる頃にはすでにかなりの変化が蓄積されている。

cc-canaryは、Claude Codeが~/.claude/projects/に自動書き出しているJSONLセッションログを読み込み、以下のような指標を追跡する:

  • Read:Edit比率 — 編集前にどれだけコードを調査するか
  • 推論ループ率 — 「やり直し」「ちょっと待って」などの自己修正フレーズの頻度
  • 思考可視性(Thinking Redaction Rate) — thinkingブロックの編集率。推論深度のプロキシ指標
  • ターンあたりのトークン数 — 処理量の時系列変化
  • コスト推移 — USD単位での実コスト(ccusageとセント単位で一致することを確認済み)

これらをもとに「HOLDING(安定)/ SUSPECTED REGRESSION(疑い)/ CONFIRMED REGRESSION(確認)/ INCONCLUSIVE(不明)」の4段階で判定し、法医学的なMarkdownまたはHTML形式のレポートを生成する。

技術的な仕組みと設計思想

特筆すべきは、ネットワーク不要・アカウント不要・テレメトリなしという設計だ。すべての処理はローカルのセッションログに対して完結する。バックグラウンドデーモンも不要で、実行時のみ動作する。

インストールは1コマンド:


出典: この記事は CC-Canary: Detect early signs of regressions in Claude Code の内容をもとに、筆者の見解を加えて独自に執筆したものです。