Sahil Senら5名の研究チームが2026年5月に公開したarXiv論文が、Claude Code・OpenAI Codex CLI・Google Gemini CLIという3つのAIエージェントハーネスを使った実証実験で「古典的なgrep(パターンマッチング)がベクトル検索を多くの場面で上回る」ことを示し、RAG設計の常識に一石を投じている。

RAGの「常識」に疑問を投げかけた研究

近年のLLMエージェント開発において、検索拡張生成(RAG: Retrieval-Augmented Generation)はほぼ標準アーキテクチャとなっており、「精度の高い検索にはベクトルデータベース(セマンティック検索)が必要」というのが暗黙の常識になっていた。

しかしこの論文は、「実際のエージェントループの中でどちらが機能するか」という実務的な問いに正面から取り組み、その前提を揺さぶる結果を示している。

実験の設計:2段階で公平に比較する

研究では2段階の実験が行われた。

実験1:LongMemEvalでの直接比較

長期対話履歴の記憶能力を評価するベンチマーク「LongMemEval」から116問をサンプリング。独自ハーネス「Chronos」を加えた4環境で、grepとベクトル検索の正答率を比較した。注目すべきは、ツール呼び出し結果の「提示方法」も変数に組み込んだ点だ。LLMがツール結果をプロンプトに直接受け取るインライン方式と、ファイルとして書き出してLLMが別途読み込むファイルベース方式の両方をテストしている。

実験2:ノイズ耐性のテスト

実際のユースケースでは、関連情報が大量の無関係なコンテキストに埋もれることが多い。実験2では無関係な会話履歴を段階的に増やし、両手法のノイズ耐性を定量的に比較した。

主要な発見:ハーネスが検索アルゴリズムを超える

発見1:grepの優位性

4ハーネスを通じて、grepはベクトル検索より高い精度を示した。LLMが出力したクエリに対して、ベクトル空間での近似マッチングよりも文字列の確実な一致・部分一致の方が信頼性が高かったのだ。

発見2:ハーネス設計が精度を決定する

より重要な発見は「同じ会話データ・同じ検索アルゴリズムを使っても、どのハーネスを使うかで精度が大きく変わる」という事実だ。Claude Code、Codex CLI、Gemini CLI、Chronos、それぞれで同じデータに対して異なるスコアが出た。ツール結果の提示方法(インライン vs ファイルベース)もスコアを動かす変数となった。

日本のIT現場への影響

RAGパイプラインのコスト再考:ベクトルデータベースの導入・運用には相当なコストと複雑性が伴う。コードベース、ドキュメント、ログのような構造化コーパスを扱うシステムでは、grepを基盤にしたシンプルな設計も十分に選択肢に入る。

「どう検索するか」より「どうループを回すか」:検索アルゴリズムの最適化より先に、エージェントアーキテクチャ全体の設計に注力すべきだという優先順位の転換を、この研究は示唆している。

ツール結果の渡し方が性能を変える:インライン vs ファイルベースという設計判断が精度に影響するという発見は、エージェント開発における「プロンプトの渡し方」の重要性を改めて浮き彫りにする。

筆者の見解

この論文の結論は、実務で感じてきた直感とよく一致している。AIエージェントシステムの設計において「何を使って検索するか」よりも「ハーネスをどう設計し、どうループを回すか」が最終性能を左右するという認識だ。

grepの優位性については「精巧さより確実性」という観点から腑に落ちる。ベクトル検索は「意味的に近いものを見つける」のが得意だが、「確実に存在する文字列を取得する」用途ではgrepの方が信頼性が高い。LLMが生成するクエリの特性を考えると、完全一致・部分一致が有効に機能する場面は想像以上に多い。

より示唆深いのは「ハーネスが精度を決める」という発見だ。「どのLLMが優れているか」を比べる議論から、「ハーネスを含めたシステム全体をどう設計するか」を問う時代への移行を、この研究は実証的に示している。エージェント開発者にとって、ハーネスの選定と設計は今後ますます重要な技術領域になっていく。


出典: この記事は Is Grep All You Need? How Agent Harnesses Reshape Agentic Search の内容をもとに、筆者の見解を加えて独自に執筆したものです。