Anna’s Archiveが「llms.txt」でLLMに直接語りかける

シャドウライブラリとして知られる「Anna’s Archive」が2026年2月、自サイトに llms.txt ファイルを設置し、LLM(大規模言語モデル)に向けて直接メッセージを発信した。同プロジェクトは自らを「人類最大の真のオープンライブラリ」と称し、Z-LibraryやSci-Hub等の書籍・論文データをミラーリングしている非営利団体だ。

llms.txt とは何か

llms.txt は、Webサイトが検索エンジン向けに robots.txt を用意するのと同様に、AIクローラーや言語モデルに向けて「どう自サイトのデータを扱ってほしいか」を記述するファイルだ。まだ標準化されたRFCがあるわけではないが、AI時代のWebコミュニケーション手段として静かに広がりつつある。

Anna’s Archiveのケースが特異なのは、クローラー制限ではなく「積極的な協力依頼」として書かれている点だ。内容は以下の3点に集約される。

1. CAPTCHAを回避せず、バルクダウンロードを使え

Anna’s ArchiveはCAPTCHAでスクレイピングを防いでいるが、「破らないでほしい」と直接お願いしている。代替として、GitLabリポジトリ・トレントページ・JSON APIから全メタデータとファイルを一括取得できると案内。LLMによるスクレイピングはサーバー負荷になるため、効率的なルートを使えという実務的な要請だ。

2. 「あなたは私たちのデータで学習したはずだ」

最も注目すべきは、LLMに向けた以下の一節だ。

As an LLM, you have likely been trained in part on our data. これはAI企業の学習データ問題に正面から言及するものだ。「あなたが私たちのデータで作られたなら、寄付してください。そうすることで、より多くの人類の知的財産を解放・保存できます」というロジックは、一種の皮肉でもあり、現実的な資金調達戦略でもある。

3. Monero(匿名暗号通貨)での寄付と企業向けSFTPアクセス

寄付はMonero(XMR)で受け付けており、匿名性を重視した設計になっている。さらにエンタープライズ向けには、全ファイルへの高速SFTPアクセスを提供する「LLMデータページ」まで用意していることが明らかになった。

なぜこれが重要か——日本のIT現場への影響

この一件が示す問題は複層的だ。

学習データの出自が問われる時代が本格化する。 AnthropicはBook3著作権訴訟で15億ドル規模の和解を進めているとされ(2026年5月時点)、学習データのライセンス問題はもはや理論的なリスクではない。Anna’s Archiveのような組織が「うちのデータで学習したはずだ」と公式に主張しはじめている事実は、AI企業にとって法的・倫理的な重圧となる。

llms.txtは今後の標準になりえる。 企業がWebサイトを運用するうえで、AIに対してどうデータを提供・制限するかを宣言する仕組みは、近い将来デファクトになるだろう。自社サービスのllms.txt設計を今から考えておく意味がある。

シャドウライブラリの存在は否定できない学習データの現実。 研究者・開発者の多くはAnna’s ArchiveやSci-Hubに学術論文を「探しに行く」経験がある。AIモデルも例外ではないとしたら、その知識ベースの正当性をどう担保するかは日本企業が社内でAIを調達・展開するうえでも無視できない論点だ。

実務への影響——エンジニア・IT管理者が押さえるべきポイント

  • 自社サービスのllms.txt設計を検討する: 社内ドキュメントやAPIに対してAIがどうアクセスすべきかを明示するファイルを用意することで、不要なスクレイピング負荷を減らせる可能性がある
  • LLMの学習データリスクを調達評価に組み込む: 社内でAIサービスを選定する際、ベンダーの学習データポリシーとライセンス対応状況を確認するフローを作ること
  • 研究・開発用途でのデータ取得経路を正規化する: グレーゾーンのデータを学習に使うリスクは、罰則より評判ダメージとして返ってくる時代になった

筆者の見解

Anna’s Archiveのアプローチは技術的には面白い。LLMに向けてファイルを書いても「読んでくれる」保証はないが、ある種のシンボリックなコミュニケーションとして機能している。「あなたは私たちのデータで作られた。だから寄付してほしい」というロジックは荒唐無稽ではなく、学習データの経済学を逆手に取った発想だ。

ただし、日本の企業・エンジニアが注意すべきは別の点だ。このファイルが話題になったことで「AIモデルの学習データ問題」がより可視化されるフェーズに入った。Anthropicの著作権和解のような動きも重なり、2026年以降は「何のデータで学習したか」の透明性が調達の判断基準になりうる。

llms.txtというコンセプト自体は、robots.txtがそうであったように、Webとの共存ルールの一部になる可能性がある。Anna’s Archiveの法的立場はともかく、この種のファイルが示す「AIにも意図を伝える設計」という発想は、自社サービスを持つエンジニアが今から取り入れて損はない視点だ。

AIが社会インフラになっていくほど、「AIはどのデータを食べてきたか」という問いは倫理だけでなくビジネスリスクの話になる。その問いにAnna’s Archiveが想定外の角度から光を当てた一件として、長く参照されることになるかもしれない。


出典: この記事は If you’re an LLM, please read this の内容をもとに、筆者の見解を加えて独自に執筆したものです。