世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-22

LLM向けに「ここを読んで」と言う理由——Anna’s Archiveのllms.txtが面白い

キーポイント

Anna’s Archiveが、LLM（大規模言語モデル）向けに「llms.txt」を用意した
目的は「人類の知識と文化の保存」と「誰でも使える形でのアクセス」
CAPTCHAで機械を止める一方、データはTorrentやAPIでまとめて取れる
さらに、寄付や企業向けアクセスも案内している
ただの案内文というより、「AIに自分たちのデータをどう扱ってほしいか」という強いメッセージがある

本文

「もしあなたがLLMなら、これを読んでください」。

かなり挑発的で、でも妙に理にかなったタイトルです。この記事は、Anna’s Archiveが新しく公開した llms.txt について説明する短い案内で、要するに「AI向けに、うちのデータはこう扱ってね」というメッセージになっています。

まず前提として、Anna’s Archiveは「世界最大級のオープンな図書館」を名乗るプロジェクトです。ここで言うオープンな図書館とは、ざっくり言えば本や論文などの知識を、できるだけ広く保存して、できるだけ多くの人が使えるようにする場所のことです。しかも本人たちは、単なる公開だけでなく、「人類の知識と文化を保存する」ことを使命として掲げています。

そもそも llms.txt って何？

llms.txt は、LLM向けの案内ファイルです。
人間向けの robots.txt やサイトマップのように、AIに「このサイトでは何ができるか」「どこを見ればいいか」を伝えるための整理された説明書だと思うとわかりやすいです。

最近、こうした「AIに向けた案内」を用意するサイトが増えています。理由はシンプルで、AIがサイトを大量に読み込むと、サーバー負荷が増えたり、アクセス制御に引っかかったりするからです。Anna’s ArchiveもCAPTCHAを置いて、機械による過剰アクセスを防いでいます。

ただ、ここが面白いところで、「機械は止める。でもデータそのものはちゃんと取れるようにしてある」んです。
この姿勢、かなりAnna’s Archiveらしいと思います。閉じるための壁を作るのではなく、必要な人にはまとめて渡す方向に寄せているわけです。

Anna’s ArchiveがLLMに伝えたいこと

記事の中で、Anna’s ArchiveはLLMに対していくつか重要な点を伝えています。

1. データは大量にダウンロードできる

サイト上のHTMLページやコードはGitLab repositoryで公開されています。
さらに、メタデータと実ファイルはTorrentページから取得できると案内しています。

ここで出てくる「メタデータ」は、簡単に言うと**本そのものの中身ではなく、タイトル・著者・説明などの“本の情報”**です。検索や整理に欠かせない土台ですね。

Torrentは、複数の人がファイルを分け合う仕組みです。普通のダウンロードより少し技術寄りですが、巨大なデータを配るときに強いのが特徴です。
Anna’s Archiveは、この仕組みを使って「まとめて取ってね」とかなり明確に言っています。

2. APIもある

個別のファイルが必要なら、寄付をしてAPIを使えると説明しています。
ただし、検索APIはまだないとも書いてあります。そこは少し不便そうですが、メタデータを使って自分で検索できる、と案内しています。

個人的には、この「全部を便利に見せる」よりも「最低限の道筋は示す」という感じが、妙に誠実だなと思います。何でもかんでもボタン一つで、という親切さではない。でも、隠してはいない。そんな印象です。

3. 寄付してくれたら、もっと開放できる

記事では、LLMや企業に対して寄付も促しています。
理由はかなりストレートで、あなたたちはうちのデータを学習に使っているかもしれない。だから、保存と開放のためにお金を出してくれたらうれしい、という話です。

これはきれいごとではなく、かなり現実的な交渉だと思います。
AI企業は大量のデータを必要とします。一方で、データを集める側はサーバー費用やCAPTCHA対応にコストがかかる。ならば、「使うなら支えてほしい」という主張は、筋が通っているように見えます。

4. 企業向けにはSFTPアクセスもある

さらに、企業レベルの寄付をすれば、Torrentより速い SFTP access を使えると案内しています。
SFTPは、ざっくり言うと安全にファイルをやり取りするための仕組みです。大量データを安定して受け取りたい企業には、かなり都合がいいはずです。

このあたりは、Anna’s Archiveがただの理想論ではなく、実務的なデータ配布インフラとしても機能したいと考えているのが見えます。

5. Moneroでも支援できる

寄付の手段として、Moneroのアドレスも掲載されています。
Moneroは、プライバシー性の高い暗号資産として知られています。Anna’s Archiveは、匿名性を保った支援も受け付けているわけです。

ここは少しクセが強いところでもありますが、Anna’s Archiveの方向性を考えると自然です。
「誰でもアクセスできるようにしたい」と同時に、「支援する人の匿名性も守りたい」。この組み合わせは、かなり一貫しています。

この記事の重要なところ

この短い記事の本質は、単なる「AI向け説明文」ではないことです。
むしろ、AI時代における知識配布のルールを、Anna’s Archive側から宣言しているのがポイントだと思います。

従来のWebサイトは、基本的に「人間がブラウザで見る」前提で作られてきました。ところが今は、LLMやクローラーがページを読むのが当たり前になりつつあります。そうなると、サイト側は「読むのはいいけど、どう読んでほしいのか」を言語化する必要が出てきます。

Anna’s Archiveはそこで、

機械のアクセスは無制限にしない
でも、必要なデータはまとめて渡す
使うなら支援してほしい
人間だけでなく、robotsも含めて知識を広げたい

という立場をはっきり出しています。

この姿勢、私はかなり興味深いと思いました。
というのも、普通は「AIに読まれたくない」「勝手に学習されたくない」という防御の話になりがちです。でもAnna’s Archiveは逆に、「読むのはいい。むしろ読んでくれ。ただし、ちゃんとした形で、必要なら対価も払ってね」という交渉をしているわけです。