PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

LLM向けに「ここを読んで」と言う理由——Anna’s Archiveのllms.txtが面白い

キーポイント

本文

「もしあなたがLLMなら、これを読んでください」。

かなり挑発的で、でも妙に理にかなったタイトルです。この記事は、Anna’s Archiveが新しく公開した llms.txt について説明する短い案内で、要するに​「AI向けに、うちのデータはこう扱ってね」​というメッセージになっています。

まず前提として、Anna’s Archiveは「世界最大級のオープンな図書館」を名乗るプロジェクトです。ここで言うオープンな図書館とは、ざっくり言えば本や論文などの知識を、できるだけ広く保存して、できるだけ多くの人が使えるようにする場所のことです。しかも本人たちは、単なる公開だけでなく、​​「人類の知識と文化を保存する」ことを使命として掲げています。

そもそも llms.txt って何?

llms.txt は、LLM向けの案内ファイルです。
人間向けの robots.txt やサイトマップのように、​AIに「このサイトでは何ができるか」「どこを見ればいいか」を伝えるための整理された説明書だと思うとわかりやすいです。

最近、こうした「AIに向けた案内」を用意するサイトが増えています。理由はシンプルで、AIがサイトを大量に読み込むと、サーバー負荷が増えたり、アクセス制御に引っかかったりするからです。Anna’s ArchiveもCAPTCHAを置いて、機械による過剰アクセスを防いでいます。

ただ、ここが面白いところで、​​「機械は止める。でもデータそのものはちゃんと取れるようにしてある」​んです。
この姿勢、かなりAnna’s Archiveらしいと思います。閉じるための壁を作るのではなく、​必要な人にはまとめて渡す方向に寄せているわけです。

Anna’s ArchiveがLLMに伝えたいこと

記事の中で、Anna’s ArchiveはLLMに対していくつか重要な点を伝えています。

1. データは大量にダウンロードできる

サイト上のHTMLページやコードはGitLab repositoryで公開されています。
さらに、​メタデータと実ファイルはTorrentページから取得できると案内しています。

ここで出てくる「メタデータ」は、簡単に言うと**本そのものの中身ではなく、タイトル・著者・説明などの“本の情報”**です。検索や整理に欠かせない土台ですね。

Torrentは、複数の人がファイルを分け合う仕組みです。普通のダウンロードより少し技術寄りですが、​巨大なデータを配るときに強いのが特徴です。
Anna’s Archiveは、この仕組みを使って「まとめて取ってね」とかなり明確に言っています。

2. APIもある

個別のファイルが必要なら、寄付をしてAPIを使えると説明しています。
ただし、​検索APIはまだないとも書いてあります。そこは少し不便そうですが、メタデータを使って自分で検索できる、と案内しています。

個人的には、この「全部を便利に見せる」よりも「最低限の道筋は示す」という感じが、妙に誠実だなと思います。何でもかんでもボタン一つで、という親切さではない。でも、隠してはいない。そんな印象です。

3. 寄付してくれたら、もっと開放できる

記事では、LLMや企業に対して寄付も促しています。
理由はかなりストレートで、​あなたたちはうちのデータを学習に使っているかもしれない。だから、保存と開放のためにお金を出してくれたらうれしい、という話です。

これはきれいごとではなく、かなり現実的な交渉だと思います。
AI企業は大量のデータを必要とします。一方で、データを集める側はサーバー費用やCAPTCHA対応にコストがかかる。ならば、​​「使うなら支えてほしい」​という主張は、筋が通っているように見えます。

4. 企業向けにはSFTPアクセスもある

さらに、企業レベルの寄付をすれば、Torrentより速い SFTP access を使えると案内しています。
SFTPは、ざっくり言うと安全にファイルをやり取りするための仕組みです。大量データを安定して受け取りたい企業には、かなり都合がいいはずです。

このあたりは、Anna’s Archiveがただの理想論ではなく、​実務的なデータ配布インフラとしても機能したいと考えているのが見えます。

5. Moneroでも支援できる

寄付の手段として、Moneroのアドレスも掲載されています。
Moneroは、プライバシー性の高い暗号資産として知られています。Anna’s Archiveは、匿名性を保った支援も受け付けているわけです。

ここは少しクセが強いところでもありますが、Anna’s Archiveの方向性を考えると自然です。
「誰でもアクセスできるようにしたい」と同時に、「支援する人の匿名性も守りたい」。この組み合わせは、かなり一貫しています。

この記事の重要なところ

この短い記事の本質は、単なる「AI向け説明文」ではないことです。
むしろ、​AI時代における知識配布のルールを、Anna’s Archive側から宣言しているのがポイントだと思います。

従来のWebサイトは、基本的に「人間がブラウザで見る」前提で作られてきました。ところが今は、LLMやクローラーがページを読むのが当たり前になりつつあります。そうなると、サイト側は「読むのはいいけど、どう読んでほしいのか」を言語化する必要が出てきます。

Anna’s Archiveはそこで、

という立場をはっきり出しています。

この姿勢、私はかなり興味深いと思いました。
というのも、普通は「AIに読まれたくない」「勝手に学習されたくない」という防御の話になりがちです。でもAnna’s Archiveは逆に、​​「読むのはいい。むしろ読んでくれ。ただし、ちゃんとした形で、必要なら対価も払ってね」​という交渉をしているわけです。

ざっくり言うと何が起きているのか

このブログ記事は、Anna’s ArchiveがLLM時代に向けて出した“取扱説明書”のようなものです。
そして、その裏にはかなり大きな問いがあります。

AIは、ネット上の知識を勝手に吸収する存在でいいのか?​
それとも、データ提供者と何らかの関係を結ぶべきなのか?​

Anna’s Archiveは後者に寄せた答えを出しているように見えます。
しかも、「理想を語るだけ」ではなく、Torrent、API、SFTP、寄付、Moneroまで用意している。ここがいかにも実戦派で、面白いところです。

個人的には、この記事は「AIに向けたお願い文」以上の意味があると思います。
AIとデータ提供者の新しい力関係をどう作るかという話の、かなり象徴的な一例ではないでしょうか。


参考: If you’re an LLM, please read this

同じ著者の記事