世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-22

ローカルニュースがInternet Archiveを締め出す理由と、そのちょっと切ない代償

記事のキーポイント

全米の340以上のローカルニュースサイトが、Internet Archiveのクロールを制限している
背景には、AI企業がWayback Machineの保存データを学習に使うのではないかという警戒感がある
制限しているのは大手新聞チェーンが中心で、USA Today Co.、McClatchy、Advance Local、MediaNews Group、Tribune Publishingなどが含まれる
ただし、現時点でAI企業がWayback Machine経由で実際に大量取得した証拠は確認されていない
それでも、記者・研究者・図書館員にとっては、過去記事にアクセスできなくなる影響が大きい
Internet Archive側は、大量ダウンロードの抑制やbot監視など対策を進めている

何が起きているのか

Nieman Labの記事は、かなりシンプルに言うとこういう話です。

「Internet Archiveにニュースを保存してほしくない」と考えるニュース会社が、どんどん増えている。しかもその多くがローカルニュースだ。
しかも今回の調査では、全体で382サイトのニュースサイトを対象に見て、そのうち342サイトがローカルニュースだったといいます。

Internet Archiveといえば、あの有名なWayback Machineを運営している非営利団体です。
Wayback Machineは、昔のWebページを保存しておいて、あとから「このページ、昔はどうなっていたっけ？」と見返せるサービス。Web版のタイムマシンみたいなものです。

これがあるおかげで、記事が消えてもあとから確認できる。
地味ですが、実はものすごく大事です。私も、リンク切れした記事を追いかけるときに何度救われたか分かりません。ネットの記録係として、かなり偉い存在だと思います。

なぜブロックされているのか

理由は、AI企業への警戒です。

今年1月、Nieman Labはすでに、The New York Times、The Guardian、USA Today Co.などの大手がInternet Archiveをブロックし始めたと報じていました。
心配しているのは、AI企業がInternet Archiveの保存データをスクレイピングして学習データに使うのではないかという点です。

ここで出てくるscraping（スクレイピング）は、Webサイトから自動で大量に情報を集める行為のこと。
AIの学習や検索サービスではよく使われますが、サイト運営側からすると「勝手に持っていかれる」感覚になりやすい。なので、反発が起きるのも理解はできます。

ただし重要なのは、この記事の時点で、AI企業がWayback Machineから実際に大量にデータを抜いたと確認されたわけではないことです。
つまり、かなりの部分が予防的なブロックです。先に門を閉めておく、という感じですね。

どんな会社が制限しているのか

記事によると、ブロックを広げているのは主に大手ローカル新聞チェーンです。

**USA Today Co.**（旧Gannett）
McClatchy
Advance Local
MediaNews Group
Tribune Publishing

この中でも特に目立つのが、Advance LocalとAlden Global Capital系です。
Aldenは、コスト削減や資産圧縮で批判されてきた投資ファンドで、新聞業界ではかなり評判が悪いことで知られています。
こういう話を見ると、単なる「著作権保護」だけではなく、新聞業界が疲弊しきった状態で、限られた収益源を死守しようとしている感じがします。率直に言って、かなり切迫した空気があります。

Advance LocalはNieman Labに対して、Internet Archiveを昨年8月からハードブロックしたと認めています。
しかも、AI企業に実際に悪用された証拠があるからではなく、先回りで止めたとのこと。

これはかなり象徴的です。
「被害が起きたから止めた」のではなく、「将来そうなるかもしれないから止めた」。
この予防原則は分かる一方で、保存と公開の公共性を考えると、ちょっと重い決断でもあります。

それでもArchiveは必要とされている

ここがこの話のいちばん重要なところだと思います。

記事では、研究者、歴史家、市民、そして現役記者が、ローカルニュースのWebアーカイブに頼っていると強調しています。
特にローカルニュースは、全国紙よりも消えやすい。人員も予算も少ないので、昔の記事が突然読めなくなることが珍しくありません。

University of Missouriのジャーナリズム図書館員、Edward McCain氏は、Internet Archiveのbotを止めることは、ニュースを長期保存する最も有効な方法のひとつを弱めると話しています。
これは本当にその通りで、ニュースって「今読めればいい」だけではないんですよね。
あとで検証する、過去を振り返る、誰が何を言ったか確かめる――そういう用途がある。
むしろニュースは、時間が経ってから価値が上がることすらある。個人的には、ここを軽く見てしまうと、社会の記憶装置がどんどん壊れていく気がします。

記者たちも困っている

この件で面白いのは、現役のジャーナリスト自身がWayback Machineの利用者でもあることです。

記事では、ローカルなニュース砂漠で取材している記者の例が紹介されています。
「ニュース砂漠」とは、地域の報道機関が減って、地元の出来事を継続的に追うメディアがほとんどない地域のことです。
こういう場所では、過去記事のアーカイブがなければ、情報のつながりがかなり見えにくくなります。

実際、B.J. Mendelson氏は、廃刊や消滅したメディアの記事に強く依存していると述べ、Internet Archiveなしでは仕事がとても難しくなると訴えています。
これは地味ですが、かなり深刻です。
「昔の記事なんて誰も見ないでしょ」と思うかもしれませんが、取材の現場では、昔の記事こそが証拠であり文脈です。

Internet Archive側の反論

もちろん、Internet Archive側も黙ってはいません。

Wayback Machineの創設者であるMark Graham氏は、Internet Archiveが無制限の大量ダウンロードを抑える仕組みを導入し、Cloudflareのような外部業者と連携してbot活動を監視していると説明しています。
さらに、利用規約ではコレクションの利用を研究や学術目的に限定しているとも述べています。

つまり、Internet Archive側は「好き放題に持っていっていい場所」ではない、と主張しているわけです。
この点はもっと広く知られていいと思います。
Internet Archiveは理想主義的な団体として語られがちですが、実務としてはかなりちゃんと制限や管理をしている。そこを無視して「全部タダで使える危険な倉庫」みたいに扱うのは、やや雑です。

でも、新聞社の不安も分からなくはない

一方で、新聞社が神経質になるのも理解はできます。

Meredith Broussard氏は、ジャーナリズム教授として、利益率が細るほど知的財産を守りたくなると述べています。
これもかなり現実的な見方です。
コンテンツを作るコストは高いのに、広告収入は細る。そこへAI企業が来て、記事を学習に使っているように見えたら、腹が立つのも当然でしょう。

実際、Alden系の新聞社は2025年7月、AI企業による無断学習を批判する社説を大規模に掲載しています。
さらに、OpenAIとMicrosoftを訴えている著作権侵害訴訟にも関わっています。
つまり、今回のInternet Archive規制は、AIをめぐる大きな著作権戦争の一部でもあるわけです。

ただし、話はそんなに単純じゃない

ここがややこしいところです。

例えばThe Baltimore Bannerのように、AIチャットボットが自分たちの記事を表示すること自体は完全否定していないメディアもあります。
でも、Wayback Machineのような「裏口」があると、引用やリンクのされ方が曖昧になるのではないかと心配している。

BannerのCTO兼AI戦略担当のBiswajit Ganguly氏によると、同社では調査の結果、サイトトラフィックの約25%がbotだったそうです。
しかもそこにはInternet Archiveのbotも含まれていた。
それでブロックした一方、ChatGPTやClaudeのクロールは許可しているというのが、また面白いところです。

つまり彼らの問題意識は、
「AIに使われるかどうか」よりも、「使われた情報がちゃんと自分たちに戻ってくるか」
にあるようです。

これはかなり現代的な悩みだと思います。
情報が広がるのはいい。でも、誰が作ったか分からなくなるのは困る。
拡散と帰属のバランスをどう取るか。ここは今後もっと揉めそうです。

この記事から見える本当の争点

この問題、表面だけ見ると「新聞社がInternet Archiveを嫌がっている話」に見えます。
でも本質は、たぶんもっと深いです。

争点は主に3つあります。

保存の自由 vs. 利用の制御
Internet Archiveは「歴史を残したい」。新聞社は「勝手に使われたくない」。
公共性 vs. 商業的保護
ローカルニュースの保存は公共的に重要。でも、報道機関は生き残りも必要。

AI時代の再定義
何が「アーカイブの利用」で、何が「訓練データの搾取」なのか。境界線がまだ曖昧です。

個人的には、ここはかなり難しい問題だと思います。
新聞社が無防備である必要はないし、AI企業がずるく見える場面も確かにある。
でも、Internet Archiveまで一律に締め出してしまうと、将来の研究者や記者、市民が使う「記憶のバックアップ」まで細る。
それは短期的には安全でも、長期的には社会の損失ではないか、と思います。