PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

ノルウェー国立図書館が2PBのHuaweiフラッシュで作る「国産LLM」って何がすごいの?

記事のキーポイント

ノルウェー国立図書館が、ノルウェー語を理解する大規模言語モデル、いわゆるLLMを作っている――この記事の主役はこの一文に尽きます。
しかも、その裏側で使われているのが 2PB(ペタバイト)​ ものHuawei製フラッシュストレージ。数字だけでもかなりの迫力ですが、話の面白さは「AIを作るにはGPUだけあればいいわけじゃない」というところにあります。

image_0002.svg

まず、何の話なのか

元記事によると、ノルウェーの国立図書館は、ノルウェー語を理解する「主権的なAI」、つまり自国の言語と文化に根ざしたLLMを開発しています。
背景にあるのは、​商用のLLM提供企業が、ノルウェー語に特化したモデルをほとんど作っていないという事情です。

image_0003.webp

ここ、かなり本質的だと思います。
今の生成AIは英語圏の情報には強い一方で、各国の歴史、ニュース、文化、しかもその国の言語で書かれた細かな文脈には弱いことがある。
「世界共通のAI」があるように見えて、実は“英語中心のAI”になっている、というわけです。

ノルウェーの文化省はこの課題を国立図書館に託しました。理由はシンプルで、国立図書館には ノルウェーの本、新聞、Webページなど、国内最大級のデジタルコレクション があるからです。
しかも法定納本制度があるため、出版物や放送コンテンツを収集・保存する役割も持っています。つまり、AIの燃料になる「国の知識の倉庫」を、最初から持っている組織なんですね。

image_0004.webp

2PBのHuawei flash storageは何に使われているのか

ここで出てくるのが、​Huawei OceanStor Dorado という all-flash array です。
all-flash array は、ざっくり言うと「HDDではなくSSD/flashを使った高速な保存装置」のこと。データの読み書きが速く、AIの前処理や学習データの受け渡しに向いています。

image_0005.webp

記事によると、国立図書館は 合計2PBのflash capacity を持つこのストレージを、AI training data pipeline に使っています。
この pipeline というのは、データを集めて、きれいにして、重複を消して、形式をそろえて、検証して、学習できる形に整える流れのことです。

image_0006.jpg

ここが地味に重要です。
LLM開発というと、みんな「GPU何千枚!」みたいな話を想像しがちですが、実際には 学習前のデータ整備がめちゃくちゃ大変 です。
むしろ、この記事では「ボトルネックはcomputeではなく、data quality、cleaning、pipeline throughputだった」と明言されています。つまり、計算資源よりもデータの中身と流れのほうが詰まりやすい。

これはかなりリアルです。AIは魔法ではなく、大規模な“お掃除と仕分け”の延長線上にある、という感じがします。

image_0007.jpg

60PBの保存アーカイブと、AI用ストレージは別世界

国立図書館は、2005年からコレクションのデジタル化を進めてきました。
その結果、​20PBのユニークデータ を保有し、それを 3-2-1形式 で保存しているそうです。

image_0008.jpg

3-2-1というのは、

という、データ保護の定番ルールです。
なので、20PBのユニークデータがあると、全体では 約60PB になる計算です。これはもう「図書館」というより、国家レベルの記憶装置ですね。

image_0009.jpg

ただし、ここで大事なのは、​保存用システムとAI用システムは求められる性質がまったく違う ことです。

image_0010.jpg

image_0011.jpg

つまり、「昔からある保存庫」から「今まさに学習に使う作業場」へ、大量データをどう運ぶかが難しい。
この記事でも、​PB規模のデータをアーカイブからAIパイプラインへ移す問題について、誰も十分に語っていなかった とされています。
たしかに、ここは見落とされがちです。AIの話なのに、実際は“巨大な引っ越し作業”に近い。しかも引っ越し先では、荷物をただ置くだけでなく、すぐ使える形に整理しないといけないわけです。

実際の処理はどう分かれているのか

image_0012.jpg

記事では、処理は大きく2段階に分かれています。

1. 施設内での前処理

ここでは、

image_0013.jpg

が使われています。
この段階で、データの取り込み、クリーニング、重複排除、形式の正規化、検証、学習用の準備が行われます。

要するに、LLMに食べさせる前の下ごしらえです。
生の本、新聞、Webページ、音声、動画、画像、メタデータなどが混ざった巨大な素材を、そのまま学習に放り込むわけにはいきません。
OCR(文字を画像から読み取る処理)も多く必要だったようで、文字起こしの精度も当然効いてきます。

image_0014.jpg

2. 国のスーパーコンピュータで本学習

前処理を終えたデータは、ノルウェーの国立スーパーコンピュータ Sigma2 Olivia に送られ、そこで実際の training runs が行われます。
このシステムは HPE Cray Supercomputing EX ベースで、​448 GPUs64,512 CPU cores を搭載。ストレージは 5.3PBのCray ClusterStor E1000 です。

GPUの数だけ見ると、さすが国家プロジェクトという感じです。
でも個人的には、むしろ「学習の前にここまでデータを整える必要がある」という事実のほうが面白いです。AIは、派手な計算の前に、かなり泥臭いデータ作業を食べて成り立っているんだな、と再確認させられます。

image_0015.jpg

技術以外の難しさもある

image_0016.jpg

記事の後半で挙げられている課題も、かなり重要です。というか、ここが本丸かもしれません。

Evaluation

ノルウェー語の国産LLMを評価する標準ツールがまだないそうです。
さらにノルウェー語は、​2つの書き言葉 があり、方言も多く、歴史的変化もある。
つまり、「このLLMは良い」と判定するのが、英語よりずっと難しい。

image_0017.jpg

なのでチームは、​評価ツールも自作している とのこと。
これは地味ですが、とても大きい話です。モデルを作るのはスタート地点で、本当に難しいのは「どう良し悪しを測るか」なんですよね。

Governance

「誰がこの主権的LLMへのアクセス権を持つのか」「何に使ってよいのか」を誰が決めるのか。
これは技術というより、​制度や政治の問題 です。

image_0018.jpg

たしかに、国の文化資産から作ったAIなら、誰でも自由に商用利用していいのか、という話は簡単ではありません。
ここは“便利だから作れば終わり”では済まない。AIに管理者、つまり custodian が必要だという指摘はかなり的確だと思います。

Orchestration

保存アーカイブ、オンプレのAI環境、国家スーパーコンピュータの 3つのシステムを滑らかにつなぐ のが継続課題。
これも、実務ではすごく厄介です。
組織が違い、目的が違い、性能特性も違うシステムをつなぐのは、技術だけでなく運用設計そのものの勝負になります。

image_0019.jpg

この話の何が面白いのか

個人的に面白いのは、この記事が「AIの話」に見えて、実はかなり ストレージとデータ基盤の話 になっていることです。
しかも、その中心にあるのが“ノルウェー語”という、すごくローカルなテーマなのがいい。

image_0020.jpg

世界中が同じLLMを使うようになると便利そうに見えますが、実際には言語や文化の違いが無視できない。
ノルウェーのような非英語圏の国が、自分たちの言語で、自分たちの歴史や文化を反映したAIを作ろうとすると、必要なのはモデルだけではなく、

image_0021.jpg

まで全部含まれる、ということがよくわかります。

Huawei storage が欧州市場でかなり存在感を持っている、というのも記事のまとめとして触れられていました。
そこは政治的・商業的な含みもある話ですが、少なくともこの記事が示しているのは、​AIインフラは“どのGPUを使うか”だけで語れない ということです。

image_0022.jpg

まとめ

ノルウェー国立図書館の取り組みは、単なる「国産LLMの開発事例」ではありません。
むしろ、​自国の言語と文化を守りながらAIを作るには、データの保管、移送、整備、評価、統治まで含めた総力戦になる という現実を見せてくれます。

![image_0023.svg](https://www.blocksandfiles.com/files/2025/10/21/bandf_white (2).svg)

そして、そこに2PBのHuawei flash storageががっちり噛んでいる。
派手さはGPUに負けるかもしれませんが、実際にはこういう基盤こそがAIを支えている。個人的には、かなり“わかっている”話だと思いました。
AIの時代は、モデルを作る人だけでなく、データを守り、整え、渡す人が主役になる――この記事はそんなことを静かに教えてくれます。


![image_0024.svg](https://www.blocksandfiles.com/files/2025/10/09/SituationPublishing_Logo_Evolution_Twolines-White-Barlow (1).svg)

参考: Norway’s 2 petabytes of Huawei flash storage and LLM training

同じ著者の記事