世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-26

ノルウェー国立図書館が2PBのHuaweiフラッシュで作る「国産LLM」って何がすごいの？

記事のキーポイント

ノルウェー国立図書館が、ノルウェー語を理解する独自のLLMを開発している
その学習データの整備に、合計2PBものHuawei OceanStor Dorado flash storageが使われている
ボトルネックはGPUの計算力ではなく、データの品質管理・整形・転送だった
2種類の保存基盤をつなぐのが大変で、「アーカイブ」と「AI用ストレージ」は別物だと痛感させる話
国の言語・文化を反映したAIを作るには、技術だけでなくガバナンスや評価方法も必要になる

ノルウェー国立図書館が、ノルウェー語を理解する大規模言語モデル、いわゆるLLMを作っている――この記事の主役はこの一文に尽きます。
しかも、その裏側で使われているのが 2PB（ペタバイト） ものHuawei製フラッシュストレージ。数字だけでもかなりの迫力ですが、話の面白さは「AIを作るにはGPUだけあればいいわけじゃない」というところにあります。

まず、何の話なのか

元記事によると、ノルウェーの国立図書館は、ノルウェー語を理解する「主権的なAI」、つまり自国の言語と文化に根ざしたLLMを開発しています。
背景にあるのは、商用のLLM提供企業が、ノルウェー語に特化したモデルをほとんど作っていないという事情です。

ここ、かなり本質的だと思います。
今の生成AIは英語圏の情報には強い一方で、各国の歴史、ニュース、文化、しかもその国の言語で書かれた細かな文脈には弱いことがある。
「世界共通のAI」があるように見えて、実は“英語中心のAI”になっている、というわけです。

ノルウェーの文化省はこの課題を国立図書館に託しました。理由はシンプルで、国立図書館には ノルウェーの本、新聞、Webページなど、国内最大級のデジタルコレクション があるからです。
しかも法定納本制度があるため、出版物や放送コンテンツを収集・保存する役割も持っています。つまり、AIの燃料になる「国の知識の倉庫」を、最初から持っている組織なんですね。

2PBのHuawei flash storageは何に使われているのか

ここで出てくるのが、Huawei OceanStor Dorado という all-flash array です。
all-flash array は、ざっくり言うと「HDDではなくSSD/flashを使った高速な保存装置」のこと。データの読み書きが速く、AIの前処理や学習データの受け渡しに向いています。

記事によると、国立図書館は 合計2PBのflash capacity を持つこのストレージを、AI training data pipeline に使っています。
この pipeline というのは、データを集めて、きれいにして、重複を消して、形式をそろえて、検証して、学習できる形に整える流れのことです。

ここが地味に重要です。
LLM開発というと、みんな「GPU何千枚！」みたいな話を想像しがちですが、実際には 学習前のデータ整備がめちゃくちゃ大変 です。
むしろ、この記事では「ボトルネックはcomputeではなく、data quality、cleaning、pipeline throughputだった」と明言されています。つまり、計算資源よりもデータの中身と流れのほうが詰まりやすい。

これはかなりリアルです。AIは魔法ではなく、大規模な“お掃除と仕分け”の延長線上にある、という感じがします。

60PBの保存アーカイブと、AI用ストレージは別世界

国立図書館は、2005年からコレクションのデジタル化を進めてきました。
その結果、20PBのユニークデータ を保有し、それを 3-2-1形式 で保存しているそうです。

3-2-1というのは、

3つのコピーを持つ
2種類のメディアに保存する
1つはオフサイトに置く

という、データ保護の定番ルールです。
なので、20PBのユニークデータがあると、全体では 約60PB になる計算です。これはもう「図書館」というより、国家レベルの記憶装置ですね。

ただし、ここで大事なのは、保存用システムとAI用システムは求められる性質がまったく違う ことです。

保存アーカイブ:
- 壊れにくいことが最優先
- コスト効率が重要
- 頻繁に読む前提ではない
- そのため read latency（読み出しの遅延）は高めでもよい

AI pipeline storage:
- 大量データを高速に流すことが重要
- 低遅延であることが大切
- 並列アクセスに強い必要がある

つまり、「昔からある保存庫」から「今まさに学習に使う作業場」へ、大量データをどう運ぶかが難しい。
この記事でも、PB規模のデータをアーカイブからAIパイプラインへ移す問題について、誰も十分に語っていなかった とされています。
たしかに、ここは見落とされがちです。AIの話なのに、実際は“巨大な引っ越し作業”に近い。しかも引っ越し先では、荷物をただ置くだけでなく、すぐ使える形に整理しないといけないわけです。

実際の処理はどう分かれているのか

記事では、処理は大きく2段階に分かれています。

1. 施設内での前処理

ここでは、

Nvidia DGX H200 system
384-core CPU cluster
複数の Huawei OceanStor Dorado all-flash arrays

が使われています。
この段階で、データの取り込み、クリーニング、重複排除、形式の正規化、検証、学習用の準備が行われます。

要するに、LLMに食べさせる前の下ごしらえです。
生の本、新聞、Webページ、音声、動画、画像、メタデータなどが混ざった巨大な素材を、そのまま学習に放り込むわけにはいきません。
OCR（文字を画像から読み取る処理）も多く必要だったようで、文字起こしの精度も当然効いてきます。

2. 国のスーパーコンピュータで本学習

前処理を終えたデータは、ノルウェーの国立スーパーコンピュータ Sigma2 Olivia に送られ、そこで実際の training runs が行われます。
このシステムは HPE Cray Supercomputing EX ベースで、448 GPUs と 64,512 CPU cores を搭載。ストレージは 5.3PBのCray ClusterStor E1000 です。

GPUの数だけ見ると、さすが国家プロジェクトという感じです。
でも個人的には、むしろ「学習の前にここまでデータを整える必要がある」という事実のほうが面白いです。AIは、派手な計算の前に、かなり泥臭いデータ作業を食べて成り立っているんだな、と再確認させられます。

技術以外の難しさもある

記事の後半で挙げられている課題も、かなり重要です。というか、ここが本丸かもしれません。

Evaluation

ノルウェー語の国産LLMを評価する標準ツールがまだないそうです。
さらにノルウェー語は、2つの書き言葉 があり、方言も多く、歴史的変化もある。
つまり、「このLLMは良い」と判定するのが、英語よりずっと難しい。

なのでチームは、評価ツールも自作している とのこと。
これは地味ですが、とても大きい話です。モデルを作るのはスタート地点で、本当に難しいのは「どう良し悪しを測るか」なんですよね。

Governance

「誰がこの主権的LLMへのアクセス権を持つのか」「何に使ってよいのか」を誰が決めるのか。
これは技術というより、制度や政治の問題 です。

たしかに、国の文化資産から作ったAIなら、誰でも自由に商用利用していいのか、という話は簡単ではありません。
ここは“便利だから作れば終わり”では済まない。AIに管理者、つまり custodian が必要だという指摘はかなり的確だと思います。

Orchestration

保存アーカイブ、オンプレのAI環境、国家スーパーコンピュータの 3つのシステムを滑らかにつなぐ のが継続課題。
これも、実務ではすごく厄介です。
組織が違い、目的が違い、性能特性も違うシステムをつなぐのは、技術だけでなく運用設計そのものの勝負になります。

この話の何が面白いのか

個人的に面白いのは、この記事が「AIの話」に見えて、実はかなり ストレージとデータ基盤の話 になっていることです。
しかも、その中心にあるのが“ノルウェー語”という、すごくローカルなテーマなのがいい。

世界中が同じLLMを使うようになると便利そうに見えますが、実際には言語や文化の違いが無視できない。
ノルウェーのような非英語圏の国が、自分たちの言語で、自分たちの歴史や文化を反映したAIを作ろうとすると、必要なのはモデルだけではなく、

巨大なデータ保存基盤
高速な前処理パイプライン
評価方法
運用ルール
組織間の連携

まで全部含まれる、ということがよくわかります。

Huawei storage が欧州市場でかなり存在感を持っている、というのも記事のまとめとして触れられていました。
そこは政治的・商業的な含みもある話ですが、少なくともこの記事が示しているのは、AIインフラは“どのGPUを使うか”だけで語れない ということです。

まとめ

ノルウェー国立図書館の取り組みは、単なる「国産LLMの開発事例」ではありません。
むしろ、自国の言語と文化を守りながらAIを作るには、データの保管、移送、整備、評価、統治まで含めた総力戦になる という現実を見せてくれます。

![image_0023.svg](https://www.blocksandfiles.com/files/2025/10/21/bandf_white (2).svg)

そして、そこに2PBのHuawei flash storageががっちり噛んでいる。
派手さはGPUに負けるかもしれませんが、実際にはこういう基盤こそがAIを支えている。個人的には、かなり“わかっている”話だと思いました。
AIの時代は、モデルを作る人だけでなく、データを守り、整え、渡す人が主役になる――この記事はそんなことを静かに教えてくれます。

![image_0024.svg](https://www.blocksandfiles.com/files/2025/10/09/SituationPublishing_Logo_Evolution_Twolines-White-Barlow (1).svg)