世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AMÁLIAが示す、ヨーロッパ・ポルトガル語LLMの現在地

記事のキーポイント

ポルトガル政府が550万ユーロを投じた、European Portuguese向けの大規模LLM「AMÁLIA」が公開された
AMÁLIAはゼロから学習したモデルではなく、既存の EuroLLM をベースに継続学習したもの
学習データでは、European Portugueseの比率を増やす工夫がいろいろ行われた
ただし現時点では、model weightsやdata、training logsなどの公開が不十分で、「open source」と言い切るには物足りない
ベンチマークでは強さを見せる一方で、「Portugalについてどれだけ知っているか」を測る指標はまだ足りない、という指摘が面白い
著者の結論は、良い第一歩ではあるが、もっとデータ・公開性・評価軸をオープンにすべきというもの

AMÁLIAって何者？

AMÁLIAは、ポルトガル語の中でもEuropean Portuguese（ポルトガル本国で使われるポルトガル語）に特化した大規模言語モデルです。
ポルトガル政府が2024年12月に550万ユーロを投じて進めたプロジェクトで、複数の大学や研究機関が協力しています。

ここで大事なのは、単に「ポルトガル語対応のAI」ではなく、European Portugueseを“ちゃんと主役”として扱うことを目指している点です。
英語の世界ではLLM開発が圧倒的に進んでいますが、小さい言語圏では「そもそも学習データが少ない」「評価する基準も少ない」という壁がある。ここを国として押し上げよう、という意図が見えます。これはかなり野心的ですし、正直、かなり面白い取り組みだと思います。

まず注目したいのは「ゼロから作っていない」こと

著者が驚いていたのが、AMÁLIAがfrom scratchで学習されたわけではないことです。
ベースはEuroLLMで、そこから継続的に pre-training を行っている、という理解のようです。

ここでいう pre-training は、LLMが大量の文章を読んで「言葉のつながり方」を覚える段階のこと。
ざっくり言えば、**“基礎体力づくり”**です。

さらに、context length や RoPE scaling などの調整も入っています。
これは難しく聞こえますが、要するに一度にどれくらい長い文章を扱えるかや、長文をうまく理解するための内部設定を調整した、という話です。

どうやってポルトガル語を強くしたのか

AMÁLIAの特徴は、どの学習段階でもEuropean Portugueseの比率を増やそうとしたことです。

pre-training: Arquivo.pt のデータを使用
SFT（supervised fine-tuning）: ポルトガル語データを合成生成
preference training: SFTのデータを一部サブサンプルして使用

SFTは、モデルに「こう答えてほしい」というお手本を与えて調整する工程です。
preference training は、さらに人間の好みや望ましい出力に寄せていく段階、と考えるとわかりやすいです。

ここで著者が強調しているのは、**“ポルトガル語を増やす”という発想は一貫している**一方で、実際にどれくらい増えたのかは見えにくい、という点です。
このあたり、研究としては頑張っているのに、外から見ると「で、どこまでポルトガル語なの？」となりがちで、もどかしいところです。

ベンチマークも新しく作った

評価のために、AMÁLIAチームはEuropean Portuguese向けの新しいベンチマークを4つ作成しています。
その中でも特に目立つのが ALBA です。

ベンチマークは、モデルのテスト問題集みたいなものです。
英語モデルなら既存の評価が山ほどありますが、European Portugueseにぴったりのものは少ない。だから新しく作る必要があるわけです。

これは非常に重要です。
なぜなら、評価できないものは改善しにくいからです。
AI開発は「学習データを増やすこと」ばかり注目されがちですが、個人的には評価設計こそ開発の半分以上だと思っています。ここが弱いと、モデルの実力が本当に伸びたのか、ただ別の試験に強くなっただけなのかが曖昧になります。

でも「open source」としてはまだ物足りない

著者がかなり率直に指摘しているのがここです。
AMÁLIAは「fully open source LLM」とうたっているものの、著者が確認した時点では、model weights、data、training logs、新しいbenchmarksが十分に公開されていなかったとのことです。

公開されていたのは、Arquivo.ptの処理スクリプトなど一部のGitHubリポジトリ。
でも、肝心の学習済み重み（weights）や学習データ本体が見えないのは、やはりかなり残念です。

ここは著者の言い方がとても現代的で、共感できます。
今は「open weights」と言いながら、実際には何がどこまで開いているのかよくわからないLLMが増えています。
だからこそ、本当にオープンを名乗るなら、weights、data、code、logs、evalsまで含めて公開してほしい、という主張には説得力があります。私もこれはその通りだと思います。

ただし、ポルトガル語の比率は意外と多くない

著者が最も気にしているポイントの一つが、学習データにおけるEuropean Portugueseの割合です。

報告書によれば、extended pre-training は合計 107B tokens。
そのうち、European Portugueseとして明確に確認できるのは Arquivo.pt由来の5.8B tokens。
つまり、**約5.5%**しかありません。

もちろん、ベースの EuroLLM 側にもポルトガル語は含まれているはずです。
でも、それがどれくらいなのか、そして本当にEuropean Portugueseなのかは、外からは見えにくい。ここが大きなモヤモヤです。

SFT側では比率が17〜18%程度まで上がるそうですが、それでも十分かどうかは別問題。
著者は、「もっとポルトガル語データを増やせば、さらに良くなる余地があるのでは？」と疑っています。
これはかなり自然な疑問だと思います。言語モデルって、結局はその言語をどれだけ“浴びた”かが効いてくるので。

ベンチマークで勝つだけでは、少し足りない

AMÁLIAは、Qwen 3-8Bのような強力なモデルに対して、ポルトガル語ベンチマークでかなり良い結果を出しているとのことです。
これは普通に大きな成果です。ローカル言語向けモデルが、グローバル強豪に勝つのは痛快です。

ただ、著者はそこで満足していません。
なぜなら、ベンチマークが測っているのはあくまで一部でしかないからです。

たとえば著者は、

「Aveiroで一番有名なデザートは何か？」
「1978年から1985年までのポルトガル大統領は誰か？」

みたいな、Portugalそのものの知識を問うべきではないか、と提案しています。

これはすごく面白い視点です。
単に文法が正しい、一般知識がある、ブラジルポルトガル語に引きずられない、というだけではなく、**“Portugalを知っているモデル”**になっているか。
たしかに、European Portuguese LLMの価値はそこにあるはずです。

個人的にも、これはかなり重要な論点だと思います。
小さな言語圏のLLMは、英語モデルの小型版を作るのではなく、その国や地域に固有の知識・文化・表現を持つことに意味があるはずだからです。

著者の結論：良い第一歩。でも、まだ伸びしろだらけ

最後に著者は、かなり誠実なトーンで締めています。

他人の仕事をネット上で批判したくはない
でも、国家予算が入っている以上、国全体がこの成果の受益者なので、厳しい質問をするのは当然
ポルトガルのような小さな言語圏で大規模LLMを作るのは本当に難しい
それでも、AMÁLIAは未来に向けた良い第一歩だ

このバランス感覚がいいんですよね。
ただ褒めるだけでも、ただけなすだけでもない。
「すごい。でも、もっとできる」というスタンスです。

私も同じ印象です。
AMÁLIAは、European PortugueseのLLM開発が「できるかどうか」から「どう作るべきか」に進んだことを示す、象徴的なプロジェクトだと思います。
一方で、本当に価値ある国家プロジェクトにするには、公開性の徹底と評価軸の再設計が次の勝負どころではないでしょうか。

まとめ

AMÁLIAは、European Portugueseを本気で扱うために作られた、大きな意義のあるLLMです。
ただし現時点では、open sourceとしての公開度や、ポルトガルらしさを測る評価にはまだ課題がある、というのがこの記事の核心です。

言い換えると、
「良いモデルを作った」だけでは終わらない。
“何をもって成功とするか”まで含めて、これからが本番
という話です。

正直、こういう「小さな言語のための大きな挑戦」は、見ているだけでワクワクします。
うまくいけば、英語一強のLLM世界に対して、かなり面白い対抗軸になるはずです。

参考: AMÁLIA and the future of European Portuguese LLMs

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ