世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-22

IBM Graniteの新しい多言語EmbeddingモデルR2をわかりやすく紹介：32K対応・Apache 2.0・サブ1億パラメータで強い

まずは要点だけ

IBM Graniteが多言語Embeddingモデルの新作R2を公開
97Mの小型モデルと311Mの高性能モデルの2種類
どちらもApache 2.0で使いやすい
32,768トークンの長い文脈に対応し、R1の64倍
200+言語をカバーし、52言語は検索向けに強化
Pythonなど9種類のプログラミング言語のコード検索にも対応
小型の97Mモデルは、100M未満の公開多言語Embeddingモデルで最高クラスの検索性能を主張
LangChain、LlamaIndex、Haystack、Milvusなどで差し替えやすい

Embeddingって何？ざっくり言うと「意味を数字にする技術」

この記事の主役は、Embeddingモデルです。

Embeddingは、文章や単語の意味をベクトルという数字の並びに変換する技術です。
これを使うと、

「意味が近い文章どうし」を見つける
文書検索で、キーワード一致ではなく意味検索をする
多言語の質問と文書をつなぐ
コードと説明文をまたいで検索する

みたいなことができます。

たとえば日本語で「返品方法」と検索して、英語の「how to return items」資料を拾うような世界ですね。
これ、地味に見えてかなり重要です。検索体験の土台を作る技術なので、RAG（検索拡張生成）や社内ナレッジ検索ではほぼ必須級です。

今回のR2、何がうれしいのか

Granite Embedding Multilingual R2は、IBM Graniteが出した新しい多言語Embeddingモデル群です。ポイントは、単に「多言語です」ではなく、

軽い
長文に強い
言語数が多い
コード検索もできる
ライセンスがApache 2.0で扱いやすい

という、実運用でうれしい要素がかなり揃っていることだと思います。

特に面白いのは、小型モデルなのに強い点です。
AIモデルの世界では「大きい＝強い」が基本ですが、Embeddingは実運用だと速度とコストがかなり効いてきます。検索のたびに何万回も呼ばれることもあるので、モデルサイズは軽視できません。

2つのモデルがある

R2では、用途の違う2モデルが公開されています。

granite-embedding-311m-multilingual-r2

311M parameters
768次元のEmbedding
Matryoshka supportあり

これはフルサイズ版です。
性能をしっかり取りに行きたい、でも500M未満の範囲で収めたい、というときに良さそうです。

granite-embedding-97m-multilingual-r2

97M parameters
384次元のEmbedding

こちらはコンパクト版です。
この記事の主張では、100M未満の公開多言語Embeddingモデルとして最高の検索性能を出したとのこと。
このサイズ帯でここまで戦えるのは、かなり気持ちいいです。正直、実務ではこっちを選びたくなる場面も多いと思います。

どれくらい多言語なのか

対応はかなり広く、200以上の言語をカバーしています。
さらに、その中でも52言語は検索ペアやクロスリンガル学習で強化されています。

たとえば強化対象には以下が含まれます。

日本語
英語
中国語
韓国語
フランス語
ドイツ語
スペイン語
ロシア語
ヒンディー語
アラビア語

など、かなり広範囲です。

ここで大事なのは、「多言語対応」といっても、ただ辞書っぽく広く学習しただけではなく、検索で実際に役立つ言語を重点強化していることです。
この差は大きいです。多言語モデルは“対応している”と“ちゃんと使える”の間に、わりと深い谷があるので。

32Kトークン対応が地味にすごい

R2は32,768トークンまで扱えます。
元のR1は512トークンだったので、64倍です。

トークンは、ざっくり言うと文章をAIが読むときの「細かい部品」です。
長い文書、議事録、仕様書、契約書、コード混じりの文書などでは、この長文対応がかなり効きます。

個人的には、Embeddingで長文対応が強いのはかなり実用的だと思います。
RAGの世界では「文書を細切れにしすぎて意味が壊れる」問題がよくあるので、長めの文脈を見られるのは強いです。

何がR1から変わったのか

R1世代はXLM-RoBERTaベースでしたが、R2はModernBERTベースで作り直されています。

ModernBERTの何がいいの？

記事によると、主にこんな利点があります。

long sequence での計算効率がいい
Rotary position embeddings により、長い文脈を扱いやすい
Flash Attention 2.0 でGPU上の速度が出やすい

難しく見えますが、要するに
「長い文章を、速く、そこそこ無理なく扱えるようにした」
ということです。

Embeddingは精度だけでなく、検索時のスループット、つまりたくさんの文をどれだけ速く処理できるかが超重要です。
この方向にちゃんと寄せているのは、かなり実務目線だと感じます。

tokenizerの工夫が意外と大きい

記事で印象的だったのが、tokenizerへのこだわりです。

tokenizerは、文章をAIが処理できる単位に分ける仕組みです。
これが下手だと、同じ文章でも無駄に細かく分割されてしまい、長文対応の恩恵が薄れます。

R2では、R1のように古い語彙をそのまま使うのではなく、

311Mモデルは Gemma 3 tokenizer
97Mモデルは GPT-OSS tokenizer をベースにして圧縮

という形を取っています。

記事の言い方を借りるなら、32Kトークンの窓があっても、tokenizerが雑だと台無しです。
この視点、かなり本質的だと思いました。Embeddingはモデル本体だけ見がちですが、実際は前処理の設計が効いてくるんですよね。

311Mモデルの中身

311Mモデルは、22層のModernBERT encoder。
学習は段階的に行われています。

1. Knowledge distillation

強い教師モデルから知識を引き継ぎます。
ここでは、Granite 3.3 InstructやMistral v0.2 Instructを使い、Embedding向けにさらに調整したものが教師になっています。

要するに、大きく賢いモデルの“解き方”を学ぶわけです。
人間でいえば、優秀な先輩の仕事を見て覚える感じに近いです。

2. Contrastive fine-tuning

検索で使う正解ペアとハードネガティブを使って学習します。

正解に近い文書を高く評価
似ているけど違う文書を低く評価

という訓練です。
これは検索モデルの王道です。ここが弱いと、見た目は賢そうでも検索では迷子になります。

3. Model merging

複数の学習段階や設定で得たチェックポイントを統合します。
これは、複数の強みを1つにまとめるイメージです。ちょっと面白い工程です。

4. Matryoshka Representation Learning

Embeddingの次元を、後から削っても性能を保ちやすくする学習です。
311Mモデルは、768次元を512 / 384 / 256 / 128などに縮めても使えるように設計されています。

これ、実務ではかなり便利です。
「高精度が欲しいときは768次元、速度優先なら128次元」みたいな運用ができるからです。

97Mモデルの作り方

97Mモデルは、さらにコンパクトにするために語彙の選別とKnowledge distillationを組み合わせています。

Vocabulary selection

262Kトークンの語彙を、180Kトークンに絞ります。
ただ削るのではなく、多言語の広さを保ちながら圧縮しているのがポイントです。

Knowledge distillation

Granite 4.1 8BやMistral Instruct系の教師モデルなどから学習し、Contrastive trainingも加えて性能を上げています。

小型モデルって、ただ小さくするだけだとすぐ性能が落ちます。
でもR2は、教師の知識をうまく吸ってサイズを削る設計なので、かなり筋がいいです。

ベンチマーク結果はどう見ればいい？

記事ではいくつかのベンチマークが出ていますが、ここで大事なのは細かい数字を丸暗記することではありません。
ざっくり言うと、R2は以下の方向で強いです。

多言語検索
コード検索
英語検索
長文検索

特に注目されるのは、97MモデルがMultilingual MTEB Retrievalで60.3を出し、100M未満の公開多言語Embeddingとしてかなり強い位置にいることです。

比較対象として、記事では multilingual-e5-small が 50.9 とされていて、**+9.4ポイント差**だと述べています。
この差はかなり大きいです。Embeddingのベンチマークで9点差は、なかなか見過ごせません。

311Mモデルは 65.2 を記録し、500M未満の公開モデルの中でもかなり上位です。
性能だけ見れば、「あ、これ普通に使いたいな」と思わせる数字です。

速さと使いやすさもちゃんと考えている

R2は精度だけではなく、運用性にも配慮されています。

sentence-transformers と transformers でそのまま使いやすい
LangChain / LlamaIndex / Haystack / Milvus に差し替えやすい
ONNX と OpenVINO の重みもある
CPU最適化に配慮されている

このへんは地味ですが重要です。
研究用モデルは性能が良くても、導入が面倒だと現場では広まりません。
IBM Graniteはこの「ちゃんと使える形で出す」部分にかなり気を使っている印象です。

Enterprise向けを意識したデータ設計

記事では、学習データについてもかなり丁寧に説明しています。

IBM curated datasets
public data
synthetic data
Web由来データは品質、重複排除、ガバナンスのプロセスで選別
MS-MARCOは使っていない
非商用制限のあるデータも避けている

ここは企業利用でかなり大事です。
モデル性能が良くても、データの出自が不明だと法務や調達で止まることがあります。
その意味で、商用利用しやすさを前面に出しているのはかなり好印象です。

どのモデルを選ぶべき？

ざっくり言うと、こういう選び方になりそうです。

97Mモデルが向いているケース

まずは軽く試したい
検索件数が多く、速度やコストが重要
エッジ寄り、CPU推論寄りで使いたい
100M未満のサイズ感でできるだけ強いモデルが欲しい

311Mモデルが向いているケース

精度優先
長文や多言語をしっかり扱いたい
次元を後から調整したい
少し重くても、全体性能を取りたい

個人的には、97Mモデルがかなり面白いと思います。
小型なのにここまで戦えると、実運用での採用ハードルがぐっと下がるからです。
一方で、311MのMatryoshka対応も魅力的で、こちらは「一本で用途を広くカバーしたい」人に刺さりそうです。

まとめ：これは“使える多言語Embedding”をかなり本気で作った発表

Granite Embedding Multilingual R2は、単なる新モデルの追加ではなく、
多言語・長文・コード・軽量・商用利用のしやすさを、かなり高いレベルでまとめてきた発表だと感じます。

特に印象的だったのは、

97Mモデルが小型帯でかなり強いこと
32K context がEmbeddingで効いていること
tokenizerやデータガバナンスまで含めて、実運用を見ていること

です。

AIモデルのニュースは「大きいモデルが出ました」で終わりがちですが、Embeddingはむしろ逆で、現場に入ってから真価が出るタイプです。
その意味で今回のR2は、派手さ以上に“ちゃんと使える強さ”がある発表だと思いました。

参考: Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

同じ著者の記事

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

IBM Graniteの新しい多言語EmbeddingモデルR2をわかりやすく紹介：32K対応・Apache 2.0・サブ1億パラメータで強い

まずは要点だけ

Embeddingって何？ ざっくり言うと「意味を数字にする技術」

今回のR2、何がうれしいのか

2つのモデルがある

granite-embedding-311m-multilingual-r2

granite-embedding-97m-multilingual-r2

どれくらい多言語なのか

32Kトークン対応が地味にすごい

何がR1から変わったのか

ModernBERTの何がいいの？

tokenizerの工夫が意外と大きい

311Mモデルの中身

1. Knowledge distillation

2. Contrastive fine-tuning

3. Model merging

4. Matryoshka Representation Learning

97Mモデルの作り方

Vocabulary selection

Knowledge distillation

ベンチマーク結果はどう見ればいい？

速さと使いやすさもちゃんと考えている

Enterprise向けを意識したデータ設計

どのモデルを選ぶべき？

97Mモデルが向いているケース

311Mモデルが向いているケース

まとめ：これは“使える多言語Embedding”をかなり本気で作った発表

Embeddingって何？ざっくり言うと「意味を数字にする技術」