世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

I-DLMとは何か？ Diffusion Language Modelの弱点を「自己チェック」でひっくり返した新手法

キーポイント

I-DLMは、Diffusion Language Model（DLM）の弱点だった「品質の低さ」をかなり正面から改善した手法。
いちばんの発想は、生成しながら、自分で前に出したトークンを確認するという “introspective consistency（内省的一貫性）”。
その結果、同規模のAR（Autoregressive）モデルと同等の品質に到達した、というのが最大の売り。
しかも速い。元記事では LLaDA-2.1-mini比で2.9〜4.1倍のthroughput をうたっている。
さらに面白いのは、lossless（bit-for-bit identical） な高速化まで目指している点。地味にすごいです。
個人的には、DLMの「並列で速そうなのに、なぜか品質で負ける」というもどかしさに、かなり筋のいい解法を出してきた印象です。

まず何が問題だったのか

言語モデルには大きく分けて、AR（Autoregressive） と DLM（Diffusion Language Model） の流れがあります。

AR: 1語ずつ順番に出す方式
例えるなら、文章を左から右へ一個ずつ埋める感じです。堅実ですが、どうしても順番待ちが発生します。
DLM: 複数トークンを並列に生成しやすい方式
うまくいけば速い。でも、元記事によると従来のDLMは品質でARに届きにくい。

ここで著者たちが言っている本質的な問題は、introspective consistency（内省的一貫性）が足りないことです。

ざっくり言うと、

ARは「次に何を出すか」を決めるとき、自分が出した内容と整合するように振る舞う
でも既存DLMは、ノイズを消して文字を作ることはできても、“自分の出力を自分で監査する”感じが弱い

この差が、品質ギャップの根っこだという主張です。
これはかなり納得感があります。生成モデルって、ただ“それっぽい文字列”を出すだけでは足りなくて、出したものをちゃんと自分で辻褄合わせできるかがめちゃくちゃ重要なんですよね。

I-DLMの発想：生成と検証を同時にやる

I-DLMの中心アイデアは、Introspective Strided Decoding（ISD） です。

名前だけだと強そうですが、やっていることは意外と素直です。

ISDのざっくりした流れ

MASK位置で新しいトークンを提案する
→ これは「空欄を埋める」部分
Clean位置で前に出したトークンを検証する
→ これは「さっき出した答え、ほんとにそれでいい？」のチェック
これを1回のforward passで同時にやる

つまりI-DLMは、
“作る” と “確認する” を別々にやらず、同じ流れの中で両方こなす
のが肝です。

この発想、かなり好きです。
速くしたいから雑に並列化するのではなく、並列化しつつ品質を落とさないために、モデル自身の整合性を高める。単純な力技よりずっと賢いです。

学習方法も、ARからの移行を意識している

元記事では、既存のpretrained ARモデルをベースにして、I-DLMへ変換するような学習を提案しています。

ざっくり言うと：

causal attention を使う
→ 未来の情報を見ない、普通の順方向の注意機構
logit shift を入れる
→ 最初の位置を扱いやすくする工夫
all-masked objective
→ 全部マスクした状態からの復元も学ぶ

さらに、訓練データとして 4.5B tokens、8 H100 GPUs、2 epochs で学習したと書かれています。
このあたり、かなり本気です。研究のアイデアだけではなく、実運用できる形に落としているのが好印象ですね。

結果がすごい：DLMなのにAR級

元記事の主張の目玉はここです。

I-DLM-8B is the first DLM to match the quality of its same-scale AR counterpart

つまり、同規模のARモデルと同じレベルの品質に到達した最初のDLMだということです。

具体的に何が良いのか

ベンチマークを見ると、I-DLM 8B / 32B は、知識、数学、コード、instruction following の各領域でかなり強い数字を出しています。

たとえば：

AIME-24
LiveCodeBench-v6
HumanEval
MBPP
MMLU / GPQA系

などで、従来DLMを大きく上回っています。

特に目を引くのは、元記事の冒頭で強調されている比較です。

I-DLM-8B vs LLaDA-2.1-mini 16B
- AIME-24で +26
- LiveCodeBench-v6で +15
- しかもパラメータ数は半分

これ、かなり派手です。
単純に「速いDLM」を作っただけではなく、小さめのモデルで強い結果を出しているのが地味に重要だと思います。実運用では、パラメータ効率はかなり大事ですから。

速さの話：throughputが高いのが本当にうれしい

DLMの最大の売りは、ARの弱点である逐次生成のボトルネックを避けられることです。
I-DLMはそこをちゃんと活かしていて、元記事では 2.9〜4.1x throughput を主張しています。

ここでいうthroughputは、ざっくり言うと
「一定時間あたりにどれだけトークンを処理できるか」
です。

なぜ速くなるのか

I-DLMは1回のforward passで複数トークンを進められるので、ARよりも1回あたりの仕事量が多いです。
しかも、元記事の説明では高並列時でも効率が落ちにくい。

このへんが面白いのは、単に「1回でたくさん出す」だけだと、ふつうは間違いが増えて結局遅いになりがちなのに、I-DLMは検証付きなのでそこを抑えている点です。

かなり重要そうな論点：compute efficiency

元記事では、DLMを評価するときに TPF² / query_size みたいな指標も出しています。
要するに、

1回のforwardでどれだけトークンを出せるか
その1回にどれだけ計算がかかるか

をまとめて見ているわけです。

ざっくり解釈

SDAR は効率が低く、すぐcompute-bound（計算が詰まる状態）に入りやすい
I-DLM はその点でかなり有利で、高並列でも伸びやすい

元記事の例では、

SDAR (N=4, p=0.5): compute efficiency ≈ 0.31
I-DLM (N=4, p=0.9): compute efficiency ≈ 1.22

と示されています。

この数字の意味は、ざっくり言うと
I-DLMは「並列化したのに、無駄な計算ばかり増えていない」
ということです。

ここは私としてもかなり重要だと思います。
高速化の議論って、見た目の速度だけだとだまされやすいんですが、計算効率まで見てちゃんと勝っているかは別問題です。I-DLMはそこを意識しているのが良いですね。

もう一つの強み：既存のAR serving infrastructureに乗りやすい

元記事では、I-DLMは AR-compatible serving をうたっています。
つまり、既存のAR向けサービング基盤に比較的そのまま載せやすいということです。

これは実務だとかなり大きいです。
どれだけ速くても、専用インフラが必要で導入が面倒だと、現場では「で、誰が面倒見るの？」となりがちです。
I-DLMはこの点で、SGLangに直接統合可能としています。

さらに、以下のような最適化も列挙されています。

Paged KV cache
continuous batching
CUDA graph capture
stationary-batch decode-loop scheduling
argmax proposals
paged-only attention kernel

正直、ここはややエンジニア向けですが、要するに
「モデルだけじゃなく、実際の推論システム全体で速くなるように詰めている」
という話です。

この地道さはすごく大事です。研究はアルゴリズムだけで終わらせず、現場で動く形にするところまで踏み込むと一気に価値が上がります。

Losslessな高速化までやるのが面白い

元記事で特に興味深いのが、Residual ISD（R-ISD） と gated LoRA を使った bit-for-bit identical な高速化です。

ここで言いたいことは、

ふつうは高速化すると、少し出力が変わることがある
でもR-ISDは、ベースのARモデルと完全一致する出力を狙える

ということです。

これはかなり面白いです。
“速いけど少し違う” ではなく、**“速いのに同じ”** を目指すのは、実務上すごく価値があります。
監査や再現性が必要な場面では特に強いはずです。

では、I-DLMは万能なのか？

ここは冷静に見たほうがいいです。
元記事の結果はかなり強いですが、もちろん万能とまでは言えません。

考えるべき点としては：

DLM系はまだARに比べて、実装や運用の複雑さがある
高品質を保ちながら並列化するには、acceptance rate や stride設計の調整が必要
ベンチマークで強くても、実際のプロダクトではレイテンシ、メモリ、バッチ特性が効いてくる

ただ、I-DLMはそのあたりをかなり正面から扱っていて、
「研究だけの面白さ」で終わっていないのが好感触です。

個人的には、これはDLMの“次の一手”としてかなり有力ではないかと思います。
「並列化したい。でも品質は落としたくない」という、当たり前だけど難しい要求に対して、ちゃんと設計が入っているからです。

まとめ

I-DLMは、Diffusion Language Modelが抱えていた
「速くできそうなのに品質で負ける」
という弱点に対して、内省的一貫性という観点から切り込んだ研究です。

ポイントを一言でまとめるなら、

“生成しながら自己検証するDLM” によって、ARに迫る品質と高いthroughputを両立した

ということになります。

特に印象的なのは、

DLMなのにAR級品質
高並列でもthroughputが伸びる
既存のAR servingに乗せやすい
さらにlossless高速化まで視野に入れている

という、研究としても実装としても筋の良さです。

DLMはずっと「理屈は魅力的だけど、ARに勝ち切れない」立場にいましたが、I-DLMはその壁をかなり押し返した感じがあります。
まだ今後の検証は必要ですが、少なくとも**“DLMは遅い・弱い” で終わる時代ではない**、という空気を強く感じる発表でした。

原文: I-DLM: Introspective Diffusion Language Models

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ