世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

IBM Graniteの新作「Granite 4.0 3B Vision」は何がすごいのか？企業向けドキュメント理解を小型モデルで実現

記事のキーポイント

IBM Graniteが、企業文書向けの小型VLM「Granite 4.0 3B Vision」を公開した
得意分野は主に3つ
- Table Extraction: 表を構造ごと読み取る
- Chart Understanding: グラフを内容として理解し、要約やCSV化まで行う
- Semantic KVP Extraction: 書類から意味のある key-value pair を抜き出す
中身は Granite 4.0 Micro + LoRA adapter という構成で、テキスト専用処理にも戻れるのが企業向けらしい設計
訓練の柱は
- ChartNet: 170万件規模のチャートデータセット
- DeepStack: 画像特徴を層の深さごとに賢く入れる仕組み
- Modularity: 1つのモデルで画像もテキストも扱う柔軟性
ベンチマークでは、Chart2Summary、表抽出、KVP抽出でかなり強い結果を出している
個人的には、これは「マルチモーダルAIが見た目の説明係から、実務で使える文書処理エンジンへ進んできた」感じがしてかなり面白いと思う

まず何が発表されたのか

IBM Graniteが Hugging Face 上で、Granite 4.0 3B Vision を発表しました。
これはひと言でいうと、画像と文章を同時に扱える小型のAIモデルです。こういうモデルは VLM（Vision-Language Model）と呼ばれます。日本語で雑に言えば、「画像を見て、文章で理解できるAI」ですね。

ただし、今回のモデルは単なる「画像の説明がうまいAI」ではありません。
狙っているのはかなり実務寄りで、企業の書類処理です。

たとえば、

複雑な表を正しく読み取る
グラフの意味を理解してCSVや要約にする
申請書や請求書の項目を抜き出す

といった仕事です。

このあたり、地味に見えて実はかなり重要です。
なぜなら、企業の現場で本当に困るのは「きれいな文章を生成すること」より、PDFや画像に埋もれた情報を正確に機械で扱える形にすることだからです。ここをきっちり狙っているのが、このモデルの特徴だと思います。

Granite 4.0 3B Visionの得意なこと

元記事では、主な能力として次の3つが挙げられています。

1. Table Extraction

表を、ただ「表っぽく読む」のではなく、行・列・結合セルの構造まで含めて取り出す能力です。

これは見た目以上に難しいです。
表って人間には一瞬で読めますが、AIにとっては、

どこまでが1列なのか
セルがどこで結合されているのか
改行や罫線が意味を持つのか

を判断しないといけません。

元記事では、multi-row / multi-column の複雑な表にも対応できるとされています。
企業文書ではこういう表が普通に出てくるので、ここに力を入れているのはかなり現実的だなと思います。

2. Chart Understanding

グラフを見て、ただ「棒グラフですね」と言うだけではなく、
数値の関係や傾向を理解して、構造化されたデータに変換するのが狙いです。

たとえば、

折れ線グラフの値を読み取る
棒グラフの比較を要約する
グラフをCSVやコードに変換する

といったことができるとされています。

ここはかなり面白いです。
グラフって、見た目は画像ですが、本質はデータの圧縮表現です。そこをAIが正しくほどけるなら、会議資料やレポートの価値がかなり上がります。
個人的には、VLMの中でもチャート理解はかなり「実用度が高い難所」だと思っています。

3. Semantic Key-Value Pair（KVP） Extraction

これは少し専門用語ですが、簡単に言うと「項目名」と「値」のペアを見つけることです。

たとえば請求書なら、

顧客名 → ○○株式会社
日付 → 2026/03/31
金額 → 123,000円

のように、意味のあるペアとして抜き出します。

単に文字をOCRで読むだけではなく、その文字が何の項目なのかまで理解するのがポイントです。
書類処理ではここがめちゃくちゃ重要で、実務では「読めた」だけでは足りません。使える形に整理されて初めて価値が出るんですよね。

どうやって作ったのか：3つの工夫が柱

元記事によると、このモデルの性能は主に3つの投資によって支えられています。

ChartNet
DeepStack
Modularity

順番に見ていきます。

ChartNet：グラフを本当に理解させるための巨大データセット

チャート理解が難しい理由は、画像を見るだけでは足りず、
視覚・数値・言語を同時に扱わないといけないからです。

たとえば線グラフなら、ただ線の形を見るだけでなく、

どの点が何の値なのか
軸の意味は何か
凡例は何を示すのか
その変化が何を意味するのか

まで考えないといけません。

そこでIBM Graniteが作ったのが、ChartNet。
これは170万件規模のマルチモーダルデータセットで、元記事では 24種類のチャート と 6つの plotting library を含むと説明されています。

しかも面白いのは、1サンプルに以下の5つの対応する要素があることです。

plotting code
rendered image
data table
natural language summary
QA pairs

つまり、ただ画像だけ集めたのではなく、
「このグラフは、元のコードとデータからどう見えて、どう説明され、どう問答できるか」をセットで学ばせているわけです。

これはかなり賢い設計だと思います。
グラフ理解って、画像単体だけで学ばせると限界があるはずで、**“正解の意味”を複数の形で結びつける**のが効いていそうです。

しかも人手で検証されたデータや実世界のデータも含め、視覚的な正確さや意味の整合性、 विविध性（多様性）が重視されているとのこと。
この手のデータセットは、量だけ多くても雑だと意味がないので、そこを意識しているのは好印象です。

DeepStack：画像情報を入れる位置を賢く分ける

次の工夫は DeepStack Injection です。

普通のVLMは、画像の情報を言語モデルに1か所でまとめて入れることが多いそうです。
でもそれだと、モデルはそこで一気に

高レベルな意味理解
細かい位置情報の把握

を同時にさばかないといけません。

それに対して Granite 4.0 3B Vision は、画像特徴を層ごとに分けて入れる設計です。

早い層には、抽象的な画像特徴を入れて意味理解を助ける
後ろの層には、高解像度の空間情報を入れて位置精度を保つ

要するに、「何が写っているか」と「どこにあるか」を別々に面倒を見るわけです。

これはかなり筋がいいと思います。
文書処理では、意味だけでなく位置が超重要です。たとえば「この数字はタイトルの横なのか、表の中なのか」で意味が変わることがあります。
だからこそ、この分離は地味ですが効くはずです。

1つのモデルで2つのモード：モジュール設計

Granite 4.0 3B Vision は、単独の巨大モデルではなく、Granite 4.0 Micro の上に乗る LoRA adapter として提供されています。

LoRA adapter は、ざっくり言うとベースモデルに後付けする軽量な追加学習部品のようなものです。
全部を作り直さずに、必要な能力だけ足せるのが利点です。

この設計の良いところは、画像が必要ないときはテキスト専用のベースモデルに戻せること。
つまり、

画像込みの処理
テキストだけの処理

を同じ土台で扱いやすいんです。

企業システムって、実際にはかなり混在しています。
あるときはPDFの表を読み、あるときはメール本文だけを処理し、またあるときは画像付き資料を見る。
そういう現場で、1つのモデルを柔軟に使い回せるのはかなり実務的だと思います。派手ではないけれど、むしろここが本当に重要です。

性能はどうなのか

元記事では、いくつかのベンチマークで強い結果が示されています。

チャート理解

ChartNet の human-verified benchmark で、

Chart2Summary: 86.4%
Chart2CSV: 62.1%

を記録しています。

特に Chart2Summary では、比較対象の中で最高スコアだったとされています。
Chart2CSV でも、モデルサイズが2倍以上の Qwen3.5-9B に次ぐ2位とのことです。

ここはかなりインパクトがあります。
小型モデルが大きなモデル相手にここまで戦えるなら、実運用では「とりあえず巨大モデルを使う」以外の選択肢が見えてきます。

表抽出

表抽出では、いくつかのベンチマークでトップ級の結果を出しています。

PubTables-v2
- cropped: 92.1
- full-page: 79.3
OmniDocBench-tables: 64.0
TableVQA: 88.1

評価指標は TEDS で、これは表の構造と内容の両方を見る指標です。
単に文字が合っているかではなく、表として正しく復元できているかが問われます。

この結果はかなり実務向けです。
表抽出は「見た目が似てる」ではなく、「あとで機械が使える」ことが大事なので、こういう評価で強いのは説得力があります。

KVP抽出

VAREX というベンチマークでは、zero-shot で 85.5% EM accuracy を達成したとあります。

zero-shot は、簡単に言うとその課題に合わせた追加学習なしで試したという意味です。
EM（Exact Match）は、答えが完全一致しないと正解にならない厳しい評価です。

この条件で 85.5% はかなり立派です。
書類処理は、ちょっと違うだけで実務上は困るので、こういう厳しめの指標で結果を出しているのは信頼感があります。

どう使うのか

元記事では、使い方を大きく2つに分けています。

1. Stand-Alone Image Understanding

画像単体を直接入力して使う方法です。

これは、

既存のワークフローを大きく変えたくない
画像やフォームだけをサクッと解析したい
チャート分析のような単機能ツールに組み込みたい

ときに便利です。

2. Doclingと組み合わせた文書理解パイプライン

もう1つは、Docling と組み合わせる方法です。
Docling は、文書を解析してページ構造や要素を扱うための仕組みとして使われています。

この構成だと、

多ページPDFを大規模に処理する
図、表、その他の視覚要素を自動検出する
きれいに切り出した部分を Granite Vision に渡して細かく読む

という流れが作れます。

要するに、「文書全体をざっくり解析する役」と「切り出した部分を賢く読む役」を分業させるわけです。
この構成はかなり現実的で、私はかなり好きです。AIに全部一気にやらせるより、役割分担したほうが、たいてい安定するからです。

どんな場面で使えそうか

元記事では、主なユースケースとして次のようなものが挙げられています。

Form Processing
- 請求書、申請書、レシートなどから項目を抜き出す
Financial Report Analysis
- レポートから図表を抽出し、チャートを構造化データに変換する
Research Document Intelligence
- 学術PDFからOCRやレイアウト解析を行い、図表を本文と一緒に扱う

このへんは、かなり「現場で使うAI」という感じです。
派手なデモより、こういう地味だけど毎日効く用途のほうが、実際には価値が大きいのではないかと思います。

まとめ：小型なのに、やることはかなり本気

Granite 4.0 3B Vision は、見た目だけのマルチモーダルモデルではなく、
企業文書を正確に読むための実務特化VLM という印象でした。

特に印象的だったのは、

小型でも強いこと
表とグラフとKVPにちゃんと焦点を当てていること
文書全体のパイプラインに組み込みやすいこと

です。

個人的には、こういうモデルは「すごいデモ」よりも「地味な業務を静かに効率化する」方向で真価を発揮すると思います。
AIの世界では巨大モデルが話題になりがちですが、実際の業務では小さくて、速くて、組み込みやすくて、そこそこではなくちゃんと当たるモデルのほうがありがたいことが多いです。

Granite 4.0 3B Vision は、まさにその路線の有力候補ではないでしょうか。

参考: Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ