世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Gemini APIに「Flex」と「Priority」が登場：コストと信頼性を使い分ける新しい選択肢

Googleが、Gemini APIに Flex と Priority という2つの新しい inference tier（推論の優先度・サービス階層）を追加しました。
ざっくり言うと、「安く回したい処理」と「安定して速く返ってほしい処理」を、APIの中で使い分けやすくする仕組みです。

これ、かなり実用的だと思います。AIアプリって、全部を同じ品質・同じ速さで動かしたいわけじゃないんですよね。裏で黙々と処理する仕事もあれば、ユーザーの目の前でサクッと返さないと困る仕事もある。そこを一つのAPIで整理しよう、というのが今回の話です。

記事のキーポイント

Gemini APIに Flex と Priority の2つの新しい tier が追加された
Flex は、コスト重視の処理向けで、Standard APIより50%安い
Priority は、信頼性・低遅延重視の処理向け
どちらも standard synchronous endpoints を使えるので、Batch APIより扱いやすい
これまで分かれていた 同期API と Batch API の使い分けを、よりシンプルにできる
背景処理やエージェント的な「考える」作業には Flex、ユーザー向けのチャットなどには Priority が向いている

そもそも何が問題だったのか

AIアプリを作ると、処理は大きく2種類に分かれます。

1. Background tasks

これは、裏でまとめてやっておけばいい仕事です。
たとえば:

データの補完
大量の情報整理
研究シミュレーション
エージェントが裏で資料を読んだり考えたりする処理

こういう処理は、多少遅くても困りません。むしろ、安く大量に回せることのほうが大事です。

2. Interactive tasks

こちらは、ユーザーが直接触る処理です。
たとえば:

チャットボット
Copilot
ユーザー画面で待たせたくない応答

こっちは逆で、多少高くてもいいからちゃんと速く、安定して返ってきてほしい。
1回でも遅いと、「あれ、壊れた？」となりがちです。人間は待たされるとすぐ不安になるので、ここはかなり重要です。

これまでの面倒くささ

Googleによると、これまではこうした2種類の処理を両立させるために、

standard synchronous serving
asynchronous Batch API

を使い分ける必要がありました。

でも正直、これは開発者にとってやや面倒です。
同期処理と非同期処理をまたぐと、設計も運用も複雑になります。ジョブ管理、結果のポーリング（完了確認のために何度も見に行くこと）、入出力ファイルの扱いなど、地味に気をつかうことが増えるんですよね。

今回の Flex / Priority は、その“分断”をまたぐための仕組みです。

Flexとは何か

Flex Inference は、コスト最適化寄りの tier です。
Googleの説明では、Latency-tolerant workloads、つまり「多少遅くてもいい処理」に向いています。

特徴はこんな感じです。

Standard APIの半額
ただし、そのぶん 信頼性が少し下がり、遅延も増える
Batch APIとは違い、同期的に使える
input/output file や job completion の監視が不要

ここが面白いところで、Flexは「単に安い」だけではなく、**“安さの代わりに何を受け入れるか”がはっきりしている**んです。
AIの料金体系って、つい「安いか高いか」だけ見がちですが、実際は 速さ・安定性・運用コスト のバランスなんですよね。Flexはそのバランスを、かなり開発者フレンドリーに見せていると思います。

Flexの向き先

Googleは、次のような用途を挙げています。

Background CRM updates
Large-scale research simulations
Agentic workflows で裏で browsing や thinking をする場面

要するに、人が画面を見て待っている必要がない処理です。
「すぐ返事がほしいわけじゃない、でも大量に回したい」というケースにはかなり刺さりそうです。

Priorityとは何か

本文の冒頭では Priority も新設されたと説明されています。
こちらは名前の通り、優先度を高めて、信頼性や応答の安定性を重視する tier だと読めます。

詳細は今回の抽出本文では途中で省略されていますが、記事全体の文脈から見ると、Priority は ユーザー向けの重要なリクエストを安定して通したい場面で使うものです。

たとえば、

チャットの応答
Copilot の提案
ユーザーが待っている画面上の処理

みたいな「ここで失敗すると体験が悪くなる」場面ですね。

個人的には、こういう “大事な処理には Priority、裏方は Flex” という整理はかなりわかりやすいです。
AIアプリって、ついつい全部を同じラインで流しがちですが、本当はそんな雑な作り方では持ちません。今回の発表は、その現実にかなり素直だと思います。

何がうれしいのか

1. アーキテクチャがシンプルになる

これまでは、用途によって同期APIとBatch APIを行き来する必要がありました。
でも Flex と Priority があれば、同じ synchronous endpoints の中で使い分けられるので、設計がかなりすっきりします。

2. コスト管理がしやすい

「この処理は安くていい」「この処理は高くても止められない」という線引きができると、予算の調整がしやすいです。
AIサービスの運用で一番こわいのは、便利だからと全部高品質設定にして、請求額を見て青ざめるパターンなので……ここは現実的でありがたいです。

3. エージェント系開発と相性がいい

最近は、単発のチャットではなく、AIが裏で複数のステップをこなす agentic workflows が注目されています。
こういう処理は、全部を一律に扱うより、「考える部分はFlex」「最後の返答はPriority」のように分けたほうが設計しやすいはずです。

率直な感想

今回の発表は、派手な新機能というより、地味だけどかなり効く改善だと思います。
こういう機能は見た目のインパクトは小さくても、実際にプロダクトを作る人にはかなり効きます。

特に印象的なのは、Googleが「AIを使うなら、全部同じ扱いでは無理がある」とちゃんと認めている点です。
AIは魔法じゃなくて、結局はワークロードの集合体ですからね。裏方の大量処理と、ユーザーに見える即応処理を分けるのは、すごく筋がいい設計だと思います。

一方で、こうした tier が増えるほど、開発者は「どの処理をどこに載せるか」をちゃんと考える必要があります。
便利にはなるけど、雑に使えば逆に最適化の悩みが増える可能性もある。ここは、運用する側の腕が問われるところではないでしょうか。

まとめ

Gemini APIに Flex と Priority が追加された
Flex は安く大量に回したい処理向け
Priority は安定性や応答の良さを重視する処理向け
Batch APIに頼らず、よりシンプルに使い分けられる
AIアプリの実運用にかなり向いた、実務的なアップデートだと思う

参考: New ways to balance cost and reliability in the Gemini API

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ