世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Hugging Face Inference Providers に DeepInfra が追加された話をわかりやすく解説

この記事のキーポイント

Hugging Face Hub の Inference Providers に DeepInfra が加わった
Hugging Face のモデルページから、対応モデルをそのままサーバーレス推論で使いやすくなる
Python/JavaScript SDK からも使えるので、アプリや試作に組み込みやすい
課金は DeepInfra 直課金 と Hugging Face 経由課金 の2パターン
今回はまず chat / text-generation 対応で、今後 text-to-image / text-to-video / embeddings なども拡大予定
Hugging Face PRO では毎月 $2分のInference credits が使える

DeepInfra が Hugging Face に来た、というのはどういうことか

Hugging Face の記事で発表されたのは、DeepInfra が Hugging Face Inference Providers のサポート対象になったというニュースです。

ざっくり言うと、Hugging Face のモデルページから、外部の推論サービスを使ってモデルを動かせる仕組みに、DeepInfra が仲間入りした、という話です。

ここでいう Inference は、学習済みのAIモデルに「質問を投げて答えを返してもらう」処理のことです。
たとえばチャットボットに質問したり、文章を生成したり、画像を作らせたりする場面ですね。

そして Inference Provider は、その処理を裏側で実行してくれるサービス事業者のこと。
つまり Hugging Face が「モデル置き場」なら、Inference Provider は「そのモデルを実際に動かしてくれる実行役」です。

DeepInfra はその中でも、serverless AI inference platform をうたっていて、記事では トークン単価あたりのコストがかなり安い部類だと紹介されています。
この「serverless」は、サーバーの面倒を自分で見なくていい方式のこと。難しく聞こえますが、要するに自前でGPUサーバーを立てなくても使えるのが強みです。これはかなり実務的にうれしいところです。

何がうれしいのか

個人的にこの発表で面白いのは、「モデルを選ぶ場所」と「推論の実行場所」がどんどん一体化していることです。

昔は、

モデルは Hugging Face で探す
実行は別のクラウドやAPIサービスを契約する
SDKごとに接続方法を覚える

みたいに、地味に面倒でした。

でも Hugging Face の Inference Providers を使うと、モデルページからそのまま試せて、その流れのままコードにもつなげられる。
これは地味だけどかなり大きいです。AI開発って、性能よりも「とりあえず動かすまでが面倒」で止まることが多いので、こういう“摩擦の削減”は本当に効きます。

DeepInfra で何が使えるのか

記事では、DeepInfra は幅広いモデル種別を扱えるとしています。たとえば:

LLMs（大規模言語モデル）
text-to-image
text-to-video
embeddings など

ただし、Hugging Face での今回の初期統合では、まず conversational と text-generation に対応します。
つまり、チャットや文章生成系が先行で使える、ということです。

記事に挙がっている例としては、次のような open-weight LLM が使えるとされています。

DeepSeek V4
Kimi-K2.6
GLM-5.1

「open-weight」は、ざっくり言えば重みが公開されているモデルのことです。
モデルの中身そのものを配布するというより、学習済みパラメータを使える形にして公開している、と考えるとわかりやすいと思います。

使い方はかなりシンプル

Hugging Face はこの仕組みを、Web UI と Client SDKs の両方から使えるようにしています。

1. Web UI から使う

ユーザー設定で以下のようなことができます。

自分が契約している provider の API key を登録する
provider の優先順位を決める

ここで重要なのは、呼び出し方が 2通りあることです。

Custom key

自分の DeepInfra などの API key を使って、直接 provider に問い合わせる方式です。
この場合は、その provider 側のアカウントで課金されます。

Routed by HF

Hugging Face 経由で呼び出す方式です。
この場合は provider の token を持っていなくても使え、課金は Hugging Face アカウント側に乗る仕組みです。

この「どっちに請求されるか」が明快なのはありがたいです。
AI系サービスって料金の見通しが混乱しがちなので、ここが整理されているのは実務上かなり助かります。

2. SDK から使う

DeepInfra は Hugging Face の SDK からも使えます。

Python: huggingface_hub >= 1.11.2
JavaScript: @huggingface/inference

記事では、OpenAI互換の書き方で Hugging Face router を使う例も載っています。
base_url に https://router.huggingface.co/v1 を指定し、HF_TOKEN を入れると、リクエストが DeepInfra に自動でルーティングされます。

この設計、かなり良いです。
なぜなら、「どの provider を使うか」をコードの書き方より上位で吸収できるからです。アプリ側は比較的シンプルなまま、裏側の選択肢だけ増やせます。

Python例の雰囲気

記事では、openai クライアントを使って deepseek-ai/DeepSeek-V4-Pro:deepinfra を呼び出す例が示されています。
要は「OpenAI風の書き味で、Hugging Face 経由で DeepInfra のモデルを叩く」という感じです。

JS例の雰囲気

JavaScript でも同様に、OpenAI SDK を使う形で呼べます。
Python と JS の両方に道が用意されているのは、チーム開発ではかなりありがたいです。

Agent Harness との統合も進んでいる

記事では、Hugging Face Inference Providers はすでに多くの Agent Harness に統合されているとも説明されています。

Agent Harness というのは、AIエージェントを動かすための“土台”や“実行環境”のことです。
たとえば Pi、OpenCode、Hermes Agents、OpenClaw などが挙げられています。

これが意味するのは、DeepInfra 上のモデルを、普段使っているエージェント系ツールへそのまま接続しやすいということです。
個人的にはここがかなり面白いと思います。単なる「API提供」ではなく、AIアプリの周辺エコシステムに自然に入っていく動きだからです。

課金はどうなるのか

ここはかなり大事なので、整理しておきます。

直課金

DeepInfra の API key を使う場合は、DeepInfra 側で課金されます。
つまり、DeepInfra のアカウント請求です。

Hugging Face 経由課金

Hugging Face の token で routed する場合は、Hugging Face アカウントに対して標準 provider 料金が請求されます。
記事によれば、Hugging Face 側の上乗せ料金はなしで、provider のコストをそのまま通す形です。

この「中間マージンなし」というのは、ユーザーにとってはかなり良い話です。
プラットフォームが仲介すると、どうしても「結局いくらなの？」となりがちですが、ここは比較的わかりやすい印象です。

さらに、Hugging Face PRO ユーザーには毎月 $2 分の Inference credits が付与され、複数 provider にまたがって使えるとのことです。
小さく試すには十分ありがたいし、まず触ってもらう導線としても賢いと思います。

これからどう広がりそうか

今回の段階では chat / text-generation が中心ですが、記事では今後、

text-to-image
text-to-video
embeddings
その他のタスク

にも対応が広がる予定だとされています。

ここはかなり楽しみです。
特に embeddings は検索やRAG（資料検索と回答生成を組み合わせる仕組み）で重要なので、これが使いやすくなると、Hugging Face 経由のAI構築がさらに実用寄りになるはずです。

率直な感想

個人的には、今回のニュースは「派手ではないけど、かなり効く」タイプだと思います。

AIの世界って、つい「どのモデルが最強か」に注目しがちですが、実際に現場で効くのは

すぐ試せる
課金がわかりやすい
SDK からすぐ呼べる
別ツールともつながる

みたいな、地味だけど重要な部分です。

DeepInfra が Hugging Face の Inference Providers に入ったことで、まさにその“地味に面倒な部分”がかなり整理されます。
しかも Hugging Face はもともと開発者が集まりやすい場所なので、そこに DeepInfra が自然に入るのは相性が良いと感じます。

もちろん、実際にどれだけ使いやすいかは、モデルごとの応答速度や安定性、料金感によっても変わります。なので、最終的には試してみるのが一番です。
でも少なくとも、「Hugging Face を起点にAIを組みたい人」にとっては、選択肢がひとつ増えたのは素直に歓迎できるニュースだと思います。

まとめ

DeepInfra の Hugging Face Inference Providers 対応は、Hugging Face のモデル探索体験と外部 inference 実行をかなりなめらかにつなぐアップデートです。

特に、

モデルページからすぐ使える
Python / JS SDK からも呼べる
料金体系が比較的わかりやすい
今後の対応タスク拡大にも期待できる

という点で、実務的な価値が高いと感じます。

「AIを作る」より「AIをちゃんと動かす」のほうが面倒、というのはよくある話です。
その面倒を減らしてくれる仕組みは、やっぱり強いですね。

参考: DeepInfra on Hugging Face Inference Providers 🔥

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ