Hugging Face の記事で発表されたのは、DeepInfra が Hugging Face Inference Providers のサポート対象になったというニュースです。

ざっくり言うと、Hugging Face のモデルページから、外部の推論サービスを使ってモデルを動かせる仕組みに、DeepInfra が仲間入りした、という話です。
ここでいう Inference は、学習済みのAIモデルに「質問を投げて答えを返してもらう」処理のことです。
たとえばチャットボットに質問したり、文章を生成したり、画像を作らせたりする場面ですね。
そして Inference Provider は、その処理を裏側で実行してくれるサービス事業者のこと。
つまり Hugging Face が「モデル置き場」なら、Inference Provider は「そのモデルを実際に動かしてくれる実行役」です。
DeepInfra はその中でも、serverless AI inference platform をうたっていて、記事では トークン単価あたりのコストがかなり安い部類だと紹介されています。
この「serverless」は、サーバーの面倒を自分で見なくていい方式のこと。難しく聞こえますが、要するに自前でGPUサーバーを立てなくても使えるのが強みです。これはかなり実務的にうれしいところです。
![]()
個人的にこの発表で面白いのは、「モデルを選ぶ場所」と「推論の実行場所」がどんどん一体化していることです。
昔は、
みたいに、地味に面倒でした。
![]()
でも Hugging Face の Inference Providers を使うと、モデルページからそのまま試せて、その流れのままコードにもつなげられる。
これは地味だけどかなり大きいです。AI開発って、性能よりも「とりあえず動かすまでが面倒」で止まることが多いので、こういう“摩擦の削減”は本当に効きます。
![]()
記事では、DeepInfra は幅広いモデル種別を扱えるとしています。たとえば:
![]()
ただし、Hugging Face での今回の初期統合では、まず conversational と text-generation に対応します。
つまり、チャットや文章生成系が先行で使える、ということです。
記事に挙がっている例としては、次のような open-weight LLM が使えるとされています。
![]()
「open-weight」は、ざっくり言えば重みが公開されているモデルのことです。
モデルの中身そのものを配布するというより、学習済みパラメータを使える形にして公開している、と考えるとわかりやすいと思います。
Hugging Face はこの仕組みを、Web UI と Client SDKs の両方から使えるようにしています。
ユーザー設定で以下のようなことができます。
ここで重要なのは、呼び出し方が 2通りあることです。
自分の DeepInfra などの API key を使って、直接 provider に問い合わせる方式です。
この場合は、その provider 側のアカウントで課金されます。
Hugging Face 経由で呼び出す方式です。
この場合は provider の token を持っていなくても使え、課金は Hugging Face アカウント側に乗る仕組みです。
この「どっちに請求されるか」が明快なのはありがたいです。
AI系サービスって料金の見通しが混乱しがちなので、ここが整理されているのは実務上かなり助かります。
![]()
DeepInfra は Hugging Face の SDK からも使えます。
![]()
huggingface_hub >= 1.11.2@huggingface/inference記事では、OpenAI互換の書き方で Hugging Face router を使う例も載っています。
base_url に https://router.huggingface.co/v1 を指定し、HF_TOKEN を入れると、リクエストが DeepInfra に自動でルーティングされます。
この設計、かなり良いです。
なぜなら、「どの provider を使うか」をコードの書き方より上位で吸収できるからです。アプリ側は比較的シンプルなまま、裏側の選択肢だけ増やせます。
![]()
記事では、openai クライアントを使って deepseek-ai/DeepSeek-V4-Pro:deepinfra を呼び出す例が示されています。
要は「OpenAI風の書き味で、Hugging Face 経由で DeepInfra のモデルを叩く」という感じです。
JavaScript でも同様に、OpenAI SDK を使う形で呼べます。
Python と JS の両方に道が用意されているのは、チーム開発ではかなりありがたいです。

記事では、Hugging Face Inference Providers はすでに多くの Agent Harness に統合されているとも説明されています。

Agent Harness というのは、AIエージェントを動かすための“土台”や“実行環境”のことです。
たとえば Pi、OpenCode、Hermes Agents、OpenClaw などが挙げられています。
これが意味するのは、DeepInfra 上のモデルを、普段使っているエージェント系ツールへそのまま接続しやすいということです。
個人的にはここがかなり面白いと思います。単なる「API提供」ではなく、AIアプリの周辺エコシステムに自然に入っていく動きだからです。

ここはかなり大事なので、整理しておきます。
![]()
DeepInfra の API key を使う場合は、DeepInfra 側で課金されます。
つまり、DeepInfra のアカウント請求です。
Hugging Face の token で routed する場合は、Hugging Face アカウントに対して標準 provider 料金が請求されます。
記事によれば、Hugging Face 側の上乗せ料金はなしで、provider のコストをそのまま通す形です。
![]()
この「中間マージンなし」というのは、ユーザーにとってはかなり良い話です。
プラットフォームが仲介すると、どうしても「結局いくらなの?」となりがちですが、ここは比較的わかりやすい印象です。
さらに、Hugging Face PRO ユーザーには毎月 $2 分の Inference credits が付与され、複数 provider にまたがって使えるとのことです。
小さく試すには十分ありがたいし、まず触ってもらう導線としても賢いと思います。
![]()
今回の段階では chat / text-generation が中心ですが、記事では今後、
にも対応が広がる予定だとされています。
ここはかなり楽しみです。
特に embeddings は検索やRAG(資料検索と回答生成を組み合わせる仕組み)で重要なので、これが使いやすくなると、Hugging Face 経由のAI構築がさらに実用寄りになるはずです。
![]()
個人的には、今回のニュースは「派手ではないけど、かなり効く」タイプだと思います。
![]()
AIの世界って、つい「どのモデルが最強か」に注目しがちですが、実際に現場で効くのは
みたいな、地味だけど重要な部分です。
![]()
DeepInfra が Hugging Face の Inference Providers に入ったことで、まさにその“地味に面倒な部分”がかなり整理されます。
しかも Hugging Face はもともと開発者が集まりやすい場所なので、そこに DeepInfra が自然に入るのは相性が良いと感じます。
もちろん、実際にどれだけ使いやすいかは、モデルごとの応答速度や安定性、料金感によっても変わります。なので、最終的には試してみるのが一番です。
でも少なくとも、「Hugging Face を起点にAIを組みたい人」にとっては、選択肢がひとつ増えたのは素直に歓迎できるニュースだと思います。

DeepInfra の Hugging Face Inference Providers 対応は、Hugging Face のモデル探索体験と外部 inference 実行をかなりなめらかにつなぐアップデートです。
![]()
特に、
という点で、実務的な価値が高いと感じます。
![]()
「AIを作る」より「AIをちゃんと動かす」のほうが面倒、というのはよくある話です。
その面倒を減らしてくれる仕組みは、やっぱり強いですね。