PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

DeepSeek APIの料金体系をやさしく解説:1M tokens単位で見るモデル別コストの考え方

DeepSeekのAPI料金ページは、ひとことで言うと「使った分だけ払う、でもその“使った分”の数え方がちょっと大事」という話です。
AI APIに慣れていない人にはやや取っつきにくいですが、内容自体はかなり整理されていて、料金の見え方もわかりやすい部類だと思います。

キーポイント


まず、tokenって何?

DeepSeekの説明では、tokenは「モデルが認識する最小単位」です。
もっとかみくだくと、​文章を細かく分割した部品みたいなものです。

たとえば、

こういうものも token になります。

ここで大事なのは、​API料金は文字数ではなく token 数で決まること。
なので「短い日本語文なら安そう」「英語は単語単位だからどうなるの?」みたいな話が出てきますが、実際の請求は token ベースで計算されます。
この仕組みは、AI APIではかなり標準的です。最初はやや面倒に感じますが、慣れると「なるほど、使った分だけだな」と納得しやすいと思います。


料金はどう決まるのか

DeepSeekは、​入力と出力の両方の token を合算して課金します。

つまり、AIに長い資料を読ませたり、長文を出力させたりすると、そのぶん料金が増えます。
このルールはシンプルですが、実運用ではかなり重要です。というのも、​​「回答を長くさせる」ことがそのままコスト増につながるからです。


対応モデルは2つ:v4-flash と v4-pro

このページでは、主に次の2モデルが紹介されています。

それぞれの特徴をざっくり見ると、

という印象です。
もちろん、実際にどちらが向いているかは用途次第ですが、​​「まず試すなら flash、品質重視なら pro」​という感覚で見ると理解しやすいと思います。


モデルの主な仕様

1. Base URL

APIの呼び出し先として、次の2形式が案内されています。

つまり、DeepSeekは OpenAI互換Anthropic互換 の両方の形で使えるわけです。
これは地味に便利です。既存の実装を少し変えるだけで接続しやすいケースがありそうで、エンジニア目線ではかなりありがたい設計だと思います。

2. Thinking mode

両モデルとも、

の両方をサポートしています。

ここでいう thinking mode は、簡単に言えば ​「答える前に、よりじっくり考えるモード」​ のようなものです。
細かい切り替え方法は公式の Thinking Mode を参照、という案内になっています。

image_0002.png

3. Context length

context length は、ざっくり言うと 一度に覚えていられる文脈の長さ です。
1M はかなり長い部類で、大量の資料を扱う用途ではかなり心強いです。
このあたりは、DeepSeekがかなり攻めているポイントだと思います。

4. Max output

これは 1回の出力として返せる最大量 のことです。
要するに、長文生成にかなり余裕があります。とはいえ、長く出せるからといって必要以上に出させると、そのぶん課金も増えるので、そこはうまくコントロールしたいところです。


料金一覧をざっくり読む

ページにある料金は、すべて 1M tokens あたり の価格です。

deepseek-v4-flash

deepseek-v4-pro

参考として表示されている価格

ここで少し面白いのが、​cache hit と cache miss で input 料金が大きく違う点です。


cache hit / cache miss って何?

これは簡単に言うと、

ということです。

AI APIでは、同じような入力を繰り返す場面があります。たとえば、

こういうとき、キャッシュが効くと安くなることがあります。
DeepSeekはこの差がかなり大きいので、​使い方次第でコストを大きく下げられる可能性があります。
個人的には、ここはかなり実務向きの設計だと思います。うまくハマると「思ったより安いじゃん」と感じるはずです。


旧モデル名は将来廃止予定

注記には、次の内容があります。

この2つは将来的に deprecated(非推奨、いずれ使えなくなる可能性がある)予定です。
互換性のため、これらは

に対応しているとのことです。

これは地味に大事です。APIは一度組むとそのまま長く使いがちなので、​名前の変更や廃止を見落とすと後で困るんですよね。
こういう注意書きは、早めに気づいておくとかなり助かります。


concurrency limit も確認しておきたい

ページには Concurrency Limit も載っています。

image_0003.jpg

Concurrency limit は、ざっくり言うと 同時にどれだけリクエストを投げられるか の上限です。
大量アクセスするサービスでは、料金だけでなくここがボトルネックになります。

flash のほうがかなり多く、pro は少なめ。
つまり、​大規模運用や高頻度利用では flash のほうが扱いやすい場面があるかもしれません。
この差は、単なる価格差以上に「システムの組みやすさ」に効いてきます。


課金のルールはシンプルだが、実務ではかなり重要

公式ページでは、課金ルールを次のように説明しています。

expense = number of tokens × price

つまり、​費用 = token数 × 単価 です。
かなり素直な計算ですね。

さらに、請求は

のどちらからも引かれますが、​両方ある場合は granted balance が優先されると書かれています。

このへんは、無料枠や付与残高を使う人には重要です。
「思ったより有料残高が減ってない?」みたいなときに、この優先順位が関係している可能性があります。


料金は変わることがある

DeepSeekは、​価格は変更される可能性があると明記しています。
これはどのAPIサービスでもそうですが、特にAI APIは価格調整が起きやすい印象があります。

公式のおすすめは、

というものです。
これはかなりまっとうなアドバイスです。
個人的には、​APIの料金ページは“たまに見る”ではなく“運用前に必ず見る”ものだと思います。価格が少し変わるだけで、月額コストが大きく動くことがありますからね。


ざっくりまとめるとどう見るべきか

DeepSeekの料金ページは、単に値段表というより、​​「どういう使い方なら安く、どこでコストが上がるか」を読むための地図みたいなものです。

特に重要なのは次の3点です。

  1. token課金であること
  2. inputとoutputの両方が課金対象であること
  3. cache hit を活かすとかなり安くなる可能性があること

この3つを押さえるだけでも、API利用の見積もりがかなりしやすくなります。

そして、料金表だけを見ると v4-flash がかなり手頃に見えます。
一方で v4-pro は高いですが、割引が入っていて、将来的な価格調整の注記もある。
このあたりは、​​「今はプロモーション込みでかなり攻めた価格設定になっている」​と読むのが自然ではないかと思います。


こんな人は特にチェックしておくとよさそう

DeepSeekは、単に「安いAI API」というより、​長いコンテキストや互換性、キャッシュ前提の設計が気になる人向けの選択肢として見ると面白いです。
料金表は地味ですが、実はサービスの思想がかなり見える場所でもあります。


参考: Models & Pricing | DeepSeek API Docs

同じ著者の記事