世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-25

DeepSeek APIの料金体系をやさしく解説：1M tokens単位で見るモデル別コストの考え方

DeepSeekのAPI料金ページは、ひとことで言うと「使った分だけ払う、でもその“使った分”の数え方がちょっと大事」という話です。
AI APIに慣れていない人にはやや取っつきにくいですが、内容自体はかなり整理されていて、料金の見え方もわかりやすい部類だと思います。

キーポイント

料金は 1M tokens（100万tokens）あたり で表示されている
token は文章の最小単位で、単語・数字・記号などが含まれる
課金は input tokens + output tokens の合計で決まる
現在の主なモデルは deepseek-v4-flash と deepseek-v4-pro
context length は 1M とかなり長い
max output は 384K
JSON Output / Tool Calls / Chat Prefix Completion は両モデルで対応
FIM Completion は non-thinking mode のみ対応
旧モデル名の deepseek-chat / deepseek-reasoner は将来的に廃止予定
料金は将来変わる可能性があるので、公式ページの確認が重要

まず、tokenって何？

DeepSeekの説明では、tokenは「モデルが認識する最小単位」です。
もっとかみくだくと、文章を細かく分割した部品みたいなものです。

たとえば、

1つの英単語
数字
句読点
記号

こういうものも token になります。

ここで大事なのは、API料金は文字数ではなく token 数で決まること。
なので「短い日本語文なら安そう」「英語は単語単位だからどうなるの？」みたいな話が出てきますが、実際の請求は token ベースで計算されます。
この仕組みは、AI APIではかなり標準的です。最初はやや面倒に感じますが、慣れると「なるほど、使った分だけだな」と納得しやすいと思います。

料金はどう決まるのか

DeepSeekは、入力と出力の両方の token を合算して課金します。

input tokens: ユーザーが送った文章や指示
output tokens: モデルが返した文章

つまり、AIに長い資料を読ませたり、長文を出力させたりすると、そのぶん料金が増えます。
このルールはシンプルですが、実運用ではかなり重要です。というのも、「回答を長くさせる」ことがそのままコスト増につながるからです。

対応モデルは2つ：v4-flash と v4-pro

このページでは、主に次の2モデルが紹介されています。

deepseek-v4-flash
deepseek-v4-pro

それぞれの特徴をざっくり見ると、

v4-flash: より安価で、幅広く使いやすそう
v4-pro: 価格は高めだが、より上位モデルらしい位置づけ

という印象です。
もちろん、実際にどちらが向いているかは用途次第ですが、「まず試すなら flash、品質重視なら pro」という感覚で見ると理解しやすいと思います。

モデルの主な仕様

1. Base URL

APIの呼び出し先として、次の2形式が案内されています。

OpenAI Format: https://api.deepseek.com
Anthropic Format: https://api.deepseek.com/anthropic

つまり、DeepSeekは OpenAI互換 と Anthropic互換 の両方の形で使えるわけです。
これは地味に便利です。既存の実装を少し変えるだけで接続しやすいケースがありそうで、エンジニア目線ではかなりありがたい設計だと思います。

2. Thinking mode

両モデルとも、

non-thinking mode
thinking mode

の両方をサポートしています。

ここでいう thinking mode は、簡単に言えば 「答える前に、よりじっくり考えるモード」 のようなものです。
細かい切り替え方法は公式の Thinking Mode を参照、という案内になっています。

3. Context length

context length は、ざっくり言うと 一度に覚えていられる文脈の長さ です。
1M はかなり長い部類で、大量の資料を扱う用途ではかなり心強いです。
このあたりは、DeepSeekがかなり攻めているポイントだと思います。

4. Max output

384K

これは 1回の出力として返せる最大量 のことです。
要するに、長文生成にかなり余裕があります。とはいえ、長く出せるからといって必要以上に出させると、そのぶん課金も増えるので、そこはうまくコントロールしたいところです。

料金一覧をざっくり読む

ページにある料金は、すべて 1M tokens あたり の価格です。

deepseek-v4-flash

1M input tokens (cache hit): $0.0028
1M input tokens (cache miss): $0.14
1M output tokens: $0.28

deepseek-v4-pro

1M input tokens (cache hit): $0.003625
1M input tokens (cache miss): $0.435
1M output tokens: $0.87

参考として表示されている価格

deepseek-v4-pro の欄には 75% off の注記があり、割引終了後は元の価格の 1/4 に調整される予定と書かれています
つまり、プロモデルはキャンペーン価格がかなり効いている状態だと読めます

ここで少し面白いのが、cache hit と cache miss で input 料金が大きく違う点です。

cache hit / cache miss って何？

これは簡単に言うと、

cache hit: 以前に見た内容を再利用できた
cache miss: 毎回ちゃんと新しく処理した

ということです。

AI APIでは、同じような入力を繰り返す場面があります。たとえば、

毎回同じシステムプロンプトを使う
長い固定文章を何度も送る
同一文脈を再利用する

こういうとき、キャッシュが効くと安くなることがあります。
DeepSeekはこの差がかなり大きいので、使い方次第でコストを大きく下げられる可能性があります。
個人的には、ここはかなり実務向きの設計だと思います。うまくハマると「思ったより安いじゃん」と感じるはずです。

旧モデル名は将来廃止予定

注記には、次の内容があります。

deepseek-chat
deepseek-reasoner

この2つは将来的に deprecated（非推奨、いずれ使えなくなる可能性がある）予定です。
互換性のため、これらは

deepseek-chat → deepseek-v4-flash の non-thinking mode
deepseek-reasoner → deepseek-v4-flash の thinking mode

に対応しているとのことです。

これは地味に大事です。APIは一度組むとそのまま長く使いがちなので、名前の変更や廃止を見落とすと後で困るんですよね。
こういう注意書きは、早めに気づいておくとかなり助かります。

concurrency limit も確認しておきたい

ページには Concurrency Limit も載っています。

deepseek-v4-flash: 2500
deepseek-v4-pro: 500

Concurrency limit は、ざっくり言うと 同時にどれだけリクエストを投げられるか の上限です。
大量アクセスするサービスでは、料金だけでなくここがボトルネックになります。

flash のほうがかなり多く、pro は少なめ。
つまり、大規模運用や高頻度利用では flash のほうが扱いやすい場面があるかもしれません。
この差は、単なる価格差以上に「システムの組みやすさ」に効いてきます。

課金のルールはシンプルだが、実務ではかなり重要

公式ページでは、課金ルールを次のように説明しています。

expense = number of tokens × price

つまり、費用 = token数 × 単価 です。
かなり素直な計算ですね。

さらに、請求は

topped-up balance（入金済み残高）
granted balance（付与された残高）

のどちらからも引かれますが、両方ある場合は granted balance が優先されると書かれています。

このへんは、無料枠や付与残高を使う人には重要です。
「思ったより有料残高が減ってない？」みたいなときに、この優先順位が関係している可能性があります。

料金は変わることがある

DeepSeekは、価格は変更される可能性があると明記しています。
これはどのAPIサービスでもそうですが、特にAI APIは価格調整が起きやすい印象があります。

公式のおすすめは、

実際の利用量に応じて入金する
このページを定期的に確認する

というものです。
これはかなりまっとうなアドバイスです。
個人的には、APIの料金ページは“たまに見る”ではなく“運用前に必ず見る”ものだと思います。価格が少し変わるだけで、月額コストが大きく動くことがありますからね。

ざっくりまとめるとどう見るべきか

DeepSeekの料金ページは、単に値段表というより、「どういう使い方なら安く、どこでコストが上がるか」を読むための地図みたいなものです。

特に重要なのは次の3点です。

token課金であること
inputとoutputの両方が課金対象であること
cache hit を活かすとかなり安くなる可能性があること

この3つを押さえるだけでも、API利用の見積もりがかなりしやすくなります。

そして、料金表だけを見ると v4-flash がかなり手頃に見えます。
一方で v4-pro は高いですが、割引が入っていて、将来的な価格調整の注記もある。
このあたりは、「今はプロモーション込みでかなり攻めた価格設定になっている」と読むのが自然ではないかと思います。

こんな人は特にチェックしておくとよさそう

AI APIをこれから試したい人
長文を扱うアプリを作る人
料金を抑えたい人
OpenAI互換やAnthropic互換で移行しやすいAPIを探している人
キャッシュを活かしてコスト最適化したい人

DeepSeekは、単に「安いAI API」というより、長いコンテキストや互換性、キャッシュ前提の設計が気になる人向けの選択肢として見ると面白いです。
料金表は地味ですが、実はサービスの思想がかなり見える場所でもあります。

参考: Models & Pricing | DeepSeek API Docs

同じ著者の記事

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work