世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

DeepSeek v4 FlashをMacで動かすための専用エンジン「ds4」とは何か

記事のキーポイント

ds4 は DeepSeek v4 Flash 専用 のローカル推論エンジン
汎用の GGUF ランナーではなく、Metal 向けにかなり絞った設計
1M tokens の長い context window と、圧縮された KV cache を活かすのが狙い
2-bit quantization に対応し、128GBメモリ級のMacでも動かすことを視野に入れている
ただし現状は alpha quality で、Metal-only
開発には GPT 5.5 の支援も使われていると明記されている
llama.cpp と GGML への強い依存・敬意がはっきり書かれている

まず結論：これはかなり“尖った”プロジェクト

GitHubの antirez/ds4 は、DeepSeek v4 Flash を Mac の Metal 上でローカル推論するための専用エンジンです。
要するに、「何でも動く万能ランタイム」ではなく、このモデルを気持ちよく動かすことだけに集中した道具です。

ここ、かなり面白いです。最近は「とりあえず汎用対応」のツールが多い一方で、ds4 は逆にモデルを選び、実行環境も選び、やることを絞る。この潔さはかなり好きです。便利さの代わりに、完成度と検証の濃さを取りに行っている感じがあります。

`ds4` は何を目指しているのか

README を読むと、このプロジェクトの立ち位置はかなり明確です。

DeepSeek v4 Flash のための 小さな native inference engine
Metal graph executor を中心にした実装
DS4専用の loading / prompt rendering / KV state / server API glue を持つ
汎用GGUFランナーではない
他の runtime を包むだけの wrapper でもない
framework でもない

つまり、「DeepSeek v4 Flash を動かす」という一点に、かなり真剣に振り切っています。

ここでいう inference は、AIモデルに文章を入力して答えを返させる処理のことです。
Metal は Apple の GPU 向けAPIで、Macで高速に計算するための仕組みだと思えばOKです。

なぜ DeepSeek v4 Flash に専用エンジンが必要なのか

README では、DeepSeek v4 Flash を「かなり特別なモデル」だと評価しています。その理由として挙げているのが、ざっくり次の点です。

1. 少ない active parameters で速い

MoE（Mixture of Experts）系のモデルでは、毎回すべてのパラメータを使うわけではありません。
active parameters とは、その場で実際に動く部分のことです。これが少ないと、理屈の上では速くなりやすい。

2. thinking mode の“考えすぎ”が少ない

README によると、thinking mode で max thinking を避けると、他のモデルよりかなり短い思考セクションを出しやすいそうです。
しかも、その長さが問題の難しさに応じて伸びるので、必要以上にダラダラ考えないのが良い、としています。

これ、地味に重要です。ローカル推論では、モデルが長々と思考を書き続けると一気に使いづらくなります。
「賢いけど遅すぎるAI」は、実際の運用ではかなり困るので、ここを評価しているのは納得感があります。

3. context window が 1 million tokens

context window は、モデルが一度に覚えておける入力の長さです。
1 million tokens はかなり巨大です。長い会話や大量の資料を扱いやすくなります。

4. KV cache が圧縮されている

KV cache は、モデルが会話の途中経過を保持するためのメモリ領域です。
これが圧縮されていると、長文処理でメモリを食いにくくなります。

README では、これを使って ローカルPCでの長文推論 や disk上へのKV cache永続化 を視野に入れているとしています。
個人的には、ここが一番“未来っぽい”ポイントです。KV cache を単なるRAMの消費物ではなく、SSDも使う前提の第一級市民として扱う発想は、かなり攻めています。

5. 2-bit quantization でも実用になる

quantization は、モデルを軽くするために数値表現を粗くする手法です。
2-bit はかなり強い圧縮で、普通なら品質低下が心配になります。

しかし README では、DeepSeek v4 Flash は特別なやり方で量子化すると、2-bit でもそこそこ実用になると述べています。
しかも、128GB RAM の MacBook でも動かす想定がある。これは相当ハードルが高いですが、夢はあります。

ただし、かなり割り切った設計でもある

このプロジェクトは便利そうに見えますが、制約もはっきりしています。

Metal only

ds4 は Metal専用 です。
つまり、基本的には Apple Silicon の Mac を強く意識したプロジェクトです。

将来的に CUDA を実装する可能性には触れていますが、README のトーンを見る限り、本命はあくまでMac です。
これはブレがなくて気持ちいい反面、使える人はかなり限られます。

CPU path は検証用だが危うい

README には少し過激なことも書かれています。
CPU path は correctness check のためにあるものの、現行 macOS の仮想メモリ実装にバグがあり、CPU code を動かすと kernel crash することがある、としています。

ここはかなり生々しいです。
技術記事として見ると、理想論ではなくOSやメモリ管理の泥臭さに踏み込んでいるのが印象的です。ローカルAIの世界って、モデルが賢いかどうか以前に、こういう足回りで勝負が決まるんですよね。

alpha quality

README 自身が、これは alpha quality code だと明言しています。
つまり、まだ完成品というよりは「かなり野心的な試作」に近いです。

この正直さは好感が持てます。
最近は何でも「production-ready」に見せがちですが、ここではむしろ「まだそこまでではない」と先に言っている。こういう態度は信頼しやすいです。

`llama.cpp` と `GGML` への敬意がかなり強い

README には、ds4 が llama.cpp と GGML なしでは存在しなかったと、かなり強く書かれています。

llama.cpp はローカルLLM界隈で非常に重要なプロジェクトで、

quantization
GGUF
kernel 実装
テスト
実用的な設計知見

など、多くの土台を作ってきました。

ds4 はその上に成り立っている、と明言しています。
この「自分たちはゼロからではない」という態度、すごく健全だと思います。技術はだいたい積み木なので、先人への敬意がないプロジェクトは長続きしにくいです。

どうやって使うのか

README には、モデルのダウンロード方法とビルド方法が載っています。

モデルの取得

./download_model.sh q2
128GB RAM マシン向け
./download_model.sh q4
256GB RAM 以上向け

Hugging Face の antirez/deepseek-v4-gguf からダウンロードし、./gguf/ に保存します。
途中再開にも対応していて、curl -C - を使っているとのことです。

追加の speculative decoding 用モデル

./download_model.sh mtp

これは --mtp を明示的に有効化すると使える、experimental な機能です。
ただし現時点では、多少速くなるかもしれないが、劇的な速度向上ではないと書かれています。

speculative decoding は、ざっくり言うと「先読みして候補をまとめて出し、効率を上げる」ような技術です。
ただ、README の書き方を見る限り、まだ主役というより実験枠です。

ビルド

make

その後、./ds4 と ./ds4-server が使えるようになります。
--help を見れば詳しいフラグが確認できる、と案内されています。

このプロジェクトの思想がちょっと面白い

README には、local inference を次の3点のセットとして考えるべきだ、という思想が書かれています。

HTTP API 付きの inference engine
そのエンジン向けに特別に作られた GGUF
coding agents を使った testing / validation

これ、かなり本質的だと思います。
AIモデルって、単に「動く」だけでは意味がなくて、

入力形式が合っているか
実行が安定するか
長文でも崩れないか
エージェントが実際に使えるか

まで含めて初めて“製品っぽく”なるんですよね。

ds4 は「一つの local model を end-to-end で完成させたい」と言っています。
この思想はかなり好きです。雑に言うと、ベンチマークで勝つだけでなく、現実の使い勝手まで詰めたいということだと思います。

率直な感想：これは実用ツールというより、野心的な挑戦

個人的には、ds4 は「万人向けの便利ツール」ではなく、かなり筋の良い実験的プロジェクトに見えます。

良いところは、

目標が明確
モデル固有の最適化に集中している
長文・圧縮KV cache・Mac Metal という現実的な課題に向き合っている
先人の成果に素直に依存している

一方で、

Metal-only
alpha quality
対応モデルが限定的
現時点ではかなり高いメモリ要求

というハードルもあります。

でも、この割り切りがあるからこそ、面白いんだと思います。
「全部対応」ではなく、「このモデルを、この環境で、本当に気持ちよく動かす」。
ローカルAIの世界はここに価値が出てきている気がします。

こんな人に面白い

Mac でローカルLLM を触っている人
DeepSeek 系モデルに興味がある人
llama.cpp や GGUF の発展形を追っている人
長文コンテキストや KV cache に関心がある人
“モデル単体”ではなく “推論基盤全体” に興味がある人

逆に、すぐ使える汎用ローカルAI環境が欲しい人には、今はちょっと尖りすぎているかもしれません。

まとめ

antirez/ds4 は、DeepSeek v4 Flash を Mac の Metal 上で動かすために作られた、かなり特化した local inference engine です。
汎用性よりも、このモデルを本気で活かすことに振り切っていて、1M tokens の長大な context や圧縮 KV cache を見据えた設計が印象的でした。

完成品というよりは、「ローカルAIの次のやり方を探る試作」という雰囲気が強いですが、その分だけ野心がある。
個人的には、こういう“尖った実験”から次の標準が生まれることが多いので、今後の展開もかなり気になります。

参考: GitHub - antirez/ds4: DeepSeek 4 Flash local inference engine for Metal

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ