2026 年 ds4(DwarfStar)で DeepSeek V4 Flash を Mac Metal ローカル推論:
96GB メモリ壁と遠隔高メモリ Mac レンタル

2026 年 5 月、Redis の作者 Salvatore Sanfilippo(antirez)が公開した DwarfStar 4(ds4) は、汎用 GGUF ランナーではなく DeepSeek V4 Flash 専用のネイティブ推論エンジン として急速に注目を集めています。Metal を第一ターゲットにし、96GB 以上の Apple Silicon 統一メモリ を前提に、2-bit 量子化 GGUF とディスク常駐 KV キャッシュで Coding Agent 向け OpenAI 互換 API(ds4-server)まで一気通貫で揃えています。一方、手元が 16GB や 24GB の開発用 Mac mini だけのチームには、モデル重みだけでディスク上 約 81GB、長コンテキストでは圧縮 KV だけでも 数十 GB 級 の追加消費が乗り、ハードウェア参入障壁 がソフトウェア以前に立ちはだかります。本稿は、ローカル大規模モデルと Agent 連携を検討する開発者・研究者を対象に、七つの痛点四択の決定マトリクスMetal/UMA アーキテクチャの要点八段階の導入手順README 由来の引用可能データ を提示し、自前で 128GB クラス Mac を買えない場合の NOVAKVM 遠隔高メモリ Mac レンタル で収束します。数値とコマンドは上流 README を正とし、リリース後に再確認してください。料金は 料金ページ、申込は 注文ページ、SSH と運用は ヘルプセンター へ。

  • 手元 Mac の RAM が足りない:公式 README は MacBook を 96GB から、実運用では 128GB 推奨 と明記しています。社内標準が M4 16GB/24GB の Mac mini だと、./download_model.sh q2-imatrix 以前に物理メモリで敗北します。
  • 量子化 GGUF のダウンロードとディスク:imatrix 版 q2 はディスク上おおよそ 81GB。プロジェクト直下の ./gguf/ とシンボリックリンク ds4flash.gguf を含め、空き容量 200GB 未満のボリュームは危険です。
  • 長コンテキストと KV のメモリ予算:フル 1M トークン想定の圧縮 indexer だけで README は 約 26GB(うち indexer 約 22GB) と記載。128GB でも 2-bit 重みと併用すると 100〜300k トークン が現実的で、96GB ではプロセス整理が必須です。
  • 汎用 llama.cpp との期待差:ds4 は任意 GGUF を読みません。Hugging Face の antirez/deepseek-v4-gguf 向けレイアウト専用です。既存 Ollama 資産を流用できず、一モデル一エンジン の賭けに切り替えるコストがあります。
  • macOS で CPU パスは使えない:README は macOS の仮想メモリ実装バグにより CPU 推論がカーネルクラッシュを招く と警告。Metal ビルド以外は本番に使えず、Linux マシンへの逃げも ds4 の設計思想とズレます。
  • ベータ品質と単一リクエスト直列:コードは betads4-agentalpha。サーバは現状 バッチなし・単一グラフワーカー直列 のため、チーム同時利用はキュー待ちが前提です。
  • 購入価格と在庫:128GB MacBook Pro や 512GB Mac Studio は新品価格が高く、調達リードタイムも長い。PoC 一週間だけ 250k コンテキストを試したい用途には、固定資産より レンタル の方が合理的なことが多いです。

ローカルで DeepSeek V4 Flash を動かす経路は、ハードウェア所有の有無で枝分かれします。下表は README と公式モデルカードが示す制約を踏まえた実務向けの対照です。

2026 Q2:DeepSeek V4 Flash 推論経路の決定マトリクス
経路 前提ハード/コスト 強み 弱点
ds4 + Metal(手元 Mac) 96〜128GB+ UMA、約 81GB ディスク 専用 Metal グラフ、ディスク KV、Agent API 一体 機材固定費、beta、Flash/PRO 以外非対応
llama.cpp / Ollama 汎用 GPU/RAM はモデル次第 モデル差し替えが週次でも可 V4 Flash 向け KV・DSML 最適が弱い
DeepSeek クラウド API 従量課金、出口ネット必須 フル精度・運用不要 データ residency、長セッションコスト
NOVAKVM 遠隔高メモリ Mac 日/週/月レンタル、六拠点 128GB 級を短期検証、SSH で ds4-server ネットワーク・鍵管理が要設計

ds4 の価値は「任意モデルを回す汎用性」ではなく、DeepSeek V4 Flash 一本を Agent まで含めて仕上げ切る ことにあります。ハードが無いなら、ソフトの選択以前に メモリ付き Mac の調達モデル を決める必要があります。

ds4(リポジトリ名 ds4、製品名 DwarfStar)は C で書かれた自己完結型エンジンです。GGML にリンクはしませんが、量子化フォーマットと設計知見は llama.cpp 系を参照しています。推論の最適パスは macOS MetalLinux CUDA(DGX Spark 等) で、CPU ビルドは診断専用です。

DeepSeek V4 Flash は MoE で総パラメータ 284B、活性化 13B、コンテキスト 最大 100 万トークン(README・モデルカード記載)。ds4 提供の 2-bit 量子化は「冗談ではない」と README が強調する特殊非対称量子化で、ルーティング MoE 専門家のみ IQ2_XXSQ2_K、共有部は高精度のまま残します。

ディスクファースト KV が差別化の核です。SHA1 でトークン列にキーしたオンディスク KV はセッション切替やサーバ再起動後も再利用でき、Agent の初回 prefill(数万トークン)を毎回払わなくて済みます。ネイティブ ds4-agent は API 境界なしでエージェントと推論を同居させ、~/.ds4/kvcache にセッションを保存します。

上流の一次情報は次のとおりです。タグや README が更新されたら、必ず再取得して確認してください。

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf

build-and-weights.sh
git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

  1. 対象 Mac のメモリ監査:sysctl hw.memsize で 96GB 以上を確認。128GB 未満なら他アプリを終了し、README の「96GB でも 250k ctx の報告あり」は例外扱いに留めます。
  2. リポジトリ取得と Metal ビルド:makeds4ds4-serverds4-agentds4-bench 等を生成。CUDA 用は make cuda-sparkmake cuda-generic を別マシンで。
  3. 公式 GGUF の取得:./download_model.sh q2-imatrix(96/128GB 向け)または q4-imatrix(256GB+ クラス)。./download_model.sh mtp は実験的 MTP で、README は大幅な速度向上は期待しないと記載。
  4. スモークテスト:./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1 で回帰ゲート。本番前に --trace ログを残します。
  5. サーバ起動とディスク KV:./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192。長時間運用では --power 50 で発熱とファンを抑えられます。
  6. Agent のベース URL 設定:opencode は ~/.config/opencode/opencode.json に OpenAI 互換プロバイダを追加。Cursor 等は http://127.0.0.1:8000/v1 を向け、コンテキスト上限はサーバの --ctx 以下に揃えます。
  7. 遠隔 Mac への載せ替え:NOVAKVM ノード上で同手順を実行し、開発者 Mac から SSH トンネル ssh -L 8000:127.0.0.1:8000 user@remote でローカルと同じエンドポイントを使う。LAN 公開は --host 0.0.0.0 と TLS/VPN を別途設計。
  8. 運用チェックリスト:週次で GGUF と ds4 バイナリのバージョンを固定、ディスク KV のクォータ監視、ds4-server 直列キューによる待ち時間の SLO をチームに共有。問題時は --trace 付きで issue を上流へ。

  • モデル規模:DeepSeek V4 Flash は MoE 284B 総量 / 13B 活性、コンテキスト 最大 1M トークン(公式モデルカード・README 一致)。
  • メモリクラス:Flash は 96/128GB から、PRO は 512GB Mac Studio 級(PRO は experimental)。
  • 量子化ディスク:imatrix q2 はおおよそ 81GB。128GB RAM では ctx 100〜300k が README 推奨帯。
  • Metal 速度(README 表・単発計測):MacBook Pro M3 Max 128GB・q2・短プロンプトで prefill 58.52 t/s、生成 26.68 t/s;同機・11709 トークン prefill 250.11 t/s。Mac Studio M3 Ultra 512GB・q2 短プロンプト生成 36.86 t/s
  • API 面:ds4-server/v1/chat/completions/v1/responses(Codex CLI 向け)、/v1/messages(Claude Code 系)をサポート。ツール呼び出しは DSML の exact replay で KV 整合を守ります。
よくある症状と切り分け(ds4 運用)
症状 典型原因 対処
起動直後に kill される RAM 不足、他プロセスが数十 GB 占有 Activity Monitor で整理、128GB ノードへ移す
カーネルパニック macOS で CPU パスを実行 Metal ビルドのみ使用、make cpu を本番で使わない
2 回目以降の応答が極端に遅い ディスク KV 未設定、毎回フル prefill --kv-disk-dir と十分な --kv-disk-space-mb
ツール呼び出し後に文脈が壊れる DSML replay 不一致 exact replay を有効のまま、クライアントの tool id を維持
同時利用でタイムアウト 単一グラフワーカー直列 キュー設計、またはノードをユーザー単位で分割

シンガポール/東京/ソウル/香港/米東/米西の六拠点では、128GB クラスの Apple Silicon ベアメタル に ds4 を載せ、開発者の手元 Mac から SSH でトンネルする構成が一般的です。データを社外 API に出さない PoC、週末だけ 200k コンテキストで Agent を焼く検証、複数人で順番に ds4-server を触る研究プロジェクトなど、固定資産化する前にレンタルでメモリ壁を越えられます。

代替策の弱点:① クラウド API に全面依存すると、長い Agent セッションの従量とコンプライアンスが積み上がり、コードとログがベンダ側に残ります。② 汎用 Ollama で無理に V4 を載せると、KV 圧縮と DSML ツール連携が ds4 専用パスほど安定せず、同じ 96GB でも体感品質が落ちることがあります。③ 中古 Mac Studio を調達する手間と、電力・冷却・ディスク保守を自前で背負うコストは、数週間の試験には過剰です。

ローカル推論を 本番に近い条件で試し、iOS CI や OpenClaw Agent と並行運用したい チームには、NOVAKVM の Mac mini クラウドベアメタルレンタル が現実的な選択肢です。高メモリ構成を日次・週次・月次で確保でき、独占 Apple Silicon 上で ds4-server と Xcode ツールチェーンを同居させるハイブリッド運用も可能です。料金は NOVAKVM 料金ページ注文ページ からメモリ梯度を選び、接続手順は ヘルプセンター を参照してください。CI と Agent の時間分割は CI と AI Agent タイムウィンドウ編、並列とディスクは 並列リソース編 と併読すると、同一ノードの予算設計がしやすくなります。