2026 年 ds4（DwarfStar）で DeepSeek V4 Flash を Mac Metal ローカル推論：96GB メモリ壁と遠隔高メモリ Mac レンタル // NOVAKVM エンジニアリングブログ

2026 年 5 月、Redis の作者 Salvatore Sanfilippo（antirez）が公開した DwarfStar 4（ds4） は、汎用 GGUF ランナーではなく DeepSeek V4 Flash 専用のネイティブ推論エンジン として急速に注目を集めています。Metal を第一ターゲットにし、96GB 以上の Apple Silicon 統一メモリ を前提に、2-bit 量子化 GGUF とディスク常駐 KV キャッシュで Coding Agent 向け OpenAI 互換 API（ds4-server）まで一気通貫で揃えています。一方、手元が 16GB や 24GB の開発用 Mac mini だけのチームには、モデル重みだけでディスク上 約 81GB、長コンテキストでは圧縮 KV だけでも 数十 GB 級 の追加消費が乗り、ハードウェア参入障壁 がソフトウェア以前に立ちはだかります。本稿は、ローカル大規模モデルと Agent 連携を検討する開発者・研究者を対象に、七つの痛点、四択の決定マトリクス、Metal／UMA アーキテクチャの要点、八段階の導入手順、README 由来の引用可能データ を提示し、自前で 128GB クラス Mac を買えない場合の NOVAKVM 遠隔高メモリ Mac レンタル で収束します。数値とコマンドは上流 README を正とし、リリース後に再確認してください。料金は料金ページ、申込は注文ページ、SSH と運用はヘルプセンターへ。

[ SECTION_01 ] // PAIN_MAP 96GB 壁の前で先に詰まる：ds4 導入の七つの痛点

手元 Mac の RAM が足りない：公式 README は MacBook を 96GB から、実運用では 128GB 推奨 と明記しています。社内標準が M4 16GB／24GB の Mac mini だと、./download_model.sh q2-imatrix 以前に物理メモリで敗北します。
量子化 GGUF のダウンロードとディスク：imatrix 版 q2 はディスク上おおよそ 81GB。プロジェクト直下の ./gguf/ とシンボリックリンク ds4flash.gguf を含め、空き容量 200GB 未満のボリュームは危険です。
長コンテキストと KV のメモリ予算：フル 1M トークン想定の圧縮 indexer だけで README は 約 26GB（うち indexer 約 22GB） と記載。128GB でも 2-bit 重みと併用すると 100〜300k トークン が現実的で、96GB ではプロセス整理が必須です。
汎用 llama.cpp との期待差：ds4 は任意 GGUF を読みません。Hugging Face の antirez/deepseek-v4-gguf 向けレイアウト専用です。既存 Ollama 資産を流用できず、一モデル一エンジン の賭けに切り替えるコストがあります。
macOS で CPU パスは使えない：README は macOS の仮想メモリ実装バグにより CPU 推論がカーネルクラッシュを招く と警告。Metal ビルド以外は本番に使えず、Linux マシンへの逃げも ds4 の設計思想とズレます。
ベータ品質と単一リクエスト直列：コードは beta、ds4-agent は alpha。サーバは現状 バッチなし・単一グラフワーカー直列 のため、チーム同時利用はキュー待ちが前提です。
購入価格と在庫：128GB MacBook Pro や 512GB Mac Studio は新品価格が高く、調達リードタイムも長い。PoC 一週間だけ 250k コンテキストを試したい用途には、固定資産より レンタル の方が合理的なことが多いです。

[ SECTION_02 ] // DECISION_MATRIX ds4・llama.cpp／Ollama・クラウド API・遠隔 Mac の四択マトリクス

ローカルで DeepSeek V4 Flash を動かす経路は、ハードウェア所有の有無で枝分かれします。下表は README と公式モデルカードが示す制約を踏まえた実務向けの対照です。

2026 Q2：DeepSeek V4 Flash 推論経路の決定マトリクス
経路	前提ハード／コスト	強み	弱点
ds4 + Metal（手元 Mac）	96〜128GB+ UMA、約 81GB ディスク	専用 Metal グラフ、ディスク KV、Agent API 一体	機材固定費、beta、Flash/PRO 以外非対応
llama.cpp / Ollama 汎用	GPU/RAM はモデル次第	モデル差し替えが週次でも可	V4 Flash 向け KV・DSML 最適が弱い
DeepSeek クラウド API	従量課金、出口ネット必須	フル精度・運用不要	データ residency、長セッションコスト
NOVAKVM 遠隔高メモリ Mac	日／週／月レンタル、六拠点	128GB 級を短期検証、SSH で ds4-server	ネットワーク・鍵管理が要設計

ds4 の価値は「任意モデルを回す汎用性」ではなく、DeepSeek V4 Flash 一本を Agent まで含めて仕上げ切る ことにあります。ハードが無いなら、ソフトの選択以前に メモリ付き Mac の調達モデル を決める必要があります。

[ SECTION_03 ] // ARCHITECTURE DwarfStar が Metal と統一メモリを活かす仕組み

ds4（リポジトリ名 ds4、製品名 DwarfStar）は C で書かれた自己完結型エンジンです。GGML にリンクはしませんが、量子化フォーマットと設計知見は llama.cpp 系を参照しています。推論の最適パスは macOS Metal と Linux CUDA（DGX Spark 等） で、CPU ビルドは診断専用です。

DeepSeek V4 Flash は MoE で総パラメータ 284B、活性化 13B、コンテキスト 最大 100 万トークン（README・モデルカード記載）。ds4 提供の 2-bit 量子化は「冗談ではない」と README が強調する特殊非対称量子化で、ルーティング MoE 専門家のみ IQ2_XXS／Q2_K、共有部は高精度のまま残します。

ディスクファースト KV が差別化の核です。SHA1 でトークン列にキーしたオンディスク KV はセッション切替やサーバ再起動後も再利用でき、Agent の初回 prefill（数万トークン）を毎回払わなくて済みます。ネイティブ ds4-agent は API 境界なしでエージェントと推論を同居させ、~/.ds4/kvcache にセッションを保存します。

上流の一次情報は次のとおりです。タグや README が更新されたら、必ず再取得して確認してください。

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf

build-and-weights.sh

git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

[ SECTION_04 ] // RUNBOOK 八段階：手元または遠隔 Mac で ds4-server を Agent に繋ぐ

対象 Mac のメモリ監査：sysctl hw.memsize で 96GB 以上を確認。128GB 未満なら他アプリを終了し、README の「96GB でも 250k ctx の報告あり」は例外扱いに留めます。
リポジトリ取得と Metal ビルド：make で ds4、ds4-server、ds4-agent、ds4-bench 等を生成。CUDA 用は make cuda-spark／make cuda-generic を別マシンで。
公式 GGUF の取得：./download_model.sh q2-imatrix（96/128GB 向け）または q4-imatrix（256GB+ クラス）。./download_model.sh mtp は実験的 MTP で、README は大幅な速度向上は期待しないと記載。
スモークテスト：./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1 で回帰ゲート。本番前に --trace ログを残します。
サーバ起動とディスク KV：./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192。長時間運用では --power 50 で発熱とファンを抑えられます。
Agent のベース URL 設定：opencode は ~/.config/opencode/opencode.json に OpenAI 互換プロバイダを追加。Cursor 等は http://127.0.0.1:8000/v1 を向け、コンテキスト上限はサーバの --ctx 以下に揃えます。
遠隔 Mac への載せ替え：NOVAKVM ノード上で同手順を実行し、開発者 Mac から SSH トンネル ssh -L 8000:127.0.0.1:8000 user@remote でローカルと同じエンドポイントを使う。LAN 公開は --host 0.0.0.0 と TLS／VPN を別途設計。
運用チェックリスト：週次で GGUF と ds4 バイナリのバージョンを固定、ディスク KV のクォータ監視、ds4-server 直列キューによる待ち時間の SLO をチームに共有。問題時は --trace 付きで issue を上流へ。

[ SECTION_05 ] // REFERENCE_DATA README 由来の引用可能データ（発版後に再確認）

モデル規模：DeepSeek V4 Flash は MoE 284B 総量 / 13B 活性、コンテキスト 最大 1M トークン（公式モデルカード・README 一致）。
メモリクラス：Flash は 96/128GB から、PRO は 512GB Mac Studio 級（PRO は experimental）。
量子化ディスク：imatrix q2 はおおよそ 81GB。128GB RAM では ctx 100〜300k が README 推奨帯。
Metal 速度（README 表・単発計測）：MacBook Pro M3 Max 128GB・q2・短プロンプトで prefill 58.52 t/s、生成 26.68 t/s；同機・11709 トークン prefill 250.11 t/s。Mac Studio M3 Ultra 512GB・q2 短プロンプト生成 36.86 t/s。
API 面：ds4-server は /v1/chat/completions、/v1/responses（Codex CLI 向け）、/v1/messages（Claude Code 系）をサポート。ツール呼び出しは DSML の exact replay で KV 整合を守ります。

よくある症状と切り分け（ds4 運用）
症状	典型原因	対処
起動直後に kill される	RAM 不足、他プロセスが数十 GB 占有	Activity Monitor で整理、128GB ノードへ移す
カーネルパニック	macOS で CPU パスを実行	Metal ビルドのみ使用、`make cpu` を本番で使わない
2 回目以降の応答が極端に遅い	ディスク KV 未設定、毎回フル prefill	`--kv-disk-dir` と十分な `--kv-disk-space-mb`
ツール呼び出し後に文脈が壊れる	DSML replay 不一致	exact replay を有効のまま、クライアントの tool id を維持
同時利用でタイムアウト	単一グラフワーカー直列	キュー設計、またはノードをユーザー単位で分割

[ SECTION_06 ] // PLATFORM_CLOSE 遠隔高メモリ Mac で ds4 を試す：NOVAKVM 収束

シンガポール／東京／ソウル／香港／米東／米西の六拠点では、128GB クラスの Apple Silicon ベアメタル に ds4 を載せ、開発者の手元 Mac から SSH でトンネルする構成が一般的です。データを社外 API に出さない PoC、週末だけ 200k コンテキストで Agent を焼く検証、複数人で順番に ds4-server を触る研究プロジェクトなど、固定資産化する前にレンタルでメモリ壁を越えられます。

代替策の弱点：① クラウド API に全面依存すると、長い Agent セッションの従量とコンプライアンスが積み上がり、コードとログがベンダ側に残ります。② 汎用 Ollama で無理に V4 を載せると、KV 圧縮と DSML ツール連携が ds4 専用パスほど安定せず、同じ 96GB でも体感品質が落ちることがあります。③ 中古 Mac Studio を調達する手間と、電力・冷却・ディスク保守を自前で背負うコストは、数週間の試験には過剰です。

ローカル推論を 本番に近い条件で試し、iOS CI や OpenClaw Agent と並行運用したい チームには、NOVAKVM の Mac mini クラウドベアメタルレンタル が現実的な選択肢です。高メモリ構成を日次・週次・月次で確保でき、独占 Apple Silicon 上で ds4-server と Xcode ツールチェーンを同居させるハイブリッド運用も可能です。料金は NOVAKVM 料金ページ、注文ページからメモリ梯度を選び、接続手順はヘルプセンターを参照してください。CI と Agent の時間分割は CI と AI Agent タイムウィンドウ編、並列とディスクは並列リソース編と併読すると、同一ノードの予算設計がしやすくなります。