2026 年 ds4（DwarfStar）本地跑 DeepSeek V4 Flash：Mac Metal、96GB 記憶體門檻與遠端高記憶體 Mac 租用 // NOVAKVM 工程部落格

2026 年 5 月，Redis 作者 Salvatore Sanfilippo（antirez）釋出的 DwarfStar 4（ds4） 不是通用 GGUF 執行器，而是針對 DeepSeek V4 Flash 的原生推理引擎：以 macOS Metal 為第一優先，在 96GB 以上 Apple Silicon 統一記憶體 上搭配 2-bit 量化權重與磁碟常駐 KV 快取，並提供 Coding Agent 可用的 OpenAI 相容 ds4-server。若團隊日常只有 M4 16GB／24GB 的 Mac mini，光模型權重磁碟約 81GB，長上下文還要再吃掉 數十 GB 級 壓縮 KV，硬體門檻 會比軟體選型更早出現。本文面向想本地跑大模型、又要把程式碼留在內網的開發者與研究者：先列 七類痛點，再给 四路徑決策矩陣、Metal／UMA 架構要點、八步落地、README 可引用數據，最後說明買不起 128GB Mac 時如何用 NOVAKVM 遠端高記憶體 Mac 租用 驗證。數值與指令以上游 README 為準，發版後請重新開啟連結核對。價格見租用價格頁，下單見雲端訂購頁，遠端連線見雲端幫助中心。

[ SECTION_01 ] // PAIN_MAP 96GB 門檻前就先撞牆：ds4 導入的七類痛點

手邊 Mac 記憶體不夠：官方 README 寫明 MacBook 從 96GB 起，實務上 128GB 較穩。公司標配 M4 16GB／24GB 機型在執行 ./download_model.sh q2-imatrix 前就會被實體記憶體擋下。
量化 GGUF 下載與磁碟：imatrix 版 q2 在磁碟約 81GB，含 ./gguf/ 與 ds4flash.gguf 符號連結；可用空間低於 200GB 的磁區風險很高。
長上下文與 KV 預算：README 指出滿配 1M 情境下壓縮 indexer 約 26GB（其中 indexer 約 22GB）。128GB 搭配 2-bit 權重時，10 萬～30 萬 token 較務實；96GB 必須先清掉佔記憶體的大程序。
與通用 llama.cpp 的期待差：ds4 不能載入任意 GGUF，只支援 Hugging Face antirez/deepseek-v4-gguf 的張量佈局；既有 Ollama 資產無法直接搬運，等於接受 一模型一引擎 的賭注。
macOS 上不能用 CPU 路徑：README 警告現版 macOS 虛擬記憶體缺陷會讓 CPU 推理觸發核心當機，正式環境只能走 Metal 編譯產物。
Beta 品質與單工請求：程式標為 beta，ds4-agent 為 alpha；伺服器目前 不批次、單一圖計算 worker 序列化，多人同時用會排隊。
採購成本與交期：128GB MacBook Pro 或 512GB Mac Studio 單價高、交期長；只想用一週驗證 250k 上下文時，租用往往比固定資產合理。

[ SECTION_02 ] // DECISION_MATRIX ds4、llama.cpp／Ollama、雲端 API、遠端 Mac 四路徑矩陣

在 Mac 上跑 DeepSeek V4 Flash，首先取決於是否擁有足夠 UMA。下表依 README 與模型卡約束整理，供技術決策對照。

2026 Q2：DeepSeek V4 Flash 推理路徑決策矩陣
路徑	硬體／成本	優勢	劣勢
ds4 + Metal（本機 Mac）	96～128GB+ UMA，磁碟約 81GB	專用 Metal 圖、磁碟 KV、Agent API 一體	機器固定支出、beta、僅 Flash/PRO 生態
llama.cpp / Ollama 通用	視模型而定	可頻繁換模型	V4 Flash 的 KV、DSML 優化較弱
DeepSeek 雲端 API	按量計費、需外網	全精度、免維運	資料落地、長 Agent 工作階段費用
NOVAKVM 遠端高記憶體 Mac	日／週／月租，六地節點	短期取得 128GB 級、SSH 跑 ds4-server	需設計網路與金鑰治理

ds4 的價值不在「什麼模型都能跑」，而在 把 DeepSeek V4 Flash 從權重到 Agent API 做到位。沒有夠大的記憶體，先要決定的是 Mac 的取得方式，而不是框架名稱。

[ SECTION_03 ] // ARCHITECTURE DwarfStar 如何利用 Metal 與統一記憶體

ds4（倉庫名 ds4，產品名 DwarfStar）是以 C 撰寫的自包含引擎，不連結 GGML，但借鑑 llama.cpp 的量化與工程路徑。最佳化路徑為 macOS Metal 與 Linux CUDA（含 DGX Spark）；CPU 建置僅供正確性檢查。

DeepSeek V4 Flash 為 MoE：284B 總參數／13B 激活，上下文 最高 100 萬 token（README 與模型卡）。ds4 提供的 2-bit 量化採非對稱策略：僅路由 MoE 專家使用 IQ2_XXS／Q2_K，共享與路由相關張量保持較高精度，README 強調此 2-bit「不是玩笑」。

磁碟優先 KV 是差異化核心：以 token 序列 SHA1 為鍵的磁碟 KV 可在工作階段切換或伺服器重啟後重用，避免 Agent 每次支付數萬 token 的首次 prefill。原生 ds4-agent 在無 API 邊界下與推理共存，會話存於 ~/.ds4/kvcache。

上游一手資訊如下，標籤或 README 更新後請重新抓取：

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf

build-and-weights.sh

git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

[ SECTION_04 ] // RUNBOOK 八步：在本機或遠端 Mac 上啟動 ds4-server 並接 Agent

記憶體稽核：以 sysctl hw.memsize 確認至少 96GB；低於 128GB 先關閉佔用記憶體的程式，README 中「96GB 亦可 250k ctx」僅作例外參考。
取得原始碼並 Metal 編譯：執行 make 產生 ds4、ds4-server、ds4-agent、ds4-bench 等；CUDA 請在 Linux 上使用 make cuda-spark 或 make cuda-generic。
下載官方 GGUF：./download_model.sh q2-imatrix（96/128GB 級）或 q4-imatrix（256GB+ 級）；./download_model.sh mtp 為實驗性 MTP，README 未承諾明顯加速。
冒煙測試：./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1；上線前保留 --trace 日誌。
啟動伺服器與磁碟 KV：./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192；長時間可用 --power 50 降溫與風扇噪音。
設定 Agent 端點：opencode 在 ~/.config/opencode/opencode.json 新增 OpenAI 相容 provider；Cursor 等指向 http://127.0.0.1:8000/v1，上下文上限不得高於伺服器 --ctx。
遷移到遠端 Mac：在 NOVAKVM 節點重複上述步驟，開發機以 ssh -L 8000:127.0.0.1:8000 user@remote 隧道使用同一端點；若要 LAN 暴露需另配 --host 0.0.0.0 與 VPN/TLS。
維運清單：每週鎖定 GGUF 與 ds4 二進位版本、監控磁碟 KV 配額、向團隊說明 ds4-server 序列佇列的等待 SLO；異常以 --trace 提上游 issue。

[ SECTION_05 ] // REFERENCE_DATA README 可引用數據（發版後請再核對）

模型規模：DeepSeek V4 Flash，MoE 284B 總量／13B 激活，上下文 最高 1M token。
記憶體分級：Flash 自 96/128GB 起；PRO 面向 512GB Mac Studio 級（PRO 仍屬 experimental）。
量化磁碟佔用：imatrix q2 約 81GB；128GB RAM 建議 ctx 10 萬～30 萬 token。
Metal 速度（README 表、單次執行）：MacBook Pro M3 Max 128GB、q2、短提示 prefill 58.52 t/s、生成 26.68 t/s；11709 token prefill 250.11 t/s。Mac Studio M3 Ultra 512GB、q2 短提示生成 36.86 t/s。
API 面：ds4-server 支援 /v1/chat/completions、/v1/responses（Codex CLI）、/v1/messages（Claude Code 系）；工具呼叫以 DSML exact replay 維持 KV 一致。

常見症狀與排查（ds4 維運）
症狀	常見原因	處置
啟動後立刻被 kill	RAM 不足	釋放記憶體或改用 128GB 節點
核心當機	在 macOS 跑 CPU 路徑	僅使用 Metal 建置
第二輪起極慢	未設定磁碟 KV	`--kv-disk-dir` 與足夠 `--kv-disk-space-mb`
工具呼叫後上下文錯亂	DSML replay 不一致	保持 exact replay 與穩定 tool id
多人同時逾時	單 worker 序列	排隊策略或按人分配節點

[ SECTION_06 ] // PLATFORM_CLOSE 用遠端高記憶體 Mac 試 ds4：NOVAKVM 收束

新加坡／東京／首爾／香港／美東／美西六地節點上，常見做法是將 128GB 級 Apple Silicon 裸機 作為 ds4 宿主，開發者 Mac 以 SSH 隧道存取。適合資料不出公網的 PoC、週末燒 20 萬 token 的 Agent 實驗，或多人輪流使用同一 ds4-server 的研究專案，無需先買 Mac Studio。

替代方案的弱點：① 全面依賴雲端 API 會讓長 Agent 工作階段的按量費用與合規成本累積，程式與日誌也留在供應商側。② 用通用 Ollama 硬跑 V4 時，KV 壓縮與 DSML 工具鏈往往不如 ds4 專用路徑穩定，同樣 96GB 體感品質可能更差。③ 自行採購中古 Mac Studio 還要負擔電力、散熱與磁碟維護，對數週試驗而言偏重。

若要在 接近正式環境的條件下試本地推理，並與 iOS CI、OpenClaw Agent 並行，NOVAKVM 的 Mac mini 雲端裸機租用 是更穩定的選擇：可按日／週／月取得高記憶體配置，獨占 Apple Silicon 上可同時跑 ds4-server 與 Xcode 工具鏈。價格見 NOVAKVM 租用價格頁，雲端訂購頁選記憶體梯度，連線步驟見雲端幫助中心。CI 與 Agent 分時請讀 CI 與 AI Agent 時間窗篇，並聯與磁碟見並聯資源篇。