2026 年 ds4(DwarfStar)本地跑 DeepSeek V4 Flash:
Mac Metal、96GB 記憶體門檻與遠端高記憶體 Mac 租用

2026 年 5 月,Redis 作者 Salvatore Sanfilippo(antirez)釋出的 DwarfStar 4(ds4) 不是通用 GGUF 執行器,而是針對 DeepSeek V4 Flash 的原生推理引擎:以 macOS Metal 為第一優先,在 96GB 以上 Apple Silicon 統一記憶體 上搭配 2-bit 量化權重與磁碟常駐 KV 快取,並提供 Coding Agent 可用的 OpenAI 相容 ds4-server。若團隊日常只有 M4 16GB/24GB 的 Mac mini,光模型權重磁碟約 81GB,長上下文還要再吃掉 數十 GB 級 壓縮 KV,硬體門檻 會比軟體選型更早出現。本文面向想本地跑大模型、又要把程式碼留在內網的開發者與研究者:先列 七類痛點,再给 四路徑決策矩陣Metal/UMA 架構要點八步落地README 可引用數據,最後說明買不起 128GB Mac 時如何用 NOVAKVM 遠端高記憶體 Mac 租用 驗證。數值與指令以上游 README 為準,發版後請重新開啟連結核對。價格見 租用價格頁,下單見 雲端訂購頁,遠端連線見 雲端幫助中心

  • 手邊 Mac 記憶體不夠:官方 README 寫明 MacBook 從 96GB 起,實務上 128GB 較穩。公司標配 M4 16GB/24GB 機型在執行 ./download_model.sh q2-imatrix 前就會被實體記憶體擋下。
  • 量化 GGUF 下載與磁碟:imatrix 版 q2 在磁碟約 81GB,含 ./gguf/ds4flash.gguf 符號連結;可用空間低於 200GB 的磁區風險很高。
  • 長上下文與 KV 預算:README 指出滿配 1M 情境下壓縮 indexer 約 26GB(其中 indexer 約 22GB)。128GB 搭配 2-bit 權重時,10 萬~30 萬 token 較務實;96GB 必須先清掉佔記憶體的大程序。
  • 與通用 llama.cpp 的期待差:ds4 不能載入任意 GGUF,只支援 Hugging Face antirez/deepseek-v4-gguf 的張量佈局;既有 Ollama 資產無法直接搬運,等於接受 一模型一引擎 的賭注。
  • macOS 上不能用 CPU 路徑:README 警告現版 macOS 虛擬記憶體缺陷會讓 CPU 推理觸發核心當機,正式環境只能走 Metal 編譯產物。
  • Beta 品質與單工請求:程式標為 betads4-agentalpha;伺服器目前 不批次、單一圖計算 worker 序列化,多人同時用會排隊。
  • 採購成本與交期:128GB MacBook Pro 或 512GB Mac Studio 單價高、交期長;只想用一週驗證 250k 上下文時,租用 往往比固定資產合理。

在 Mac 上跑 DeepSeek V4 Flash,首先取決於是否擁有足夠 UMA。下表依 README 與模型卡約束整理,供技術決策對照。

2026 Q2:DeepSeek V4 Flash 推理路徑決策矩陣
路徑 硬體/成本 優勢 劣勢
ds4 + Metal(本機 Mac) 96~128GB+ UMA,磁碟約 81GB 專用 Metal 圖、磁碟 KV、Agent API 一體 機器固定支出、beta、僅 Flash/PRO 生態
llama.cpp / Ollama 通用 視模型而定 可頻繁換模型 V4 Flash 的 KV、DSML 優化較弱
DeepSeek 雲端 API 按量計費、需外網 全精度、免維運 資料落地、長 Agent 工作階段費用
NOVAKVM 遠端高記憶體 Mac 日/週/月租,六地節點 短期取得 128GB 級、SSH 跑 ds4-server 需設計網路與金鑰治理

ds4 的價值不在「什麼模型都能跑」,而在 把 DeepSeek V4 Flash 從權重到 Agent API 做到位。沒有夠大的記憶體,先要決定的是 Mac 的取得方式,而不是框架名稱。

ds4(倉庫名 ds4,產品名 DwarfStar)是以 C 撰寫的自包含引擎,不連結 GGML,但借鑑 llama.cpp 的量化與工程路徑。最佳化路徑為 macOS MetalLinux CUDA(含 DGX Spark);CPU 建置僅供正確性檢查。

DeepSeek V4 Flash 為 MoE:284B 總參數/13B 激活,上下文 最高 100 萬 token(README 與模型卡)。ds4 提供的 2-bit 量化採非對稱策略:僅路由 MoE 專家使用 IQ2_XXSQ2_K,共享與路由相關張量保持較高精度,README 強調此 2-bit「不是玩笑」。

磁碟優先 KV 是差異化核心:以 token 序列 SHA1 為鍵的磁碟 KV 可在工作階段切換或伺服器重啟後重用,避免 Agent 每次支付數萬 token 的首次 prefill。原生 ds4-agent 在無 API 邊界下與推理共存,會話存於 ~/.ds4/kvcache

上游一手資訊如下,標籤或 README 更新後請重新抓取:

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf

build-and-weights.sh
git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

  1. 記憶體稽核:sysctl hw.memsize 確認至少 96GB;低於 128GB 先關閉佔用記憶體的程式,README 中「96GB 亦可 250k ctx」僅作例外參考。
  2. 取得原始碼並 Metal 編譯:執行 make 產生 ds4ds4-serverds4-agentds4-bench 等;CUDA 請在 Linux 上使用 make cuda-sparkmake cuda-generic
  3. 下載官方 GGUF:./download_model.sh q2-imatrix(96/128GB 級)或 q4-imatrix(256GB+ 級);./download_model.sh mtp 為實驗性 MTP,README 未承諾明顯加速。
  4. 冒煙測試:./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1;上線前保留 --trace 日誌。
  5. 啟動伺服器與磁碟 KV:./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192;長時間可用 --power 50 降溫與風扇噪音。
  6. 設定 Agent 端點:opencode 在 ~/.config/opencode/opencode.json 新增 OpenAI 相容 provider;Cursor 等指向 http://127.0.0.1:8000/v1,上下文上限不得高於伺服器 --ctx
  7. 遷移到遠端 Mac:在 NOVAKVM 節點重複上述步驟,開發機以 ssh -L 8000:127.0.0.1:8000 user@remote 隧道使用同一端點;若要 LAN 暴露需另配 --host 0.0.0.0 與 VPN/TLS。
  8. 維運清單:每週鎖定 GGUF 與 ds4 二進位版本、監控磁碟 KV 配額、向團隊說明 ds4-server 序列佇列的等待 SLO;異常以 --trace 提上游 issue。

  • 模型規模:DeepSeek V4 Flash,MoE 284B 總量/13B 激活,上下文 最高 1M token
  • 記憶體分級:Flash 自 96/128GB 起;PRO 面向 512GB Mac Studio 級(PRO 仍屬 experimental)。
  • 量化磁碟佔用:imatrix q2 約 81GB;128GB RAM 建議 ctx 10 萬~30 萬 token
  • Metal 速度(README 表、單次執行):MacBook Pro M3 Max 128GB、q2、短提示 prefill 58.52 t/s、生成 26.68 t/s;11709 token prefill 250.11 t/s。Mac Studio M3 Ultra 512GB、q2 短提示生成 36.86 t/s
  • API 面:ds4-server 支援 /v1/chat/completions/v1/responses(Codex CLI)、/v1/messages(Claude Code 系);工具呼叫以 DSML exact replay 維持 KV 一致。
常見症狀與排查(ds4 維運)
症狀 常見原因 處置
啟動後立刻被 kill RAM 不足 釋放記憶體或改用 128GB 節點
核心當機 在 macOS 跑 CPU 路徑 僅使用 Metal 建置
第二輪起極慢 未設定磁碟 KV --kv-disk-dir 與足夠 --kv-disk-space-mb
工具呼叫後上下文錯亂 DSML replay 不一致 保持 exact replay 與穩定 tool id
多人同時逾時 單 worker 序列 排隊策略或按人分配節點

新加坡/東京/首爾/香港/美東/美西六地節點上,常見做法是將 128GB 級 Apple Silicon 裸機 作為 ds4 宿主,開發者 Mac 以 SSH 隧道存取。適合資料不出公網的 PoC、週末燒 20 萬 token 的 Agent 實驗,或多人輪流使用同一 ds4-server 的研究專案,無需先買 Mac Studio。

替代方案的弱點:① 全面依賴雲端 API 會讓長 Agent 工作階段的按量費用與合規成本累積,程式與日誌也留在供應商側。② 用通用 Ollama 硬跑 V4 時,KV 壓縮與 DSML 工具鏈往往不如 ds4 專用路徑穩定,同樣 96GB 體感品質可能更差。③ 自行採購中古 Mac Studio 還要負擔電力、散熱與磁碟維護,對數週試驗而言偏重。

若要在 接近正式環境的條件下試本地推理,並與 iOS CI、OpenClaw Agent 並行,NOVAKVM 的 Mac mini 雲端裸機租用 是更穩定的選擇:可按日/週/月取得高記憶體配置,獨占 Apple Silicon 上可同時跑 ds4-server 與 Xcode 工具鏈。價格見 NOVAKVM 租用價格頁雲端訂購頁 選記憶體梯度,連線步驟見 雲端幫助中心。CI 與 Agent 分時請讀 CI 與 AI Agent 時間窗篇,並聯與磁碟見 並聯資源篇