2026 年 5 月,Redis 作者 Salvatore Sanfilippo(antirez)釋出的 DwarfStar 4(ds4) 不是通用 GGUF 執行器,而是針對 DeepSeek V4 Flash 的原生推理引擎:以 macOS Metal 為第一優先,在 96GB 以上 Apple Silicon 統一記憶體 上搭配 2-bit 量化權重與磁碟常駐 KV 快取,並提供 Coding Agent 可用的 OpenAI 相容 ds4-server。若團隊日常只有 M4 16GB/24GB 的 Mac mini,光模型權重磁碟約 81GB,長上下文還要再吃掉 數十 GB 級 壓縮 KV,硬體門檻 會比軟體選型更早出現。本文面向想本地跑大模型、又要把程式碼留在內網的開發者與研究者:先列 七類痛點,再给 四路徑決策矩陣、Metal/UMA 架構要點、八步落地、README 可引用數據,最後說明買不起 128GB Mac 時如何用 NOVAKVM 遠端高記憶體 Mac 租用 驗證。數值與指令以上游 README 為準,發版後請重新開啟連結核對。價格見 租用價格頁,下單見 雲端訂購頁,遠端連線見 雲端幫助中心。
[ SECTION_01 ] // PAIN_MAP 96GB 門檻前就先撞牆:ds4 導入的七類痛點
- 手邊 Mac 記憶體不夠:官方 README 寫明 MacBook 從 96GB 起,實務上 128GB 較穩。公司標配 M4 16GB/24GB 機型在執行
./download_model.sh q2-imatrix前就會被實體記憶體擋下。 - 量化 GGUF 下載與磁碟:imatrix 版 q2 在磁碟約 81GB,含
./gguf/與ds4flash.gguf符號連結;可用空間低於 200GB 的磁區風險很高。 - 長上下文與 KV 預算:README 指出滿配 1M 情境下壓縮 indexer 約 26GB(其中 indexer 約 22GB)。128GB 搭配 2-bit 權重時,10 萬~30 萬 token 較務實;96GB 必須先清掉佔記憶體的大程序。
- 與通用 llama.cpp 的期待差:ds4 不能載入任意 GGUF,只支援 Hugging Face
antirez/deepseek-v4-gguf的張量佈局;既有 Ollama 資產無法直接搬運,等於接受 一模型一引擎 的賭注。 - macOS 上不能用 CPU 路徑:README 警告現版 macOS 虛擬記憶體缺陷會讓 CPU 推理觸發核心當機,正式環境只能走 Metal 編譯產物。
- Beta 品質與單工請求:程式標為 beta,
ds4-agent為 alpha;伺服器目前 不批次、單一圖計算 worker 序列化,多人同時用會排隊。 - 採購成本與交期:128GB MacBook Pro 或 512GB Mac Studio 單價高、交期長;只想用一週驗證 250k 上下文時,租用 往往比固定資產合理。
[ SECTION_02 ] // DECISION_MATRIX ds4、llama.cpp/Ollama、雲端 API、遠端 Mac 四路徑矩陣
在 Mac 上跑 DeepSeek V4 Flash,首先取決於是否擁有足夠 UMA。下表依 README 與模型卡約束整理,供技術決策對照。
| 路徑 | 硬體/成本 | 優勢 | 劣勢 |
|---|---|---|---|
| ds4 + Metal(本機 Mac) | 96~128GB+ UMA,磁碟約 81GB | 專用 Metal 圖、磁碟 KV、Agent API 一體 | 機器固定支出、beta、僅 Flash/PRO 生態 |
| llama.cpp / Ollama 通用 | 視模型而定 | 可頻繁換模型 | V4 Flash 的 KV、DSML 優化較弱 |
| DeepSeek 雲端 API | 按量計費、需外網 | 全精度、免維運 | 資料落地、長 Agent 工作階段費用 |
| NOVAKVM 遠端高記憶體 Mac | 日/週/月租,六地節點 | 短期取得 128GB 級、SSH 跑 ds4-server | 需設計網路與金鑰治理 |
ds4 的價值不在「什麼模型都能跑」,而在 把 DeepSeek V4 Flash 從權重到 Agent API 做到位。沒有夠大的記憶體,先要決定的是 Mac 的取得方式,而不是框架名稱。
[ SECTION_03 ] // ARCHITECTURE DwarfStar 如何利用 Metal 與統一記憶體
ds4(倉庫名 ds4,產品名 DwarfStar)是以 C 撰寫的自包含引擎,不連結 GGML,但借鑑 llama.cpp 的量化與工程路徑。最佳化路徑為 macOS Metal 與 Linux CUDA(含 DGX Spark);CPU 建置僅供正確性檢查。
DeepSeek V4 Flash 為 MoE:284B 總參數/13B 激活,上下文 最高 100 萬 token(README 與模型卡)。ds4 提供的 2-bit 量化採非對稱策略:僅路由 MoE 專家使用 IQ2_XXS/Q2_K,共享與路由相關張量保持較高精度,README 強調此 2-bit「不是玩笑」。
磁碟優先 KV 是差異化核心:以 token 序列 SHA1 為鍵的磁碟 KV 可在工作階段切換或伺服器重啟後重用,避免 Agent 每次支付數萬 token 的首次 prefill。原生 ds4-agent 在無 API 邊界下與推理共存,會話存於 ~/.ds4/kvcache。
上游一手資訊如下,標籤或 README 更新後請重新抓取:
https://github.com/antirez/ds4
https://huggingface.co/antirez/deepseek-v4-gguf
git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
[ SECTION_04 ] // RUNBOOK 八步:在本機或遠端 Mac 上啟動 ds4-server 並接 Agent
- 記憶體稽核:以
sysctl hw.memsize確認至少 96GB;低於 128GB 先關閉佔用記憶體的程式,README 中「96GB 亦可 250k ctx」僅作例外參考。 - 取得原始碼並 Metal 編譯:執行
make產生ds4、ds4-server、ds4-agent、ds4-bench等;CUDA 請在 Linux 上使用make cuda-spark或make cuda-generic。 - 下載官方 GGUF:
./download_model.sh q2-imatrix(96/128GB 級)或q4-imatrix(256GB+ 級);./download_model.sh mtp為實驗性 MTP,README 未承諾明顯加速。 - 冒煙測試:
./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1;上線前保留--trace日誌。 - 啟動伺服器與磁碟 KV:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192;長時間可用--power 50降溫與風扇噪音。 - 設定 Agent 端點:opencode 在
~/.config/opencode/opencode.json新增 OpenAI 相容 provider;Cursor 等指向http://127.0.0.1:8000/v1,上下文上限不得高於伺服器--ctx。 - 遷移到遠端 Mac:在 NOVAKVM 節點重複上述步驟,開發機以
ssh -L 8000:127.0.0.1:8000 user@remote隧道使用同一端點;若要 LAN 暴露需另配--host 0.0.0.0與 VPN/TLS。 - 維運清單:每週鎖定 GGUF 與 ds4 二進位版本、監控磁碟 KV 配額、向團隊說明
ds4-server序列佇列的等待 SLO;異常以--trace提上游 issue。
[ SECTION_05 ] // REFERENCE_DATA README 可引用數據(發版後請再核對)
- 模型規模:DeepSeek V4 Flash,MoE 284B 總量/13B 激活,上下文 最高 1M token。
- 記憶體分級:Flash 自 96/128GB 起;PRO 面向 512GB Mac Studio 級(PRO 仍屬 experimental)。
- 量化磁碟佔用:imatrix q2 約 81GB;128GB RAM 建議 ctx 10 萬~30 萬 token。
- Metal 速度(README 表、單次執行):MacBook Pro M3 Max 128GB、q2、短提示 prefill 58.52 t/s、生成 26.68 t/s;11709 token prefill 250.11 t/s。Mac Studio M3 Ultra 512GB、q2 短提示生成 36.86 t/s。
- API 面:
ds4-server支援/v1/chat/completions、/v1/responses(Codex CLI)、/v1/messages(Claude Code 系);工具呼叫以 DSML exact replay 維持 KV 一致。
| 症狀 | 常見原因 | 處置 |
|---|---|---|
| 啟動後立刻被 kill | RAM 不足 | 釋放記憶體或改用 128GB 節點 |
| 核心當機 | 在 macOS 跑 CPU 路徑 | 僅使用 Metal 建置 |
| 第二輪起極慢 | 未設定磁碟 KV | --kv-disk-dir 與足夠 --kv-disk-space-mb |
| 工具呼叫後上下文錯亂 | DSML replay 不一致 | 保持 exact replay 與穩定 tool id |
| 多人同時逾時 | 單 worker 序列 | 排隊策略或按人分配節點 |
[ SECTION_06 ] // PLATFORM_CLOSE 用遠端高記憶體 Mac 試 ds4:NOVAKVM 收束
新加坡/東京/首爾/香港/美東/美西六地節點上,常見做法是將 128GB 級 Apple Silicon 裸機 作為 ds4 宿主,開發者 Mac 以 SSH 隧道存取。適合資料不出公網的 PoC、週末燒 20 萬 token 的 Agent 實驗,或多人輪流使用同一 ds4-server 的研究專案,無需先買 Mac Studio。
替代方案的弱點:① 全面依賴雲端 API 會讓長 Agent 工作階段的按量費用與合規成本累積,程式與日誌也留在供應商側。② 用通用 Ollama 硬跑 V4 時,KV 壓縮與 DSML 工具鏈往往不如 ds4 專用路徑穩定,同樣 96GB 體感品質可能更差。③ 自行採購中古 Mac Studio 還要負擔電力、散熱與磁碟維護,對數週試驗而言偏重。
若要在 接近正式環境的條件下試本地推理,並與 iOS CI、OpenClaw Agent 並行,NOVAKVM 的 Mac mini 雲端裸機租用 是更穩定的選擇:可按日/週/月取得高記憶體配置,獨占 Apple Silicon 上可同時跑 ds4-server 與 Xcode 工具鏈。價格見 NOVAKVM 租用價格頁,雲端訂購頁 選記憶體梯度,連線步驟見 雲端幫助中心。CI 與 Agent 分時請讀 CI 與 AI Agent 時間窗篇,並聯與磁碟見 並聯資源篇。