2026: ds4 (DwarfStar) и локальный DeepSeek V4 Flash на Mac Metal:
барьер 96 ГБ и аренда удалённого Mac с большой памятью

В мае 2026 Salvatore Sanfilippo (antirez) выпустил DwarfStar 4 (ds4) — не универсальный GGUF-раннер, а узкоспециализированный движок инференса DeepSeek V4 Flash. Первичная цель — Metal на macOS при 96+ ГБ унифицированной памяти Apple Silicon: 2-bit GGUF с imatrix, дисковый KV-кэш и OpenAI-совместимый ds4-server для coding agents. У команд, где в проде только Mac mini M4 на 16–24 ГБ, барьер встаёт раньше кода: веса q2-imatrix занимают ~81 ГБ на диске, длинный контекст добавляет десятки гигабайт сжатого KV. Статья для разработчиков и исследователей, которые хотят локальный frontier-класс без утечки кода в облако: семь болевых точек, матрица из четырёх путей, архитектура Metal/UMA, восемь шагов развёртывания, данные из README и вывод на аренду высокопамятного Mac через NOVAKVM, если своего 128 ГБ Mac нет. Числа и команды сверяйте с upstream README после каждого релиза. Тарифы: страница цен, заказ: оформить аренду, SSH: центр помощи.

  • Нехватка RAM на рабочей машине. README указывает MacBook от 96 ГБ, практический комфорт — 128 ГБ. Корпоративный Mac mini 16/24 ГБ не переживёт даже загрузку q2-imatrix.
  • Диск под GGUF. imatrix q2 — порядка 81 ГБ в ./gguf/ плюс ссылка ds4flash.gguf. Том с <200 ГБ свободного места — риск.
  • Бюджет контекста и KV. Для полного 1M-контекста README оценивает сжатый indexer в ~26 ГБ (из них ~22 ГБ indexer). На 128 ГБ с 2-bit весами разумно 100–300k токенов; на 96 ГБ нужно убивать лишние процессы.
  • Ожидание совместимости с Ollama. ds4 не грузит произвольные GGUF — только раскладку с antirez/deepseek-v4-gguf. Ставка «одна модель — один движок».
  • CPU-путь на macOS недопустим. README предупреждает: из-за бага VM в macOS CPU-инференс вешает ядро. В проде только Metal-сборка.
  • Beta и сериализация запросов. Код beta, ds4-agentalpha. Сервер без батчинга: один graph worker, очередь на всю команду.
  • CAPEX Mac Studio. 128 ГБ MacBook Pro или 512 ГБ Mac Studio — дорогой актив. Недельный PoC на 250k ctx дешевле на аренде, чем в закупке железа.

Маршрут зависит от того, есть ли у вас Mac с достаточной UMA. Таблица отражает ограничения README и карточки модели.

2026 Q2: маршруты инференса DeepSeek V4 Flash
Путь Железо / стоимость Плюсы Минусы
ds4 + Metal (свой Mac) 96–128+ ГБ UMA, ~81 ГБ диск Metal-граф, дисковый KV, API для agents CAPEX, beta, только Flash/PRO в экосистеме ds4
llama.cpp / Ollama зависит от модели частая смена моделей слабее оптимизация KV/DSML под V4 Flash
Облачный API DeepSeek pay-as-you-go, интернет полная точность, нет своего Metal резиденция данных, длинные сессии agents
NOVAKVM удалённый Mac день/неделя/месяц, 6 регионов 128 ГБ на PoC, SSH к ds4-server сеть, ключи, политика доступа

Смысл ds4 не в универсальности, а в том, чтобы довести DeepSeek V4 Flash до coding agents на Metal. Без железа сначала выбирают модель доступа к памяти, а не фреймворк.

DwarfStar (репозиторий ds4) — самодостаточный C-движок без линковки с GGML, с заимствованием квант-форматов из экосистемы llama.cpp. Оптимизированные пути: Metal и CUDA (в т.ч. DGX Spark); CPU — только диагностика.

DeepSeek V4 Flash: MoE 284B всего / 13B активных, окно до 1M токенов. 2-bit квант ds4 — асимметричный: эксперты MoE в IQ2_XXS/Q2_K, общие блоки без агрессивного сжатия.

KV на диске — ключ по SHA1 последовательности токенов; переживает рестарт сервера и смену сессии agent. ds4-agent хранит сессии в ~/.ds4/kvcache без границы сокет/API между агентом и графом.

Первичные ссылки upstream — проверяйте после каждого тега:

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf

build-and-weights.sh
git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

  1. Аудит памяти: sysctl hw.memsize — не меньше 96 ГБ; ниже 128 ГБ закрыть лишние процессы.
  2. Сборка Metal: makeds4, ds4-server, ds4-agent, ds4-bench. CUDA: make cuda-spark / make cuda-generic на Linux.
  3. Веса: ./download_model.sh q2-imatrix (96/128 ГБ) или q4-imatrix (класс 256+ ГБ). MTP — эксперимент, без ожидания большого ускорения (README).
  4. Дымовой тест: ./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1; логи с --trace.
  5. Сервер: ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192; --power 50 снижает нагрев.
  6. Клиент agents: opencode — провайдер в ~/.config/opencode/opencode.json; Cursor и др. — http://127.0.0.1:8000/v1, лимит контекста ≤ --ctx сервера.
  7. Удалённый узел NOVAKVM: те же шаги на bare-metal Mac; с ноутбука — ssh -L 8000:127.0.0.1:8000 user@remote. Публикация в LAN — только с --host 0.0.0.0 плюс VPN/TLS.
  8. Эксплуатация: пин версий GGUF и бинарника, квота дискового KV, SLO на очередь сервера; инциденты — issue upstream с trace.

  • Модель: V4 Flash MoE 284B / 13B active, контекст до 1M.
  • Память: Flash от 96/128 ГБ; PRO — класс 512 ГБ (experimental).
  • Диск q2-imatrix: ~81 ГБ; на 128 ГБ RAM ctx 100–300k — разумный диапазон README.
  • Metal (таблица README, один прогон): MacBook Pro M3 Max 128 ГБ, q2, короткий prompt — prefill 58,52 t/s, gen 26,68 t/s; 11709 токенов prefill — 250,11 t/s. Mac Studio M3 Ultra 512 ГБ, q2, короткая gen — 36,86 t/s.
  • API: /v1/chat/completions, /v1/responses (Codex CLI), /v1/messages (Claude Code); tool calls — exact replay DSML для согласованности KV.
Симптомы и разбор (эксплуатация ds4)
Симптом Причина Действие
OOM при старте не хватает RAM освободить память или узел 128 ГБ
kernel panic CPU-inference на macOS только Metal-сборка
медленный 2-й ход нет дискового KV --kv-disk-dir, квота MB
ломается после tool call рассинхрон DSML exact replay, стабильные tool id
таймаут при параллели один worker очередь или Mac на пользователя

В шести регионах (Сингапур, Токио, Сеул, Гонконг, восток/запад США) типична схема: bare-metal Apple Silicon 128 ГБ с ds4 и SSH-туннель с рабочей станции. PoC без вывода кода в облако, выходные прогоны на 200k контекста, очередь исследователей на один ds4-server — всё это укладывается в посуточную/понедельную аренду вместо покупки Mac Studio.

Слабые стороны альтернатив: ① только облачный API — растущий счёт за длинные agent-сессии и вопросы compliance. ② Ollama «как есть» для V4 — хуже сжатый KV и DSML, та же 96 ГБ ощущается иначе. ③ б/у Mac Studio — CAPEX, электричество, диск, без гибкости срока.

Для команд, которым нужен локальный инференс рядом с iOS CI и OpenClaw, разумнее аренда bare-metal Mac mini в NOVAKVM: высокая память по дням/неделям/месяцам, эксклюзивный Apple Silicon, ds4-server и Xcode на одном узле. Цены: тарифы NOVAKVM, заказ: оформить аренду, доступ: центр помощи. См. также временные окна CI и agents и параллель и диск.