2026: ds4 (DwarfStar) и локальный DeepSeek V4 Flash на Mac Metal — барьер 96 ГБ и аренда удалённого Mac с большой памятью // Блог NOVAKVM

В мае 2026 Salvatore Sanfilippo (antirez) выпустил DwarfStar 4 (ds4) — не универсальный GGUF-раннер, а узкоспециализированный движок инференса DeepSeek V4 Flash. Первичная цель — Metal на macOS при 96+ ГБ унифицированной памяти Apple Silicon: 2-bit GGUF с imatrix, дисковый KV-кэш и OpenAI-совместимый ds4-server для coding agents. У команд, где в проде только Mac mini M4 на 16–24 ГБ, барьер встаёт раньше кода: веса q2-imatrix занимают ~81 ГБ на диске, длинный контекст добавляет десятки гигабайт сжатого KV. Статья для разработчиков и исследователей, которые хотят локальный frontier-класс без утечки кода в облако: семь болевых точек, матрица из четырёх путей, архитектура Metal/UMA, восемь шагов развёртывания, данные из README и вывод на аренду высокопамятного Mac через NOVAKVM, если своего 128 ГБ Mac нет. Числа и команды сверяйте с upstream README после каждого релиза. Тарифы: страница цен, заказ: оформить аренду, SSH: центр помощи.

[ SECTION_01 ] // PAIN_MAP Где ломается внедрение ds4 до первого токена

Нехватка RAM на рабочей машине. README указывает MacBook от 96 ГБ, практический комфорт — 128 ГБ. Корпоративный Mac mini 16/24 ГБ не переживёт даже загрузку q2-imatrix.
Диск под GGUF. imatrix q2 — порядка 81 ГБ в ./gguf/ плюс ссылка ds4flash.gguf. Том с <200 ГБ свободного места — риск.
Бюджет контекста и KV. Для полного 1M-контекста README оценивает сжатый indexer в ~26 ГБ (из них ~22 ГБ indexer). На 128 ГБ с 2-bit весами разумно 100–300k токенов; на 96 ГБ нужно убивать лишние процессы.
Ожидание совместимости с Ollama. ds4 не грузит произвольные GGUF — только раскладку с antirez/deepseek-v4-gguf. Ставка «одна модель — один движок».
CPU-путь на macOS недопустим. README предупреждает: из-за бага VM в macOS CPU-инференс вешает ядро. В проде только Metal-сборка.
Beta и сериализация запросов. Код beta, ds4-agent — alpha. Сервер без батчинга: один graph worker, очередь на всю команду.
CAPEX Mac Studio. 128 ГБ MacBook Pro или 512 ГБ Mac Studio — дорогой актив. Недельный PoC на 250k ctx дешевле на аренде, чем в закупке железа.

[ SECTION_02 ] // DECISION_MATRIX Матрица решений: ds4, llama.cpp, облачный API, удалённый Mac

Маршрут зависит от того, есть ли у вас Mac с достаточной UMA. Таблица отражает ограничения README и карточки модели.

2026 Q2: маршруты инференса DeepSeek V4 Flash
Путь	Железо / стоимость	Плюсы	Минусы
ds4 + Metal (свой Mac)	96–128+ ГБ UMA, ~81 ГБ диск	Metal-граф, дисковый KV, API для agents	CAPEX, beta, только Flash/PRO в экосистеме ds4
llama.cpp / Ollama	зависит от модели	частая смена моделей	слабее оптимизация KV/DSML под V4 Flash
Облачный API DeepSeek	pay-as-you-go, интернет	полная точность, нет своего Metal	резиденция данных, длинные сессии agents
NOVAKVM удалённый Mac	день/неделя/месяц, 6 регионов	128 ГБ на PoC, SSH к ds4-server	сеть, ключи, политика доступа

Смысл ds4 не в универсальности, а в том, чтобы довести DeepSeek V4 Flash до coding agents на Metal. Без железа сначала выбирают модель доступа к памяти, а не фреймворк.

[ SECTION_03 ] // ARCHITECTURE Как DwarfStar использует Metal и UMA

DwarfStar (репозиторий ds4) — самодостаточный C-движок без линковки с GGML, с заимствованием квант-форматов из экосистемы llama.cpp. Оптимизированные пути: Metal и CUDA (в т.ч. DGX Spark); CPU — только диагностика.

DeepSeek V4 Flash: MoE 284B всего / 13B активных, окно до 1M токенов. 2-bit квант ds4 — асимметричный: эксперты MoE в IQ2_XXS/Q2_K, общие блоки без агрессивного сжатия.

KV на диске — ключ по SHA1 последовательности токенов; переживает рестарт сервера и смену сессии agent. ds4-agent хранит сессии в ~/.ds4/kvcache без границы сокет/API между агентом и графом.

Первичные ссылки upstream — проверяйте после каждого тега:

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf

build-and-weights.sh

git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

[ SECTION_04 ] // RUNBOOK Восемь шагов: ds4-server локально или на удалённом Mac

Аудит памяти: sysctl hw.memsize — не меньше 96 ГБ; ниже 128 ГБ закрыть лишние процессы.
Сборка Metal: make → ds4, ds4-server, ds4-agent, ds4-bench. CUDA: make cuda-spark / make cuda-generic на Linux.
Веса: ./download_model.sh q2-imatrix (96/128 ГБ) или q4-imatrix (класс 256+ ГБ). MTP — эксперимент, без ожидания большого ускорения (README).
Дымовой тест: ./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1; логи с --trace.
Сервер: ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192; --power 50 снижает нагрев.
Клиент agents: opencode — провайдер в ~/.config/opencode/opencode.json; Cursor и др. — http://127.0.0.1:8000/v1, лимит контекста ≤ --ctx сервера.
Удалённый узел NOVAKVM: те же шаги на bare-metal Mac; с ноутбука — ssh -L 8000:127.0.0.1:8000 user@remote. Публикация в LAN — только с --host 0.0.0.0 плюс VPN/TLS.
Эксплуатация: пин версий GGUF и бинарника, квота дискового KV, SLO на очередь сервера; инциденты — issue upstream с trace.

[ SECTION_05 ] // REFERENCE_DATA Цитируемые данные из README (перепроверять после релиза)

Модель: V4 Flash MoE 284B / 13B active, контекст до 1M.
Память: Flash от 96/128 ГБ; PRO — класс 512 ГБ (experimental).
Диск q2-imatrix: ~81 ГБ; на 128 ГБ RAM ctx 100–300k — разумный диапазон README.
Metal (таблица README, один прогон): MacBook Pro M3 Max 128 ГБ, q2, короткий prompt — prefill 58,52 t/s, gen 26,68 t/s; 11709 токенов prefill — 250,11 t/s. Mac Studio M3 Ultra 512 ГБ, q2, короткая gen — 36,86 t/s.
API: /v1/chat/completions, /v1/responses (Codex CLI), /v1/messages (Claude Code); tool calls — exact replay DSML для согласованности KV.

Симптомы и разбор (эксплуатация ds4)
Симптом	Причина	Действие
OOM при старте	не хватает RAM	освободить память или узел 128 ГБ
kernel panic	CPU-inference на macOS	только Metal-сборка
медленный 2-й ход	нет дискового KV	`--kv-disk-dir`, квота MB
ломается после tool call	рассинхрон DSML	exact replay, стабильные tool id
таймаут при параллели	один worker	очередь или Mac на пользователя

[ SECTION_06 ] // PLATFORM_CLOSE Удалённый Mac с большой памятью: закрытие на NOVAKVM

В шести регионах (Сингапур, Токио, Сеул, Гонконг, восток/запад США) типична схема: bare-metal Apple Silicon 128 ГБ с ds4 и SSH-туннель с рабочей станции. PoC без вывода кода в облако, выходные прогоны на 200k контекста, очередь исследователей на один ds4-server — всё это укладывается в посуточную/понедельную аренду вместо покупки Mac Studio.

Слабые стороны альтернатив: ① только облачный API — растущий счёт за длинные agent-сессии и вопросы compliance. ② Ollama «как есть» для V4 — хуже сжатый KV и DSML, та же 96 ГБ ощущается иначе. ③ б/у Mac Studio — CAPEX, электричество, диск, без гибкости срока.

Для команд, которым нужен локальный инференс рядом с iOS CI и OpenClaw, разумнее аренда bare-metal Mac mini в NOVAKVM: высокая память по дням/неделям/месяцам, эксклюзивный Apple Silicon, ds4-server и Xcode на одном узле. Цены: тарифы NOVAKVM, заказ: оформить аренду, доступ: центр помощи. См. также временные окна CI и agents и параллель и диск.

2026: ds4 (DwarfStar) и локальный DeepSeek V4 Flash на Mac Metal:барьер 96 ГБ и аренда удалённого Mac с большой памятью