В мае 2026 Salvatore Sanfilippo (antirez) выпустил DwarfStar 4 (ds4) — не универсальный GGUF-раннер, а узкоспециализированный движок инференса DeepSeek V4 Flash. Первичная цель — Metal на macOS при 96+ ГБ унифицированной памяти Apple Silicon: 2-bit GGUF с imatrix, дисковый KV-кэш и OpenAI-совместимый ds4-server для coding agents. У команд, где в проде только Mac mini M4 на 16–24 ГБ, барьер встаёт раньше кода: веса q2-imatrix занимают ~81 ГБ на диске, длинный контекст добавляет десятки гигабайт сжатого KV. Статья для разработчиков и исследователей, которые хотят локальный frontier-класс без утечки кода в облако: семь болевых точек, матрица из четырёх путей, архитектура Metal/UMA, восемь шагов развёртывания, данные из README и вывод на аренду высокопамятного Mac через NOVAKVM, если своего 128 ГБ Mac нет. Числа и команды сверяйте с upstream README после каждого релиза. Тарифы: страница цен, заказ: оформить аренду, SSH: центр помощи.
[ SECTION_01 ] // PAIN_MAP Где ломается внедрение ds4 до первого токена
- Нехватка RAM на рабочей машине. README указывает MacBook от 96 ГБ, практический комфорт — 128 ГБ. Корпоративный Mac mini 16/24 ГБ не переживёт даже загрузку
q2-imatrix. - Диск под GGUF. imatrix q2 — порядка 81 ГБ в
./gguf/плюс ссылкаds4flash.gguf. Том с <200 ГБ свободного места — риск. - Бюджет контекста и KV. Для полного 1M-контекста README оценивает сжатый indexer в ~26 ГБ (из них ~22 ГБ indexer). На 128 ГБ с 2-bit весами разумно 100–300k токенов; на 96 ГБ нужно убивать лишние процессы.
- Ожидание совместимости с Ollama. ds4 не грузит произвольные GGUF — только раскладку с
antirez/deepseek-v4-gguf. Ставка «одна модель — один движок». - CPU-путь на macOS недопустим. README предупреждает: из-за бага VM в macOS CPU-инференс вешает ядро. В проде только Metal-сборка.
- Beta и сериализация запросов. Код beta,
ds4-agent— alpha. Сервер без батчинга: один graph worker, очередь на всю команду. - CAPEX Mac Studio. 128 ГБ MacBook Pro или 512 ГБ Mac Studio — дорогой актив. Недельный PoC на 250k ctx дешевле на аренде, чем в закупке железа.
[ SECTION_02 ] // DECISION_MATRIX Матрица решений: ds4, llama.cpp, облачный API, удалённый Mac
Маршрут зависит от того, есть ли у вас Mac с достаточной UMA. Таблица отражает ограничения README и карточки модели.
| Путь | Железо / стоимость | Плюсы | Минусы |
|---|---|---|---|
| ds4 + Metal (свой Mac) | 96–128+ ГБ UMA, ~81 ГБ диск | Metal-граф, дисковый KV, API для agents | CAPEX, beta, только Flash/PRO в экосистеме ds4 |
| llama.cpp / Ollama | зависит от модели | частая смена моделей | слабее оптимизация KV/DSML под V4 Flash |
| Облачный API DeepSeek | pay-as-you-go, интернет | полная точность, нет своего Metal | резиденция данных, длинные сессии agents |
| NOVAKVM удалённый Mac | день/неделя/месяц, 6 регионов | 128 ГБ на PoC, SSH к ds4-server | сеть, ключи, политика доступа |
Смысл ds4 не в универсальности, а в том, чтобы довести DeepSeek V4 Flash до coding agents на Metal. Без железа сначала выбирают модель доступа к памяти, а не фреймворк.
[ SECTION_03 ] // ARCHITECTURE Как DwarfStar использует Metal и UMA
DwarfStar (репозиторий ds4) — самодостаточный C-движок без линковки с GGML, с заимствованием квант-форматов из экосистемы llama.cpp. Оптимизированные пути: Metal и CUDA (в т.ч. DGX Spark); CPU — только диагностика.
DeepSeek V4 Flash: MoE 284B всего / 13B активных, окно до 1M токенов. 2-bit квант ds4 — асимметричный: эксперты MoE в IQ2_XXS/Q2_K, общие блоки без агрессивного сжатия.
KV на диске — ключ по SHA1 последовательности токенов; переживает рестарт сервера и смену сессии agent. ds4-agent хранит сессии в ~/.ds4/kvcache без границы сокет/API между агентом и графом.
Первичные ссылки upstream — проверяйте после каждого тега:
https://github.com/antirez/ds4
https://huggingface.co/antirez/deepseek-v4-gguf
git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
[ SECTION_04 ] // RUNBOOK Восемь шагов: ds4-server локально или на удалённом Mac
- Аудит памяти:
sysctl hw.memsize— не меньше 96 ГБ; ниже 128 ГБ закрыть лишние процессы. - Сборка Metal:
make→ds4,ds4-server,ds4-agent,ds4-bench. CUDA:make cuda-spark/make cuda-genericна Linux. - Веса:
./download_model.sh q2-imatrix(96/128 ГБ) илиq4-imatrix(класс 256+ ГБ). MTP — эксперимент, без ожидания большого ускорения (README). - Дымовой тест:
./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1; логи с--trace. - Сервер:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192;--power 50снижает нагрев. - Клиент agents: opencode — провайдер в
~/.config/opencode/opencode.json; Cursor и др. —http://127.0.0.1:8000/v1, лимит контекста ≤--ctxсервера. - Удалённый узел NOVAKVM: те же шаги на bare-metal Mac; с ноутбука —
ssh -L 8000:127.0.0.1:8000 user@remote. Публикация в LAN — только с--host 0.0.0.0плюс VPN/TLS. - Эксплуатация: пин версий GGUF и бинарника, квота дискового KV, SLO на очередь сервера; инциденты — issue upstream с trace.
[ SECTION_05 ] // REFERENCE_DATA Цитируемые данные из README (перепроверять после релиза)
- Модель: V4 Flash MoE 284B / 13B active, контекст до 1M.
- Память: Flash от 96/128 ГБ; PRO — класс 512 ГБ (experimental).
- Диск q2-imatrix: ~81 ГБ; на 128 ГБ RAM ctx 100–300k — разумный диапазон README.
- Metal (таблица README, один прогон): MacBook Pro M3 Max 128 ГБ, q2, короткий prompt — prefill 58,52 t/s, gen 26,68 t/s; 11709 токенов prefill — 250,11 t/s. Mac Studio M3 Ultra 512 ГБ, q2, короткая gen — 36,86 t/s.
- API:
/v1/chat/completions,/v1/responses(Codex CLI),/v1/messages(Claude Code); tool calls — exact replay DSML для согласованности KV.
| Симптом | Причина | Действие |
|---|---|---|
| OOM при старте | не хватает RAM | освободить память или узел 128 ГБ |
| kernel panic | CPU-inference на macOS | только Metal-сборка |
| медленный 2-й ход | нет дискового KV | --kv-disk-dir, квота MB |
| ломается после tool call | рассинхрон DSML | exact replay, стабильные tool id |
| таймаут при параллели | один worker | очередь или Mac на пользователя |
[ SECTION_06 ] // PLATFORM_CLOSE Удалённый Mac с большой памятью: закрытие на NOVAKVM
В шести регионах (Сингапур, Токио, Сеул, Гонконг, восток/запад США) типична схема: bare-metal Apple Silicon 128 ГБ с ds4 и SSH-туннель с рабочей станции. PoC без вывода кода в облако, выходные прогоны на 200k контекста, очередь исследователей на один ds4-server — всё это укладывается в посуточную/понедельную аренду вместо покупки Mac Studio.
Слабые стороны альтернатив: ① только облачный API — растущий счёт за длинные agent-сессии и вопросы compliance. ② Ollama «как есть» для V4 — хуже сжатый KV и DSML, та же 96 ГБ ощущается иначе. ③ б/у Mac Studio — CAPEX, электричество, диск, без гибкости срока.
Для команд, которым нужен локальный инференс рядом с iOS CI и OpenClaw, разумнее аренда bare-metal Mac mini в NOVAKVM: высокая память по дням/неделям/месяцам, эксклюзивный Apple Silicon, ds4-server и Xcode на одном узле. Цены: тарифы NOVAKVM, заказ: оформить аренду, доступ: центр помощи. См. также временные окна CI и agents и параллель и диск.