2026: DeepSeek V4 lokal mit antirez ds4 (DwarfStar) — 96-GB-Mac-Hürde und High-Memory-Cloud-Mac-Miete bei NOVAKVM // NOVAKVM Engineering Blog

Wer 2026 DeepSeek V4 lokal auf dem Mac fahren will, ohne jeden Coding-Agenten-Lauf an eine Fremd-API zu binden, landet fast zwangsläufig bei antirez ds4 (DwarfStar): einer schmalen, selbstständigen Inferenz-Engine mit Metal-Fokus. Die Hürde ist Hardware: Im upstream README beginnt Metal auf MacBooks ab 96 GB RAM für Flash; PRO richtet sich an 512-GB-Mac-Studio-Klasse. Typische Firmenflotten mit 16- oder 24-GB-Mac-mini können die empfohlenen q2-imatrix-Gewichte nicht resident halten. Dieser Beitrag richtet sich an Tech Leads, die zwischen MacBook-Pro-Capex, Studio-Kauf und dauerhaft gemietetem Apple-Silicon mit viel Unified Memory entscheiden. Sie erhalten Schmerzpunkte, eine Entscheidungsmatrix, Architektur zu Metal und Disk-KV, ein Acht-Schritte-Runbook, README-Zahlen (nach jedem Release erneut prüfen) und einen NOVAKVM-Abschluss in sechs Regionen. Preise: Mietpreise, Bestellung: Bestellseite, Remote-Zugang: Hilfezentrum; ergänzend CI-Zeitfenster und OpenClaw Remote-SSH.

[ SECTION_01 ] // PAIN_MAP Warum die meisten Mac-Flotten DeepSeek V4 Flash nicht lokal hosten können

Unified Memory schlägt Kernzahl. Für Flash mit q2-imatrix nennt das README im Kontext-Budget grob 81 GB nur für die Gewichte. Ein 16- oder 24-GB-Mac-mini scheitert daran, unabhängig von SSD-Tempo.
Dokumentierte Untergrenze: 96 GB, Komfort: 128 GB. Metal startet laut README auf MacBooks mit 96 GB RAM; Download-Presets kennzeichnen q2-imatrix für 96/128-GB-Maschinen. Berichte über 96-GB-Läufe mit gekürztem Kontext nach Prozessbereinigung sind kein Team-SLA.
Kontextfenster kollidiert mit Gewichten. Bis 1 Mio. Token Kontext sind dokumentiert; für sehr große Kontexte werden im README zusätzlich grob 26 GB Speicher für komprimierte Indexer genannt. Auf 128 GB mit q2 empfiehlt upstream 100k–300k Token als vernünftiger Bereich.
PRO ist eine eigene Hardwareklasse. pro-imatrix zielt auf 512 GB Mac Studio. PRO auf kleineren Hosts gilt als experimentell.
Kein generischer GGUF-Loader. ds4 lädt nur die für das Projekt veröffentlichten Flash- und PRO-GGUFs. Fremde Dateien passen nicht zu Tensor-Layout und Quantisierung.
Wärme und Dauerlast. Lange Metal-Prefills halten die GPU busy. --power N drosselt Last; ein Laptop als Dauer-Inferenz-Host ist operativ anders als ein Rechenzentrum-Mac-mini.
Beta/alpha-Reife. Inferenz und Serving sind beta, ds4-agent alpha. Rollbacks und reproduzierbare Hosts sind Pflicht.

[ SECTION_02 ] // DECISION_MATRIX Eigener 96-GB-Mac vs Studio vs dedizierte Remote-Mac-Miete

Es geht nicht um „lokal oder Cloud“, sondern darum, wer 24/7-Inferenz, Speicherrisiko und regionale Latenz trägt — und ob Prompt-/Tool-Spuren auf Hardware bleiben, die Sie kontrollieren und löschen können.

DeepSeek V4 + ds4 auf Apple Silicon (2026)
Pfad	Typische Hardware	Flash q2-imatrix	Erstes Versagen
Nur Entwickler-Laptop	MacBook Pro 96/128 GB	Gut bei freiem RAM; schwach mit Xcode + Simulator + ds4	Speicherdruck, Thermik bei langem Prefill
Mac Studio kaufen (PRO)	Mac Studio 512 GB	PRO-Pfad laut README; hohe Capex	Einzelstandort, Leerlauf zwischen Experimenten
Generischer GGUF-Runner	variabel	Kein Drop-in-Ersatz für ds4	Falsches Layout, andere Tool-/KV-Semantik
Nur Hosted-API	N/A	Keine lokalen Gewichte	Datenfluss und Kosten außerhalb eigener Kontrolle
NOVAKVM Bare-Metal-Miete	M4 Pro 64 GB / 2 TB, sechs Regionen	Volles Flash-q2-imatrix braucht laut upstream 96 GB+; Miete passt zu dauerhaftem ds4-server, Disk-KV, Client-Routing, GGUF-Staging	Falsche Tier-Wahl; Abhilfe: Pro-Tier, 1–2 TB NVMe

Die Hürde ist nicht „Apple Silicon ja/nein“, sondern ob Gewichte + KV + Agent-Tools im Unified Memory bleiben, während Xcode und Simulator denselben Pool beanspruchen.

[ SECTION_03 ] // ENGINE DwarfStar: Metal-Flash, Disk-KV, OpenAI-kompatibler Server

DwarfStar optimiert schmal auf DeepSeek V4 Flash; PRO ist ein Seitenpfad auf sehr großen Maschinen. Geliefert werden Laden, Prompt-Rendering, Tool-Calling, KV in RAM und auf Disk, HTTP-Server und ein nativer Coding-Agent für DSML-Streams. Metal ist das primäre Backend unter macOS. CUDA-Builds existieren für Linux-NVIDIA (z. B. DGX Spark), doch die in diesem Beitrag beschriebene Kaufentscheidung betrifft vor allem Teams, die Apple Silicon bereits für Xcode, Notarisierung und kreative Workflows standardisiert haben.

Zwei Architekturpunkte prägen Architektur-Reviews. Erstens behandelt das README Disk als first-class KV-Bürger: moderne Mac-NVMe tragen lange Kontexte mit, wenn RAM für Gewichte reserviert bleibt. Zweitens spricht ds4-server OpenAI-, Anthropic- und Responses-APIs; exakte DSML-Replay-Maps verhindern, dass stateless Clients den KV-Checkpoint unbemerkt invalidieren. Während der Generierung erzwingt der Server bei stabiler DSML-Syntax oft temperature=0, während Argument-Payloads die Sampling-Parameter des Clients behalten — ein Detail, das Tool-Zuverlässigkeit von langen Code-Edits trennt.

Wer bereits OpenClaw oder GitHub-Runner auf NOVAKVM betreibt, kann denselben Knoten als ds4-Endpunkt nutzen, sofern Speicher- und Disk-Budget getrennt geplant werden. Mischen Sie nicht unkontrolliert Xcode-Archive-Nachtläufe mit Flash-q2-imatrix auf einem Host, der nur knapp an der dokumentierten RAM-Grenze liegt.

Für Befehle, Quants und Speicherhinweise gelten das antirez-ds4-README und die Hugging-Face-Gewichte. Nach jedem Tag erneut öffnen.

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf

[ SECTION_04 ] // RUNBOOK Acht Schritte: ds4-server auf dediziertem Remote-Mac

Voraussetzung: dedizierter NOVAKVM-Mac-mini mit größtmöglichem Unified Memory, schneller NVMe, SSH-Zugang. Flags mit ./ds4 --help auf dem kompilierten Stand verifizieren.

Speicherklasse ehrlich wählen. Unter 96 GB Unified Memory kein volles Flash-q2-imatrix bei großem Kontext planen. Nutzen Sie den Miet-Host für Builds, Downloads, Disk-KV-Tests oder als stabilen Server-Sprungbrett.
Disk vor Netzwerk. Hunderte GB für ./gguf/ und --kv-disk-dir reservieren; 1–2 TB Upgrades bei mehreren Quants.
Metal bauen. Repository klonen, make unter macOS, ./ds4 und ./ds4-server ohne CPU-only-Falle testen (README warnt vor macOS-VM-Problemen auf CPU-Pfad).
Gewichte laden. ./download_model.sh q2-imatrix für 96/128-GB-Klasse; pro-imatrix nur auf 512-GB-Klasse.
CLI, dann Server. Kurzer ./ds4 -p-Smoke mit --nothink; Server mit --ctx, --kv-disk-dir, --kv-disk-space-mb zuerst auf Loopback.
API sicher exponieren. SSH-Tunnel oder TLS-Reverse-Proxy vor Loopback; --host 0.0.0.0 nur bewusst. --cors nur für Browser-Clients.
Coding-Agenten anbinden. OpenCode/Codex/Claude-Code-Clients auf /v1/chat/completions oder /v1/responses; Kontextlimit ≤ Server---ctx.
Betrieb mit Trace und Power-Cap. --trace für Audits; --power 70 auf geteilten Hosts; Disk-KV vor GGUF-Upgrade snapshotten.

REMOTE-DS4-SERVER.SH

$ ./download_model.sh q2-imatrix
$ make
$ ./ds4-server \
    --ctx 200000 \
    --kv-disk-dir /var/ds4/kv \
    --kv-disk-space-mb 16384 \
    --power 75 \
    --host 127.0.0.1

listening: http://127.0.0.1:8000/v1/models
tunnel: ssh -L 8000:127.0.0.1:8000 user@remote-mac

[ SECTION_05 ] // HARD_FACTS Zitierbare ds4-Werte (README upstream prüfen)

Metal-Einstieg: README: Metal ab MacBooks mit 96 GB RAM; Flash im Fokus, PRO experimentell außerhalb 512-GB-Klasse.
Quant-Presets: q2-imatrix für 96/128 GB; q4-imatrix für >= 256 GB; pro-imatrix für 512 GB.
Kontext vs RAM: Grob 26 GB Zusatzspeicher für sehr großen Kontext; Empfehlung 100k–300k Token auf 128 GB mit q2; Berichte über 250k auf 96 GB mit aggressiver Prozesshygiene.
Gewichts-Footprint: Server-Notizen: 2-Bit-Quants ~81 GB — daher scheitern 64-GB-Hosts am dokumentierten Flash-Graph.
Geschwindigkeit (README-Tabelle prüfen): Beispiel M5 Max 128 GB q2 Generation ~34,27 t/s; Mac Studio M3 Ultra 512 GB PRO q2 bei 32768 Token Prefill ~138,82 t/s, Generation ~9,56 t/s.
Reife: Inferenz beta, Agent alpha.

Symptom-Matrix wenn Flash nicht auf den Host passt
Symptom	Ursache	Fix
Modell lädt nicht	RAM unter Flash-Quant-Anforderung	96-GB+-Host oder dokumentiert kleinerer Quant
Kernel-Panik CPU-Build	macOS-VM-Bug auf CPU-Pfad	Metal-Build für Produktion
OOM mitten in Session	Indexer + Gewichte	`--ctx` senken; Disk-KV auf schneller NVMe
KV-Neuaufbau nach Tool-Turn	DSML-Replay-Mismatch	Tool-IDs stabil halten
Dauerlauf Lüfter	Prefill bei Power 100	Remote-Mac; `--power` drosseln

[ SECTION_06 ] // PLATFORM_CLOSE Sechs Regionen, DSGVO und NOVAKVM-Miete

Singapur und Hongkong senken RTT für APAC-Tunnel zu ds4-server, wenn Entwickler in Festlandchina oder Südostasien ohne eigenes 96-GB-Notebook arbeiten. Tokio und Seoul halten SSH-Sessions und KV-Snapshots in-region für japanische und koreanische Studios. US East und US West verbessern Roundtrips zu GitHub, Hugging Face und US-basierten Agent-SaaS-Steuerungen — wichtig, wenn europäische Teams US-West nur „wegen Verfügbarkeit“ wählen und damit Datenresidenz und Latenz vermischen.

Planen Sie Wartungsfenster wie bei jedem Beta-Stack: GGUF-Wechsel, make-Rebuild und Snapshot von ~/.ds4/kvcache gehören in ein Change-Ticket. Nutzen Sie Tagesmieten für Spitzen (neues Quant testen) und Monatsmieten für den dauerhaften ds4-Endpunkt, analog zur Zeitfenster-Logik in unserem CI-Agenten-Artikel.

DSGVO und Cloud-Daten: Sobald Coding-Prompts, Tool-Ausgaben oder KV-Snapshots auf einem gemieteten Mac in einer NOVAKVM-Region liegen, sind Sie Verantwortlicher für die Verarbeitung personenbezogener Inhalte in Repos, Tickets oder Chat-Logs, die in Agent-Sessions landen. Wählen Sie die Region bewusst (EU-nahe Prozesse eher nicht blind in US-West erzwingen), dokumentieren Sie Zweck und Aufbewahrung, nutzen Sie SSH-Verschlüsselung und Löschkonzepte für --kv-disk-dir und GGUF-Caches, und schließen Sie einen Auftragsverarbeitungsvertrag ab, wenn Mitarbeiterdaten verarbeitet werden. Ein dedizierter Bare-Metal-Knoten erleichtert Löschung und Zugriffskontrolle gegenüber geteilten SaaS-Inferenz-Logs — ersetzt aber keine Rechtsberatung.

Als NOVAKVM-High-Memory-Tier gilt M4 Pro 64 GB / 2 TB für dauerhafte ds4-Server, große GGUF-Speicher und Disk-KV; volles Flash-q2-imatrix bei großem Kontext verlangt weiterhin 96 GB+ laut upstream. Parallel-Ressourcen und TB-NVMe entlasten Multi-Agent-Setups; siehe Parallel-Speicher-Matrix.

Schwächen der Alternativen: Nur API — laufende Kosten und Datenfluss außerhalb Ihrer Hardware. Privates 96-GB-MacBook — Thermik und Reise. Studio-Kauf — Leerlauf und ein Standort. Generische GPU-Cloud — kein dokumentierter Metal-ds4-Pfad.

Für stabilen, regional platzierten Apple-Silicon-Host für DwarfStar, Agent-Clients und schnelle GGUF-Disks ist NOVAKVM Mac-mini-Cloud-Bare-Metal-Miete meist die bessere Wahl: sechs Regionen, dediziertes Metal, flexible Laufzeiten. Mietpreise, Bestellen, Hilfezentrum.

2026: DeepSeek V4 lokal mit antirez ds4 (DwarfStar)96-GB-Unified-Memory-Hürde und NOVAKVM High-Memory-Cloud-Mac-Miete