Wer 2026 DeepSeek V4 lokal auf dem Mac fahren will, ohne jeden Coding-Agenten-Lauf an eine Fremd-API zu binden, landet fast zwangsläufig bei antirez ds4 (DwarfStar): einer schmalen, selbstständigen Inferenz-Engine mit Metal-Fokus. Die Hürde ist Hardware: Im upstream README beginnt Metal auf MacBooks ab 96 GB RAM für Flash; PRO richtet sich an 512-GB-Mac-Studio-Klasse. Typische Firmenflotten mit 16- oder 24-GB-Mac-mini können die empfohlenen q2-imatrix-Gewichte nicht resident halten. Dieser Beitrag richtet sich an Tech Leads, die zwischen MacBook-Pro-Capex, Studio-Kauf und dauerhaft gemietetem Apple-Silicon mit viel Unified Memory entscheiden. Sie erhalten Schmerzpunkte, eine Entscheidungsmatrix, Architektur zu Metal und Disk-KV, ein Acht-Schritte-Runbook, README-Zahlen (nach jedem Release erneut prüfen) und einen NOVAKVM-Abschluss in sechs Regionen. Preise: Mietpreise, Bestellung: Bestellseite, Remote-Zugang: Hilfezentrum; ergänzend CI-Zeitfenster und OpenClaw Remote-SSH.
[ SECTION_01 ] // PAIN_MAP Warum die meisten Mac-Flotten DeepSeek V4 Flash nicht lokal hosten können
- Unified Memory schlägt Kernzahl. Für Flash mit q2-imatrix nennt das README im Kontext-Budget grob 81 GB nur für die Gewichte. Ein 16- oder 24-GB-Mac-mini scheitert daran, unabhängig von SSD-Tempo.
- Dokumentierte Untergrenze: 96 GB, Komfort: 128 GB. Metal startet laut README auf MacBooks mit 96 GB RAM; Download-Presets kennzeichnen
q2-imatrixfür 96/128-GB-Maschinen. Berichte über 96-GB-Läufe mit gekürztem Kontext nach Prozessbereinigung sind kein Team-SLA. - Kontextfenster kollidiert mit Gewichten. Bis 1 Mio. Token Kontext sind dokumentiert; für sehr große Kontexte werden im README zusätzlich grob 26 GB Speicher für komprimierte Indexer genannt. Auf 128 GB mit q2 empfiehlt upstream 100k–300k Token als vernünftiger Bereich.
- PRO ist eine eigene Hardwareklasse.
pro-imatrixzielt auf 512 GB Mac Studio. PRO auf kleineren Hosts gilt als experimentell. - Kein generischer GGUF-Loader. ds4 lädt nur die für das Projekt veröffentlichten Flash- und PRO-GGUFs. Fremde Dateien passen nicht zu Tensor-Layout und Quantisierung.
- Wärme und Dauerlast. Lange Metal-Prefills halten die GPU busy.
--power Ndrosselt Last; ein Laptop als Dauer-Inferenz-Host ist operativ anders als ein Rechenzentrum-Mac-mini. - Beta/alpha-Reife. Inferenz und Serving sind beta,
ds4-agentalpha. Rollbacks und reproduzierbare Hosts sind Pflicht.
[ SECTION_02 ] // DECISION_MATRIX Eigener 96-GB-Mac vs Studio vs dedizierte Remote-Mac-Miete
Es geht nicht um „lokal oder Cloud“, sondern darum, wer 24/7-Inferenz, Speicherrisiko und regionale Latenz trägt — und ob Prompt-/Tool-Spuren auf Hardware bleiben, die Sie kontrollieren und löschen können.
| Pfad | Typische Hardware | Flash q2-imatrix | Erstes Versagen |
|---|---|---|---|
| Nur Entwickler-Laptop | MacBook Pro 96/128 GB | Gut bei freiem RAM; schwach mit Xcode + Simulator + ds4 | Speicherdruck, Thermik bei langem Prefill |
| Mac Studio kaufen (PRO) | Mac Studio 512 GB | PRO-Pfad laut README; hohe Capex | Einzelstandort, Leerlauf zwischen Experimenten |
| Generischer GGUF-Runner | variabel | Kein Drop-in-Ersatz für ds4 | Falsches Layout, andere Tool-/KV-Semantik |
| Nur Hosted-API | N/A | Keine lokalen Gewichte | Datenfluss und Kosten außerhalb eigener Kontrolle |
| NOVAKVM Bare-Metal-Miete | M4 Pro 64 GB / 2 TB, sechs Regionen | Volles Flash-q2-imatrix braucht laut upstream 96 GB+; Miete passt zu dauerhaftem ds4-server, Disk-KV, Client-Routing, GGUF-Staging | Falsche Tier-Wahl; Abhilfe: Pro-Tier, 1–2 TB NVMe |
Die Hürde ist nicht „Apple Silicon ja/nein“, sondern ob Gewichte + KV + Agent-Tools im Unified Memory bleiben, während Xcode und Simulator denselben Pool beanspruchen.
[ SECTION_03 ] // ENGINE DwarfStar: Metal-Flash, Disk-KV, OpenAI-kompatibler Server
DwarfStar optimiert schmal auf DeepSeek V4 Flash; PRO ist ein Seitenpfad auf sehr großen Maschinen. Geliefert werden Laden, Prompt-Rendering, Tool-Calling, KV in RAM und auf Disk, HTTP-Server und ein nativer Coding-Agent für DSML-Streams. Metal ist das primäre Backend unter macOS. CUDA-Builds existieren für Linux-NVIDIA (z. B. DGX Spark), doch die in diesem Beitrag beschriebene Kaufentscheidung betrifft vor allem Teams, die Apple Silicon bereits für Xcode, Notarisierung und kreative Workflows standardisiert haben.
Zwei Architekturpunkte prägen Architektur-Reviews. Erstens behandelt das README Disk als first-class KV-Bürger: moderne Mac-NVMe tragen lange Kontexte mit, wenn RAM für Gewichte reserviert bleibt. Zweitens spricht ds4-server OpenAI-, Anthropic- und Responses-APIs; exakte DSML-Replay-Maps verhindern, dass stateless Clients den KV-Checkpoint unbemerkt invalidieren. Während der Generierung erzwingt der Server bei stabiler DSML-Syntax oft temperature=0, während Argument-Payloads die Sampling-Parameter des Clients behalten — ein Detail, das Tool-Zuverlässigkeit von langen Code-Edits trennt.
Wer bereits OpenClaw oder GitHub-Runner auf NOVAKVM betreibt, kann denselben Knoten als ds4-Endpunkt nutzen, sofern Speicher- und Disk-Budget getrennt geplant werden. Mischen Sie nicht unkontrolliert Xcode-Archive-Nachtläufe mit Flash-q2-imatrix auf einem Host, der nur knapp an der dokumentierten RAM-Grenze liegt.
Für Befehle, Quants und Speicherhinweise gelten das antirez-ds4-README und die Hugging-Face-Gewichte. Nach jedem Tag erneut öffnen.
https://github.com/antirez/ds4
https://huggingface.co/antirez/deepseek-v4-gguf
[ SECTION_04 ] // RUNBOOK Acht Schritte: ds4-server auf dediziertem Remote-Mac
Voraussetzung: dedizierter NOVAKVM-Mac-mini mit größtmöglichem Unified Memory, schneller NVMe, SSH-Zugang. Flags mit ./ds4 --help auf dem kompilierten Stand verifizieren.
- Speicherklasse ehrlich wählen. Unter 96 GB Unified Memory kein volles Flash-q2-imatrix bei großem Kontext planen. Nutzen Sie den Miet-Host für Builds, Downloads, Disk-KV-Tests oder als stabilen Server-Sprungbrett.
- Disk vor Netzwerk. Hunderte GB für
./gguf/und--kv-disk-dirreservieren; 1–2 TB Upgrades bei mehreren Quants. - Metal bauen. Repository klonen,
makeunter macOS,./ds4und./ds4-serverohne CPU-only-Falle testen (README warnt vor macOS-VM-Problemen auf CPU-Pfad). - Gewichte laden.
./download_model.sh q2-imatrixfür 96/128-GB-Klasse;pro-imatrixnur auf 512-GB-Klasse. - CLI, dann Server. Kurzer
./ds4 -p-Smoke mit--nothink; Server mit--ctx,--kv-disk-dir,--kv-disk-space-mbzuerst auf Loopback. - API sicher exponieren. SSH-Tunnel oder TLS-Reverse-Proxy vor Loopback;
--host 0.0.0.0nur bewusst.--corsnur für Browser-Clients. - Coding-Agenten anbinden. OpenCode/Codex/Claude-Code-Clients auf
/v1/chat/completionsoder/v1/responses; Kontextlimit ≤ Server---ctx. - Betrieb mit Trace und Power-Cap.
--tracefür Audits;--power 70auf geteilten Hosts; Disk-KV vor GGUF-Upgrade snapshotten.
$ ./download_model.sh q2-imatrix
$ make
$ ./ds4-server \
--ctx 200000 \
--kv-disk-dir /var/ds4/kv \
--kv-disk-space-mb 16384 \
--power 75 \
--host 127.0.0.1
listening: http://127.0.0.1:8000/v1/models
tunnel: ssh -L 8000:127.0.0.1:8000 user@remote-mac
[ SECTION_05 ] // HARD_FACTS Zitierbare ds4-Werte (README upstream prüfen)
- Metal-Einstieg: README: Metal ab MacBooks mit 96 GB RAM; Flash im Fokus, PRO experimentell außerhalb 512-GB-Klasse.
- Quant-Presets:
q2-imatrixfür 96/128 GB;q4-imatrixfür >= 256 GB;pro-imatrixfür 512 GB. - Kontext vs RAM: Grob 26 GB Zusatzspeicher für sehr großen Kontext; Empfehlung 100k–300k Token auf 128 GB mit q2; Berichte über 250k auf 96 GB mit aggressiver Prozesshygiene.
- Gewichts-Footprint: Server-Notizen: 2-Bit-Quants ~81 GB — daher scheitern 64-GB-Hosts am dokumentierten Flash-Graph.
- Geschwindigkeit (README-Tabelle prüfen): Beispiel M5 Max 128 GB q2 Generation ~34,27 t/s; Mac Studio M3 Ultra 512 GB PRO q2 bei 32768 Token Prefill ~138,82 t/s, Generation ~9,56 t/s.
- Reife: Inferenz beta, Agent alpha.
| Symptom | Ursache | Fix |
|---|---|---|
| Modell lädt nicht | RAM unter Flash-Quant-Anforderung | 96-GB+-Host oder dokumentiert kleinerer Quant |
| Kernel-Panik CPU-Build | macOS-VM-Bug auf CPU-Pfad | Metal-Build für Produktion |
| OOM mitten in Session | Indexer + Gewichte | --ctx senken; Disk-KV auf schneller NVMe |
| KV-Neuaufbau nach Tool-Turn | DSML-Replay-Mismatch | Tool-IDs stabil halten |
| Dauerlauf Lüfter | Prefill bei Power 100 | Remote-Mac; --power drosseln |
[ SECTION_06 ] // PLATFORM_CLOSE Sechs Regionen, DSGVO und NOVAKVM-Miete
Singapur und Hongkong senken RTT für APAC-Tunnel zu ds4-server, wenn Entwickler in Festlandchina oder Südostasien ohne eigenes 96-GB-Notebook arbeiten. Tokio und Seoul halten SSH-Sessions und KV-Snapshots in-region für japanische und koreanische Studios. US East und US West verbessern Roundtrips zu GitHub, Hugging Face und US-basierten Agent-SaaS-Steuerungen — wichtig, wenn europäische Teams US-West nur „wegen Verfügbarkeit“ wählen und damit Datenresidenz und Latenz vermischen.
Planen Sie Wartungsfenster wie bei jedem Beta-Stack: GGUF-Wechsel, make-Rebuild und Snapshot von ~/.ds4/kvcache gehören in ein Change-Ticket. Nutzen Sie Tagesmieten für Spitzen (neues Quant testen) und Monatsmieten für den dauerhaften ds4-Endpunkt, analog zur Zeitfenster-Logik in unserem CI-Agenten-Artikel.
DSGVO und Cloud-Daten: Sobald Coding-Prompts, Tool-Ausgaben oder KV-Snapshots auf einem gemieteten Mac in einer NOVAKVM-Region liegen, sind Sie Verantwortlicher für die Verarbeitung personenbezogener Inhalte in Repos, Tickets oder Chat-Logs, die in Agent-Sessions landen. Wählen Sie die Region bewusst (EU-nahe Prozesse eher nicht blind in US-West erzwingen), dokumentieren Sie Zweck und Aufbewahrung, nutzen Sie SSH-Verschlüsselung und Löschkonzepte für --kv-disk-dir und GGUF-Caches, und schließen Sie einen Auftragsverarbeitungsvertrag ab, wenn Mitarbeiterdaten verarbeitet werden. Ein dedizierter Bare-Metal-Knoten erleichtert Löschung und Zugriffskontrolle gegenüber geteilten SaaS-Inferenz-Logs — ersetzt aber keine Rechtsberatung.
Als NOVAKVM-High-Memory-Tier gilt M4 Pro 64 GB / 2 TB für dauerhafte ds4-Server, große GGUF-Speicher und Disk-KV; volles Flash-q2-imatrix bei großem Kontext verlangt weiterhin 96 GB+ laut upstream. Parallel-Ressourcen und TB-NVMe entlasten Multi-Agent-Setups; siehe Parallel-Speicher-Matrix.
Schwächen der Alternativen: Nur API — laufende Kosten und Datenfluss außerhalb Ihrer Hardware. Privates 96-GB-MacBook — Thermik und Reise. Studio-Kauf — Leerlauf und ein Standort. Generische GPU-Cloud — kein dokumentierter Metal-ds4-Pfad.
Für stabilen, regional platzierten Apple-Silicon-Host für DwarfStar, Agent-Clients und schnelle GGUF-Disks ist NOVAKVM Mac-mini-Cloud-Bare-Metal-Miete meist die bessere Wahl: sechs Regionen, dediziertes Metal, flexible Laufzeiten. Mietpreise, Bestellen, Hilfezentrum.