2026년 5월, Redis 창시자 Salvatore Sanfilippo(antirez)가 공개한 DwarfStar 4(ds4)는 범용 GGUF 러너가 아니라 DeepSeek V4 Flash 전용 네이티브 추론 엔진으로 빠르게 주목받고 있습니다. Metal을 1순위로 두고 96GB 이상 Apple Silicon 통합 메모리를 전제로, 2-bit 양자화 GGUF와 디스크 상주 KV 캐시, Coding Agent용 OpenAI 호환 ds4-server까지 한 번에 맞춥니다. 반면 사내 표준이 M4 16GB·24GB Mac mini인 팀은 가중치만 디스크에서 약 81GB, 긴 컨텍스트에서는 압축 KV만으로도 수십 GB급 추가가 붙어 하드웨어 진입 장벽이 소프트웨어보다 먼저 옵니다. 본문은 로컬 대형 모델과 Agent 연동을 검토하는 개발자·연구자를 대상으로 일곱 가지 병목, 네 가지 경로 결정 매트릭스, Metal/UMA 아키텍처 요점, 8단계 구축 절차, README 기반 인용 데이터를 제시하고, 128GB급 Mac을 직접 구매하기 어려울 때 NOVAKVM 원격 고메모리 Mac 임대로 마무리합니다. 수치와 명령은 상류 README를 정본으로 삼고, 릴리스 후 다시 확인하십시오. 가격은 대여 가격 페이지, 신청은 주문 페이지, SSH·운영은 고객 센터를 참고하십시오.
[ SECTION_01 ] // PAIN_MAP 96GB 장벽 앞에서 먼저 막히는 ds4 도입의 일곱 가지 병목
- 손에 있는 Mac RAM이 부족합니다. 공식 README는 MacBook을 96GB부터, 실무에서는 128GB 권장이라고 명시합니다. 사내 표준이 M4 16GB·24GB Mac mini이면
./download_model.sh q2-imatrix이전에 물리 메모리에서 실패합니다. - 양자화 GGUF 다운로드와 디스크입니다. imatrix q2는 디스크상 약 81GB입니다.
./gguf/와ds4flash.gguf심볼릭 링크를 포함해 여유 200GB 미만 볼륨은 위험합니다. - 긴 컨텍스트와 KV 메모리 예산입니다. README는 풀 1M 토큰 가정의 압축 indexer만 약 26GB(indexer 약 22GB)라고 적습니다. 128GB에서도 2-bit 가중치와 병행하면 100~300k 토큰이 현실적이고, 96GB에서는 프로세스 정리가 필수입니다.
- 범용 llama.cpp와의 기대 차입니다. ds4는 임의 GGUF를 읽지 않습니다. Hugging Face
antirez/deepseek-v4-gguf전용 레이아웃입니다. 기존 Ollama 자산을 재사용할 수 없고 한 모델 한 엔진 베팅 비용이 있습니다. - macOS에서 CPU 경로는 사용할 수 없습니다. README는 macOS 가상 메모리 버그로 CPU 추론이 커널 크래시를 유발한다고 경고합니다. Metal 빌드만 프로덕션에 쓸 수 있고, Linux로의 회피도 ds4 설계와 어긋납니다.
- 베타 품질과 단일 요청 직렬화입니다. 코드는 beta,
ds4-agent는 alpha입니다. 서버는 현재 배치 없음·단일 그래프 워커 직렬이라 팀 동시 사용은 큐 대기가 전제입니다. - 구매 가격과 재고입니다. 128GB MacBook Pro나 512GB Mac Studio는 신품 가격이 높고 조달 리드타임도 깁니다. 일주일 PoC로 250k 컨텍스트만 시험하려면 고정 자산보다 임대가 합리적인 경우가 많습니다.
[ SECTION_02 ] // DECISION_MATRIX ds4·llama.cpp/Ollama·클라우드 API·원격 Mac 네 가지 경로 매트릭스
로컬에서 DeepSeek V4 Flash를 돌리는 경로는 하드웨어 소유 여부에 따라 갈립니다. 아래 표는 README와 공식 모델 카드 제약을 반영한 실무 대조입니다.
| 경로 | 전제 하드/비용 | 강점 | 약점 |
|---|---|---|---|
| ds4 + Metal(로컬 Mac) | 96~128GB+ UMA, 디스크 약 81GB | 전용 Metal 그래프, 디스크 KV, Agent API 일체 | 기기 고정비, beta, Flash/PRO 외 비지원 |
| llama.cpp / Ollama 범용 | GPU/RAM은 모델별 | 주간 단위 모델 교체 가능 | V4 Flash KV·DSML 최적이 약함 |
| DeepSeek 클라우드 API | 종량제, 외부망 필수 | 풀 정밀도·운영 부담 적음 | 데이터 거주, 긴 세션 비용 |
| NOVAKVM 원격 고메모리 Mac | 일/주/월 임대, 6개 지역 | 128GB급 단기 검증, SSH로 ds4-server | 네트워크·키 관리 설계 필요 |
ds4의 가치는 「아무 모델이나 돌리는 범용성」이 아니라 DeepSeek V4 Flash 한 줄기를 Agent까지 끝까지 다듬는 것에 있습니다. 하드가 없으면 소프트 선택 이전에 메모리가 있는 Mac 조달 모델을 정해야 합니다.
[ SECTION_03 ] // ARCHITECTURE DwarfStar가 Metal과 통합 메모리를 쓰는 방식
ds4(저장소명 ds4, 제품명 DwarfStar)는 C로 작성된 자급형 엔진입니다. GGML에 링크하지 않지만 양자화 포맷과 설계 지식은 llama.cpp 계열을 참조합니다. 최적 경로는 macOS Metal과 Linux CUDA(DGX Spark 등)이며 CPU 빌드는 진단 전용입니다.
DeepSeek V4 Flash는 MoE로 총 파라미터 284B, 활성 13B, 컨텍스트 최대 100만 토큰(README·모델 카드). ds4가 제공하는 2-bit 양자화는 README가 강조하는 비대칭 양자화로 라우팅 MoE 전문가만 IQ2_XXS/Q2_K, 공유부는 고정밀을 유지합니다.
디스크 우선 KV가 차별점입니다. 토큰열 SHA1 키의 온디스크 KV는 세션 전환·서버 재기동 후에도 재사용되어 Agent 첫 prefill(수만 토큰)을 매번 내지 않아도 됩니다. 네이티브 ds4-agent는 API 경계 없이 추론과 에이전트를 공존시키고 ~/.ds4/kvcache에 세션을 저장합니다.
상류 1차 정보는 다음과 같습니다. 태그·README가 갱신되면 반드시 다시 확인하십시오.
https://github.com/antirez/ds4
https://huggingface.co/antirez/deepseek-v4-gguf
git clone https://github.com/antirez/ds4.git && cd ds4
make
./download_model.sh q2-imatrix
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
[ SECTION_04 ] // RUNBOOK 8단계: 로컬 또는 원격 Mac에서 ds4-server를 Agent에 연결
- 대상 Mac 메모리 감사:
sysctl hw.memsize로 96GB 이상 확인. 128GB 미만이면 다른 앱을 종료하고 README의 「96GB에서도 250k ctx 보고」는 예외로 둡니다. - 저장소 클론과 Metal 빌드:
make로ds4,ds4-server,ds4-agent,ds4-bench등 생성. CUDA는make cuda-spark/make cuda-generic를 별도 머신에서. - 공식 GGUF 받기:
./download_model.sh q2-imatrix(96/128GB용) 또는q4-imatrix(256GB+ 클래스)../download_model.sh mtp는 실험적 MTP로 README는 큰 속도 향상을 기대하지 말라고 합니다. - 스모크 테스트:
./ds4-eval -m ds4flash.gguf --plain --questions 4 --tokens 2048 --temp 0 --seed 1로 회귀 게이트. 프로덕션 전--trace로그를 남깁니다. - 서버 기동과 디스크 KV:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192. 장시간 운용은--power 50으로 발열·팬을 줄일 수 있습니다. - Agent 베이스 URL 설정: opencode는
~/.config/opencode/opencode.json에 OpenAI 호환 프로바이더 추가. Cursor 등은http://127.0.0.1:8000/v1을 가리키고 컨텍스트 상한은 서버--ctx이하로 맞춥니다. - 원격 Mac으로 이전: NOVAKVM 노드에서 동일 절차 후 개발 Mac에서 SSH 터널
ssh -L 8000:127.0.0.1:8000 user@remote로 로컬과 같은 엔드포인트 사용. LAN 공개는--host 0.0.0.0과 TLS/VPN을 별도 설계합니다. - 운영 체크리스트: 주간으로 GGUF·ds4 바이너리 버전 고정, 디스크 KV 쿼터 모니터링,
ds4-server직렬 큐 대기 SLO를 팀에 공유. 문제 시--trace로 상류 issue 제출.
[ SECTION_05 ] // REFERENCE_DATA README 기반 인용 가능 데이터(발版 후 재확인)
- 모델 규모: DeepSeek V4 Flash MoE 284B 총량 / 13B 활성, 컨텍스트 최대 1M 토큰.
- 메모리 클래스: Flash 96/128GB부터, PRO는 512GB Mac Studio급(PRO는 experimental).
- 양자화 디스크: imatrix q2 약 81GB. 128GB RAM에서 ctx 100~300k가 README 권장대.
- Metal 속도(README 표·단발 측정): MacBook Pro M3 Max 128GB·q2·짧은 프롬프트 prefill 58.52 t/s, 생성 26.68 t/s; 11709 토큰 prefill 250.11 t/s. Mac Studio M3 Ultra 512GB·q2 짧은 생성 36.86 t/s.
- API:
ds4-server는/v1/chat/completions,/v1/responses(Codex CLI),/v1/messages(Claude Code계) 지원. 도구 호출은 DSML exact replay로 KV 정합을 유지합니다.
| 증상 | 전형 원인 | 조치 |
|---|---|---|
| 기동 직후 kill | RAM 부족, 타 프로세스 수십 GB 점유 | Activity Monitor 정리, 128GB 노드로 이동 |
| 커널 패닉 | macOS에서 CPU 경로 실행 | Metal 빌드만 사용 |
| 2회차 이후 극단적 지연 | 디스크 KV 미설정 | --kv-disk-dir와 충분한 --kv-disk-space-mb |
| 도구 호출 후 문맥 붕괴 | DSML replay 불일치 | exact replay 유지, 클라이언트 tool id 보존 |
| 동시 사용 타임아웃 | 단일 그래프 워커 직렬 | 큐 설계 또는 사용자별 노드 분리 |
[ SECTION_06 ] // PLATFORM_CLOSE 원격 고메모리 Mac으로 ds4 시험: NOVAKVM 수렴
싱가포르·도쿄·서울·홍콩·미동·미서 6개 지역에서는 128GB급 Apple Silicon 베어메탈에 ds4를 올리고 개발 Mac에서 SSH 터널하는 구성이 일반적입니다. 데이터를 외부 API로보내지 않는 PoC, 주말만 200k 컨텍스트로 Agent를 굽는 검증, 여러 명이 순차로 ds4-server를 쓰는 연구 프로젝트 등 고정 자산화 전에 임대로 메모리 장벽을 넘을 수 있습니다.
대안의 약점: ① 클라우드 API 전면 의존은 긴 Agent 세션 종량·컴플라이언스가 누적되고 코드·로그가 벤더에 남습니다. ② 범용 Ollama로 V4를 억지로 올리면 KV 압축·DSML 연동이 ds4 전용 경로만큼 안정적이지 않을 수 있습니다. ③ 중고 Mac Studio 조달·전력·냉각·디스크 유지 비용은 수주 시험에는 과합니다.
로컬 추론을 프로덕션에 가깝게 시험하고 iOS CI·OpenClaw Agent와 병행하려는 팀에는 NOVAKVM Mac mini 클라우드 베어메탈 임대가 현실적입니다. 고메모리 구성을 일·주·월 단위로 확보하고 Apple Silicon 독점 위에 ds4-server와 Xcode 툴체인을 공존시킬 수 있습니다. 가격은 NOVAKVM 대여 가격 페이지, 주문 페이지에서 메모리 구간을 고르고 연결은 고객 센터를 참고하십시오. CI·Agent 시간 분할은 CI·Agent 시간창 편, 병렬·디스크는 병렬 리소스 편과 함께 읽으면 동일 노드 예산 설계가 수월합니다.