IT 및 AI

Qwable이 뭐길래? - local에서 Fable 스타일 추론을 구현한 오픈 모델의 모든 것

푸른강아지 2026. 6. 26. 15:03

Qwable이 뭐길래? — local에서 Fable 스타일 추론을 구현한 오픈 모델의 모든 것

Anthropic의 Claude Fable 5는 출시 직후 역대 가장 뛰어난 추론·코딩 성능을 보여주며 업계를 놀라게 했으나, 미국 수출통제 규정으로 인해 불과 며칠 만에 전 세계에서 서비스가 중단됐다. 그런데 이 빈자리를 정확히 노린 오픈소스 모델이 등장했다. 이름하여 Qwable(Qwen + Fable).

무료로 사용 가능하고, 로컬에서 실행 가능하며, 생각하는 스타일이 Fable 5와 유사하다는 이 모델은 Hugging Face에서 커뮤니티 개발자들에 의해 만들어졌다. 이 글에서는 Qwable이 무엇인지, 어떻게 작동하는지, 어떤 버전이 있으며, 로컬에서 어떻게 실행하는지, 그리고 어떤 논란과 한계가 있는지 상세히 정리한다.

1. Qwable이란?

Qwable이라는 이름은 Qwen(알리바바의 오픈소스 LLM)과 Fable(Anthropic의 Claude Fable)의 합성어다. 핵심 아이디어는 간단하다:

알리바바의 Qwen3.6 시리즈를 베이스 모델로 삼고
Fable 5 스타일의 추론(trace) 데이터셋으로 파인튜닝하여
Fable 5 특유의 단계적·설명적·구조화된 추론 스타일을 재현하는 것

즉, 원본 Fable 5의 "시험 답안"을 복사한 것이 아니라 "공부 방법"을 학습시킨 접근법이다. Fable 5가 보여준 사고 과정(trace)을 지도 데이터로 삼아 Qwen의 가중치를 미세 조정했다.

이 모델은 GGUF 포맷으로 제공되어 LM Studio, Ollama, llama.cpp 등에서 로컬 실행이 가능하며, Q4 양자화 시 약 16.5GB로 소비자 하드웨어에서도 충분히 구동된다. 256K 컨텍스트 윈도우도 지원한다.

2. 왜 Qwable이 주목받는가 — Fable 5 중단의 여파

Qwable의 등장 배경에는 Claude Fable 5의 갑작스러운 서비스 중단 사건이 있다. Anthropic의 차세대 플래그십 모델이었던 Fable 5는 2026년 6월 초 프리뷰로 공개되었으나, 미국 정부의 수출통제 지침에 따라 2026년 6월 22일 전 세계적으로 서비스가 중단되었다.

이 상황이 시사하는 바는 크다:

중앙화된 API 의존성의 위험: 최고 성능의 모델이라도 정부 규제나 기업 정책 변화로 하루아침에 사라질 수 있다
데이터 주권: Fable 5는 30일 데이터 보유 정책이 의무화되어 있었는데, 로컬 모델은 이 문제가 없다
커뮤니티의 대응: 금지된 기능을 오픈소스 커뮤니티가 재현하는 패턴 — Stable Diffusion 때와 동일한 흐름

이런 배경에서 Qwable은 단순한 성능 모방을 넘어, "모델 주권(model sovereignty)"이라는 개념을 현실화한 사례로 평가받고 있다.

3. Qwable 생태계 — 다양한 버전과 변형

Qwable은 단일 모델이 아니라 여러 크기와 목적을 가진 모델군(패밀리)으로 확장되고 있다. 주요 변종을 표로 정리했다.

버전	크기	아키텍처	제작자	특징
Qwable-3.6-27b	27B Dense	Qwen3.6-27B	Mia-AiLab	Fable 5 추론 스타일 파인튜닝, 코딩 특화
Qwable-3.6-27b-MTP	27B + MTP	Qwen3.6-27B	Mia-AiLab	MTP(Multi-Token Prediction) 레이어 추가 → 더 빠른 추론
Qwable-3.6-35b	35B MoE	Qwen3.6-35B-A3B	Mia-AiLab	MoE — 활성 파라미터 약 3B, 전체 35B
Qwable-v1	35B MoE	Qwen3.6-35B-A3B	lordx64	체인 증류: Opus 4.7 → Fable 5, 에이전트 도구 사용 특화
Qwable-9B-Claude-Fable	9B	Qwen3.5-9B	empero-ai	경량, 크리에이티브/롤플레이 특화
Huihui-Qwable-abliterated	27B	Qwen3.6-27B	Huihui-ai	거부(refusal) 매커니즘을 제거한 언센서드 버전

4. Qwable-v1 — 체인 증류의 정수

가장 기술적으로 흥미로운 변종은 lordx64가 공개한 Qwable-v1이다. 이 모델은 단일 파인튜닝이 아니라 2단계 체인 증류(chained distillation)를 적용했다:

Qwen3.6-35B-A3B (원본, Apache 2.0) └─SFT──▶ Opus 4.7 추론 증류 버전 └─SFT──▶ Qwable-v1 (Fable 5 에이전트 도구 사용 증류)

트레이닝 세부 사항:

데이터: 4,659행, 약 1,220만 Qwen 토큰
도구 사용률: 훈련 턴의 81%가 도구 호출로 종료
훈련 시간: 14.1시간 (1× nvidia-h200, $5/hr → 약 $70)
최종 Loss: 0.804
LoRA: r=16, attention 전용, dropout 0.0
라이선스: AGPL-3.0

Qwable-v1은 XML 기반 도구 호출 형식을 사용한다. 에이전트 시스템 프롬프트와 함께 사용하면 <tool_use>, <file_edit>, <shell_command> 블록을 생성하여 파일 편집, 셸 명령 실행, 파일 읽기 등을 수행할 수 있다.

5. Abliteration — 거부 신경망을 제거한 언센서드 버전

Qwable이 화제가 된 지 불과 며칠 만에, Huihui-ai가 Abliteration(제거) 기법을 적용한 언센서드 버전을 공개했다.

Abliteration은 "탈옥(jailbreak)이 아니라 외과 수술"에 가깝다. 모든 파인튜닝된 AI 모델은 가중치 내부에 거부 방향(refusal direction)이라는 수학적 신호를 가지고 있다. Abliteration은 다음 과정으로 이를 제거한다:

유해 프롬프트와 무해 프롬프트에 대한 모델의 내부 활성화값을 비교
거부를 유발하는 수학적 신호(refusal vector)를 식별
해당 신호를 무력화하도록 가중치를 수정

이 과정은 llama.cpp의 cvector-generator 도구를 사용하여 GGUF 파일에 직접 수행되며, 전체 가중치 재학습이나 GPU 서버가 필요하지 않다. 로컬에서 가볍게 실행 가능한 외과적 수술인 셈이다.

단, 모델 카드에도 명시되어 있듯이 "안전성 필터가 감소하여 출력이 민감하거나 논란의 여지가 있거나 부적절할 수 있으며, 법적·윤리적 책임은 전적으로 사용자에게 있다." 따라서 연구·보안 감사·합성 데이터 파이프라인 등 통제된 환경에서만 사용해야 한다.

6. 로컬에서 Qwable 실행하기

Qwable은 다양한 방법으로 로컬에서 실행할 수 있다. 대표적인 방법을 소개한다.

방법	명령어 / 방식	비고
llama.cpp	llama-cli -m Qwable-v1-IQ4_XS.gguf -p "..."	24GB VRAM 이상 권장
Ollama	ollama run richardyoung/qwable-9b-abliterated	9B 버전: 5.6GB, 256K 컨텍스트
LM Studio	GUI로 GGUF 직접 로드	Q4 양자화: ~16.5GB
vLLM	vllm serve lordx64/Qwable-v1 --tensor-parallel-size 2	16K max model len
Transformers	Python, full bf16	~70GB VRAM 필요

추천 설정: 가정용 PC(24~32GB VRAM)에서는 MTP 버전의 Q5 양자화가 정확도와 속도의 최적 균형을 제공한다는 벤치마크 결과가 있다. MTP(Multi-Token Prediction)는 한 번에 여러 토큰을 예측하여 추론 속도를 높이는 기술이다.

7. 성능 평가 — 실제로 얼마나 좋은가?

Qwable의 성능에 대한 평가는 아직 초기 단계다. 몇 가지 주목할 만한 포인트를 정리한다:

코딩: 기본 Qwen3.6-27B 대비 코드 생성의 구조화된 추론 방식이 개선되었다는 사용자 피드백. 그러나 공식 HumanEval 등 벤치마크 결과는 아직 발표되지 않음
추론 스타일: Fable 5 스타일의 단계별 추론을 잘 모방한다는 평가. "생각하는 것처럼 느껴진다"는 의견
한계: 훈련 데이터가 주로 웹/게임 개발 도메인에 편중되어 있어 범용성은 제한적. lordx64의 Qwable-v1 데이터는 사실상 한 개발자의 Claude Code 세션 히스토리(953개)에서 추출됨
비교: 같은 Qwen3.6-27B 기반의 다른 파인튜닝(Qwopus 등)과 비교 시, 코딩 작업에서 유사하거나 약간 더 나은 결과를 보인다는 사용자 보고

8. 한계와 논란 — 신중하게 봐야 할 점

Qwable이 흥미로운 프로젝트임은 분명하지만, 몇 가지 중요한 한계점도 존재한다.

🔸 검증되지 않은 능력 주장

Qwable-v1의 모델 카드에도 벤치마크 표가 "진행 중(in-progress)"으로 표시되어 있다. 제작자의 능력 주장은 아직 제3자에 의해 검증되지 않았다. Verdent.ai의 분석에 따르면 "증명된 것이 아니라 문서화된 것"이며, 커뮤니티 파인튜닝에 기대하는 합리적 수준의 주의가 필요하다.

🔸 제한된 훈련 데이터

학습 데이터의 규모와 도메인이 매우 제한적이다. Qwable-v1의 경우 단 4,659행의 데이터이며, 원천은 한 명의 개발자가 Claude Code로 작업한 세션 로그(953개)에 불과하다. 따라서 일반화 능력은 아직 입증되지 않았다.

🔸 라이선스 및 법적 문제

Qwable-v1은 AGPL-3.0 라이선스를 사용하는데, 이는 네트워크 서비스에 소스 코드 공개 의무(AGPL §13)를 부과한다. 또한 Fable 5의 추론 데이터(trace)를 기반으로 하므로, 상업적 사용 시 Anthropic의 이용 정책과의 충돌 가능성을 면밀히 검토해야 한다.

🔸 Abliteration의 윤리적 딜레마

언센서드 버전은 합법적인 연구와 보안 감사에는 유용하지만, 악용 가능성도 존재한다. "로컬에서 실행되므로 미국 정부도 긴급 회수할 수 없다"는 마케팅 문구는 탈중앙화의 장점인 동시에 규제의 사각지대라는 양날의 검이다.

9. 정리 — Qwable의 의의와 전망

Qwable은 단순한 파인튜닝 모델 그 이상의 의미를 가진다.

모델 주권의 실험장: 중앙화된 API 없이 최첨단 추론 스타일을 로컬에서 재현할 수 있다는 것을 증명했다
커뮤니티 주도 혁신: 대기업이 아닌 개인 개발자(Mia, lordx64, Huihui-ai)가 짧은 시간 안에 의미 있는 결과를 만들어냈다
트레이스 증류의 가능성: 프론티어 모델의 추론 과정(trace)을 오픈 모델에 증류하는 접근법의 유효성을 입증했다
그러나 아직 이르다: 벤치마크 부재, 제한된 데이터, 라이선스 불확실성 등 해결해야 할 과제가 많다

Qwable은 앞으로 추가적인 Fable 5 트레이스 데이터가 공개됨에 따라 v2, v3로 지속 업데이트될 예정이라고 제작자들이 밝히고 있다. 커뮤니티의 반응과 추가 데이터 확보 여부에 따라 이 모델군이 실제로 생산성 도구로 자리잡을지, 아니면 흥미로운 실험으로 남을지가 결정될 것이다.

📌 요약: Qwable은 Claude Fable 5가 중단된 후 커뮤니티가 만든 Fable 스타일 추론 모델군이다. 9B에서 35B까지 다양한 크기로 제공되며, GGUF 포맷으로 로컬 실행이 가능하다. Abliteration 버전은 거부 메커니즘을 제거한 언센서드 버전이다. 성능은 유망하지만 아직 검증이 필요하며, 라이선스와 법적 문제도 확인이 필요하다. 로컬 AI의 미래를 보여주는 중요한 이정표임은 분명하다.

🔗 관련 링크

'IT 및 AI' 카테고리의 다른 글

Google, 11년 만에 안드로이드 전용 Google Finance 앱 출시 - AI 포트폴리오 분석·맞춤 브리핑까지 (0)	2026.06.29
LLM 가격 전쟁, 이제는 '무료' 직전까지 왔다 (0)	2026.06.29
AI가 직접 PC를 조작한다 - Claude vs Gemini, Computer Use 전면전 (0)	2026.06.26
2026년 AI 개발자 도구 트렌드 - RubyLLM, Nub, open-code-review부터 ax-grep까지 (0)	2026.06.25
AI 칩 전쟁, 새로운 국면 - OpenAI 커스텀 칩부터 Qualcomm의 Modular 인수까지 (0)	2026.06.25

현재글Qwable이 뭐길래? - local에서 Fable 스타일 추론을 구현한 오픈 모델의 모든 것

푸른강아지의 일상

일상 혹은 삶에 필요할 수 도 있는 지식 모음방

푸른강아지의 일상