알리바바 Qwen 팀에서 새로 공개한 QwQ-32B에 대해 이야기해볼게요. QwQ는 "Qwen with Questions"의 줄임말인데, 단순히 지시만 따르는 모델이 아니라 스스로 생각하고 질문하면서 여러 경로로 문제를 풀어내는 똑똑한 모델이에요. 복잡한 수학 문제, 프로그래밍, 과학 질문 등 다양한 어려운 문제들을 해결하는 데 큰 강점을 가지고 있답니다.

QwQ-32B 한 눈에 보기
- 모델 타입: 인과적 언어 모델 (Causal Language Model)
- 아키텍처: 최신 Transformer 구조로 RoPE, SwiGLU, RMSNorm, Attention QKV bias 같은 최신 기술이 적용됐어요.
- 파라미터: 약 32.5B (어떤 자료에선 32.8B로도 언급되지만, 보통 32.5B 정도로 표현돼요.)
- 레이어 & 헤드: 총 64레이어, Q에 40개의 헤드, KV에 8개의 헤드를 사용하고 있어요.
- 최대 컨텍스트 길이: 무려 131,072 토큰까지 처리할 수 있어요!
이렇게 QwQ-32B는 엄청난 파라미터와 긴 컨텍스트 덕분에 복잡한 문제를 한 번에 쏙쏙 처리할 수 있는 능력을 갖추고 있어요.
왜 QwQ-32B가 특별할까요?
QwQ-32B는 Qwen2.5 기반으로 사전 학습, 지도 학습, 그리고 강화 학습(RLHF)을 통해 만들어졌어요. 그래서 단순히 정답만 내놓는 게 아니라, “내가 왜 이 답을 내놓아야 하지?” 하면서 스스로 질문하고 고민하는 과정을 거쳐요. 덕분에 특히 수학 문제, 프로그래밍, 과학 문제 같은 어려운 문제에서도 좋은 성과를 보여줘요. 실제로 여러 벤치마크에서:
- GPQA (대학원 수준 과학 문제): 65.2%
- AIME (수학 문제 해결): 50.0%
- MATH-500 (수학 이해력): 90.6%
- LiveCodeBench (코딩 능력): 50.0%
와 같은 인상적인 결과를 기록했다고 해요. 덕분에 DeepSeek-R1이나 OpenAI의 o1-mini 같은 최신 추론 모델과 견줄 만한 성능을 갖췄다는 평가를 받고 있답니다.
QwQ-32B, 이렇게 써보세요!
Hugging Face 모델 카드에서는 QwQ-32B를 잘 활용할 수 있도록 몇 가지 팁을 주고 있어요:
- 샘플링 파라미터 설정:
Temperature는 0.6, TopP는 0.95, TopK는 20~40 정도로 설정하면, 반복되거나 불필요한 내용 없이 깔끔한 답변을 얻을 수 있어요. - apply_chat_template 함수 사용:
이 함수를 사용하면 대화 히스토리에서 내부 생각(<think> 태그 등)이 노출되지 않고 최종 답변만 깔끔하게 출력돼요. - 긴 입력 처리:
입력이 32,768 토큰을 넘는 경우, YaRN 같은 기술을 활성화하면 긴 문장들도 효율적으로 처리할 수 있어요. (참고로 최대 컨텍스트 길이는 131,072 토큰이에요!)
자세한 코드 예제와 사용법은 모델 카드 내 Quickstart 섹션을 참고하면 되고, QwenChat 데모 페이지에서도 직접 체험해볼 수 있으니 꼭 한 번 사용해보세요!
마무리하며
QwQ-32B는 Qwen 시리즈 중에서도 중간 규모 모델이지만, 최신 기술과 고급 학습 기법 덕분에 복잡한 문제를 깊이 있게 풀어낼 수 있어요. 특히, 스스로 질문하고 고민하는 과정을 통해 답을 내놓는 점이 기존 모델과 확실히 다르죠. 앞으로 이런 모델들이 더 다양한 분야에서 우리 생활을 편리하게 만들어 줄 것 같아 기대가 큽니다.
더 자세한 내용은 Hugging Face의 QwQ-32B 모델 카드를 참고해보세요!
'IT 및 AI' 카테고리의 다른 글
BGE‑M3: 다기능, 다국어 임베딩 모델의 모든 것! (0) | 2025.03.07 |
---|---|
DNA-R1: 한국어 AI 모델의 새로운 도약 (0) | 2025.03.07 |
NVIDIA GTC 2025에서 만나는 AI 혁신의 미래 (2) | 2025.03.06 |
MWC 2025, AI와 혁신 기술이 이끄는 미래 (4) | 2025.03.06 |
프롬프트 주입 공격 : 왜 위험할까요? (0) | 2025.03.06 |