IT 및 AI

구글 DiffusionGemma: 토큰을 '한 줄씩'이 아니라 '한 블록씩' 생성하는 새로운 오픈 모델

푸른강아지 2026. 6. 17. 14:42
반응형

구글 DiffusionGemma: 토큰을 '한 줄씩'이 아니라 '한 블록씩' 생성하는 새로운 오픈 모델

⚡ 구글 딥마인드가 Apache 2.0 라이선스로 공개한 DiffusionGemma는 기존 LLM의 '한 토큰씩 생성' 방식을 완전히 뒤집는다. 무려 256개 토큰을 한 번에 병렬 생성하며, 동시에 스스로 수정까지 하는 혁신적인 구조다.

 

🤔 '텍스트 확산(Text Diffusion)'이란?

지금까지 우리가 사용해온 모든 LLM(GPT, Claude, Gemini 등)은 자기회귀(Autoregressive) 방식이다. 한 번에 한 토큰씩 순차적으로 생성하며, 한 번 생성된 토큰은 뒤에서 수정할 수 없다. 마치 글을 쓸 때 한 글자 쓰고, 다음 글자 쓰고, 앞으로 돌아가 고칠 수 없는 것과 같다.

DiffusionGemma는 이와 완전히 다른 접근법을 취한다. 확산(Diffusion) 모델은 초기에는 랜덤 노이즈로 가득 찬 256개 토큰의 캔버스(canvas)로 시작한다. 그리고 이 캔버스를 반복적으로 잡음 제거(denoising)하면서 점진적으로 의미 있는 텍스트를 완성해간다. 각 단계마다 더 확실한 토큰은 확정하고, 덜 확실한 토큰은 다음 단계에서 다시 refine한다.

이것이 가능하게 하는 핵심 기술은:

  • 256토큰 블록 단위 병렬 생성 — 한꺼번에 전체 블록을 생성하고 정제
  • 자기 수정(self-correction) — 확신도가 낮은 토큰을 다시 노이즈를 줘서 재생성
  • 블록 내 양방향 어텐션 — 캔버스 내 모든 토큰이 서로를 참조할 수 있음
  • 온도 냉각(Temperature cooling) — 디노이징이 진행될수록 확신도를 높임
 

📊 모델 스펙

총 파라미터 25.2B (약 252억)
활성 파라미터 3.8B (약 38억) — 효율적인 MoE 구조
Expert 구성 전체 128개 중 8개 활성 + 1개 공유 Expert
컨텍스트 길이 256K 토큰
캔버스 길이 256 토큰 (한 번에 생성되는 블록 크기)
지원 모달리티 텍스트, 이미지, 비디오 (최대 60초) → 텍스트 출력
라이선스 Apache 2.0 — 완전 오픈
비전 인코더 ~550M 파라미터
생성 속도 초당 500+ 토큰 (플래그십 GPU 기준, 최대 1000+ 토큰)
 

🔬 기존 Gemma 4 26B와의 벤치마크 비교

확산 방식은 속도가 빠른 대신 추론 정확도에서는 어느 정도 트레이드오프가 있다. 표준 Gemma 4 26B(자기회귀)와 비교한 주요 벤치마크 결과를 보자.

벤치마크 DiffusionGemma Gemma 4 26B
MMLU Pro 77.6% 82.6%
LiveCodeBench v6 69.1% 77.1%
GPQA Diamond 73.2% 82.3%
MMMU (멀티모달) 81.5% 86.3%
HLE (no tools) 11.0% 8.7%
Codeforces ELO 1429 1718

대부분의 벤치마크에서 Gemma 4에 미치지 못하지만, HLE(Hard Language understanding Evaluation)에서는 오히려 앞서는 흥미로운 결과를 보여준다. 확산 방식이 특정 유형의 추론에서 오히려 강점을 가질 수 있음을 시사한다.

 

🚀 생태계 & 사용성

📦 출시부터 폭넓은 프레임워크 지원

DiffusionGemma는 공개와 동시에 주요 ML 프레임워크에서 day-one 지원을 받았다:

  • Hugging Face Transformers — 공식 통합
  • vLLM — 고성능 서빙
  • MLX — Apple Silicon (Mac) 지원
  • llama.cpp — 로컬 CPU/GPU 추론
  • NVIDIA NIM — 클라우드에서 무료 호스팅

⚡ 실제 사용해보니

Simon Willison이 실제 테스트에서 4.4초 만에 2,409개 토큰을 생성하는 데 성공했다. 이는 초당 약 547토큰으로, 기존 자기회귀 모델 대비 약 4배 빠른 속도다. YouTube 리뷰에서는 단일 플래그십 GPU에서 최대 초당 1,000+ 토큰까지 기록했다.

특히 로컬 Mac Studio 환경에서 MLX를 통해 실행할 수 있어, 완전 오프라인에서도 이 속도를 체험할 수 있다는 점이 인상적이다.

# pip 한 줄로 바로 실행
pip install -U transformers torch accelerate
# Hugging Face에서 모델 로드
from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor MODEL_ID =
"google/diffusiongemma-26B-A4B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID) model = DiffusionGemmaForBlockDiffusion.from_pretrained( MODEL_ID, dtype=
"auto"
, device_map=
"auto"
)
 

💡 이 모델이 중요한 이유

🔄 패러다임 전환의 신호

2017년 Transformer가 등장한 이후 LLM의 생성 방식은 '한 토큰씩 순차적으로'가 유일한 방법이었다. DiffusionGemma는 이 패러다임에 최초로 의미 있는 도전장을 내밀었다. 아직 정확도에서는 자기회귀 방식을 따라잡지 못했지만, 속도와 자기 수정 능력이라는 확실한 차별점을 증명했다.

🧪 Google의 오픈소스 전략

Gemma 시리즈(3, 3n, 4, E2B, 이제 DiffusionGemma)는 Google이 오픈소스 LLM 생태계에서 영향력을 확대하는 전략적 도구다. Apache 2.0 라이선스로 완전 개방한 점은 커뮤니티의 실험과 혁신을 촉진한다. 특히 NVIDIA NIM에서 무료 호스팅을 제공하는 점은 개발자들의 진입 장벽을 크게 낮췄다.

🔮 미래 전망

현재 DiffusionGemma는 '실험적(experimental)' 모델로 분류된다. 하지만 확산 모델이 텍스트 생성에서 처음으로 실용적인 수준에 도달했다는 점은 획기적이다. 앞으로 더 큰 모델, 더 긴 캔버스, 더 정교한 디노이징 기법이 개발된다면, 생성 속도와 정확도 모두를 잡는 차세대 LLM 아키텍처의开端이 될 수도 있다.

 

✍️ 마치며

DiffusionGemma는 '완성도 높은 프로덕션 모델'이라기보다 '미래 아키텍처의 프로토타입'에 가깝다. 벤치마크 점수만 보면 Gemma 4에 밀리지만, 텍스트 생성의 근본적인 방식을 바꾸려는 시도 자체가 중요한 의미를 갖는다.

자기회귀 방식이 9년간 군림해온 LLM 세계에서, 확산 모델이 과연 차세대 표준이 될 수 있을지 — DiffusionGemma는 그 첫 실험대의 불을 켰다. 특히 로컬에서 초당 500+ 토큰을 무료로 돌릴 수 있다는 점은 개발자들에게 충분히 실험해볼 가치가 있는 매력이다.

📌 요약

  • Google DeepMind의 첫 오픈웨이트 확산(Text Diffusion) LLM — Apache 2.0 라이선스
  • 256개 토큰을 병렬로 생성 및 자기 수정, 기존 대비 최대 4배 빠른 생성 속도
  • 26B MoE 구조, 활성 파라미터는 3.8B에 불과해 효율적
  • 256K 컨텍스트 + 멀티모달(텍스트/이미지/비디오) 지원
  • Transformers, vLLM, MLX, llama.cpp, NVIDIA NIM에서 즉시 사용 가능
반응형