IT 및 AI

알리바바 클라우드가 공개한 AI 영상 생성 모델, 얼마나 대단할까?

푸른강아지 2025. 5. 2. 14:21
반응형

알리바바 클라우드가 2025년 4월 23일, 새로운 AI 영상 생성 모델 'Wan2.1-FLF2V-14B'를 오픈소스로 공개했어요. 이 모델은 Hugging Face와 GitHub를 통해 누구나 사용할 수 있게 풀렸는데요, AI 영상 생성 기술에 관심 있는 사람이라면 눈여겨볼 만한 소식이에요. 오늘은 이 모델이 어떤 특징을 가지고 있고, 왜 주목해야 하는지 쉽게 풀어보려고 해요.

 

시작과 끝만 있으면 자연스러운 영상이 완성돼요

Wan2.1-FLF2V-14B는 사용자가 제공하는 시작 프레임과 종료 프레임만으로 자연스러운 5초짜리 720p 영상을 만들어줘요. 이게 가능한 이유는 CLIP 기반 의미 추출 기술과 Diffusion Transformer(DiT) 구조 덕분인데요, 이 두 가지를 조합해서 프레임 사이의 부드러운 전환과 시각적 일관성을 멋지게 유지할 수 있다고 해요. 결과적으로, 마치 사람이 편집한 것처럼 자연스럽고 매끄러운 영상이 만들어진다고 하네요.

 

고성능이지만 소비자용 GPU로도 충분해요

보통 이렇게 정교한 AI 모델은 엄청난 컴퓨팅 파워를 요구하는 경우가 많은데요, Wan2.1-FLF2V-14B는 14억 개의 파라미터를 가지고 있음에도 불구하고 비교적 가벼운 사양을 요구해요. 최소 8.19GB VRAM만 있으면 되고, RTX 4090 같은 고성능 소비자용 GPU에서도 충분히 돌릴 수 있어요. 예를 들면 RTX 4090에서는 5초 길이의 480p 영상을 약 4분 만에 생성할 수 있다고 해요. 덕분에 연구자나 크리에이터들도 부담 없이 직접 실험해볼 수 있겠지요.

 

영화부터 교육까지, 어디든 활용할 수 있어요

이 모델이 기대를 모으는 또 하나의 이유는 다양한 분야에 바로 적용할 수 있다는 점이에요. 영화나 광고 같은 엔터테인먼트 산업은 물론, 게임 개발, 교육 콘텐츠 제작, 연구 프로젝트 등에도 유용하게 쓰일 수 있어요. 특히, 고품질의 전환 영상이 필요한 작업에서는 포스트 프로덕션 비용을 크게 줄일 수 있어서 산업 전반에 긍정적인 영향을 줄 것으로 보입니다.

 

AI 영상 생성 시대, 누구나 크리에이터가 될 수 있어요

Wan2.1-FLF2V-14B의 오픈소스 공개는 단순한 기술 발표 그 이상이에요. 이제 고품질 영상 제작이 특정 스튜디오나 전문가의 전유물이 아니라, 누구나 접근할 수 있는 시대가 열리고 있는 거예요. 다양한 창작자와 개발자들이 이 기술을 활용해 더 풍부하고 창의적인 콘텐츠를 만들 수 있게 될 거예요. 앞으로 어떤 멋진 결과물들이 나올지 정말 기대되지 않나요?

반응형