Relatório Técnico Wan: A Potência de Código Aberto da Alibaba para Geração de Vídeo com IA

Wan: A Potência Open-Source da Alibaba para Geração de Vídeos com IA

No início de 2024, o Sora da OpenAI iluminou o mundo da IA ao gerar vídeos com um nível de realismo antes exclusivo de Hollywood. Embora inspiradores, modelos como o Sora são fechados — deixando a comunidade open-source correndo atrás. Isso muda agora.

Wan, desenvolvido pelo Grupo Alibaba, é um pacote open-source inovador de modelos de base para vídeo. Projetado para preencher a lacuna entre geradores de vídeo de nível comercial e o mundo open-source, Wan não é apenas uma conquista técnica — é uma declaração de intenção. Com desempenho competitivo, uma ampla gama de aplicações e eficiência surpreendente (mesmo em GPUs de consumo), Wan redefine o que é possível com modelos generativos abertos.

Quebrando o Gargalo: Por Que Wan Precisou Ser Construído

A geração de vídeo tem evoluído rapidamente, mas grandes desafios ainda limitam o uso e a inovação generalizados. A maioria dos modelos open-source ainda está presa em tarefas limitadas, como texto-para-vídeo básico, e enfrenta dificuldades com movimento de alta fidelidade, suporte multilíngue ou implantação eficiente. Enquanto isso, os modelos comerciais estão avançando rapidamente, apoiados por imensa capacidade computacional e dados privados.

Wan foi criado para resolver este desequilíbrio. Ele é projetado para ser aberto, escalável e — talvez o mais importante — capaz de gerar vídeos que pareçam dinâmicos, fundamentados e cheios de nuances. Imagine neve girando, sinalização legível em chinês e inglês e movimentos de câmera que fazem sentido no espaço físico. Tudo isso é apoiado por um conjunto de modelos reproduzível, modular e projetado para escala.

Engenharia do Núcleo: Por Dentro da Arquitetura de Próxima Geração de Wan

No coração de Wan está uma arquitetura altamente otimizada composta por três componentes principais: um VAE espaço-temporal , um transformer de difusão e um encoder de texto multilíngue . Cada parte foi projetada não apenas para desempenho, mas para usabilidade em tarefas do mundo real.

O Wan-VAE é responsável por comprimir vídeos no tempo e no espaço. É um autoencoder variacional causal 3D que reduz o volume de dados de vídeo em mais de 250 vezes, mantendo detalhes de movimento precisos. Usando convoluções causais e um mecanismo inteligente de cache de recursos, ele permite o processamento eficiente de vídeos de longa duração — um problema para a maioria dos modelos de vídeo.

Complementando isso, está o Transformer de Difusão, um modelo transformer puro projetado para processar esses recursos latentes comprimidos. Ele usa atenção espaço-temporal completa para raciocinar sobre a sequência e o layout do conteúdo do vídeo. O que é impressionante aqui é o uso de Flow Matching — um método de treinamento mais recente que evita a predição iterativa de ruído em favor de uma modelagem ODE mais estável e matematicamente fundamentada.

Para interpretar os prompts do usuário e orientar a geração, Wan usa umT5, um encoder de texto multilíngue. Ele é capaz de lidar com instruções complexas e descritivas em inglês e chinês, garantindo que o modelo não apenas gere vídeo — ele segue as instruções.

A Espinha Dorsal de Dados: Como Wan Foi Treinado em Trilhões de Tokens

Um modelo é tão bom quanto os dados nos quais é treinado, e o pipeline de dados de Wan é uma aula magistral em engenharia de datasets moderna. Mais de bilhões de imagens e vídeos foram selecionados, limpos e enriquecidos para treinar este modelo.

O processo começou com a filtragem em larga escala — removendo conteúdo com marca d'água, material NSFW, filmagens excessivamente borradas e clipes de baixa resolução. Mas Wan foi além. Ele introduziu um classificador de qualidade de movimento para priorizar vídeos com movimentos suaves e expressivos e uma proporção equilibrada de movimento para estático. Enquanto isso, um pipeline de texto visual processou amostras de texto em imagem sintéticas e do mundo real, aumentando a capacidade de Wan de renderizar texto na tela de forma legível e precisa.

Para dar ao modelo uma compreensão mais profunda do que está acontecendo em cada quadro, a Alibaba construiu seu próprio sistema de legendas densas, treinado para rivalizar até mesmo com o Gemini 1.5 Pro do Google. Este sistema rotula elementos como ângulo da câmera, contagem de objetos, tipos de movimento, categorias de cena e muito mais — criando um conjunto de treinamento ricamente anotado para tarefas downstream como edição e personalização.

Modelos Grandes, Pegadas Pequenas: Conheça Wan 1.3B e 14B

Wan vem em duas versões: o modelo de 1.3B parâmetros e o modelo principal de 14B parâmetros, mais poderoso. Ambos são capazes de produzir vídeo de alta resolução de até 480p, e ambos compartilham a mesma arquitetura robusta.

A verdadeira surpresa? O modelo de 1.3B é projetado para rodar em GPUs de consumo com apenas 8.19 GB de VRAM. Isso é um divisor de águas. Significa que artistas, desenvolvedores e pequenos estúdios podem acessar geração de vídeo de alta qualidade sem precisar de um rack de A100s.

O modelo de 14B, por outro lado, é projetado para ultrapassar os limites. Treinado em trilhões de tokens, ele se destaca na consistência de vídeo de longa duração, movimento realista e seguindo prompts textuais complexos. Seja gerando cenas naturais ou animações estilizadas, o modelo de 14B prova que o open-source pode ser competitivo na fronteira.

Indo Direto ao Ponto: Como Wan Se Compara à Concorrência

Tanto em avaliações de benchmark quanto em testes de preferência humana diretos, Wan consistentemente sai por cima. Ele não apenas supera modelos open-source como Mochi e HunyuanVideo, mas também compete favoravelmente com pesos-pesados comerciais como Runway Gen-3.

Não se trata apenas de qualidade — trata-se de controle. Wan permite movimento de câmera preciso, renderização de texto visual, seguimento de prompts e diversidade de estilo — todas as áreas onde modelos anteriores lutaram ou exigiram ajuste manual.

Além disso, em estudos de ablação, a equipe Wan mostrou que sua função de perda de correspondência de fluxo e estratégia de legenda densa foram fundamentais para alcançar um alinhamento e coerência tão fortes. Isso torna Wan não apenas bom, mas principiado — um conjunto de modelos onde cada escolha de design é validada e otimizada.

Pontuações de desempenho do modelo no Vbench.

Nome do Modelo	Pontuação de Qualidade	Pontuação Semântica	Pontuação Total
MiniMax-Video-01 (MiniMax, 2024.09)	84.85%	77.65%	83.41%
Hunyuan (Versão Open-Source) (Kong et al., 2024)	85.09%	75.82%	83.24%
Gen-3 (2024-07) (Runway, 2024.06)	84.11%	75.17%	82.32%
CogVideoX1.5-5B (5s SAT prompt-optimized) (Yang et al., 2025b)	82.78%	79.76%	82.17%
Kling (2024-07 high-performance mode) (Kuaishou, 2024.06)	83.39%	75.68%	81.85%
Sora (OpenAI, 2024)	85.51%	79.35%	84.28%
Wan 1.3B	84.92%	80.10%	83.96%
Wan 14B (2025-02-24)	86.67%	84.44%	86.22%

Velocidade, Escala e Eficiência: Um Modelo Que Você Pode Realmente Usar

Eficiência de treinamento e inferência são onde Wan brilha ainda mais. Durante o treinamento, a Alibaba usa um esquema sofisticado de paralelismo de contexto 2D (Ulysses + Ring Attention), reduzindo a sobrecarga de comunicação entre GPUs. Durante a inferência, eles introduziram cache de difusão, explorando as semelhanças entre as etapas de amostragem para acelerar as coisas.

Combinado com quantização FP8 e descarregamento de ativação, Wan atinge velocidades de geração em tempo real ou quase em tempo real. O resultado: uma aceleração de 1.62× em relação aos modelos tradicionais, sem perda perceptível na qualidade do vídeo.

Mais do Que Apenas Texto-Para-Vídeo: Aplicações Reais, Agora Mesmo

Wan não se limita a uma tarefa — é uma plataforma. Ele suporta uma gama completa de tarefas de vídeo multimodais, incluindo:

Imagem para vídeo: Transforme uma única imagem em uma cena dinâmica.
Edição de vídeo instrucional: Modifique clipes usando comandos de linguagem natural.
Geração personalizada: Personalização zero-shot para avatares ou conteúdo de marca.
Controle da câmera: Ajuste zoom, panorâmica ou ponto de vista usando texto.
Geração de vídeo em tempo real: Graças ao cache inteligente e modelos leves.
Geração de áudio: Som sincronizado para acompanhar visuais gerados.

Seja você um cineasta, educador, anunciante ou desenvolvedor de jogos, Wan pode se adaptar às suas necessidades.

O Panorama Geral: O Que Wan Significa Para Pesquisa e Indústria

De um ponto de vista acadêmico, Wan é um tesouro. Com código aberto, pesos abertos e metodologias de treinamento transparentes, ele define um novo padrão para reprodutibilidade na comunidade de geração de vídeo. Os pesquisadores podem construir sobre seus módulos, executar avaliações e ajustar o sistema para domínios inovadores.

No lado dos negócios, Wan abre a porta para geração de conteúdo de alta qualidade e baixo custo. Vídeos de marketing, explicações educacionais, clipes de mídia social — estes agora podem ser criados em escala sem pagar taxas por quadro para APIs de caixa preta. Ele oferece aos criadores, startups e empresas uma séria vantagem competitiva.

O Que Vem Por Aí: O Rumo Adiante Para Wan

Wan já é um dos modelos de geração de vídeo mais capazes disponíveis, mas seu roteiro está apenas começando. A equipe planeja avançar para geração de 1080p e 4K, integrar consciência 3D e expandir o suporte multilíngue para maior acessibilidade global.

Eles também estão trabalhando em narrativas interativas, onde os modelos geram vídeo com base no feedback do usuário em tempo real, e adaptadores plug-and-play para verticais como saúde, educação e jogos.

Onde Experimentar

Tudo está disponível agora mesmo:

Se você é um pesquisador, artista, startup ou apenas curioso — Wan está aberto e pronto.

TL;DR

Wan é o pacote de geração de vídeo open-source mais poderoso até o momento. Com arquitetura de ponta, treinamento rigoroso e ampla acessibilidade, ele não apenas compete com modelos fechados — ele define um novo benchmark para o que a IA aberta pode alcançar.