Lumina-DiMOO: Modelo de Difusão Multimodal de Código Aberto Revolucionário

2025-09-12

Lumina-DiMOO é um modelo fundamental de código aberto para geração e compreensão multimodal perfeita. Ao contrário de modelos unificados anteriores, ele utiliza uma modelagem de difusão totalmente discreta para todas as modalidades de entrada e saída, resultando em eficiência de amostragem significativamente maior em comparação com modelos autorregressivos ou híbridos. Ele lida habilmente com tarefas como texto para imagem, geração de imagem para imagem (incluindo edição, geração dirigida por assunto e pintura) e compreensão de imagem, alcançando desempenho de ponta em vários benchmarks. O código e os checkpoints estão publicamente disponíveis para avançar a pesquisa em modelagem de difusão multimodal e discreta.

IA