Lumina-DiMOO: Un Modelo de Difusión Multimodal de Código Abierto Revolucionario
Lumina-DiMOO es un modelo fundamental de código abierto para la generación y comprensión multimodal perfecta. A diferencia de los modelos unificados anteriores, utiliza un enfoque de modelado de difusión totalmente discreto para todas las modalidades de entrada y salida, lo que resulta en una eficiencia de muestreo significativamente mayor en comparación con los modelos autorregresivos o híbridos. Maneja hábilmente tareas como texto a imagen, generación de imagen a imagen (incluida la edición, la generación dirigida por tema y la pintura) y la comprensión de imágenes, alcanzando un rendimiento de vanguardia en varios puntos de referencia. El código y los puntos de control están disponibles públicamente para avanzar en la investigación en modelado de difusión multimodal y discreto.