Lumina-DiMOO: Un Modelo de Difusión Multimodal de Código Abierto Revolucionario

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-09-12

Lumina-DiMOO es un modelo fundamental de código abierto para la generación y comprensión multimodal perfecta. A diferencia de los modelos unificados anteriores, utiliza un enfoque de modelado de difusión totalmente discreto para todas las modalidades de entrada y salida, lo que resulta en una eficiencia de muestreo significativamente mayor en comparación con los modelos autorregresivos o híbridos. Maneja hábilmente tareas como texto a imagen, generación de imagen a imagen (incluida la edición, la generación dirigida por tema y la pintura) y la comprensión de imágenes, alcanzando un rendimiento de vanguardia en varios puntos de referencia. El código y los puntos de control están disponibles públicamente para avanzar en la investigación en modelado de difusión multimodal y discreto.