Alibaba presentó un nuevo modelo de IA con el que busca hacer frente a los gigantes de la industria. Conocido como Qwen-Vlo, este modelo multimodal puede generar y modificar imágenes a partir de entradas de texto. La nueva IA cuenta con una característica que la distingue de otros modelos como Imagen o el generador de ChatGPT.
De acuerdo con una publicación en su blog, Alibaba Group presentó el nuevo integrante de su familia de modelos de IA. Qwen-Vlo es un modelo unificado de comprensión y generación multimodal que puede procesar texto, imágenes, audio y video. Una de sus funciones más importantes es la generación y modificación de imágenes.
Alibaba asegura que su IA «entiende» el mundo y es capaz de construir recreaciones de alta calidad. El gigante chino define a Qwen-Vlo como un motor creativo de IA que permite a los usuarios generar escenas complejas paso a paso. Esto último es posible gracias a una técnica de generación progresiva en la que los usuarios pueen visualizar cómo se construye la imagen en tiempo real.
A diferencia de DALL-E y Stable Difussion que utilizan técnicas de generación difusa a partir de ruido aleatorio, Qwen-VLo construye la imagen paso a paso. La generación progresiva permite visualizar el proceso como si la IA estuviera dibujando en tiempo real, de izquierda a derecha y de arriba hacia abajo. Esto se logra a partir de una estructura básica o imagen borrosa, a partir de la cual se van añadiendo capas de detalle como contornos, colores, texturas y refinamientos.
Qwen-VLo genera las imágenes paso a paso
La compañía señala que esta técnica ofrece una mayor sensación de transparencia al usuario y le da poderes para editar la imagen durante la generación. Qwen-VLo también puede modificar imágenes existentes, cambiando el color o estilo sin sacrificar la estructura. Por ejemplo, puedes cargar una foto y pedirle que la convierta a estilo Ghibli o Pixar, como lo vimos hace unos meses con ChatGPT.








Otras capacidades incluyen la posibilidad de sustituir el fondo, añadir o eliminar sujetos, transferir estilos o modificar la imagen usando instrucciones con lenguaje natural. Qwen-VLo es compatible con varios idiomas, por lo que podremos escribir el prompt en español, inglés o chino. Alibaba presume que su modelo «rompe las barreras lingüísticas» y siempre entregará el resultado deseado.






A juzgar por los ejemplos, Qwen-VLo se queda corto frente a Imagen o ChatGPT. Las imágenes generadas con estilo realista están demasiado suavizadas, aunque las versiones con estilo Ghibli o Pixar tienen una calidad mayor. Más allá de esas pruebas, la IA de Alibaba destaca en otros apartados, como la percepción y localización de objetos o la generación de composiciones a partir de una entrada múltiple.
Qwen-VLo se encuentra en una etapa de vista previa, por lo que puede producir imágenes con errores. Alibaba prometió que ajustará el modelo bajo la marcha, apoyándose de los comentarios de sus usuarios y de su propia tecnología subyacente que le permite verificar su comprensión y mejorar el rendimiento.