¿Qué es CM3leon? CM3leon es el nombre de un nuevo modelo de inteligencia artificial (IA) generativa desarrollado por Meta, la empresa anteriormente conocida como Facebook. Este modelo es capaz de crear imágenes a partir de texto y texto a partir de imágenes, utilizando una receta adaptada de lenguaje multimodal que se entrena con cinco veces menos recursos que los modelos anteriores.
En este artículo te explicaremos qué es CM3leon, cómo funciona, qué ventajas tiene y qué aplicaciones puede tener en el futuro.
¿Qué es CM3leon?
CM3leon es un acrónimo de Causal Masked Mixed-Modal Model, que significa modelo mixto-modal causal enmascarado. Se trata de un modelo de IA generativa que puede generar secuencias de texto e imágenes condicionadas a secuencias arbitrarias de otro contenido de imagen y texto.
Esto significa que CM3leon puede seguir distintas indicaciones para, a partir de una imagen, generar subtítulos cortos o largos, responder preguntas sobre ella o editarla según las instrucciones. También puede hacer lo contrario: a partir de una descripción de texto, generar una imagen que se ajuste a ella, incluso si se trata de una imagen compuesta por elementos que no tienen relación entre sí.
CM3leon es el primer modelo multimodal de IA generativa presentado por Meta. Un modelo multimodal es aquel que puede procesar y generar información en diferentes modalidades, como texto, imagen, audio o vídeo. Estos modelos son muy útiles para resolver problemas complejos que requieren combinar diferentes tipos de datos.
¿Cómo funciona CM3leon?
CM3leon se basa en una adaptación de los modelos de lenguaje de solo texto, como GPT-3 o BART, que son capaces de generar texto coherente y relevante a partir de una entrada de texto. Estos modelos se entrenan con grandes cantidades de datos textuales extraídos de Internet, y utilizan una arquitectura llamada transformador, que permite capturar las relaciones entre las palabras y las frases.
Para adaptar estos modelos a la generación multimodal, Meta ha utilizado una técnica llamada pre-entrenamiento mixto-modal autorregresivo (AMMPT), que consiste en entrenar el modelo con datos mixtos de texto e imágenes, utilizando un método llamado enmascaramiento causal. Este método consiste en ocultar parte de la información de entrada al modelo, para que este tenga que predecir lo que falta.
Por ejemplo, si se le da al modelo una imagen con una frase incompleta, el modelo tiene que completar la frase utilizando el contexto de la imagen. O si se le da al modelo una descripción textual con una palabra oculta, el modelo tiene que predecir la palabra utilizando el contexto del texto.
De esta manera, el modelo aprende a entender y generar tanto texto como imágenes, y a relacionarlos entre sí. Además, al utilizar un método autorregresivo, el modelo genera la salida secuencialmente, palabra por palabra o píxel por píxel, lo que le permite crear contenido coherente y detallado.
¿Qué ventajas tiene CM3leon?
Una de las principales ventajas de CM3leon es que se entrena con cinco veces menos recursos computacionales que los modelos anteriores basados en transformadores. Esto se debe a que utiliza una receta adaptada de lenguaje multimodal, que aprovecha los avances en los modelos de solo texto y los adapta a la generación multimodal.
Otra ventaja es que CM3leon es un modelo versátil y eficiente, que puede realizar diferentes tareas multimodales con un alto rendimiento. Según Meta, CM3leon ha obtenido resultados comparables o superiores a los modelos anteriores en varias pruebas estándar de generación multimodal, como Zero-shot MS-COCO o VQA v2.
Además, CM3leon es un modelo creativo y flexible, que puede generar imágenes y textos originales y variados a partir de entradas arbitrarias. Por ejemplo, puede crear imágenes surrealistas a partir de descripciones absurdas, o generar textos informativos o humorísticos a partir de imágenes curiosas.
¿Qué aplicaciones puede tener CM3leon?
CM3leon es un modelo con un gran potencial para diversas aplicaciones prácticas. Por ejemplo, podría utilizarse para:
- Crear contenido multimedia para redes sociales, blogs o páginas web.
- Generar ilustraciones, diseños o logos a partir de especificaciones de texto.
- Editar imágenes o textos según las preferencias o necesidades del usuario.
- Generar subtítulos, resúmenes o comentarios para imágenes o vídeos.
- Responder preguntas o proporcionar información sobre imágenes o textos.
Estas son solo algunas de las posibles aplicaciones de CM3leon, pero seguramente habrá muchas más en el futuro. Meta ha anunciado que planea lanzar una versión comercial de su modelo de IA, que podría estar disponible para los desarrolladores y los usuarios en los próximos meses.
CM3leon es, sin duda, un avance importante en el campo de la IA generativa multimodal, que abre nuevas posibilidades para la creación y el consumo de contenido multimedia. ¿Te gustaría probarlo? ¿Qué te gustaría crear con él?
Para saber mas sobre CM3leon puedes visitar el blog de Meta Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images (meta.com)