Microsoft ha presentado su primera IA que genera imágenes a partir de una entrada de texto. Conocido como MAI-Image 1, este modelo ha sido desarrollado completamente por Microsoft AI y ya se posiciona entre los 10 mejores, según los puntajes en LMArena.

No es un secreto que Microsoft ha quedado rezagada en el desarrollo de la IA. Si bien la empresa cerró un acuerdo multimillonario con OpenAI para incluir sus servicios en Copilot, el desarrollo de modelos propios que compitieran con GPT o Gemini no fue prioridad durante algún tiempo. Esto quedó atrás cuando la tecnológica fichó a Mustafa Suleyman, cofundador de DeepMind, para hacerse cargo de su nueva división Microsoft AI.

Uno de los primeros frutos es MAI-Image-1, un modelo de generación de imágenes creado internamente, sin depender de terceros. Según Microsoft, la IA fue entrenada con datos seleccionados rigurosamente y evaluada con tareas que reflejan las necesidades creativas del mundo actual. Esto incluye la retroalimentación de profesionales de las industrias creativas, aunque la compañía no menciona quiénes ni a qué nivel participaron.

De acuerdo con una publicación en el blog de Microsoft AI, MAI-Image-1 destaca en generación de imágenes realistas, con manejo avanzado de iluminación, reflejos y detalles visuales complejos. La tecnológica sabe que su IA no está al nivel de modelos más grandes, como Midjourney o GPT-Image-1, pero los supera en rendimiento. Los usuarios pueden crear contenido más rápido e iterar sin necesidad de esperar minutos u horas.

MAI-Image-1MAI-Image-1
MAI-Image 1MAI-Image 1

Tal vez lo más interesante de MAI-Image-1 es que tiene como objetivo ofrecer un valor genuino para los creadores. Los ingenieros pusieron especial cuidado en evitar los resultados repetitivos o genéricos. Además, Microsoft quiere que las imágenes sean seguras y responsables, por lo que llevarán a cabo una prueba en LMArena para recopilar información, resolver fallos y mejorarlo antes de ofrecerlo al público en general.

Una vez que esté listo, MAI-Image-1 debutará en Copilot y Bing Image Creator para todos los usuarios. Este modelo reemplazará a DALL-E 3 y GPT-4o multimodal, responsables de generar imágenes en Copilot actualmente. El despliegue será gradual, por lo que no esperes que los reemplace de la noche a la mañana.

MAI-Image-1 se suma a la lista de modelos de lenguaje desarrollados internamente por el equipo de Suleyman. Hace unas semanas, Microsoft reveló MAI-Voice-1, una IA con capacidades de generación y comprensión de voz que se integrará en Copilot para ofrecer interacciones de voz más naturales. Además, la tecnológica anunció MAI-1-Preview, un modelo multimodal que podría convertirse en el eje de las próximas versiones de Copilot.

Ver fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *