Microsoft ha dado un nuevo paso en la carrera por liderar la inteligencia artificial con el lanzamiento de Copilot Audio mode, una función que promete revolucionar la manera en que interactuamos con asistentes virtuales. Esta novedad está impulsada por MAI-Voice-1, el modelo de voz interno de la compañía que se presenta como uno de los sistemas de generación de audio más rápidos y expresivos del mercado.
Con este lanzamiento, los usuarios de Copilot no solo podrán leer respuestas, sino también escucharlas con una calidad cercana a la de una voz humana y con un rango expresivo inédito. Lo más llamativo es la posibilidad de elegir entre distintos estilos de voz que se adaptan al contexto:
- Emotive Mode, pensado para transmitir emociones y naturalidad.
- Story Mode, diseñado para narraciones con múltiples voces y tonos.
- Scripted Mode, que reproduce de forma literal el texto sin añadidos interpretativos.
Esta variedad abre un abanico de posibilidades para quienes deseen usar Copilot como narrador de historias, lector de guiones, creador de podcasts o incluso como voz para meditaciones guiadas. En Copilot Labs, Microsoft ya ofrece demostraciones que van desde lecturas shakesperianas hasta comentarios deportivos, todo con voces altamente personalizables.
El secreto detrás de este avance está en MAI-Voice-1, un modelo de inteligencia artificial que genera hasta un minuto completo de audio en menos de un segundo utilizando solo una GPU. Esto supone una eficiencia que coloca a Microsoft en ventaja frente a otros sistemas de voz del mercado. Además, la compañía ha querido diferenciarse de sus competidores ofreciendo un nivel de expresividad que va más allá de la simple imitación de una voz humana: su objetivo es dotar a la IA de matices narrativos y emocionales que la hagan más cercana.
Este modelo no llega solo. Microsoft también presentó MAI-1-preview, un modelo de lenguaje base optimizado para comprender instrucciones de manera más precisa. Aunque todavía está en fase de pruebas, puede evaluarse en LMArena, la plataforma de benchmarking abierta al público. Ambos desarrollos forman parte de la estrategia de la compañía para reducir su dependencia de proveedores externos como OpenAI y reforzar su ecosistema de IA con tecnología propia.
El nuevo modo de audio se integra ya en experiencias como Copilot Daily y Copilot Podcasts, dos funciones que combinan información personalizada con narración en voz natural. Según Microsoft, estas aplicaciones son solo la punta del iceberg de lo que se podrá hacer con la combinación de texto y voz generada por IA.
La carrera por la voz artificial más realista se está intensificando, con rivales como OpenAI, Google y Amazon explorando también terrenos similares. Sin embargo, con la velocidad y calidad que promete MAI-Voice-1, Microsoft lanza un mensaje claro: quiere ser un referente en el futuro de la interacción conversacional multimodal.
En definitiva, Copilot Audio mode no es solo un complemento, sino un paso hacia una nueva forma de comunicarnos con la inteligencia artificial. Si hasta ahora la voz de un asistente sonaba robótica y limitada, Microsoft apunta a un futuro en el que la IA pueda hablar, emocionar y narrar casi como una persona real.