
Lo estábamos esperando: hoy se activó el asistente Gemini Live en nuestros teléfonos Android. Ahora, podemos conversar con la inteligencia artificial de Google de manera natural (tan natural como es hablar con un robot) en lugar de escribir.
De hecho, la «magia» del a IA generativa hizo que muchos pasáramos por alto que su principal forma de interacción hasta ahora, la escritura, no es tan inmediata ni ágil como el habla. Sobre todo, cuando se trata de las aplicaciones en los teléfonos.
Es así, pregúntele a quienes les envían audios de WhatsApp en lugar de un breve textito que resuma la comunicación. La palabra fluye realmente en la voz.
Y eso lo saben muy bien los gigantes tecnológicos, que en las últimas semanas estuvieron buscando expandir el uso de sus nuevos modelos de IA multimodales. Esto es, inteligencias artificiales que ya no solo comprenden y generan textos, sino que pueden vérselas de manera nativa con audio e imágenes.

A la derecha, la app de Gemini integra el nuevo botón para tener conversaciones en voz alta.
OpenAI integró su modo «avanzado» de voz en app móvil ChatGPT y también lo descubrimos esta semana que pasó. En este caso, la utilización es a modo de muestra gratis, porque tras unos minutos de conversación la función se agota y la app nos invita a pagar la suscripción.
El grado de naturalidad en la conversación que ofrece ChatGPT es muy bueno y dan ganas de usarlo mucho. Pero el abono es de 20 dólares por mes, mientras que Gemini Live, de performance similar, es gratuito.
Aunque, si hilamos fino, el modo avanzado de ChatGPT tuvo algunas ventajas sobre Gemini Live. Algunos detalles sueltos de nuestra experiencia:
– ChatGPT puede hablar en un correcto español rioplatense. O sea, en argentino. En tanto, Gemini trata de forzar esto mismo, pero queda como una voz con acento mexicano que mete algún «che» y conjuga los verbos como nosotros para matizar. Pero no logra la «argentinidad» del chatbot de OpenAI.
– También pedimos a los chatbots que hablaran en inglés americano y actuaran como tutores nuestros para conversar y corregir nuestra pronunciación. Aquí también ganó ChatGPT, que parece realmente escuchar lo que decimos y cómo lo decimos, para luego sugerir alguna mejora puntual. En tanto, Gemini Live responde con algunas indicaciones más generales que no necesariamente responden a lo que le hicimos escuchar.
Son primeras impresiones y seguiremos experimentando. También, se sabe, son IAs en constante desarrollo y no sería extraño que tengamos una voz argentina en Gemini muy pronto.
Nos quedamos, por el momento, con las ganas de probar Copilot Voice, que ya funciona en países de habla inglesa pero todavía no por aquí. Este asistente utiliza la tecnología de OpenAI, como ChatGPT, pero «tuneada» por Microsoft para lograr, quizás, resultados diferentes.

ChatGPT, por ahora, de lo mejorcito en IAs «que hablan». Copilot utiliza la misma tecnología de base, pero todavía no pudimos probarlo en español.
Google versus Microsoft
Lo cierto es que Google y Microsoft están en una competencia cada vez más intensa en el ámbito de los chatbots de inteligencia artificial, especialmente con el reciente lanzamiento de nuevas funcionalidades de voz.
Los chatbots de IA, que se popularizaron con ChatGPT, son sistemas diseñados para interactuar con los usuarios a través de conversaciones naturales, utilizando procesamiento del lenguaje natural (NLP) para entender y responder a las consultas. Ahora, estas herramientas están consolidando un nuevo paso evolutivo con la incorporación de capacidades de voz que permiten una interacción más fluida.
La semana pasada, Google lanzó para Gemini Live el soporte de español junto a otros idiomas como francés y alemán.
Por otro lado, Microsoft lanzó de Copilot Voice, que permite a los usuarios interactuar con sus aplicaciones mediante comandos de voz. Sin embargo, por el momento, esta funcionalidad está disponible únicamente en inglés, como dijimos más arriba.
Copilot Voice se integra en diversas aplicaciones de Microsoft y también funciona en equipos Windows o cualquiera que tenga un navegador, parlantes y micrófono.
En tanto, Meta presentó recientemente su modelo de lenguaje multimodal Llama 3.2, que también incluye capacidades de voz y es de código abierto.
La empresa de Mark Zuckerberg busca competir directamente con Google y Microsoft, y promete mejorar la precisión en las respuestas, lo que podría atraer a desarrolladores que buscan soluciones robustas para sus aplicaciones.

Atenti con Zuckerberg: así como lo ves, lanzó un nuevo modelo de IA (Llama 3.2) que también es multimodal.
Pulseada por la IA
La competencia entre Google y Microsoft no solo se centra en la funcionalidad básica de los chatbots, sino también en cómo estas herramientas pueden integrarse con otras aplicaciones y servicios. Gemini Live, por ejemplo, apunta a permitir a los usuarios conectar su asistente con aplicaciones como Google Calendar y Gmail, facilitando tareas cotidianas como la planificación de eventos o la gestión de correos electrónicos. Esto representa una ventaja competitiva.
En tanto, Microsoft perfila a Copilot como un asistente más integrado a Windows y a su ecosistema de aplicaciones.
La carrera por dominar el mercado de los chatbots está más viva que nunca. Y, sin un ganador todavía, los usuarios se benefician con la variedad de opciones para probar.
Claro que todo esto trae nuevas preocupaciones relacionadas con la privacidad, porque estos robots que hablan también escuchan. Y pueden transmitir a las grandes empresas todas las conversaciones que tenemos con ellos. Además, está el riesgo de que el chatbot de otra persona capte una conversación nuestra y esa información termine en lejanos servidores de una multinacional tecnológica.
De hecho, las condiciones de uso de Gemini Live advierten que se debería advertir a las personas si la nueva IA se encuentra escuchando lo que se habla.
En definitiva, nuevas tecnologías, nuevas soluciones y nuevos problemas.
¿Qué tanto usaremos estos nuevos asistentes con voz? El tiempo lo dirá. Por el momento, recomendamos probarlos para conocer sus verdaderas funcionalidades.
Fuente: cronista.com