La nueva tecnología de Google permite traducir conversaciones casi en tiempo real manteniendo la entonación y el ritmo de la voz original. Estará disponible en Google Meet, Google Translate y para desarrolladores a través de Gemini Live API.
Google dio un nuevo paso en la carrera global por la inteligencia artificial aplicada al lenguaje con el lanzamiento de Gemini 3.5 Live Translate, un modelo de audio capaz de realizar traducciones de voz casi en tiempo real en más de 70 idiomas, preservando además el tono, la velocidad y la expresividad de quien habla.
La compañía explicó que esta nueva tecnología ya comenzó a implementarse en distintos productos de su ecosistema, incluyendo Google Translate para Android e iOS, Google Meet para clientes corporativos y Gemini Live API para desarrolladores.
El anuncio refleja cómo Google busca transformar la traducción automática en una experiencia mucho más natural y fluida, en un contexto donde la competencia en inteligencia artificial conversacional se acelera entre gigantes tecnológicos como Google, OpenAI, Microsoft y Meta.
“Hace veinte años, la traducción en Google comenzó como uno de nuestros primeros experimentos de machine learning para convertir la ciencia del lenguaje en la magia de la conexión humana”, explicó la compañía. Actualmente, Google asegura que traduce más de un billón de palabras por mes para miles de millones de usuarios en todo el mundo.
A diferencia de los sistemas tradicionales de traducción por turnos —que esperan que una persona termine de hablar antes de responder— Gemini 3.5 Live Translate genera audio traducido de manera continua. El sistema intenta equilibrar velocidad y contexto para mantener conversaciones sincronizadas, reduciendo silencios incómodos y manteniéndose apenas unos segundos detrás del hablante original.
Uno de los aspectos más destacados del modelo es que detecta automáticamente más de 70 idiomas sin necesidad de configuración manual. Además, Google afirma que el sistema fue diseñado para funcionar incluso en entornos ruidosos o impredecibles.
La nueva tecnología apunta a múltiples escenarios de uso: reuniones de trabajo internacionales, clases multilingües, transmisiones en vivo, atención al cliente, turismo y hasta llamadas entre conductores y pasajeros.
De hecho, la plataforma de movilidad Grab ya está probando Gemini 3.5 Live Translate para facilitar conversaciones entre conductores y viajeros en distintos idiomas. Según Google, los usuarios de Grab realizan más de 10 millones de llamadas de voz por mes dentro de la aplicación.
Philipp Kandal, Chief Product Officer de Grab, destacó: “Mientras probábamos Gemini 3.5 Live Translate, valoramos especialmente su capacidad para detectar automáticamente múltiples idiomas y traducir conversaciones con precisión y baja latencia”.
Google también anunció que Google Meet incorporará próximamente esta tecnología. Entre las mejoras prometidas aparecen más de 70 idiomas compatibles —frente al límite previo de solo cinco— y más de 2000 combinaciones posibles de traducción dentro de una misma reunión.
La actualización comenzará este mes en una vista previa privada para algunos clientes corporativos de Google Workspace y luego tendrá una expansión más amplia hacia finales de año.
En paralelo, Google Translate para Android e iOS también recibirá las nuevas capacidades de traducción en vivo. Los usuarios podrán conectar auriculares y escuchar las traducciones casi en tiempo real mientras mantienen conversaciones presenciales.
Para Android, además, Google está desplegando un nuevo “modo escucha”. La función permite escuchar la traducción directamente desde el auricular interno del teléfono, como si se tratara de una llamada tradicional, sin necesidad de auriculares externos. Según la compañía, esta característica puede resultar útil en situaciones como visitas guiadas, viajes o conversaciones rápidas en espacios públicos.
Otro elemento central del anuncio es la seguridad. Google confirmó que todo el audio generado mediante Gemini 3.5 Live Translate incluirá una marca de agua invisible desarrollada con SynthID, la tecnología creada por DeepMind para identificar contenido generado por inteligencia artificial y ayudar a combatir la desinformación.
El lanzamiento también tiene una fuerte dimensión estratégica. Google no solo busca mejorar sus productos de consumo masivo, sino también posicionar Gemini Live API como infraestructura clave para desarrolladores y empresas que quieran construir aplicaciones de traducción y comunicación en tiempo real.
Plataformas como Agora, LiveKit, Pipecat, Fishjam y Vision Agents ya están integrando esta tecnología para facilitar el desarrollo de aplicaciones de voz multilingües.
La apuesta de Google deja en evidencia cómo la inteligencia artificial empieza a modificar uno de los grandes límites históricos de internet y de la comunicación global: el idioma. Y lo hace en un momento donde la competencia ya no pasa solamente por quién tiene el mejor chatbot, sino también por quién logra que las interacciones entre humanos y máquinas sean prácticamente invisibles.

