GPT-Realtime-2: la nueva generación de IA de voz que razona, traduce y actúa en tiempo real

OpenAI presentó tres nuevos modelos de audio para desarrolladores que buscan transformar asistentes de voz, traducción en vivo y transcripción instantánea con capacidades más cercanas a una conversación humana.

La inteligencia artificial conversacional acaba de dar otro salto. OpenAI anunció una nueva generación de modelos de voz para su API que apunta a cambiar la forma en que las personas interactúan con el software. La compañía presentó GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, tres modelos diseñados para escuchar, razonar, traducir y transcribir conversaciones en tiempo real.

La apuesta de OpenAI refleja una tendencia cada vez más fuerte dentro de la industria: transformar la voz en una interfaz principal entre las personas y las aplicaciones digitales. El objetivo ya no es simplemente responder preguntas con rapidez, sino construir asistentes capaces de comprender contexto, ejecutar acciones, manejar interrupciones y mantener conversaciones naturales mientras realizan tareas complejas.

“Juntos, los modelos que estamos lanzando llevan el audio en tiempo real desde simples intercambios de preguntas y respuestas hacia interfaces de voz que realmente pueden trabajar: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación”, explicó OpenAI en su anuncio oficial.

GPT-Realtime-2: una IA de voz con razonamiento de nivel GPT-5

El lanzamiento principal es GPT-Realtime-2, definido por OpenAI como su primer modelo de voz con razonamiento de clase GPT-5. Según la compañía, el sistema puede gestionar conversaciones complejas mientras utiliza herramientas, corrige errores y mantiene el flujo natural del diálogo.

Entre las novedades más importantes aparece una ventana de contexto ampliada de 32K a 128K tokens, algo clave para sesiones más largas y flujos de trabajo complejos. Además, los desarrolladores podrán ajustar el nivel de razonamiento del modelo entre minimal, low, medium, high y xhigh, equilibrando velocidad y profundidad de análisis según el caso de uso.

OpenAI también incorporó funciones pensadas para hacer más humanas las interacciones. Por ejemplo, los asistentes podrán utilizar frases como “déjame revisar eso” o “un momento mientras lo verifico”, para indicar que están procesando información o consultando herramientas externas.

Otro avance importante es la posibilidad de ejecutar múltiples herramientas en paralelo mientras el usuario sigue hablando. El modelo puede decir frases como “estoy revisando tu calendario” o “estoy buscando esa información”, haciendo visible el proceso de razonamiento en tiempo real.

Según las evaluaciones internas compartidas por la empresa, GPT-Realtime-2 obtuvo mejoras significativas frente a GPT-Realtime-1.5. En la prueba Big Bench Audio alcanzó una precisión del 96,6%, frente al 81,4% de la generación anterior. En Audio MultiChallenge, centrada en seguimiento de instrucciones y coherencia conversacional, logró una tasa de éxito promedio del 48,5%, comparado con el 34,7% del modelo previo.

Traducción en vivo y transcripción instantánea

OpenAI también presentó GPT-Realtime-Translate, un modelo de traducción simultánea capaz de trabajar con más de 70 idiomas de entrada y 13 idiomas de salida.

La tecnología está orientada a experiencias de voz multilingües en tiempo real, desde atención al cliente hasta educación, ventas internacionales o plataformas de contenido global. Empresas como Deutsche Telekom ya están probando el modelo para conversaciones multilingües con baja latencia.

Por su parte, la startup india BolnaAI destacó mejoras relevantes en idiomas regionales. “GPT-Realtime-Translate ofreció tasas de error de palabras un 12,5% más bajas que cualquier otro modelo que probamos”, aseguró Prateek Sachan, cofundador y CTO de la compañía. Según el ejecutivo, las pruebas incluyeron hindi, tamil y telugu.

El tercer modelo anunciado es GPT-Realtime-Whisper, una nueva versión de transcripción continua diseñada para convertir voz en texto con muy baja latencia. La herramienta permitirá generar subtítulos en vivo, notas automáticas para reuniones, resúmenes instantáneos y flujos de trabajo empresariales basados en conversaciones habladas.

La nueva batalla por la IA de voz

Los nuevos modelos llegan en un momento en el que las grandes tecnológicas aceleran su carrera por dominar las interfaces de voz potenciadas por inteligencia artificial.

OpenAI destacó casos de uso en empresas como Zillow, que desarrolla asistentes capaces de buscar propiedades mediante conversaciones naturales; Priceline, que trabaja en asistentes de viaje conversacionales; y Vimeo, que utiliza traducción en tiempo real para contenidos educativos.

La compañía también dejó en claro que la voz será uno de los grandes ejes estratégicos de la IA en los próximos años. El avance de modelos capaces de comprender tono, emociones, contexto y múltiples idiomas podría acelerar la integración de asistentes inteligentes en automóviles, aeropuertos, hogares, centros de atención médica y plataformas empresariales.

En términos comerciales, GPT-Realtime-2 tendrá un costo de U$S 32 por millón de tokens de entrada de audio y U$S 64 por millón de tokens de salida. GPT-Realtime-Translate costará U$S 0,034 por minuto, mientras que GPT-Realtime-Whisper tendrá un precio de U$S 0,017 por minuto.

OpenAI confirmó además que los modelos ya están disponibles en su Realtime API y pueden probarse desde Playground, su entorno para desarrolladores.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com