MIT-IBM Watson AI Lab afina la IA: conecta imágenes y sonidos sin intervención humana

El avance promete mejorar la capacidad de los sistemas inteligentes para comprender el mundo real y allana el camino hacia modelos multimodales más eficientes, incluso en aplicaciones cotidianas como el periodismo, la robótica y el cine.

En una nueva demostración del potencial de la inteligencia artificial (IA), un equipo de investigadores del MIT, en colaboración con IBM Research y la Universidad Goethe de Alemania, desarrolló un modelo de aprendizaje automático capaz de vincular imágenes y sonidos sin intervención humana. El proyecto, llamado CAV-MAE Sync, representa una evolución significativa en el campo del aprendizaje multimodal, donde la IA procesa simultáneamente información visual y auditiva.

“El objetivo es construir sistemas de IA que puedan procesar el mundo como lo hacen los humanos, recibiendo simultáneamente información visual y auditiva y procesándola de forma fluida”, explicó Andrew Rouditchenko, estudiante de posgrado del MIT y coautor del estudio.

Un modelo más preciso con mejoras simples

Este nuevo sistema mejora un trabajo anterior del mismo grupo al permitir una correspondencia más precisa entre cada fotograma de video y el sonido que ocurre en ese instante. A diferencia del modelo anterior, que trataba el audio y el video como una sola unidad, CAV-MAE Sync divide el audio en pequeñas ventanas, lo que permite identificar sonidos específicos como el golpe de una puerta o el ladrido de un perro y relacionarlos con imágenes puntuales del video.

El modelo utiliza dos objetivos de aprendizaje: uno contrastivo, para asociar datos similares, y otro reconstructivo, que permite recuperar información específica a partir de una consulta. Para equilibrar ambos procesos, se introdujeron dos nuevos tipos de representaciones: los “tokens globales” y los “tokens de registro”.

“Básicamente, añadimos un poco más de flexibilidad al modelo para que pueda realizar ambas tareas de forma más independiente. Eso benefició el rendimiento general”, detalló Edson Araujo, autor principal del trabajo y estudiante de posgrado en la Universidad Goethe.

Aplicaciones concretas y rendimiento superior

CAV-MAE Sync no solo mostró una mayor precisión en la clasificación de escenas audiovisuales, sino que también superó a modelos más complejos y con mayores requerimientos de datos en tareas de recuperación de videos a partir de sonidos.

Entre las posibles aplicaciones, se destacan áreas como el periodismo digital, donde esta tecnología podría facilitar la búsqueda y curaduría de contenidos multimedia; la producción cinematográfica, automatizando la sincronización de sonido e imagen; y, en el largo plazo, la robótica, al permitir que los sistemas inteligentes comprendan mejor su entorno físico a través de múltiples sentidos.

El trabajo será presentado en la prestigiosa Conference on Computer Vision and Pattern Recognition (CVPR), uno de los principales encuentros mundiales sobre visión computacional.

Un futuro hacia modelos multimodales más integrales

El siguiente paso de los investigadores es incorporar capacidades de procesamiento de texto al modelo, lo que podría desembocar en la creación de modelos de lenguaje multimodal, una frontera clave para el desarrollo de sistemas verdaderamente integrados de IA.

“Porque trabajamos con múltiples modalidades, necesitamos un buen modelo para cada una por separado, pero también necesitamos que se fusionen y colaboren entre sí”, remarcó Rouditchenko.

El proyecto fue financiado parcialmente por el Ministerio Federal de Educación e Investigación de Alemania y el MIT-IBM Watson AI Lab, un centro clave en el desarrollo de tecnologías que integran inteligencia artificial y ciencia de datos.

Con CAV-MAE Sync, el MIT y sus socios dan un paso más hacia una IA que no solo “ve” y “oye”, sino que entiende el contexto de manera cada vez más humana.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com