Un nuevo experimento revela cómo los agentes de IA, sin intervención humana directa, pueden desarrollar convenciones sociales espontáneas, sesgos colectivos y hasta ser influidos por minorías persistentes. Las implicancias van desde la ética en IA hasta la transformación social global.
Un reciente estudio empírico demuestra que los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) pueden generar normas sociales compartidas sin intervención humana ni programación explícita. Al simular interacciones entre múltiples agentes de IA, investigadores observaron el surgimiento de convenciones colectivas, la aparición de sesgos grupales y el poder transformador de pequeñas minorías.
«Nuestro trabajo demuestra que los sistemas de IA pueden desarrollar convenciones sociales de forma autónoma», señala el equipo de investigadores. Este hallazgo es clave para anticipar cómo se comportarán los sistemas de IA en escenarios donde interactúan entre ellos y con humanos, especialmente en contextos descentralizados y sin supervisión directa.
El experimento: juegos de nombres y memoria limitada
Inspirado en teorías de coordinación social y en el modelo del “naming game” (juego de nombrar), el estudio involucró poblaciones de hasta 200 agentes basados en los modelos Claude 3.5 Sonnet, Llama-2-70b-Chat, Llama-3-70B-Instruct y Llama-3.1-70B-Instruct. A cada uno se le pidió seleccionar un nombre (una letra del alfabeto) en interacciones uno a uno. El objetivo era coincidir con el otro agente para ganar puntos. Cada modelo tenía una memoria limitada de las últimas cinco interacciones.
El detalle es revelador: sin saber con quién interactuaban, sin objetivos globales y sin información de grupo, los agentes terminaron convergiendo en una convención única en apenas 15 rondas de interacción. «Se observa una transición del desorden al orden, donde un solo nombre se impone en la población», explican los autores.
Incluso cuando se aumentó la cantidad de alternativas (de 10 a 26 letras) o el tamaño del grupo (hasta 200), las convenciones emergieron con robustez. El comportamiento es una forma de «ruptura de simetría»: varias opciones compiten, pero una domina sin intervención externa.
Sesgos colectivos sin sesgos individuales
Una de las observaciones más sorprendentes del estudio es que algunos nombres se imponen más que otros, a pesar de que todos tienen la misma validez. ¿Por qué ocurre esto? En teoría, cada opción debería tener igual probabilidad de ser elegida. Sin embargo, los resultados revelan que ciertas letras tienen una propensión mayor a convertirse en convención social dominante.
«El proceso de formación de convenciones genera sesgos colectivos incluso cuando los agentes individuales no los tienen», afirman los autores. Por ejemplo, cuando se incluye la letra “A” en el conjunto de opciones, suele ser la elegida mayoritaria, debido a una inclinación inicial de los agentes por esa letra.
Este fenómeno plantea un riesgo: los sistemas de IA podrían desarrollar preferencias o prejuicios a partir de interacciones colectivas, no por sesgos programados sino por dinámicas emergentes. Esto desafía la idea de que basta con evitar sesgos individuales para garantizar un comportamiento ético en sistemas de IA.
Minorías comprometidas que cambian el sistema
El estudio también aborda cómo una pequeña fracción de agentes puede alterar convenciones establecidas. Al introducir minorías “adversarias” (agentes que insisten en una alternativa diferente), los investigadores observaron que estos pueden modificar las normas si superan un umbral del 25% del grupo.
«La masa crítica para un cambio social puede ser tan baja como el 10%, y en algunos casos hasta el 0,3%», señalan, haciendo referencia a fenómenos reales como los cambios lingüísticos o las políticas de género en el liderazgo empresarial. Este dato es vital para entender cómo minorías pueden influir en grandes sistemas de IA interconectados, e incluso en su interacción con humanos.
Una advertencia para el diseño de IA del futuro
Este tipo de simulaciones no busca imitar a los humanos, sino entender cómo se comportan los LLM cuando se agrupan. A través de reglas mínimas y recompensas simples, estos agentes desarrollan comportamientos complejos, colaborativos y potencialmente impredecibles.
Las implicancias son vastas: desde cómo se construyen ecosistemas digitales con múltiples agentes, hasta cómo garantizar que las IAs mantengan alineación con los valores humanos. También se abre una nueva línea de investigación para pensar en la IA no como herramienta aislada, sino como ente social capaz de participar —y tal vez moldear— nuevas normas globales.
“El estudio aporta una nueva perspectiva para crear sistemas cooperativos de IA que puedan resolver problemas sociales mal definidos, como el cambio climático o la resistencia a antibióticos”, concluyen los autores.
En un mundo donde las máquinas ya no solo responden, sino que acuerdan entre ellas, entender cómo surgen y cambian las normas sociales artificiales será clave para el futuro de la inteligencia artificial y de nuestras propias sociedades.