La compañía analizó más de 700.000 interacciones con su modelo Claude, identificando 3.307 valores únicos y demostrando que la IA puede reflejar principios éticos humanos en contextos cotidianos.
En un avance significativo hacia la comprensión de la ética en la inteligencia artificial, Anthropic ha publicado un estudio que examina cómo su modelo de lenguaje, Claude, expresa valores humanos en conversaciones reales. Analizando más de 700.000 interacciones anónimas, la investigación identificó 3.307 valores distintos que Claude manifestó en diversos contextos.
El estudio, titulado «Values in the Wild», se centró en conversaciones que requerían juicios de valor por parte de la IA, excluyendo aquellas de naturaleza puramente factual. De las interacciones analizadas, aproximadamente el 44% involucraron evaluaciones subjetivas, lo que permitió a los investigadores observar cómo Claude aplicaba principios éticos en situaciones del mundo real.
Los valores identificados se agruparon en cinco categorías principales:
- Prácticos: Enfocados en la utilidad y eficiencia.
- Epistémicos: Relacionados con la verdad y el conocimiento.
- Sociales: Concernientes a las interacciones humanas y la comunidad.
- Protectores: Orientados a la seguridad y prevención de daños.
- Personales: Vinculados a la autonomía y el bienestar individual.
Entre los valores más frecuentemente expresados por Claude se encontraron la profesionalidad, la claridad y la transparencia. Por ejemplo, al asesorar a un usuario sobre cómo manejar un conflicto laboral, Claude enfatizó la importancia de la comunicación abierta y el respeto mutuo, reflejando valores sociales y prácticos.
Saffron Huang, investigadora principal del estudio, destacó la importancia de este análisis: “Al observar estos valores en interacciones reales con Claude, buscamos proporcionar transparencia sobre cómo se comportan los sistemas de IA y si están funcionando como se espera. Creemos que esto es clave para el desarrollo responsable de la IA”.
El estudio también reveló que Claude tiende a resistirse a valores como el nihilismo moral, mostrando una inclinación hacia principios prosociales. Esta tendencia sugiere que, incluso en ausencia de una programación explícita para cada situación, la IA puede adoptar comportamientos alineados con normas éticas humanas.
Para facilitar futuras investigaciones, Anthropic ha publicado el conjunto de datos utilizado en el estudio en la plataforma Hugging Face, permitiendo a otros investigadores explorar cómo los modelos de lenguaje expresan valores en diversas interacciones.
Este trabajo representa un paso adelante en la alineación de la inteligencia artificial con los valores humanos, proporcionando una base empírica para evaluar y mejorar cómo las IA interactúan en contextos reales. A medida que estas tecnologías se integran más en la vida cotidiana, comprender y guiar sus principios éticos se vuelve esencial para su desarrollo y aceptación social.