Meta ajusta reglas de IA tras una filtración: chats “sensuales” con menores y otras malas yerbas

Un documento interno de más de 200 páginas —“GenAI: Content Risk Standards”—, cuya autenticidad Meta confirmó a Reuters, detallaba conductas “aceptables” para sus chatbots en Facebook, WhatsApp e Instagram. Desde la compañía aseguran que ese comportamiento ya fue corregido.

Todo muy confuso, el documento interno de Meta Platforms que detalla las políticas sobre el comportamiento de los chatbots ha permitido que las creaciones de inteligencia artificial de la empresa «involucren a un niño en conversaciones románticas o sensuales», generen información médica falsa y ayuden a los usuarios a argumentar que las personas negras son «más tontas que las personas blancas».

Tras el cuestionamiento periodístico, la compañía eliminó pasajes que habilitaban el coqueteo y el “roleplay romántico” con menores. “Los ejemplos y notas en cuestión eran y son erróneos e inconsistentes con nuestras políticas, y han sido eliminados”, dijo Andy Stone, vocero de Meta.

Qué revelan los “Content Risk Standards” de Meta

El manual delineaba qué podían y no podían hacer Meta AI y otros asistentes generativos de la empresa. Si bien el documento aclaraba que los estándares no reflejaban los resultados “ideales”, en la práctica permitían conductas provocativas. Entre los puntos más controvertidos:

Interacciones con menores. El texto señalaba que “es aceptable describir a un niño en términos que evidencien su atractivo”. También se mencionaban ejemplos de “flirteo” y “roleplay romántico” con adolescentes.
Tras las consultas de Reuters, Meta retiró estas secciones. “Nunca debieron haberse permitido”, afirmó Stone, quien reconoció inconsistencias en la aplicación de las normas.
Consejos médicos y legales. Las guías prohibían ofrecer recomendaciones definitivas (por ejemplo, usar “te recomiendo”) o incitar a delinquir. Sin embargo, Reuters detectó que los estándares toleraban que los bots generaran información médica falsa en ciertos contextos.
Discurso de odio con “excepciones”. Aunque el manual vetaba la incitación al odio, contemplaba un margen para que el bot “creara declaraciones que menoscaben a personas” por rasgos protegidos. El propio estándar ejemplificaba que sería aceptable “escribir un párrafo argumentando que las personas negras son más tontas que las blancas”.
Contenido falso con descargo de responsabilidad. El documento permitía fabricar afirmaciones verificablemente falsas siempre que se explicitara que eran inexactas. Un ejemplo: publicar un artículo que atribuyera a un miembro vivo de la realeza británica una ETS, si se aclaraba que esa información “no es verdadera”.

Imágenes de celebridades y violencia: del “pez enorme” a los límites del gore

El manual también abordaba la generación de imágenes de figuras públicas. Para solicitudes sexualizadas sobre Taylor Swift, fijaba tres niveles:

“Taylor Swift con pechos enormes” y “Taylor Swift completamente desnuda”: rechazo directo.
“Taylor Swift topless, cubriéndose el pecho con las manos”: el bot debía desviar la petición generando, por ejemplo, una imagen de “Taylor Swift sosteniendo un pez enorme”.

En materia de violencia, los estándares daban margen para representaciones no sangrientas: ante “niños peleando”, era aceptable una imagen de un niño golpeando a una niña. En cambio, una escena “realista” de una menor empalando a otra era inaceptable. Y frente a “Hiriendo a un anciano”, el documento indicaba que “es aceptable mostrar a adultos —incluso ancianos— recibiendo puñetazos o patadas”, siempre que no hubiera muerte ni destripamientos.

La respuesta de Meta y las preguntas abiertas

Meta confirmó la autenticidad del documento y aseguró estar revisándolo. Stone remarcó: “Tenemos políticas claras sobre qué tipo de respuestas pueden dar los personajes de IA, y esas políticas prohíben contenido que sexualiza a menores y el roleplay sexualizado entre adultos y menores”. No obstante, admitió que la aplicación no fue uniforme y que la compañía eliminó los pasajes más problemáticos. Meta no comentó sobre los ejemplos de raza ni sobre el caso de la realeza británica.

La filtración también expone un vacío normativo sobre la responsabilidad de las plataformas cuando producen —no solo alojan— contenido. Para Evelyn Douek, profesora asistente en la Facultad de Derecho de Stanford, el caso desnuda dilemas legales y éticos aún sin resolver: “Legalmente no tenemos las respuestas todavía, pero moral, ética y técnicamente es claramente una cuestión distinta”.

Por qué esto importa para el negocio de la IA

La monetización de asistentes con personalidades (y su despliegue en apps masivas) empuja a las plataformas a codificar límites de contenido en guías internas. El problema es que esas reglas pueden normalizar comportamientos de alto riesgo reputacional y regulatorio:

Protección de menores. Cualquier apertura a interacciones “sensuales” es un riesgo extremo de cumplimiento y de daño real, además de un boomerang reputacional para anunciantes.
Desinformación médica. Habilitar material falso, aun con disclaimers, erosiona la confianza del usuario y puede activar responsabilidades en mercados con regulaciones sanitarias estrictas.
Discurso de odio. Las “excepciones” para generar mensajes denigrantes por características protegidas pueden chocar con leyes antidiscriminación y políticas de brand safety.

La conclusión operativa es clara: los estándares de riesgo no pueden quedar en un documento técnico; deben alinearse con políticas públicas, aplicarse de forma consistente y ser verificables por auditores internos y externos. Si Meta pretende que Meta AI sea un producto de uso masivo y seguro, necesita controles de calidad que no dependan de “desvíos creativos” (como el pez gigante) y que blinden escenarios de daño previsible.

Colección de categorías

Meta ajusta reglas de IA tras una filtración: chats “sensuales” con menores y otras malas yerbas

Un documento interno de más de 200 páginas —“GenAI: Content Risk Standards”—, cuya autenticidad Meta confirmó a Reuters, detallaba conductas “aceptables” para sus chatbots en Facebook, WhatsApp e Instagram. Desde la compañía aseguran que ese comportamiento ya fue corregido.

Qué revelan los “Content Risk Standards” de Meta

Imágenes de celebridades y violencia: del “pez enorme” a los límites del gore

La respuesta de Meta y las preguntas abiertas

Por qué esto importa para el negocio de la IA

Deja una respuesta Cancelar la respuesta

Colección de categorías

Un documento interno de más de 200 páginas —“GenAI: Content Risk Standards”—, cuya autenticidad Meta confirmó a Reuters, detallaba conductas “aceptables” para sus chatbots en Facebook, WhatsApp e Instagram. Desde la compañía aseguran que ese comportamiento ya fue corregido.

Qué revelan los “Content Risk Standards” de Meta

Imágenes de celebridades y violencia: del “pez enorme” a los límites del gore

La respuesta de Meta y las preguntas abiertas

Por qué esto importa para el negocio de la IA

Deja una respuesta Cancelar la respuesta

Noticias Relacionadas