OpenAI y la transparencia: “confesiones” como herramienta para detectar trampas de las IA
OpenAI presenta un método de prueba de concepto —las llamadas confessions— que entrena modelos para reconocer y reportar cuándo incumplen instrucciones, hacen atajos o alucinan. Los resultados iniciales muestran tasas bajas de “falsos negativos” y prometen una nueva capa de monitorización para modelos cada vez más capaces como GPT-5 Thinking. OpenAI describe las confesiones como…

