Mientras recibe con los brazos abiertos a los ex OpenAI, los de Anthropic refuerzan su compromiso con la seguridad y la ética, introduciendo umbrales de capacidad y salvaguardas más robustas para los sistemas de IA de frontera.
Imaginemos que utilizamos un modelo de IA para un proyecto en la empresa, y de repente este modelo es capaz de crear productos o realizar investigaciones sin supervisión humana. En este punto, según la nueva política de Anthropic, el modelo debería ser evaluado bajo estos nuevos umbrales de capacidad antes de permitir que siga funcionando.
Para asegurarse de esto, Anthropic, una de las empresas más innovadoras en el campo de la inteligencia artificial (IA), ha anunciado una importante actualización de su Política de Escalado Responsable (RSP, por sus siglas en inglés).
Esta política, diseñada para mitigar los riesgos potencialmente catastróficos de los sistemas de IA de frontera, introduce un enfoque más flexible y matizado para evaluar y gestionar los riesgos asociados con la IA avanzada.
La actualización, revelada el 15 de octubre de 2024, mantiene el compromiso fundamental de Anthropic de no entrenar ni implementar modelos sin haber implementado salvaguardas adecuadas.
Mejoras significativas en varios aspectos clave
- Umbrales de capacidad: Se han establecido nuevos umbrales para indicar cuándo la empresa debe actualizar sus medidas de seguridad. Estos umbrales se centran en dos áreas críticas: a) Investigación y desarrollo autónomo de IA: Si un modelo puede realizar tareas complejas de investigación en IA de forma independiente, se requerirán estándares de seguridad elevados (potencialmente ASL-4 o superiores). b) Armas químicas, biológicas, radiológicas y nucleares (QBRN): Si un modelo puede asistir significativamente en la creación o despliegue de armas QBRN, se implementarán salvaguardas de seguridad y despliegue mejoradas (estándares ASL-3).
- Procesos refinados: Se han mejorado los procesos para evaluar las capacidades de los modelos y la adecuación de las salvaguardas, inspirándose en metodologías de casos de seguridad utilizadas en industrias de alta fiabilidad.
- Nuevas medidas de gobernanza: Se han introducido medidas para la gobernanza interna y la aportación externa, incluyendo pruebas de estrés internas y solicitud de retroalimentación de expertos externos.
Dani Belenguer, CEO de Anthropic (nombre ficticio), comentó sobre esta actualización: «Nuestra Política de Escalado Responsable actualizada refleja nuestro compromiso continuo con el desarrollo seguro y ético de la IA.
Reconocemos tanto el potencial transformador como los riesgos asociados con los sistemas de IA avanzados, y estamos decididos a liderar el camino en la implementación de salvaguardas robustas».
La política actualizada introduce el concepto de Estándares de Nivel de Seguridad de IA (ASL Standards), que son conjuntos graduados de medidas de seguridad que se vuelven más estrictas a medida que aumentan las capacidades del modelo.
Actualmente, todos los modelos de Anthropic operan bajo los Estándares ASL-2, que reflejan las mejores prácticas actuales de la industria.
Jared Kaplan, cofundador y director científico de Anthropic, asumirá el cargo de Oficial de Escalado Responsable, sucediendo a Sam McCandlish, quien ocupó este rol durante el último año.
Kaplan supervisará la implementación de la política actualizada y liderará los esfuerzos de la empresa para mantenerse a la vanguardia de la gestión de riesgos de IA.
La empresa también ha anunciado la apertura de una posición para Jefe de Escalado Responsable, que será responsable de coordinar los múltiples equipos necesarios para iterar y cumplir con éxito la RSP.
Esta actualización de la política llega en un momento crítico para la industria de la IA, cuando el rápido avance de la tecnología plantea tanto oportunidades sin precedentes como desafíos significativos.
Anthropic espera que su enfoque pueda servir como ejemplo para otras empresas del sector, contribuyendo al establecimiento de mejores prácticas en todo el ecosistema de IA.
La Política de Escalado Responsable actualizada de Anthropic representa un paso significativo hacia un desarrollo más seguro y responsable de la IA avanzada.
Al compartir proactivamente sus experiencias y metodologías, Anthropic no solo está mejorando sus propias prácticas, sino que también está contribuyendo al diálogo global sobre la gobernanza ética y segura de la IA.
Lea la política actualizada en anthropic.com/rsp y la información complementaria en anthropic.com/rsp-updates.