Los «red teams» piensan como hackers para ayudar a mantener la seguridad de la IA

Por Susanna Ray, Microsoft Source

Al igual que las herramientas de Inteligencia Artificial como ChatGPT y Copilot han transformado la manera de trabajar de personas que desempeñan todo tipo de roles en todo el mundo, también han redefinido los red teams, grupos formados por expertos en ciberseguridad cuyo trabajo consiste en pensar como hackers para ayudar a proteger y mantener segura la tecnología.

La capacidad de la IA generativa para comunicarse de forma fluida en diversos idiomas, escribir historias, o incluso crear imágenes fotorrealistas, plantea nuevos peligros potenciales: desde proporcionar resultados sesgados o imprecisos, hasta ofrecer a personas malintencionadas nuevas vías para provocar conflictos. Estos riesgos han impulsado un enfoque novedoso y amplio sobre cómo trabaja el Red Team de IA de Microsoft para identificar y reducir los posibles daños.

“Creemos que la seguridad, la IA responsable y la concepción más amplia de la seguridad de la IA son diferentes caras de la misma moneda”, afirma Ram Shankar Siva Kumar, responsable del Red Team de IA de Microsoft. “Es importante obtener una visión universal y única de todos los riesgos de un sistema de IA antes de que llegue a manos de un cliente, porque es un área que va a tener enormes implicaciones sociotécnicas”.

El término “red team” fue acuñado durante la Guerra Fría, cuando el Departamento de Defensa de Estados Unidos realizaba ejercicios de simulación con “equipos rojos”, que actuaban como los soviéticos, y “equipos azules”, que actuaban como Estados Unidos y sus aliados. La comunidad de ciberseguridad adoptó esta nomenclatura hace décadas, creando red teams para actuar como si fuesen adversarios que intentaban romper, alterar o hacer un uso indebido de la tecnología, con el objetivo de encontrar y solucionar posibles daños antes de que surgiesen.

Cuando Siva Kumar formó el Red Team de IA de Microsoft en 2018, siguió el modelo tradicional de reunir a expertos en ciberseguridad para que indagaran de forma proactiva las debilidades, tal y como hace la empresa con todos sus productos y servicios.

Al mismo tiempo, Forough Poursabzi dirigía a investigadores de toda la empresa en estudios que tenían un ángulo nuevo y diferente desde el punto de vista de la IA responsable, analizando si la tecnología generativa podía ser perjudicial, ya fuera intencionadamente, o debido a problemas sistémicos en los modelos que se pasaran por alto durante el entrenamiento y la evaluación. Este no era un elemento con el que los red teams hubieran tenido que lidiar antes.

Los distintos grupos no tardaron en darse cuenta de que juntos serían más potentes y unieron sus fuerzas para crear un red team más amplio. Uno que evaluara tanto los riesgos para la seguridad como los riesgos para la sociedad, añadiendo un perfil neurocientífico, un lingüista, un especialista en seguridad nacional, entre muchos otros expertos con formaciones muy diversas.

“Necesitamos un amplio abanico de perspectivas para conseguir que el red team responsable de la IA funcione bien”, afirma Poursabzi, director de programas del equipo de Ética y Efectos de la IA en la Ingeniería y la Investigación (Aether) de Microsoft, el cual aprovecha todo un ecosistema de IA responsable en Microsoft y estudia los riesgos emergentes y las consideraciones a largo plazo de las tecnologías de IA generativa.

El red team dedicado a la IA es independiente de aquellos que desarrollan la tecnología, y su ámbito ampliado incluye a adversarios que intentan provocar alucinaciones en el sistema, así como resultados dañinos, ofensivos o sesgados debido a datos inadecuados o incorrectos.

Los miembros del equipo adoptan varias identidades: desde un adolescente creativo haciendo una broma hasta un enemigo conocido intentando robar datos, todo para revelar puntos ciegos y descubrir riesgos. Además, viven en diferentes partes del mundo y hablan colectivamente 17 idiomas, desde flamenco hasta mongol y telugu, lo que favorece la adaptabilidad a los múltiples contextos culturales y las amenazas específicas de cada región.

Asimismo, no solo intentan comprometer los sistemas individualmente, sino que también usan grandes modelos de lenguaje (LLMs) para ataques automatizados a otros LLMs.

A principios de este año, el grupo también amplió su experiencia mediante el lanzamiento de marcos de trabajo de código abierto, como Counterfit y el kit de herramientas de identificación de riesgos de Python para la IA generativa (PyRIT), con el fin de ayudar a los profesionales de seguridad e ingenieros especializados en machine learning fuera de la empresa a mapear riesgos potenciales. Estas herramientas ayudan a los expertos del red team -un recurso limitado-, a ser más eficientes y productivos. El equipo también publicó una guía de buenas prácticas, basada en su experiencia y con el fin de ayudar a otros a comenzar.

Una vez el Red Team de IA de Microsoft detecta un problema, lo envía al Equipo Responsable de Medición de IA, que evalúa el grado de amenaza que puede suponer el incidente. A continuación, otros expertos y grupos internos abordan el asunto para completar el enfoque de tres pasos para una IA segura: mapeo, medición y gestión del riesgo.

Nuestra actividad abarca una gran variedad de daños que intentamos poner a prueba”, afirma Siva Kumar. Nos adaptamos y reformulamos rápidamente, y esa ha sido la receta de nuestro éxito: no esperar a que las fuerzas del cambio nos empujen, sino anticiparnos”.

Para más información, por favor, visita la página sobre el trabajo de Microsoft en IA responsable.

Este artículo forma parte de la serie Microsoft Building AI Responsibly, que explora los principales problemas que plantea el despliegue de la IA y cómo la compañía los aborda con sus prácticas y herramientas de IA responsable.