Cabecera blog ciberseguridad

MITRE ATLAS: ¿Cómo se puede atacar a las IA?

MITRE ATLAS es un framework que incluye las tácticas y técnicas maliciosas para atacar a los sistemas de IA

MITRE ATLAS es un framework que sistematiza las tácticas y técnicas empleadas por los actores maliciosos para atacar a los sistemas de Inteligencia Artificial

Tanto los organismos públicos a cargo de velar por la ciberseguridad del tejido productivo y la ciudadanía, como las compañías especializadas en ciberseguridad han alertado de que la Inteligencia Artificial puede incrementar el número de ciberataques y su impacto. Pero no debe preocuparnos, solo, el uso malicioso de sistemas de IA, sino también la propia seguridad de los modelos de aprendizaje automático y de los grandes modelos de lenguaje (LLM, por sus siglas en inglés).

Para contribuir al fortalecimiento de la seguridad de los sistemas de Inteligencia Artificial, la organización sin ánimo de lucro MITRE ha desarrollado MITRE ATLAS, un framework que sistematiza y define las tácticas y técnicas que pueden emplear los actores hostiles para diseñar y ejecutar ataques contra grandes modelos de lenguaje.

A continuación, vamos a desgranar las claves de MITRE ATLAS y su utilidad a la hora de comprender las tácticas, técnicas y procedimientos que los actores hostiles pueden desplegar contra los sistemas de IA y anticiparse a ellos.

1. MITRE ATT&CK, un framework clave para entender el modus operandi de los actores hostiles

El marco MITRE ATLAS tiene su origen en MITRE ATT&CK. Este framework se ha consolidado como una herramienta crítica empleada por profesionales de la ciberseguridad en todo el mundo.

Desde su creación en el año 2014, MITRE ATT&CK ha sido clave para enfocar la ciberseguridad de las empresas desde el punto de vista de los actores maliciosos y no solo desde la perspectiva de las compañías.

A lo largo de esta década, se han incorporando nuevas variantes al dominio tecnológico original, centrado en las tácticas y técnicas que se pueden emplear para atacar redes corporativas. De tal forma que MITRE ATT&CK cuenta con tres grandes dominios tecnológicos:

  • Enterprise. Que sistematiza la forma de proceder de los ciberdelincuentes contra sistemas operativos como Windows, macOS o Linux o contra los entornos de trabajo Cloud que emplean miles de empresas en todo el mundo como Office o Google Workspace.
  • Móvil. Con tácticas y técnicas específicas empleadas para atacar dispositivos móviles, tanto Android como iOS.
  • ICS. De cara a glosar cuáles son las TTPs de los ataques contra sistemas de control industrial, una tecnología crítica en múltiples sectores.

La revolución que se está produciendo en el desarrollo de sistemas de IA y su creciente implementación en el tejido productivo han propiciado la creación de MITRE ATLAS. Este marco de trabajo unifica y ordena el conocimiento que se dispone, a nivel global, sobre los ciberataques contra sistemas de IA.

De hecho, ATLAS es un acrónimo de Adversarial Threat Landscape for Artificial-Intelligence Systems. Es decir, «panorama de amenazas adversas para los sistemas de inteligencia artificial». Y, al igual que MITRE ATT&CK, dispone de una matriz en la que se ponen en relación las tácticas que emplean los actores hostiles y las técnicas que deben utilizar para que las tácticas tengan éxito.

2. Tácticas específicas que se emplean en los ciberataques contra sistemas de IA

En lo que respecta a las tácticas de MITRE ATLAS, podemos comprobar que son, en esencia, prácticamente las mismas que las de su framework padre. Si bien, no se incluyen dos de las tácticas presentes en ATT&CK:

  • Movimiento lateral.
  • Comando y control.

Por contra, figuran dos tácticas específicas para atacar sistemas de IA, centradas en menoscabar los modelos de aprendizaje automático o Machine Learning sobre los que se sustentan:

  • Acceso al modelo de Machine Learning (ML).
  • Etapa de ataque de Machine Learning.

Esto implica que la matriz de MITRE ATLAS está conformada por 14 tácticas que van desde las etapas de preparación de un ataque hasta la consecución de los objetivos maliciosos y el impacto en el sistema de IA:

  1. Reconocimiento
  2. Desarrollo de recursos.
  3. Acceso inicial.
  4. Acceso al modelo de Machine Learning.
  5. Ejecución.
  6. Persistencia.
  7. Escalado de privilegios.
  8. Evasión de defensas.
  9. Acceso a credenciales.
  10. Descubrimiento.
  11. Recolección.
  12. Etapa de ataque de Machine Learning.
  13. Exfiltración.
  14. Impacto.

Detengámonos ahora, brevemente, en qué consisten las dos tácticas que incorpora MITRE ATLAS con respecto a ATT&CK.

2.1. Acceso al modelo de Machine Learning

Mediante esta táctica, los actores hostiles buscan lograr un nivel de acceso al modelo de Machine Learning del sistema que desean atacar. De tal forma que en un nivel máximo de acceso se logre obtener toda la información sobre cómo funciona el modelo y sus elementos. Si bien, como señala MITRE ATLAS, los atacantes pueden usar diversos niveles de acceso en el transcurso de las diferentes etapas de un ataque.

Para acceder a un modelo de Machine Learning, los actores hostiles pueden necesitar:

  • Entrar en el sistema donde se alberga el modelo. Por ejemplo, a través de una API.
  • Tener acceso al entorno físico en el que se lleva a cabo la recolección de los datos que nutren el modelo.
  • Acceder de manera indirecta, interactuando con un servicio que emplea dicho modelo en sus procesos.

¿Qué se busca al acceder a un modelo de Machine Learning?

  • Obtener información sobre el modelo.
  • Desarrollar ataques contra él.
  • Introducir datos en el modelo para manipular o menoscabar su funcionamiento.

2.2. Etapa de ataque de Machine Learning

Si la táctica anterior es critica en las primeras fases de un ataque, esta táctica es esencial en los últimos compases del mismo.

De hecho, los actores hostiles emplean todo el conocimiento que disponen sobre el modelo de aprendizaje automático y su capacidad de acceso al sistema de IA para personalizar el ataque y poder lograr sus objetivos.

Para ello se pueden emplear cuatro tipos de técnicas:

  • Obtención de modelos que sirvan de proxy del que se desea atacar. De tal forma que se pueda simular el acceso al modelo de manera offline. Para ello se pueden entrenar modelos, usar modelos pre-entrenados o replicar modelos de las API de inferencia del sistema objetivo.
  • Implementación de un backdoor en el modelo de ML para lograr persistir en el sistema y manipular su funcionamiento cuando se desee.
  • Verificación de la eficacia del ataque empleando una API de inferencia o mediante el acceso a una copia offline del modelo de ML. Gracias a esta técnica se puede comprobar que el ataque ha sido bien desarrollado y es posible realizarlo con éxito a posteriori.
  • Creación de datos adversos dentro del modelo para manipular su comportamiento y lograr que se produzcan determinados efectos.

 

3. MITRE ATLAS dibuja un mapa de técnicas para socavar los grandes modelos de lenguaje

Precisamente, si las tácticas son las vigas de MITRE ATLAS, las técnicas son sus columnas. De tal forma que junto a cada táctica se glosan las diversas técnicas que pueden emplear los actores hostiles para llevarlas a cabo con éxito.

MITRE ATLAS lista y define 56 técnicas, una cifra notablemente inferior a las 196 técnicas incluidas en la matriz Enterprise de MITRE ATT&CK.

Estas 56 técnicas nos permiten obtener una panorámica amplia y precisa sobre cómo se pueden diseñar y ejecutar ataques contra los sistemas de IA.

De hecho, aunque la mayoría de las tácticas de MITRE ATLAS sean comunes con el framework original, lo cierto es que las técnicas son específicas para la Inteligencia Artificial. Por ejemplo, en la táctica de descubrimiento podemos encontrarnos con cuatro técnicas:

  • Descubrir la ontología del modelo de Machine Learning que se desea atacar.
  • Descubrir la familia de modelos de Machine Learning del objetivo.
  • Identificar los artefactos de aprendizaje automático que existen en el sistema que se desea atacar.
  • Acceder al meta prompt o instrucciones iniciales de un gran modelo de lenguaje (LLM). De tal forma que mediante la ingeniería de prompts se pueda robar la propiedad intelectual de una compañía que desarrolla el sistema de IA.

Además, varias técnicas incluyen sub-técnicas para detallar con mayor precisión los procedimientos que pueden seguir los actores hostiles y los medios que emplean para lograr sus objetivos tácticos. Por ejemplo, tres de las cuatro técnicas de la etapa de ataque de Machine Learning que detallamos antes disponen de varias sub-técnicas.

4. ¿Cómo se pueden prevenir las técnicas de los actores hostiles según MITRE ATLAS?

Más allá de sistematizar y definir las tácticas y técnicas que pueden emplear los atacantes contra los sistemas de Inteligencia Artificial, MITRE ATLAS también incluye otros dos elementos de gran valor añadido en la prevención de los ataques contra los sistemas de IA y sus modelos:

  • Casos de estudio para comprender mejor cómo funcionan los ataques y cuál puede ser su impacto en un sistema de Inteligencia Artificial. MITRE ATLAS cuenta con múltiples casos de estudio que cubren un amplio abanico de características de los ataques:
    • Tipología de los ataques: envenenamiento de modelos, replicación de modelos, etc.
    • Actores que pueden llevarlos a cabo.
    • Particularidades de los sistemas de IA y sus modelos: ataques a sistemas de Machine Learning as a Service, modelos alojados en las instalaciones de una empresa o Cloud, etc.
    • Casos de uso de los sistemas de IA. Por ejemplo, sistemas empleados en ámbitos especialmente sensibles como el de la ciberseguridad, pero también en otros que no lo resultan tanto, como pueden ser los chatbots de atención al cliente.
  • Procedimientos que se pueden emplear para mitigar las técnicas maliciosas y evitar incidentes de seguridad. MITRE ATLAS incluye hasta 20 conceptos de seguridad o tipos de tecnologías de gran utilidad para enfrentarse a las técnicas de los actores hostiles. Estos procedimientos van desde limitar la información sobre un sistema que se hace púbica hasta llevar a cabo un control exhaustivo de quién puede acceder a los modelos de aprendizaje automático y a los datos con que se nutren durante la fase de producción. Además de otras recomendaciones clave como formar a los desarrolladores de modelos de Machine Learning en ciberseguridad para que implementen prácticas de codificación seguras o realizar escaneos de vulnerabilidades continuos para detectar y remediar debilidades antes de que sean explotadas.

Hay amenazas específicas contra los sistemas de IA que es necesario comprender para protegerlos

5. MITRE ATLAS, una herramienta al servicio de Threat Hunters y Red Teams

Al igual que sucede con MITRE ATT&CK, este framework es una herramienta de enorme utilidad para los profesionales a cargo de dos servicios de ciberseguridad esenciales para mejorar la resiliencia de los sistemas de IA y proteger a las empresas que los desarrollan y/o los emplean en su día a día: Threat Hunting y Red Team.

5.1. Servicios de Threat Hunting

Los Threat Hunters investigan constantemente escenarios de compromiso que aún no ha sido detectado. De esta manera, pueden ser proactivos en la detección de amenazas. Además, emplean la telemetría que proporcionan las tecnologías EDR/XDR para detectar actividad maliciosa y obtener información de gran valor sobre las tácticas, técnicas y procedimientos de los actores hostiles que desean menoscabar sistemas de IA.

De ahí que MITRE ATLAS sea una guía de trabajo de gran utilidad y permita estandarizar a nivel mundial las TTPs específicas de los ciberataques contra sistemas de IA.

Los servicios de Threat Hunting son claves a la hora de:

  • Mejorar las capacidades de detección de amenazas.
  • Identificar las tácticas y técnicas maliciosas en las primeras etapas de los ataques.
  • Anticiparse a los actores maliciosos e impedir que logren sus objetivos.

5.2. Servicios de Red Team

El conocimiento generado por los servicios de Threat Hunting es esencial a la hora de diseñar y ejecutar un escenario de Red Team específico que permita evaluar cómo respondería una empresa que desarrolla IA o una compañía que emplea un sistema de Inteligencia Artificial ante un ataque.

MITRE ATLAS es de enorme ayuda a la hora de planificar el escenario pactando con la compañía el tipo de actor malicioso que se va a simular, el vector de intrusión y los objetivos.
Gracias a un servicio de Red Team es posible mejorar la resiliencia de una organización frente a los ataques contra sistemas de IA propios o de terceros, formar a los equipos defensivos para hacer frente a las técnicas maliciosas contra sistemas de IA y optimizar las capacidades de detección y respuesta.

Habida cuenta de que nos encontramos inmersos en la revolución de la Inteligencia Artificial y que la investigación en torno a esta tecnología está en pleno apogeo, es posible que el panorama de amenazas de los sistemas de IA sufra grandes cambios en los próximos años.

MITRE ATLAS ofrece a los expertos en ciberseguridad un marco de trabajo común para comprender las tácticas y técnicas hostiles, así como los procedimientos para mitigarlas. De ahí que a la luz de la experiencia de los profesionales el framework irá completándose para incorporar todas las TTPs que se vayan diseñando e implementando.

Más artículos de la serie IA y ciberseguridad

Este artículo forma parte de una serie de articulos sobre IA y ciberseguridad

  1. ¿Cuáles son los riesgos de seguridad de la IA?
  2. Top 10 de vulnerabilidades en aplicaciones LLM como ChatGPT
  3. Buenas prácticas de ciberseguridad para la IA
  4. Fraudes con Inteligencia Artificial: Nueva tecnología, viejos objetivos
  5. IA, deepfake y la evolución del fraude del CEO
  6. ¿Cómo será el futuro de la IA y la ciberseguridad?
  7. Los riesgos de usar IA generativa en las empresas: Protege tus secretos
  8. Reglamento de IA: Requisitos de ciberseguridad de los sistemas de IA de alto riesgo
  9. MITRE ATLAS: ¿Cómo se puede atacar a las IA?