La inteligencia artificial y el machine learning han transformado el panorama tecnológico, pero también han introducido vectores de ataque inéditos. MITRE ATLAS (Adversarial Threat Landscape for AI Systems) surge en 2021 como un marco crítico para mapear, clasificar y explotar vulnerabilidades en sistemas de IA, ofreciendo un lenguaje común para ofensores y defensores.
MITRE ATLAS es un repositorio público que documenta tácticas, técnicas y procedimientos (TTPs) utilizados por atacantes para comprometer modelos de IA. A diferencia de MITRE ATT&CK, que se centra en sistemas tradicionales de TI, ATLAS se especializa en amenazas específicas de IA:
-
Data Poisoning: Alteración maliciosa de datos de entrenamiento para inducir comportamientos inesperados en el modelo.
-
Model Extraction / Theft: Reconstrucción o robo de modelos a partir de consultas controladas.
-
Adversarial Inputs: Generación de entradas diseñadas para engañar modelos de clasificación.
-
Prompt Injection / Jailbreaking: Manipulación de prompts en LLMs para evadir restricciones o ejecutar código no deseado.
-
Information Leakage: Extracción de información sensible del modelo mediante consultas estratégicas.
Y al igual que MITRE ATT&CK, este marco organiza también las amenazas por tácticas (objetivos de alto nivel, como “corrupt model”) y técnicas (métodos específicos para lograr estos objetivos). Esto permite a los red teams mapear ataques de manera sistemática y replicable: https://atlas.mitre.org
Un caso real de ejemplo
Hay muchos y variados y seguro que los casos se incrementarán exponencialmente en los próximos años, pero por ejemplo veamos uno reciente que vi en un análisis de Cato Networks. En julio de 2025, el equipo de respuesta a emergencias informáticas de Ucrania (CERT-UA) descubrió una campaña de phishing dirigida a funcionarios gubernamentales ucranianos. El ataque involucraba un malware denominado LAMEHUG, que integraba capacidades de un LLM para generar comandos en tiempo real en sistemas Windows comprometidos. Este malware fue atribuido con moderada confianza al grupo APT28 (Fancy Bear), vinculado a la inteligencia militar rusa (GRU).1. Acceso Inicial
-
Táctica: Initial Access
-
Técnicas:
-
AML.T0012 - Valid Accounts: Obtención de credenciales válidas mediante phishing o filtraciones.
-
AML.T0049 - Exploit Public-Facing Applications: Explotación de aplicaciones expuestas para obtener acceso inicial.
-
APT28 inició la campaña enviando correos electrónicos de phishing que aparentaban ser comunicaciones oficiales de ministerios ucranianos. Estos correos contenían archivos adjuntos comprimidos en formato ZIP, que al ser ejecutados, descargaban el malware LAMEHUG.
2. Evasión y Persistencia
-
Táctica: Evasion
-
Técnicas:
-
AML.T0025 - Prompt Injection: Inyección de instrucciones maliciosas en los prompts para eludir restricciones del modelo.
-
AML.T0026 - Jailbreaking: Manipulación del modelo para que ignore sus restricciones de seguridad.
-
El malware LAMEHUG utiliza el modelo Qwen2.5-Coder-32B-Instruct a través de la API de Hugging Face para generar comandos dinámicos. Esta integración permite al malware adaptar sus acciones en tiempo real, dificultando su detección y análisis estático.
3. Reconocimiento y Ejecución de Comandos
-
Táctica: Execution
-
Técnicas:
-
AML.T0021 - Model Reconnaissance: Investigación de las características y comportamientos del modelo de lenguaje.
-
AML.T0022 - Data Collection from Information Repositories: Recopilación de datos de repositorios públicos para comprender mejor el funcionamiento del modelo.
-
Una vez activado, LAMEHUG se comunica con la API de Hugging Face utilizando tokens robados para autenticar las solicitudes. Los prompts base64 codificados enviados al modelo generan comandos específicos que son ejecutados en el sistema comprometido, permitiendo al atacante realizar acciones como la exfiltración de datos o la ejecución de comandos arbitrarios.
4. Impacto y Exfiltración de Datos
-
Táctica: Impact
-
Técnicas:
-
AML.T0035 - Information Disclosure: Generación de contenido que revela información sensible o instrucciones para actividades maliciosas.
-
AML.T0036 - Data Exfiltration: Exfiltración de datos sensibles mediante la generación de contenido que los revele.
-
El malware está diseñado para recopilar información del sistema y exfiltrarla a través de canales de comando y control. Utiliza técnicas avanzadas para evitar la detección por parte de soluciones de seguridad tradicionales, aprovechando la capacidad del LLM para generar comandos en tiempo real que se adaptan al entorno del sistema comprometido.
En definitiva y para concluir, este breve análisis proporciona una visión detallada de cómo un atacante puede explotar un modelo de lenguaje grande mediante técnicas de jailbreaking, y cómo estas acciones se mapean utilizando el marco MITRE ATLAS.
Comentarios
Publicar un comentario