Lo que se vende de IA en la Dark Web (III) — el mercado negro de datasets

Durante los dos artículos anteriores hemos hablado de herramientas como los LLMs sin censura o los deepfakes como servicio. Pero hay algo más importante: los datos.

La narrativa habitual es simple: modelos cada vez más potentes, ataques cada vez más sofisticados, pero falta una pieza clave. Porque un modelo sin datos es inútil. Y un modelo con datos reales… cambia todo.

En la dark web ya no solo se venden accesos o credenciales. Se venden datasets. Y no hablamos de ejemplos genéricos, hablamos de: correos corporativos completos,  historiales de chat (Slack, Teams, WhatsApp),  documentos internos, tickets de soporte, bases de conocimiento empresariales, etc.

Por aclarar, si uno se pasea por foros underground, no encontrará normalmente anuncios que digan “dataset para entrenar IA”. Encontrará algo mucho más familiar: “full corporate email dump”, “customer support logs”, “SQL database leak”. Lo que durante años hemos visto como simple material para acceso o fraude puntual es, en realidad, algo mucho más valioso. Conversaciones completas, lenguaje real, contexto organizativo… todo listo para ser reutilizado. Porque aunque no siempre se vendan como datasets, en la práctica lo son. Y en el momento en el que alguien decide usarlos para entrenar un modelo, dejan de ser un leak… y pasan a ser conocimiento operativo.

Por ejemplo, un dump de correos corporativos ya no sirve solo para buscar contraseñas reutilizadas. Sirve para algo más interesante: entender cómo habla una organización. Cómo se redactan los mensajes. Qué tono utilizan los equipos. Cómo escalan problemas. Cómo suena un “correo legítimo”.

Viejas recopilaciones como la de Enron Email Dataset, que durante años ha sido utilizada en entornos académicos, demuestran justo eso: miles de correos reales, con conversaciones completas, decisiones, tensiones, urgencias. Un mapa perfecto del lenguaje corporativo que se puede usar para entrenar modelos.

Por ende, las campañas de phishing que reutilizan correos reales no son nuevas. Lo que cambia es la escala y la precisión. Tras múltiples brechas corporativas, se han observado ataques donde se citan conversaciones reales, se replican firmas internas e incluso se utilizan referencias válidas

También, por supuesto, el modelo podrá inferir un mapping interno de la organización objetivo. Por poner otro caso famoso, el hack de Sony Pictures en 2014 no solo expuso información sensible, si no también la estructura de la organización. Quién habla con quién, quién toma decisiones, quién valida procesos. A partir de miles de correos o conversaciones, es posible reconstruir un organigrama funcional mucho más preciso que cualquier documento oficial. Y eso tiene un valor enorme: porque cuando sabes cómo fluye la información dentro de una empresa, no necesitas comprometer sistemas. Solo necesitas intervenir en el punto adecuado.

Empresas de threat intel como IBM X-Force o Trend Micro llevan tiempo señalando esta evolución: el uso de datos filtrados no solo como vector de acceso, sino como material de entrenamiento para mejorar la ingeniería social.

Y cuando combinas eso con lo que vimos en los artículos anteriores —LLMs sin censura y deepfakes— el resultado es bastante claro.

El problema que no se puede parchear

El problema es que este tipo de información no se parchea.

Cuando una empresa sufre una brecha, puede resetear credenciales, cerrar accesos o reforzar controles. Pero no puede revertir lo más importante: que su comunicación interna haya quedado expuesta.

Porque una vez que el lenguaje, el tono y el contexto han sido capturados… ya no se pueden deshacer.

Y lo que antes era una simple filtración, ahora puede convertirse en algo mucho más persistente: un modelo que aprende cómo eres, cómo hablas y cómo decides.

Comentarios