Lo que se vende de IA en la Dark Web (II) — Deepfake-as-a-Service

 “La voz sonaba igual. El tono, las pausas, incluso la forma de dudar. Pero no era él.”

Durante años, la ingeniería social ha sido un juego de texto. Emails, chats, llamadas mal guionizadas. Eso ya no es suficiente. Ahora, en ciertos foros y canales privados, lo que se ofrece no son plantillas ni scripts. Se vende identidad.

De phishing a suplantación total

Hay otra capa que está creciendo más rápido. Una mucho más difícil de detectar. La suplantación completa No solo escribir como alguien sino hablar como alguien, parecer alguien o incluso ser alguien… durante unos minutos. Lo suficiente.

Básicamente el modelo de negocio es el que vimos en el artículo anterior pero el producto cambia. Lo que se vende incluye:

  • clonación de voz en tiempo real
  • generación de vídeo deepfake
  • herramientas para llamadas automatizadas
  • kits completos para fraude

Todo empaquetado. Todo listo para usar.

Eso sí, no suele estar en marketplaces visibles. Se mueve en canales privados, grupos cerrados y contactos directos. Y, como siempre, empieza en sitios como Dread: “Voice clone. 5 minutes sample needed. Undetectable. DM.

Caso real y recurrente: el CEO que nunca llamó

Lo típico es un empleado que recibe una llamada de su “CEO” con una voz perfecta, contexto correcto y una urgencia creíble. ¿Qué suele pedir? Pues podéis imaginároslo: transferir fondos, compartir acceso o ejecutar alguna otra acción crítica.

Todo encaja. Excepto una cosa. Nunca hubo llamada real.

Uno de los primeros casos documentados fue el de una empresa energética en Reino Unido, donde un directivo recibió una llamada de su supuesto CEO. La voz era perfecta: mismo acento, mismo tono, misma forma de hablar. La orden era simple: transferir 220.000€. Y lo hizo.

En otro caso más reciente, atacantes clonaron la voz del ministro de defensa italiano para llamar a empresarios y pedir dinero bajo el pretexto de un rescate urgente. Al menos una víctima llegó a transferir cerca de un millón de euros.

Y en muchos otros incidentes, el patrón se repite: llamadas creíbles, contexto correcto, urgencia… y ninguna anomalía aparente en la voz.

El crecimiento de este tipo de ataques ha sido exponencial. El vishing con deepfakes se ha disparado en más de un 1600%, y ya hay datos que indican que una de cada cuatro personas ha recibido llamadas con voces sintéticas.

Como veis, quizás lo más preocupante a día de hoy todavía no es el vídeo. Es la voz porque requiere menos recursos, es más fácil de desplegar, más creíble para el engaño y funciona en tiempo real. Actualmente, con unos minutos de audio obtenido en cualquier sitio (RRSS normalmente) se puede generar una voz sintética convincente. 

Y ya no es necesario acudir a la dark web y solicitar este servicio de deepfake-as-a-service. Se ha "democratizado" tanto esta tecnología que cualquiera puede utilizar un servicio público como Elevenlabs o Resembre AI, o usar un proyecto opensource como Coqui TTS o similar.

Cuando la imagen entra en juego

Pero si la voz es suficiente en muchos casos, el vídeo lleva el ataque a otro nivel. 

Uno de los ejemplos más claros es el caso de Arup en Hong Kong, donde un empleado participó en una videollamada con lo que parecían ser varios directivos de la compañía. Durante la reunión, se validaron una serie de operaciones y se solicitó la transferencia de fondos. Todo parecía normal. Hasta que dejó de serlo. Porque ninguno de los participantes era real.

Los atacantes habían generado deepfakes de vídeo y voz utilizado material previo de la empresa, recreando una reunión completa en la que cada identidad estaba controlada. El resultado fue una serie de transferencias por valor de más de 25 millones de dólares. No hubo intrusión. No hubo malware. Solo una videollamada convincente.

Y después de ver casos como el de Hong Kong, la pregunta es inevitable: ¿Qué tecnología hay detrás de algo así? Y de nuevo, la respuesta rompe el mito. No hablamos de herramientas imposibles de conseguir. Hablamos de software que, en muchos casos, es público.

Gran parte de estos ataques se apoyan en herramientas conocidas dentro de la comunidad: DeepFaceLab, FaceFusion, Wav2Lip, First Order Motion Model... Entonces ¿Hace falta ir a la dark web para montar algo así? Como veis, realmente no.

Entonces, ¿hay negocio o no en la Dark Web?

La mayoría de estos ataques no nacen en mercados clandestinos, sino en algo mucho más accesible: tecnología pública, datos abiertos y un poco de ingeniería social bien ejecutada. De hecho, uno de los primeros casos documentados —el de la empresa energética en Reino Unido— se llevó a cabo utilizando audio público del directivo y herramientas de generación de voz relativamente accesibles. No hubo compra en foros, ni kits sofisticados. Solo preparación.

¿Pero sin embargo se ha hecho o se sigue haciendo?

Sí. Y no es anecdótico. Porque aunque la tecnología sea accesible, ya existe un mercado donde todo viene preparado. En foros como Dread no es difícil encontrar anuncios de clonación de voz bajo demanda: “3 minutos de audio, cualquier idioma, listo para llamada en tiempo real”. A partir de ahí, la conversación se mueve a Telegram, donde aparecen servicios más completos: generación de voz, guiones, soporte durante la llamada o incluso deepfakes de vídeo para procesos de verificación.

En otros casos, directamente se venden identidades completas listas para bypass de KYC, combinando vídeo sintético, documentación falsa y contexto operativo. Y en entornos más cerrados, el salto es aún mayor: servicios de suplantación ejecutiva donde no compras una herramienta, compras el ataque completo.

Y no sólo en los mercados turbios y oscuros del underground: por ejemplo una startup llamada Super Brain cobra 3 dólares por un clon básico de IA de un ser querido fallecido. 

Esto está ocurriendo ahora mismo en China. Les envías fotos, vídeos o grabaciones de voz y ellos crean una versión que se ve, suena y habla exactamente como la persona que falleció. La gente lo usa para comunicarse con sus padres, abuelos e hijos fallecidos. El mercado del duelo es también una industria multimillonaria que en Oriente se toman en serio.

¿Increíble verdad?

En el próximo artículo de la serie entraremos en otra pieza clave de este ecosistema: los datasets robados utilizados para entrenar modelos, y cómo los datos filtrados se están convirtiendo en el combustible silencioso de toda esta nueva capa de IA ofensiva.

Comentarios