¿Qué es el vishing con IA y cómo proteger tu empresa?
Vishing en 2026: El fin de “la voz confiable”
En 2026, el vishing con IA (phishing a través de llamadas de voz) ha dejado de ser un vector menor de fraude telefónico y se ha convertido en una amenaza crítica para empresas de todos los tamaños. Gracias a la inteligencia artificial y los deepfakes de voz, las llamadas fraudulentas ahora son tan convincentes que incluso profesionales experimentados pueden ser engañados, generando incidentes de seguridad graves y escalables.
Cómo la IA ha transformado la ingeniería social
Tradicionalmente, el vishing consistía en llamadas con guiones preestablecidos que apelaban a la urgencia o a la autoridad, como por ejemplo, alguien que se hace pasar por un representante bancario solicitando información personal: Hoy en día, las cosas son mucho más sofisticadas. Los cibercriminales utilizan modelos de inteligencia artificial para clonar la voz de ejecutivos, proveedores o incluso compañeros de trabajo, con una fidelidad que incluso los empleados más experimentados pueden confiar en ellos sin cuestionar la autenticidad.
La técnica se apoya en avances en machine learning y redes neuronales que permiten generar audio sintético convincente a partir de apenas segundos de grabación de una voz real, muchas veces extraída de webinars, vídeos corporativos o entrevistas públicas.
Estadísticas que muestran el auge del vishing
- Incremento de ataques habilitados por deepfake: en el periodo de 2025 el vishing con deepfakes representó una fracción relevante dentro de los más de 45.000 incidentes online tratados por INCIBE, y se estima que esta cifra siga creciendo durante el periodo del 2026.
- Alcance organizacional: alrededor del 70 % de las organizaciones han sido objeto de intentos de vishing, con tasas de éxito sorprendentemente altas cuando no se aplican procesos de verificación estrictos.
- En muchos países, más del 90 % de las empresas reportan haber sufrido phishing o vishing impulsados por tecnología avanzada, lo que representa un riesgo estructural si no se aborda con estrategias centradas en identidad y autenticación.
- Se espera que para 2026 alrededor del 30% de las grandes organizaciones considere poco fiables las soluciones de verificación de identidad basadas únicamente en biometría facial o de voz, debido a la madurez de las clonaciones de voz.
Estas cifras no solo evidencian el volumen, sino la profundidad del impacto potencial en procesos críticos como finanzas, compras y autorizaciones internas.
Cómo funciona un ataque de vishing con IA
Una campaña típica se desarrolla en cinco fases clave:
- Reconocimiento de la víctima: los atacantes recolectan datos públicos o filtrados sobre empleados clave (pueden ser mediante el perfil en LinkedIn, vídeos de conferencias, grabaciones, etc).
- Clonación de voz con IA: usando plataformas de generación de audio, sintetizan la voz de un ejecutivo de alto nivel con alta fidelidad.
- Contacto inicial: la víctima recibe una llamada o un mensaje de voz personalizado desde un número que parece legítimo o previamente utilizado en comunicaciones internas.
- Ingeniería social en la llamada: se emplean palancas psicológicas como urgencia (“procesa esta transferencia ahora”) y autoridad (“soy tu CFO”), reduciendo la probabilidad de verificación.
- Acción maliciosa: la llamada induce a compartir credenciales, códigos OTP o autorizar transacciones financieras directamente.
Esta mezcla de técnica y psicología hace que el vishing con IA sea mucho más difícil de identificar que los ataques de phishing basados en texto, porque la voz activa zonas cognitivas de confianza que un correo difícilmente alcanza.
Riesgos empresariales: más allá del fraude directo
El impacto del vishing no se limita a pérdidas financieras:
- Compromiso de credenciales y accesos internos, facilitando movimientos laterales en la red.
- Pérdidas reputacionales si se descubren fraudes vinculados a comunicaciones internas legítimas.
- Daño a procesos operativos críticos, especialmente cuando se manipulan órdenes de pago, aprobaciones de compra o cambios de proveedores.
- Fallas en continuidad de negocio si se induce a empleados clave a deshabilitar controles o a proporcionar accesos sensibles.
Estrategias prácticas para defenderse
Frente a una amenaza tan sofisticada, las medidas deben ser también operativas, medibles y robustas:
- Reducir material para clonado de voz/imagen revisando qué se publica de directivos (webinars completos o audios sin editar) y limitar la exposición pública innecesaria que alimente modelos de clonación.
- Simulaciones y entrenamientos específicos de vishing con deepfakes, no solo awareness genérico de phishing.
- Monitorización activa de comunicaciones y anomalías en patrones de llamadas y autorizaciones, integradas en SIEM/MDR para una respuesta más rápida.
- Protocolos de verificación alternativa (canal seguro secundario) antes de realizar cualquier acción crítica solicitada por voz, especialmente si involucra pagos o acceso a sistemas sensibles.
- Playbooks de respuesta a fraude de identidad de procedimientos escritos sobre qué hacer ante una llamada sospechosa de “soporte”, “banco” o “CEO” (cortar la llamada, verificar el número interno oficial, registrar el incidente), integrados en el plan general de respuesta a incidentes.
- Mensaje cultural clave como “ninguna urgencia justifica saltarse el proceso”; se puede medir y recompensar que el personal frene operaciones sospechosas, aunque luego resulten ser legítimas.
- Canales claros para reportar a través de un correo o formulario interno sencillo (ej. fraude@empresa) y compromiso de respuesta rápida, para que cualquier empleado sepa dónde escalar una llamada que le parece extraña.
La nueva era del vishing con IA
En 2026, la voz humana ya no es una garantía de autenticidad. El vishing impulsado por IA, combinado con técnicas de deepfake de voz, ha cambiado la naturaleza de la ingeniería social: de relatos infundados a comunicaciones hiperrealistas que imitan a ejecutivos confiables y conexiones internas legítimas.
Para las empresas, esto significa que la seguridad ya no puede basarse en la confianza implícita de las comunicaciones auditivas: debe estructurarse sobre doble verificación, autenticación robusta y procesos que no cedan ante apariencias convincentes. La voz que escuchas en la llamada podría no ser la que crees.


