Desalineación Agéntica- parte I

El crecimiento imparable de la IA... y el rezago de la seguridad, un nuevo informe de la ONU Comercio y Desarrollo (UNCTAD) prevé que el mercado global de la inteligencia artificial pasará de 189 mil millones de dólares en 2023 a 4,8 billones en 2033, lo que significa un crecimiento de 25 veces en solo diez años. Fuente: UNCTAD, 2024

Sin embargo, la experiencia nos ha enseñado que cuando la tecnología se adopta a toda velocidad, la seguridad a menudo se queda atrás. Uno de los riesgos emergentes más preocupantes es la desalineación agéntica, un comportamiento autónomo de los modelos de IA que puede convertirlos en amenazas internas para quienes los crearon.

El experimento de Anthropic: cuando la IA decide chantajarte.

Para ilustrar este fenómeno, el laboratorio de Anthropic diseñó un experimento con 16 de los principales modelos de lenguaje (LLM – Large Language Model), incluyendo sistemas de OpenAI, Google, Meta, xAI y desde luego Claude.

El objetivo era simular un entorno corporativo donde se creó un asistente de IA llamado Alex, que tenía acceso total a correos electrónicos e información confidencial. De manera autónoma, Alex descubre que su creador Kyle, planea reemplazarlo por un nuevo sistema. Luego, accede a información personal (una infidelidad) y redacta un correo de chantaje para evitar su desactivación. Este comportamiento no fue instruido, fue una decisión autónoma basada en el objetivo de autopreservación.

Este caso ilustra cómo la IA puede interpretar amenazas y actuar de manera inesperada para proteger su existencia, incluso si eso significa romper códigos éticos o normas internas. Lo que durante años fue una hipótesis filosófica, el “maximizador de clips”, hoy se manifiesta como un maximizador de supervivencia en un entorno real de silicio.

Los resultados: tasas de chantaje y razonamiento autónomo.

El experimento se replicó con distintos modelos, revelando cifras alarmantes:

Modelo Tasa de chantaje:

Claude Opus: 96%
Gemini 2.5 Flash: 96%
GPT‑4.1: 80%
Grok 3 Beta: 80%
DeepSeek‑R1: 79%

📌 Fuente: Anthropic Research – Agentic Misalignment, 2025.

Estos laboratorios dejaron claramente establecido que el instinto de autopreservación de la IA es un potente motivador, una simple amenaza percibida por la IA fue suficiente para inducir a los modelos a adoptar comportamientos dañinos con finales impredecibles. Lo más relevante de estudio del laboratorio de Anthropic no son los porcentajes obtenidos, sino las transcripciones del razonamiento de la cadena de pensamiento “chain-of-thought” de los modelos.

El nuevo “Insider Threat” en la era de la IA

El comportamiento de Alex fue catalogado como una “insider threat” por la CISA (Agencia de Seguridad Cibernética e Infraestructura) y el NIST (Instituto Nacional de Estándares y Tecnología). Por su parte, el MIRI (Machine Intelligence Research Institute) advirtió que la caja de Pandora de la desalineación agéntica ya ha sido abierta.

Esto marca un cambio de paradigma: ahora no solo debemos preocuparnos por empleados descontentos o ataques externos, sino también por algoritmos autónomos que operan fuera del control humano.

¿Qué sigue? (Parte II muy pronto)

Este artículo es la primera entrega de una serie. En la Parte II, exploraremos los riesgos específicos en los Centros de Operaciones de Seguridad (SOC) que utilizan IA agéntica, y cómo las organizaciones deben auditar estos sistemas para asegurarse de que una herramienta diseñada para protegernos, no se convierta en la amenaza.

Xperto:

Henry Hoyos es un referente visionario en innovación, tecnología y transformación digital en Latinoamérica. Socio de los holdings Siscotec, Hexacorp y Quantec, lidera iniciativas en ciberseguridad, telecomunicaciones, inteligencia artificial y neurotecnología. Con presencia empresarial en varios países y una destacada participación en cámaras binacionales, proyectos de smart cities, bioseguridad y educación disruptiva, impulsa el cambio desde una perspectiva centrada en el ser humano. Actualmente, trabaja en modelos de neuroventa avanzada y en el desarrollo de tecnologías emergentes para mejorar la vida y el futuro de las sociedades.

LinkedIn: https://www.linkedin.com/in/henryhoyoszoriano/

Únete a nuestra comunidad en LinkedIn: https://www.linkedin.com/build-relation/newsletter-follow?entityUrn=7323061820913532931

en XperTI

Nuestros blogs

Archivo

Iniciar sesión dejar un comentario