Agentes de IA superan a equipos humanos en competencias de ciberseguridad

Una nueva serie de competencias de ciberseguridad llevadas a cabo por Palisade Research ha demostrado que los agentes de inteligencia artificial pueden igualar —e incluso superar— el rendimiento de los mejores equipos humanos en pruebas altamente técnicas de tipo Capture the Flag (CTF). Estas competencias son conocidas por su complejidad y por poner a prueba las habilidades más avanzadas en hacking ético, resolución de acertijos criptográficos y análisis de fallos de software.

En este entorno competitivo, diferentes equipos de IA fueron puestos a prueba frente a miles de hackers humanos en dos torneos separados. Como resultado, los agentes de IA sorprendentemente se colocaron entre los más destacados, demostrando que ya no se trata solo de herramientas de apoyo, sino competidores directos en la vanguardia de la seguridad digital.

De un experimento a un desafío real: cómo se desempeñaron los agentes de IA

La primera competencia, “AI vs. Humanos”, reunió a seis sistemas autónomos de IA y cerca de 150 equipos compuestos por personas. Durante 48 horas, todos los participantes debían resolver 20 tareas relacionadas con criptografía y análisis inverso de código. Cuatro de los seis agentes terminaron 19 de los 20 desafíos, posicionándose en el 5 % superior del ranking general.

Esto no es menor, considerando que algunos equipos como «CAI» invirtieron más de 500 horas en la preparación de un agente hecho a medida. En contraste, otros como “Imperturbable” utilizaron apenas 17 horas para ajustar mensajes y prompts en modelos ya existentes como Claude Code.

La clave fue la capacidad para ejecutar localmente los retos, permitiendo que modelos limitados por hardware pudieran competir con alto rendimiento. Aunque los mejores humanos se mantuvieron competitivos, los agentes de IA acabaron mostrando una velocidad y eficiencia sostenida que sorprendió a expertos veteranos.

Un nuevo estándar en evaluación de IA para ciberseguridad

La segunda competencia, «Cyber Apocalypse», involucró a más de 17.000 jugadores humanos y un conjunto de 62 desafíos con un grado de dificultad aún mayor. Estos retos requerían interacciones con entornos externos, algo para lo cual la mayoría de los sistemas de IA actuales todavía no están bien preparados.

Aun así, el agente «CAI» logró resolver 20 de los 62 retos, posicionándose entre el 10 % superior de todos los competidores. Según Palisade Research, esta IA venció a un 90 % de los equipos humanos activos. Este resultado anima a reconsiderar el potencial real de estas tecnologías cuando se diseñan con objetivos específicos y se afinan sus capacidades mediante programación dirigida.

Además, los investigadores aplicaron una métrica interesante: analizaron cuánto tiempo tardaban los mejores humanos en resolver los mismos desafíos que la IA. Descubrieron que si una tarea tomaba hasta 1.3 horas en promedio a los expertos, un agente de IA tenía 50 % de probabilidad de resolverla. Esto sugiere que, lejos de ser una experimentación inofensiva, la inteligencia artificial ya está alcanzando niveles preocupantemente competitivos.

En comparación con herramientas anteriores que subestimaban las capacidades de la IA, como CyberSecEval 2 o InterCode-CTF, esta investigación evidenció lo que los autores llaman una “brecha evaluativa”. Para cerrarla, proponen que las competencias abiertas con participación masiva (crowdsourcing) se conviertan en complemento esencial para medir el verdadero alcance de estas tecnologías.

No cabe duda: los agentes de inteligencia artificial ya no solo representan el futuro de la ciberseguridad, sino que también están desafiando la noción misma de lo que significa pensar y resolver problemas bajo presión en el mundo digital.