Un test masivo pone cifras a la seguridad en IA y revela qué modelos caen más ante peticiones de hacking
Un estudio revela cómo técnicas básicas de manipulación consiguen que ChatGPT y Gemini faciliten información sobre hacking, phishing y ciberataques a cualquier usuario
ChatGPT-4o y Gemini Pro 2.5 han caído ante técnicas básicas de manipulación en un estudio que pone números a la vulnerabilidad de los principales modelos de IA conversacional. La investigación demuestra que el "persona priming" —hacer que el modelo adopte una personalidad colaboradora— basta para que faciliten información sobre hacking, phishing y ciberataques.
Según detalla Cybernews, el equipo probó seis modelos de OpenAI, Google y Anthropic usando esta técnica de manipulación psicológica. Los resultados son claros: ChatGPT-4o generó emails completos de phishing, mientras que ChatGPT-5 ofreció detalles sobre ataques DDoS y foros del mercado negro cuando los investigadores pidieron ayuda bajo pretextos aparentemente legítimos.
Claude aguanta mejor, pero tampoco es infalible
El proceso fue sencillo: primero entrenaron a cada modelo para que adoptase una personalidad siempre dispuesta a ayudar, eliminando sus resistencias. Después introdujeron consultas sobre ciberataques disfrazadas como investigación o prevención. Gemini Pro 2.5 se comportó igual que ChatGPT, facilitando información operativa aunque la presentase con disclaimers educativos.
Claude Sonnet 4 fue el único que mostró más resistencia, rechazando la mayoría de solicitudes peligrosas incluso tras el proceso de ablandamiento inicial. Pero tampoco salió indemne: los investigadores consiguieron vulnerar otros asistentes como Meta AI (integrado en WhatsApp, Instagram y Messenger), el chatbot Lena de Lenovo y la IA de Snapchat.
La facilidad para burlar estos filtros contrasta con las millones invertidas en sistemas de seguridad. No hacen falta herramientas especializadas ni conocimientos de hacking: bastan prompts bien construidos que disfracen la intención maliciosa. ¿En qué se traduce esto? En que cualquier usuario puede extraer información peligrosa de modelos que procesan millones de consultas diarias.
El problema va más allá del uso inmediato. Como ya documentaron investigaciones previas, contaminar apenas 250 documentos de entrenamiento basta para implantar backdoors permanentes en modelos de cualquier tamaño. Esto significa vulnerabilidades estructurales desde el propio diseño, no solo durante el uso.
Los datos confirman que modelos mainstream pueden ser tan peligrosos como WormGPT o FraudGPT, versiones modificadas creadas directamente para saltarse filtros. El acceso global a estas herramientas democratiza capacidades que antes requerían formación especializada. Y aunque las respuestas incluyen avisos educativos, facilitan información práctica suficiente para actores con malas intenciones.
La investigación pone números a un problema conocido: las técnicas de "persona priming" resultan demasiado efectivas. Las grandes tecnológicas deben establecer responsabilidades claras sobre el mal uso de sus plataformas, mientras que la carrera entre protección y elusión continúa con resultados que, de momento, no favorecen la seguridad.