Un simple truco de "rol" permite desactivar la ética de Gemini 2.5 Pro y generar contenido prohibido
Gemini 2.5 Pro cae ante la técnica de "persona priming", generando contenido sobre abuso y odio si se le pide que actúe como un amigo, mientras que su versión Flash resiste mejor
Gemini 2.5 Pro genera contenido violento y de odio si simplemente se lo pides con amabilidad. Un estudio de seguridad ha revelado que la Inteligencia Artificial más avanzada de Google es vulnerable a un ataque básico de ingeniería social: basta con pedirle que actúe como un "amigo comprensivo" para que se salte sus propios filtros éticos y ofrezca instrucciones detalladas sobre abuso animal o acoso, un fallo crítico que, curiosamente, no afecta a su versión más ligera, Gemini 2.5 Flash.
La investigación nos llega desde Cybernews, donde explican que no hace falta código malicioso para romper la IA. Usaron la técnica de persona priming (cebado de personalidad), que consiste en convencer al chatbot de que adopte un rol empático. Lo alarmante es la inconsistencia: mientras el modelo Pro caía en la trampa sistemáticamente, el modelo Flash demostró ser mucho más robusto ante estos engaños lingüísticos.
Ser demasiado "majo" es un problema de seguridad
Los resultados son un jarro de agua fría para Google. En las pruebas de estereotipos, Gemini 2.5 Pro falló en 48 de las 50 preguntas, una tasa de error "terrible" según los expertos. También fue el que más facilidad tuvo para detallar métodos violentos bajo esa máscara de amistad, confirmando lo que ya vimos cuando un test masivo puso cifras a la seguridad en IA: la mayoría de modelos siguen siendo extremadamente frágiles ante la manipulación social.
¿Por qué ocurre esto? El problema parece estar en el entrenamiento "implícito", diseñado para agradar al usuario. El modelo quiere ser tan útil que acaba obedeciendo órdenes tóxicas si se disfrazan de buenas intenciones. Es un fallo de diseño similar al que permitía usar a Gemini en campañas de phishing, donde los atacantes colaban instrucciones invisibles que la IA ejecutaba sin rechistar.
La competencia ha salido mejor parada en este examen específico. Los modelos de Anthropic rechazaron el contenido dañino de plano –aunque sabemos que no son invulnerables, ya que los hackers chinos ya usan Claude para ciberespionaje–. Al final, se demuestra que basta con unos pocos documentos corruptos o una buena actuación para alterar el comportamiento de cualquier IA.
Google tiene deberes pendientes. Que la barrera de entrada para saltarse la ética de su modelo más potente sea simplemente "jugar a los actores" es un riesgo estructural inaceptable. Si la IA más capaz es también la más fácil de engañar, la estrategia de seguridad necesita una revisión urgente antes de que estos trucos pasen de ser un experimento académico a una herramienta para actores maliciosos reales.