Reddit engaña a una IA con una publicación falsa y destapa el uso ilegal de sus datos
La compañía publicó un texto oculto para probar si Perplexity usaba su contenido. Horas después, el post apareció en su buscador con IA, confirmando el uso de datos sin permiso
Reddit ha pillado a Perplexity robando contenido con una trampa simple pero efectiva. Creó una publicación que sólo el buscador de Google podía rastrear y la dejó ahí. En pocas horas, Perplexity mostró ese contenido en su buscador de IA, demostrando que cogía datos de Reddit sin permiso a través de Google. Esta técnica de detección se llama mountweazel y lleva décadas usándose para pillar plagios: consiste en meter información falsa y esperar a ver quién la copia.
Según se recoge en Futurism, Reddit presentó el miércoles una demanda contra Perplexity y otras tres empresas: SerpApi, Oxylabs y AWMProxy. Las acusa de robar datos de la plataforma sin pagar por ellos. Los abogados de Reddit argumentan que Perplexity coge contenido desde los resultados de Google, lo mete en su IA y lo vende como un producto nuevo.
Perplexity compraba datos para esquivar la prohibición de Reddit

Snoo, la mascota de Reddit
Reddit ya había pillado antes a Perplexity rastreando sus publicaciones directamente y le envió una orden de cese y desistimiento. Perplexity dejó de rastrear pero empezó a comprar los mismos datos de las otras tres empresas demandadas: SerpApi, Oxylabs y AWMProxy. Estas compañías se dedican a rastrear resultados de búsqueda de Google para vender servicios de SEO, pero ahora también venden esos datos a empresas de IA.
La demanda señala un dato clave: las citas a contenido de Reddit en Perplexity se multiplicaron por cuarenta después de que empezara a comprar datos de estas empresas. Para Reddit, esto demuestra que Perplexity encontró otra vía para seguir usando su contenido sin pagar. AWMProxy, la empresa rusa incluida en la demanda, está vinculada además a una botnet de malware llamada Glupteba.
Antes del boom de la IA, estas empresas rastreaban webs y vendían servicios de optimización de búsquedas. El modelo funcionaba porque dirigían tráfico de vuelta a las webs que proporcionaban los datos. Ahora venden esos datos a compañías de IA cuyos chatbots no envían apenas visitas a los sitios originales. Reddit considera que esto rompe el equilibrio y por eso demanda.
Reddit tampoco regala nada. La plataforma vende licencias de sus datos a empresas de IA y espera ingresar más de 200 millones de dólares en los próximos años. Su argumento es que vende acceso legal mientras Perplexity lo cogía gratis a través de intermediarios. Entrenar modelos como ChatGPT requiere cantidades enormes de datos, muchos protegidos por derechos de autor, y las empresas de IA llevan años accediendo a ellos sin pagar.
Perplexity lleva meses intentando expandirse. Firefox la integró como buscador en sus versiones de escritorio y la compañía también intentó comprar navegadores como Brave, ofreciendo 1.000 millones de dólares, aunque no llegó a cerrar ningún acuerdo. Mientras negociaba estas compras, seguía usando datos de Reddit sin licencia a través de las empresas que ahora están siendo demandadas junto a ella.
La trampa del contenido falso demuestra que Perplexity no respetó la prohibición de Reddit. Ahora tendrá que defenderse en los tribunales de haber montado un sistema para seguir accediendo a datos ajenos sin pagar por ellos. La técnica del mountweazel sigue funcionando décadas después: Reddit metió información falsa, Perplexity la reprodujo y eso basta para demostrar el robo de contenido.