Reddit lleva a los tribunales a SerpApi, Perplexity y otras tres por robo de datos

La red social acusa a start-ups de usar “scrapers” para vender su contenido a compañías de inteligencia artificial. Busca frenar una industria que, dice, lucra con datos humanos sin pagar por ellos.

En un nuevo capítulo de la guerra entre plataformas digitales y la industria de la inteligencia artificial, Reddit demandó a cuatro empresas tecnológicas por el uso no autorizado de su contenido. La red social, con más de 416 millones de usuarios semanales, presentó la demanda ante el Tribunal Federal del Distrito Sur de Nueva York, acusando a SerpApiOxylabsAWMProxy y Perplexity AI de “extraer masivamente” información de sus foros para revenderla a compañías que entrenan chatbots como ChatGPT o Gemini.

Según la denuncia, las tres primeras compañías —de Estados Unidos, Lituania y Rusia— se dedican a vender datos obtenidos al raspar los resultados de Google, mientras que Perplexity, una start-up con sede en San Francisco, los habría comprado para alimentar su motor de búsqueda impulsado por IA. Reddit asegura que esta práctica, conocida como scraping, constituye un “robo sistemático de contenido generado por humanos”.

“Las empresas de inteligencia artificial compiten ferozmente por contenido humano de calidad, y esa presión ha impulsado una economía de ‘lavado de datos’ a escala industrial”, explicó Ben Lee, director jurídico de Reddit. “Los scrapers eluden las protecciones tecnológicas para robar datos y venderlos a clientes sedientos de material de entrenamiento”, agregó.

La compañía solicita una orden judicial permanente que prohíba el uso y la venta de cualquier dato de Reddit obtenido de forma ilegal, además de indemnizaciones económicas cuyo monto no fue especificado. Documentos de la causa detallan que la red social invirtió decenas de millones de dólares en sistemas anti-scraping durante los últimos años.

Desde Perplexity respondieron que no habían recibido la demanda, pero defendieron su accionar. “Nuestro enfoque sigue siendo responsable y basado en principios. Ofrecemos respuestas precisas con inteligencia artificial y no toleraremos amenazas contra la apertura y el interés público”, expresó la compañía en un comunicado. Su CEO, Aravind Srinivas, fue visto meses atrás en el escenario de Bloomberg Tech defendiendo el rol de los buscadores de nueva generación.

El scraping no es una práctica nueva. En los inicios de la web, Google construyó su imperio indexando páginas mediante robots, ofreciendo un servicio que beneficiaba tanto a usuarios como a editores. Pero ahora, con la explosión de los modelos de lenguaje e IA generativa, la relación —dice el sector editorial— se volvió parasitaria. “Ya no hay una vía clara de monetización para los creadores”, advirtió Doug Leeds, cofundador de Really Simple Licensing, una organización que busca compensaciones justas para autores y medios.

Con la expansión de los chatbots, los datos humanos se convirtieron en un activo estratégico. En 2023, Reddit comenzó a cobrar por el acceso a su base de datos, firmando acuerdos con Google y OpenAI valuados en millones de dólares. Pero otras firmas, según la denuncia, prefirieron la vía clandestina. Reddit afirma haber preparado una trampa: un post de prueba visible solo para el motor de Google. A las pocas horas, ese contenido apareció en los resultados de búsqueda de Perplexity.

Un portavoz de GoogleJosé Castaneda, sostuvo que la compañía siempre respetó las normas de exclusión definidas por los sitios web mediante robots.txt, aunque admitió que “existen scrapers furtivos que no lo hacen”.

El caso podría volverse emblemático para una industria que todavía busca el equilibrio entre innovación y derechos sobre los datos. Reddit ya había demandado en junio a Anthropic, otro jugador importante del sector, por razones similares. En su nuevo frente legal, prometió seguir “protegiendo la integridad y el valor de su contenido” frente a quienes consideran que el entrenamiento de la IA no debería ser libre ni gratuito.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com