Wikipedia sella alianza con Kaggle para facilitar el acceso a datos estructurados para IA

La Fundación Wikimedia lanza un conjunto de datos optimizado para aprendizaje automático, buscando reducir la carga en sus servidores y fomentar el desarrollo responsable de inteligencia artificial.

La Fundación Wikimedia ha anunciado una colaboración con Kaggle, la plataforma de ciencia de datos propiedad de Google, para publicar un conjunto de datos estructurado de Wikipedia diseñado específicamente para aplicaciones de aprendizaje automático.

Esta iniciativa tiene como objetivo proporcionar a los desarrolladores de inteligencia artificial un acceso más eficiente y ético a los contenidos de Wikipedia, evitando la práctica común de extraer datos directamente del sitio web, lo que ha generado una carga significativa en sus servidores.

El conjunto de datos, disponible en inglés y francés, incluye resúmenes de investigación, descripciones breves, enlaces a imágenes, datos de infobox y secciones de artículos, excluyendo referencias y elementos no textuales como archivos de audio.

Según la Fundación Wikimedia, este formato estructurado en JSON está «diseñado pensando en los flujos de trabajo de aprendizaje automático», facilitando tareas como modelado, ajuste fino, evaluación comparativa, alineación y análisis.

Brenda Flynn, líder de asociaciones de Kaggle, expresó: «Como el lugar al que acude la comunidad de aprendizaje automático en busca de herramientas y pruebas, Kaggle está extremadamente emocionado de ser el anfitrión de los datos de la Fundación Wikimedia. En Kaggle están emocionado de desempeñar un papel para mantener esos datos accesibles, disponibles y útiles».

Esta colaboración busca no solo aliviar la presión sobre los servidores de Wikipedia causada por bots automatizados que consumen ancho de banda, sino también democratizar el acceso a datos de alta calidad para desarrolladores y científicos de datos independientes.

Aunque Wikimedia ya tiene acuerdos de compartición de contenido con entidades como Google y el Internet Archive, la asociación con Kaggle pretende hacer que estos datos sean más accesibles para empresas más pequeñas y profesionales individuales.

El conjunto de datos se encuentra en fase beta desde el 15 de abril y está disponible para la comunidad a través de la plataforma de Kaggle. Esta iniciativa representa un paso significativo hacia la promoción de prácticas más sostenibles y responsables en el desarrollo de tecnologías de inteligencia artificial, proporcionando recursos valiosos sin comprometer la integridad y el rendimiento de plataformas fundamentales como Wikipedia.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com