Reddit, Yahoo y Quora lanzan Real Simple Licensing para licenciar datos masivos para IA

Real Simple Licensing: un protocolo para la era de la IA
En respuesta a los crecientes litigios por derechos de autor que enfrenta la industria de inteligencia artificial, un grupo de tecnólogos y editores web ha lanzado Real Simple Licensing (RSL), una infraestructura diseñada para licenciar datos de entrenamiento a gran escala. Esta [iniciativa](https://techcrunch.com/2025/09/10/rss-co-creator-launches-new-protocol-for-ai-data-licensing/) cuenta con el respaldo de importantes plataformas, incluyendo Reddit, Yahoo y Quora, que apoyan el estándar o forman parte de la estructura colectiva.
RSL introduce un protocolo técnico que permite a los editores web establecer términos específicos para el uso de sus contenidos en entrenamientos de IA. Las condiciones se codifican dentro del archivo "robots.txt" de cada sitio web, facilitando la identificación y categorización automática de qué datos están cubiertos bajo qué licencias, ya sean acuerdos personalizados o licencias tipo Creative Commons.
Licencias colectivas y modelo operativo similar a la industria musical
En el plano legal, RSL creó el RSL Collective, una sociedad de gestión colectiva que negocia contratos de licencia y administra la recaudación y distribución de regalías, similar a organizaciones como ASCAP o MPLC en el sector musical y audiovisual. Esto ofrece a los titulares de derechos un punto de contacto unificado para negociar con múltiples usuarios de datos y simplifica la gestión administrativa.
Actualmente, integrantes del colectivo incluyen a Yahoo, Reddit, Medium, O’Reilly Media, Ziff Davis, Internet Brands, People Inc. y The Daily Beast. Otros actores relevantes como Fastly, Quora y Adweek respaldan el protocolo sin integrarse al colectivo directamente.
Reddit, una de las plataformas pioneras en discuciones sobre licencias de datos para IA, [tiene contratos activos](https://www.reuters.com/technology/reddit-ai-content-licensing-deal-with-google-sources-say-2024-02-22/) que le generan hasta 60 millones de dólares anuales provenientes del uso de su contenido para entrenar motores de búsqueda y sistemas de IA. RSL busca facilitar que sitios más pequeños puedan participar y recibir remuneración justa mediante contratos colectivos.
Retos técnicos y aceptación en la industria de IA
Uno de los principales desafíos para implementar RSL es la trazabilidad del uso del contenido en entrenamientos de modelos de lenguaje a gran escala, que no registran en detalle qué datos específicos han sido usados. Esto dificulta el cálculo exacto de regalías cuando se pactan modelos de pago por consulta o inferencia. Sin embargo, los responsables del proyecto consideran que los sistemas de informes que ya utilizan algunos acuerdos de licencia demuestran que el seguimiento es viable en la práctica, aunque no sea perfecto.
La adopción del sistema dependerá de que los laboratorios y empresas de IA estén dispuestos a abandonar la práctica común de usar datos públicos sin licencia explícita. Aunque proveedores destacados como ScaleAI y Mercor ya pagan por datos estructurados, la mayoría de modelos aún dependen de grandes corpus abiertos o scrapeados sin remuneración. Algunos líderes de IA, como Sundar Pichai, han expresado públicamente la necesidad de desarrollar protocolos para licencias de datos, lo que podría impulsar el diálogo hacia un sistema formal como RSL.
Este esfuerzo llega en un momento crítico, tras el acuerdo judicial multimillonario de Anthropic por uso no autorizado de obras protegidas y la proliferación de al menos 40 demandas similares contra diversas empresas de inteligencia artificial, incluido el caso de Midjourney por imágenes con personajes con copyright.