La organización de investigación en IA EleutherAI ha anunciado la publicación de "The Common Pile v0.1", un monumental conjunto de datos de 8 terabytes compuesto exclusivamente por texto con licencia y de dominio público. Este lanzamiento, fruto de dos años de trabajo colaborativo, busca ofrecer una alternativa transparente y legalmente sólida para el entrenamiento de modelos de inteligencia artificial, en un momento en que la industria se enfrenta a crecientes litigios por el uso de material protegido por derechos de autor. Además, EleutherAI ha presentado dos nuevos modelos de IA, entrenados con este dataset, que, según afirman, compiten en rendimiento con aquellos desarrollados utilizando datos no licenciados.
La noticia, difundida por TechCrunch el 6 de junio de 2025, marca un hito importante para la comunidad de investigación en IA que busca desarrollar tecnologías potentes de manera ética y abierta.
Un Nuevo Horizonte para el Entrenamiento de IA Ética y Transparente
"The Common Pile v0.1" es el resultado de un esfuerzo considerable que ha llevado aproximadamente dos años en completarse. EleutherAI ha trabajado en estrecha colaboración con destacadas startups de IA como Poolside y Hugging Face, así como con diversas instituciones académicas, para compilar esta vasta colección de datos. Con un peso de 8 terabytes, se posiciona como una de las mayores colecciones de texto con licencia y de dominio público disponibles para el entrenamiento de modelos de IA, según la propia organización.
Para asegurar la integridad y legalidad del conjunto de datos, EleutherAI consultó con expertos legales durante su creación. Las fuentes de "The Common Pile v0.1" son diversas y cuidadosamente seleccionadas. Incluyen, por ejemplo, alrededor de 300.000 libros de dominio público que han sido digitalizados por instituciones de renombre como la Biblioteca del Congreso de Estados Unidos y el Internet Archive. Además, para incorporar contenido de audio, EleutherAI utilizó Whisper, el modelo de código abierto de conversión de voz a texto de OpenAI, para transcribir material de dominio público o con licencias permisivas.
Este valioso recurso ya está disponible para la comunidad investigadora y desarrolladora, pudiendo descargarse desde la plataforma de desarrollo de IA de Hugging Face y también a través de GitHub, fomentando así su uso y estudio.
El Debate del Copyright y la Necesidad de Transparencia en la IA
El lanzamiento de "The Common Pile v0.1" se produce en un contexto particularmente sensible para la industria de la inteligencia artificial. Grandes compañías del sector, incluida OpenAI, se encuentran actualmente envueltas en demandas judiciales debido a sus prácticas de entrenamiento de modelos. Estas prácticas, a menudo, implican el "raspado" (scraping) masivo de contenido de internet, incluyendo material protegido por derechos de autor como libros, artículos de investigación y obras artísticas, sin obtener licencias explícitas.
Si bien algunas empresas de IA han comenzado a establecer acuerdos de licencia con ciertos proveedores de contenido, la mayoría argumenta que la doctrina legal estadounidense del "uso justo" (fair use) las ampara de responsabilidad cuando entrenan sus modelos con obras protegidas sin permiso. Esta situación ha generado una considerable incertidumbre legal y un intenso debate ético.
EleutherAI sostiene que estas disputas legales, lejos de frenar el uso de datos no licenciados, han tenido un efecto perjudicial en la transparencia de las empresas de IA. Según Stella Biderman, directora ejecutiva de EleutherAI, esta opacidad dificulta la comprensión del funcionamiento interno de los modelos, sus posibles sesgos y sus limitaciones, lo que a su vez obstaculiza el avance de la investigación en el campo.
"[Las demandas por derechos de autor] no han cambiado significativamente las prácticas de obtención de datos en el entrenamiento [de modelos], pero han disminuido drásticamente la transparencia con la que operan las empresas", escribió Biderman en una entrada de blog en Hugging Face el viernes por la mañana, según informa TechCrunch. "Investigadores de algunas empresas con las que hemos hablado también han citado específicamente las demandas como la razón por la que no han podido publicar la investigación que están realizando en áreas muy centradas en los datos".
Comma v0.1: Modelos Competitivos Entrenados con Datos Abiertos
Para demostrar la viabilidad y la potencia de su nuevo conjunto de datos, EleutherAI no solo ha publicado "The Common Pile v0.1", sino que también ha presentado dos modelos de inteligencia artificial entrenados con él: Comma v0.1-1T y Comma v0.1-2T.
Ambos modelos cuentan con 7 mil millones de parámetros. Los parámetros, a veces denominados pesos, son los componentes internos de un modelo de IA que ajustan durante el entrenamiento y que, en última instancia, guían su comportamiento y la generación de respuestas. Es importante destacar que estos modelos fueron entrenados utilizando solo una fracción del total de 8 terabytes que componen "The Common Pile v0.1".
A pesar de ello, EleutherAI afirma que los modelos Comma v0.1-1T y Comma v0.1-2T ofrecen un rendimiento comparable al de modelos desarrollados con datos no licenciados y protegidos por derechos de autor. Según la organización, estos modelos rivalizan con sistemas tan conocidos como el primer modelo Llama AI de Meta en diversas pruebas de referencia (benchmarks) que miden capacidades en codificación, comprensión de imágenes y razonamiento matemático.
Esta afirmación es fundamental para el argumento de EleutherAI: que es posible construir modelos de IA de alta calidad sin recurrir a prácticas de recopilación de datos legalmente cuestionables. "En general, pensamos que la idea común de que el texto no licenciado impulsa el rendimiento no está justificada", escribió Biderman en su publicación, citada por TechCrunch. "A medida que crezca la cantidad de datos de dominio público y con licencia abierta accesibles, podemos esperar que mejore la calidad de los modelos entrenados con contenido con licencia abierta".
Aprendiendo del Pasado y Mirando al Futuro
La publicación de "The Common Pile v0.1" también parece ser un movimiento de EleutherAI para abordar y, en cierto modo, rectificar su propia historia. Hace años, la organización lanzó "The Pile", una colección abierta de texto para entrenamiento que, a diferencia de su nueva propuesta, sí incluía material protegido por derechos de autor. "The Pile" fue ampliamente utilizado por diversas empresas de IA para entrenar sus modelos, lo que posteriormente generó críticas y presiones legales sobre dichas compañías. Con "The Common Pile v0.1", EleutherAI marca una clara distinción y un compromiso con prácticas de datos más éticas y legalmente sólidas.
Mirando hacia adelante, EleutherAI ha manifestado su intención de continuar por este camino, comprometiéndose a publicar conjuntos de datos abiertos con mayor frecuencia. Este esfuerzo se realizará en colaboración continua con sus socios de investigación e infraestructura.
Este lanzamiento representa un paso significativo hacia un ecosistema de desarrollo de IA más abierto, transparente y respetuoso con los derechos de autor. Al proporcionar una alternativa viable y de alta calidad a los conjuntos de datos controvertidos, EleutherAI no solo ofrece una herramienta valiosa a la comunidad, sino que también contribuye activamente al debate sobre cómo debe ser el futuro de la inteligencia artificial. La disponibilidad de "The Common Pile v0.1" y los modelos "Comma" podría incentivar a más investigadores y empresas a explorar el potencial de los datos licenciados y de dominio público, fomentando la innovación responsable en este campo en rápida evolución.






