Harvard y Google liberarán un millón de libros de dominio público para entrenar sistemas de IA

La Universidad de Harvard, en colaboración con Google, ha anunciado un ambicioso proyecto para poner a disposición pública aproximadamente un millón de libros de dominio público que servirán como conjunto de datos para el entrenamiento de sistemas de inteligencia artificial (IA).

Un proyecto para democratizar el acceso a datos de entrenamiento

La iniciativa, que forma parte del nuevo Proyecto de Datos Institucionales (IDI), busca "nivelar el campo de juego" en el desarrollo de sistemas de IA, según informa TechCrunch. El proyecto permitirá que tanto laboratorios de investigación como startups de IA tengan acceso a una vasta colección de textos para entrenar sus modelos de lenguaje grande (LLMs).

Una biblioteca digital sin precedentes

El conjunto de datos incluirá obras de reconocidos autores como Dickens, Dante y Shakespeare, abarcando diversos géneros y lenguas. Todos los libros incluidos en la colección son obras que ya no están protegidas por derechos de autor debido a su antigüedad, lo que permite su libre distribución y uso.

Respaldo institucional de peso

El proyecto cuenta con el apoyo financiero de dos gigantes tecnológicos: Microsoft y OpenAI. La colaboración entre estas empresas y la Universidad de Harvard demuestra el interés del sector privado en democratizar el acceso a recursos para el desarrollo de IA.

La base: Google Books

Los textos que conformarán este conjunto de datos provienen del proyecto Google Books, una iniciativa de digitalización de libros que Google ha desarrollado durante años. Esta colaboración aprovecha la extensa biblioteca digital ya existente para crear un recurso específicamente diseñado para el entrenamiento de IA.

Objetivos y alcance

Greg Leppert, director ejecutivo del IDI, ha destacado que el principal objetivo es hacer que estos valiosos recursos sean accesibles para cualquier organización interesada en desarrollar modelos de lenguaje, independientemente de su tamaño o recursos económicos.

Estado actual y próximos pasos

Aunque el anuncio marca un hito importante, el dataset aún no está disponible para su uso. La fecha exacta de lanzamiento y los detalles sobre cómo se distribuirá están pendientes de ser anunciados. Sin embargo, se ha confirmado que Google participará activamente en la distribución de este "tesoro" de información.

Impacto en el desarrollo de IA

Esta iniciativa surge en un momento crucial para el desarrollo de la IA, donde el acceso a datos de entrenamiento de calidad se ha convertido en un factor diferencial entre las grandes empresas tecnológicas y las organizaciones más pequeñas. El proyecto busca eliminar esta barrera, permitiendo un desarrollo más equitativo de la tecnología de IA.

La colaboración entre Harvard y Google representa un paso significativo hacia la democratización del acceso a datos de entrenamiento para IA, lo que podría acelerar la innovación en este campo y permitir el surgimiento de nuevas voces y perspectivas en el desarrollo de sistemas de inteligencia artificial.

Un proyecto para democratizar el acceso a datos de entrenamiento

Una biblioteca digital sin precedentes

Respaldo institucional de peso

La base: Google Books

Objetivos y alcance

Estado actual y próximos pasos

Impacto en el desarrollo de IA

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Harvard y Google liberarán un millón de libros de dominio público para entrenar sistemas de IA

Un proyecto para democratizar el acceso a datos de entrenamiento

Una biblioteca digital sin precedentes

Respaldo institucional de peso

La base: Google Books

Objetivos y alcance

Estado actual y próximos pasos

Impacto en el desarrollo de IA

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras