El proyecto comenzó con la recopilación de datos de cerca de un millón de libros de dominio público y parte de Google Books.
Los autores de la IDI informaron que, luego de completar la estructuración y análisis del corpus, con el apoyo de Google, los libros estarán a disposición del público en línea.
En un contexto donde las compañías privadas dominan el desarrollo de la IA, la IDI tiene un concepto diferente. Para sus creadores, la IA construida en base a datos públicos debe ser un bien público.
Acceso gratuito: más de un millón de libros en línea gracias a Harvard y Google
Agregan que “la IDI se dedica a apoyar a nuestros colegas en su tarea de administrar el conocimiento y buscar brindar el acceso más amplio a él en la era de la IA, tal como lo han hecho con tantos medios a lo largo de los siglos y a lo largo de las revoluciones tecnológicas que los han acompañado”.
Científicos de datos y creadores de comunidades trabajan en la IDI que nació en el Laboratorio de Innovación de Bibliotecas de Harvard. Afirman que colaboran con otras instituciones, como bibliotecas, universidades, grupos culturales y agencias gubernamentales, para analizar y publicar sus colecciones.
En concreto, explican, “nuestras actividades iniciales incluyen refinar una colección de casi un millón de libros de dominio público y una colaboración con la Biblioteca Pública de Boston para poner a disposición millones de páginas de periódicos difíciles de encontrar”.
Explican que “las instituciones administran vastas y únicas colecciones de conocimiento, pero gran parte de ellas aún esperan que se haga accesible. Con las capacidades emergentes de la IA, creemos que se puede lograr un progreso significativo en hacer que esta información sea accesible, incluso para el acceso tradicional de los usuarios”.
Este tipo de trabajo colaborativo es una oportunidad para que las “comunidades de conocimiento” aprovechen al máximo su profunda experiencia en áreas a las que la comunidad de IA a veces recién llega. Para la comunidad de IA, incluidos aquellos que trabajan en modelos de código abierto, aumentar el acceso a estas colecciones tiene enormes beneficios.
La IDI cuenta con el apoyo de Microsoft y OpenAI y espera reunir a más patrocinadores. En tanto, habrá que esperar algún tiempo hasta que el millón de libros esté disponible en internet.