Se han descargado 460 millones de archivos
L.M.A.
-15 de julio de 2016- Este mes de julio, la Biblioteca Nacional de
España ha terminado la primera recolección web del dominio .es que lleva a cabo
con recursos técnicos propios. A lo largo de tres meses el software de
recolección automática ha recorrido 1.800.000 dominios, se han descargado 460
millones de archivos y ha dado como resultado una colección de unos 20 TB. Al
tratarse de una recolección masiva, se ha fijado un límite de captura de 100 MB
por dominio, lo que ha permitido la recolección completa de aproximadamente el
87% de los dominios activos.
La finalidad de un archivo web es la preservación y difusión de estos
recursos “nacidos digitales” para que puedan servir como herramienta de
conocimiento para generaciones presentes y futuras.
Junto a esta recolección masiva, la BNE lleva a cabo recolecciones
selectivas, temáticas o de evento, que se configuran con una profundidad mayor
y tienen como objetivo guardar de forma exhaustiva los recursos seleccionados.
Desde 2014 se han lanzado recolecciones selectivas a propósito de
acontecimientos de trascendencia social y política, como la muerte de Adolfo
Suárez, la abdicación de Juan Carlos I y proclamación de Felipe VI o las
elecciones europeas, autonómicas, locales y generales. Sobre estas últimas está
en marcha una recolección que comenzó a principios de diciembre de 2015, que
aún no ha terminado y en la que han colaborado activamente los centros de conservación
de las CC.AA., con los que la BNE trabaja conjuntamente en el marco del Consejo
de Cooperación Bibliotecaria.
Desde diciembre del pasado año la Biblioteca Nacional lleva almacenados
algo más de 16 TB de información y 180 millones de archivos en recolecciones
selectivas, entre las que destacan la relativa a las Elecciones Generales
2015-16 con unos 10,5 TB y la de Prensa y Medios de comunicación con unos 3 TB,
que se lanza a diario desde enero de 2015.
Uno de los colaboradores fundamentales en este proyecto ha sido la
entidad pública empresarial Red.es, con la que la Biblioteca firmó en octubre
de 2015 un segundo convenio para la gestión y preservación digital de los
fondos de la BNE y sin cuya financiación y apoyo lo logrado hasta ahora no
habría sido posible. Esta financiación ha contado con el apoyo del Programa
Operativo FEDER para la Economía del Conocimiento.
La gestión de los dominios “.es” se lleva a cabo también desde Red.es,
que pertenece al Ministerio de Industria, Energía y Turismo. El “.es” aporta
dos características diferenciadoras a las páginas web bajo este indicativo: su
carácter de proximidad y de identidad.
Con Internet Archive la Biblioteca llevó a cabo ocho recolecciones
masivas del dominio .es desde finales de 2009 hasta 2013 y, gracias a la
colaboración entre los miembros del IIPC y en particular la Biblioteca Nacional
de Francia, la BNE apostó en 2014 por NetarchiveSuite, un paquete de software
de código abierto utilizado también por las bibliotecas nacionales de
Dinamarca, Francia y Austria, para llevar a cabo las recolecciones web.
Todos estos trabajos se desarrollan bajo el mandato legal del Real
Decreto 635/2015, de 10 de julio, por el que se regula el depósito legal de las
publicaciones en línea, que entró en vigor el 26 de octubre de 2015.
Los retos que aún tiene por delante la Biblioteca Nacional de España
en este campo son muchos: la normalización del depósito de las publicaciones en
línea no recuperables por medios automáticos, la descripción/catalogación de
las publicaciones, el acceso de los usuarios a través de un sistema que
garantice la protección de la propiedad intelectual... En todos estos aspectos
se trabaja intensamente, pero esta primera recolección masiva supone un hito de
especial significado en el camino de la preservación del patrimonio documental
en línea.
No hay comentarios:
Publicar un comentario