“Actualmente, no existen sistemas que permitan preservar de manera fiable los documentos digitales"
A todos nos ha pasado alguna vez: Cuando intentamos regresar a aquella página web que desarrolla la idea que necesitamos para nuestro informe, que tiene la receta para nuestra cena o el gráfico que nos ayudará a hacer nuestra tarea, nos topamos con una amarga realidad: la página dejó de existir. Y con ella se fue la información que tanto trabajo nos costó encontrar. Felizmente, para contrarrestar estas pérdidas, existen iniciativas destinadas a archivar esta data para que pueda ser revisada por las próximas generaciones. Al respecto, conversamos con el experto Ciro Llueca, quien estuvo en nuestro campus para dictar la conferencia «Preservación digital en una realidad obsolescente», invitado por la Especialidad de Ciencias de la Información.
-
Ciro Llueca
Coordinador del proyecto Patrimonio Digital de Cataluña (PADICAT) de la Biblioteca de Cataluña.
Texto:
Luis YáñezFotografía:
Felix Ingaruca
Como usuarios, solemos confiar en que la información alojada en una página web estará allí para siempre…
Esa es una idea errada. En una entrevista reciente, la responsable de preservación de la Biblioteca Nacional del Reino Unido indicó que el tiempo de vida promedio de una página web es de 45 días. Por supuesto, hay páginas que duran mucho más tiempo así como hay otras que reemplazan el material antiguo por uno nuevo constantemente.
Imaginémonos que la mitad de las referencias bibliográficas de una tesis doctoral sean enlaces URL que le dan contexto a ese documento. Sabemos, por estudios realizados en la Biblioteca de Investigación del Laboratorio Nacional de Los Álamos (EE.UU.), que hasta el 60% de los links activos hoy no van a funcionar en cinco años, bien porque ha cambiado el servidor que alojaba ese documento o por otras razones técnicas. Si uno corta este contexto, la tesis quedaría huérfana o coja. Ese es el riesgo que se corre actualmente.
¿Qué información califica como “patrimonio digital” y qué no?
Cuando hablamos de patrimonio digital, nos referimos a documentos que han nacido digitalmente, como un documento de Word o la página web de PuntoEdu. No están incluidas las fotografías o tesis doctorales elaboradas hace 10 años y que han sido posteriormente escaneadas y digitalizadas, por ejemplo. Ahora bien, ¿quién va a decir si en un futuro es más importante la página web de una multinacional o el blog de un señor que habla sobre avistamiento de ovnis? Eso dependerá de la estrategia de preservación digital que marque cada institución.
¿Cómo nació el proyecto Patrimonio Digital de Cataluña (PADICAT)?
Nació bebiendo de otras experiencias. En 1996, la Biblioteca Nacional de Suecia y la Biblioteca Nacional de Australia llevaron a cabo proyectos en paralelo que perseguían crear archivos de páginas web. En 1999, la Biblioteca de Cataluña inició los contactos con la biblioteca sueca para intentar copiar a pequeña escala un proyecto como ese. Pero por problemas presupuestarios no se llevó a cabo hasta el 2005.
¿Cómo determinaron qué páginas iban a archivar?
En primer lugar, identificamos las páginas web que habían sido creadas bajo el dominio .ca (que se utiliza en Cataluña), seleccionamos las que pertenecían a las 100 empresas que estaban en los rankings económicos de cada sector y nos contactamos con sus representantes. Entendíamos que la producción que se llevaba a cabo en su página web corporativa y en sus revistas digitales era importante.
Posteriormente, seleccionamos una serie de instituciones que consideramos como agentes productores de patrimonio digital: municipalidades, partidos políticos, sindicatos, colegios profesionales, museos, revistas, etc. En momentos claves para la sociedad catalana –como las elecciones- capturamos las páginas web de las municipalidades, los candidatos y los blogs de personas “anónimas” que alcanzaron popularidad durante el proceso.
¿Cuál fue la primera reacción que generó este proyecto?
Incomprensión (risas). A mí me tocó la parte comercial del proyecto PADICAT y tuve que visitar a multinacionales españolas para pedirles autorización para capturar sus páginas web. Cuando les explicaba qué quería hacer y con qué fin, los ejecutivos de las empresas no me entendían. Pero como sabían que representaba a una institución pública, al final terminaron venciendo sus resistencias.
¿Cuando hablamos de “captura”, a qué nos estamos refiriendo?
La captura es la descarga de todos los ficheros que estén en el servidor informático de la página web (fotos, videos, texto, etc.) y que se encuentre en acceso abierto (no vulneramos contraseñas ni intranets). Este trabajo lo lleva a cabo un programa automatizado (bot informático), supervisado por personal que evalúa si lo capturado tiene consistencia en el fondo y la forma de la web en cuestión, de tal manera que después de procesar e indexar la información, se pueda volver a montar tal como fue concebida.
¿Con qué frecuencia realizan estas capturas?
Antes, cuando queríamos guardar la versión impresa de un semanario, archivábamos 52 ejemplares al año y los teníamos todos. Pero en una versión digital no ocurre lo mismo, hay cambios más frecuentes, prácticamente a cada hora. Es imposible capturar todo lo que una página web produce, por lo que hacemos una selección. En el caso de las municipalidades, hacemos una captura dos veces al año y si estamos en un año electoral, guardamos antes y después del proceso electoral. Así tenemos una fotografía de lo que se ha ido publicando a lo largo del año. En el caso de los medios digitales, hacemos una captura diaria a tres niveles (portada y dos links internos de la página).
Con la tecnología actual -que se vuelve obsoleta en poco tiempo- ¿qué medidas se toman para permitir la accesibilidad de la información en el futuro?
Actualmente, no existen sistemas que permitan preservar de manera larga y fiable los documentos digitales. Lo que se hace es combinar estrategias contrastadas con otras actividades experimentales. Las más conocidas son la actualización de soportes (cambiar un antiguo cedé por un nuevo disco o por la nube) y la migración de formatos (trasladar una entrevista de Word 2007 a Word 2013, por ejemplo).
¿Implementar este tipo de sistemas es costoso?
Todos los procesos de preservación digital requieren de presupuesto permanente para cambiar soportes y formatos. Pero este es un tema más cultural que económico. Los directivos de una organización tienen que reconocer la importancia de seguir este tipo de directrices para asegurar la preservación de sus documentos.
Sobre todo porque las ventajas se verán a largo plazo…
El documento más antiguo que tenemos en la Biblioteca de Cataluña es del año 1250 aproximadamente. Es un sermonario, un libro que se empleaba para seguir la liturgia durante la misa. Cuando se publicó, había muchísimos sermonarios iguales, en ese momento nadie hubiera pensado que era un patrimonio y hoy es nuestro mayor tesoro bibliográfico. Lo mismo va a pasar con las páginas web: hasta que no las echemos en falta, no les vamos a dar valor.
El Perfil
Nombre: Ciro Llueca
Deja un comentario