Post on 14-Jun-2015
description
transcript
Mar Pérez Morillo – Jefe del Servicio de Coordinación WebIcíar Muguerza López – Servicio de Coordinación Web
Cita en la BNE / Salón de Actos / 8 de Junio de 2011
PATRIMONIO DEL FUTURO Y FUTURO DEL PATRIMONIO
Biblioteca Nacional de España
ÍNDICE1. INTRODUCCIÓN:
La importancia del medioCaracterísticas de la web¿Por qué archivar la web? El Patrimonio DigitalLa misión del bibliotecario ante los “nacidos digitales”
2. INICIATIVAS MUNDIALESProyectos internacionales: Internet Archive, IIPC, Minerva, Pandora, BnF, British LibraryProyectos nacionales: PADICAT, ONDARENET
3. ASPECTOS TÉCNICOS• ¿Cómo se archiva Internet? Recolección masiva/selectiva/híbrida• Nociones esenciales: herramientas y formato de archivo WARC
4. EL PROYECTO DE LA BNEMarco legalEl Internet Archive y el archivo web de la BNEEstado actual: tamaño de la colección, contenido y formato. Hosting. Análisis de la colecciónNuevo contrato y recolecciones futurasUso de la colecciónCooperación con especialistas y otras instituciones
5. CUESTIONES A DEBATE
Archivo de la web española
Biblioteca Nacional de España
Ruptura y continuidadRuptura y continuidad
Archivo de la Web española
Biblioteca Nacional de España
Afán de permanencia sufre la amenaza de lo
efímero
Hoy los bytes → rivales del papel
Internet → fruto del progreso acumulativo del saber
humano
El medio condiciona
El uso de internet condiciona la producción cultural
Ruptura y continuidadRuptura y continuidad
Biblioteca Nacional de EspañaArchivo de la Web española
Grande → casi inabarcable
Global → límites borrosos
Rápida → contenidos efímeros, cambiantes
Intangible → archivos virtuales
Universal
Puzzle
Características de la web
Biblioteca Nacional de España
¿Cuánto contenido hay en la web? Cruzando la frontera de los ZB…
¿Cuánto contenido hay en la web? Cruzando la frontera de los ZB…
1 B = 1 carácter
10 KB = 1 página escrita
500 MB = 1 CD-ROM
1 GB = 1 película
10 TB = toda la colección impresa de la LoC
200 PB = todo el material impreso en la Historia
5 EB = todas las palabras pronunciadas por el hombre
1 ZB = todo el universo digital
Archivo de la Web española
Biblioteca Nacional de España
– Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003)
– Recomendación de la Comisión Europea (24 de agosto de 2006) sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital
– Orden CUL/1014/2007, de 30 de marzo, por la que se constituye la Comisión Española sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital
Archivo de la web española
¿Por qué archivar la web?
Biblioteca Nacional de España
La misión del bibliotecario
El rol del bibliotecario descansaba sobre algunas certidumbres del mundo impreso…
Archivo de la Web española
Hasta que el advenimiento de los documentos “nacidos digitales” nos hace replantearnos muchas de esas certidumbres
Biblioteca Nacional de EspañaArchivo de la Web española
Primeros proyectos: Internet Archive
Biblioteca Nacional de España
400.000500.000950.000
2.700.000150.000.000.000
Horas de televisiónImágenes en movim.Grabaciones sonorasLibrosPáginas web
Archivo de la Web española
Desde 1996
Biblioteca Nacional de España
Institución pionera en este campo
Archiva la web desde 1996
Objetivo principal: construir biblioteca de internetaccesible y permanente
Recolecta para distintas instituciones:
– BN de Australia
– LoC
– BNE…
Desde 2001 da acceso público a sus colecciones (Wayback Machine)
Miembro fundador del IIPC: posición de liderazgo
Internet Archive
Biblioteca Nacional de EspañaArchivo de la Web española
LAS DISTINTAS VERSIONES DE LA WEB DE LA BNE EN LA WAYBACK MACHINE DEL IA
Biblioteca Nacional de EspañaArchivo de la Web española
Otros proyectos internacionales
Biblioteca Nacional de EspañaArchivo de la Web española
Proyecto PANDORA (Biblioteca Nacional de Australia)
Biblioteca Nacional de España
Proyecto PANDORA(Biblioteca Nacional de Australia)
Uno de los proyectos pioneros mundiales en este campo (1996)
Colección en línea de publicaciones históricas relativas a Australia
Archivado selectivo según los criterios de su política de recolección
Acceso público
Colección organizada por materias
Biblioteca Nacional de EspañaArchivo de la Web española
Proyecto MINERVA (Library of Congress)
Biblioteca Nacional de España
Proyecto MINERVA (Library of Congress)
La LoC archiva la web desde el año 2000
Colaboración con Internet Archive
Recolección selectiva → asesoría de especialistas
Acceso público
Destacan sus recolecciones por acontecimientos:
– Guerra de Irak (2003)
– 11-S
– Elección papal tras la muerte de Juan Pablo II (2005)
– Elecciones presidenciales EE.UU.
Biblioteca Nacional de EspañaArchivo de la Web española
Archives de l’Internet (BnF)
Biblioteca Nacional de España
Archivan la web desde 2002 con la colaboración de Internet Archive
Al amparo de su ley de DL desde 2006
Recolectan:
– El dominio .fr
– Webs en otros dominios con contenidos relativos a Francia
En 2009 recolectan por sí mismos
Combinan recolecciones masivas y selectivas
Acceso a la colección restringido a investigadores en terminales de su sede
Archives de l’Internet (BnF)
Biblioteca Nacional de EspañaArchivo de la Web española
Panorama internacional:lista de iniciativas de archivado web
Biblioteca Nacional de EspañaArchivo de la Web española
– Fundado en 2003 por 11 bibliotecas nacionales e Internet Archive
– Adquirir, preservar y hacer accesible la información en internet para el futuro
– Objetivos:• Posibilitar recolección, preservación y acceso a largo
plazo a contenidos de internet• Desarrollar herramientas comunes para crear archivos
internacionales• Defender iniciativas internacionales con este propósito• Apoyar a instituciones dedicadas a esta tarea
El International Internet Preservation Consortium (IIPC)
Biblioteca Nacional de EspañaArchivo de la Web española
El International Internet Preservation Consortium (IIPC)
– Grupos de trabajo muy activos:
• Recolección
• Acceso
• Preservación
– Proyectos de colaboración:
• Wikileaks
• Terremoto y tsunami en Japón (Internet Archive - National Diet)
• Olimpiadas 2012
• Memento
Biblioteca Nacional de España
La revolución del jazmín: Túnez 2011; archivado a cargo del Internet Archive; contribuciones de la LOC y la BnF; idiomas: francés, árabe e inglés
Archivo de la Web española
Biblioteca Nacional de España
LA BNE UNE SUS ESFUERZOS A LOS DE ORGANISMOS INTERNACIONALES
Archivo de la Web española
Biblioteca Nacional de España
ISO TC 46/SC 8/WG 9Estadísticas y aspectos de calidad en los archivos web
– Objetivo: elaborar un informe técnico– Reflejar el estado actual de la cuestión– Definición de términos y elementos relativos a estos proyectos– Establecer aspectos cuantificables para medir la calidad
(indicadores)
Biblioteca Nacional de EspañaArchivo de la Web española
Proyectos nacionales
PADICAT
ONDARENET
Biblioteca Nacional de España
Proyecto pionero en España (2005)
Objetivo: archivar la web catalana
Recolección híbrida:
– Masiva del dominio .cat
– Producción web de las entidades catalanas (convenios)
Recursos fácilmente localizables por:
– Categorías temáticas
– Palabras clave
– URL
Acceso público en línea
Desarrollan CAT (Curator Archiving Tool)
Biblioteca Nacional de España
ONDARENET
Proyecto de recolección web del gobierno vasco
Objetivo: recopilar la memoria digital vasca
Modelo de recolección híbrido:
– Recolección integral regional
– Recolección selectiva y temática
Biblioteca Nacional de EspañaArchivo de la Web española
Software de rastreo: rastreador (crawler) a gran escala de código abierto
respeta exclusiones del tipo robots.txt
diseñado para no interrumpir la actividad del sitio web rastreado
rastreo continuo
Paquetes de software que utilizan Heritrix:
Netarchive Suite
Web Curator Tool
CAT (Curator Archiving Tool)
¿Cómo se archiva Internet?
Biblioteca Nacional de España
Formato de archivo para almacenamiento→ WARC (Web ARChive)
Norma ISO 28500:2009:– guarda contenido junto a información de control de
los protocolos– guarda metadatos enlazados a otros datos– permite compresión de datos y preservar integridad
de registros– permite manejo de registros excesivamente largos– detecta duplicados y transformaciones posteriores de
un archivo
¿Cómo se archiva Internet?
Archivo de la Web española
Biblioteca Nacional de EspañaArchivo de la Web española
¿Cómo se archiva Internet?
Softwares de búsqueda
Biblioteca Nacional de EspañaArchivo de la Web española
¿Cómo se archiva Internet?Almacenamiento
• Reto constante
• Ahorro de espacio, fiabilidad
• Mantener la accesibilidad
• Minimizar riesgo de pérdidas
• Distribución de copias en distintos sitios
• Impedir la degradación de los datos
• El Petabox: 1 PB = 1.000 TB = 1.000.000 GB
Biblioteca Nacional de España
El petabox, hoy
Archivo de la Web española
Mayor densidad que el modelo anteriorDiciembre, 2010: almacenamiento total de IA → 5,8PB
Biblioteca Nacional de EspañaArchivo de la Web española
Según el alcance:
Masiva
Selectiva
Temática
Por acontecimientos
Híbrida
Ventajas e inconvenientes
Según los permisos:
Sin permiso (al amparo de una ley de DL)
Con permiso expreso de los propietarios
Ventajas e inconvenientes
Tipos de recolección
Biblioteca Nacional de España
EL PROYECTO DE LA BNEMarco legal
– Decreto del 57:
• Preocupación por regular “las obras derivadas
de los inventos modernos”
– Proyecto de ley de DL (2011)
• Publicaciones digitales → patrimonio a preservar
• Acceso y consulta de publicaciones almacenadas
• Sitios web → incluidos en el DL
• Centros de conservación → habilitados para rastrearlosy conservarlos
• Límites: propiedad intelectual y protección de datos
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNEPrimeros pasos
• Primer contrato con Internet Archive: 2009-2010
• Objetivo: recolectar, archivar y preservar el dominio .es
• Primeras recolecciones
4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010
• Después de cada recolección:
Deduplicación
Indización
Rastreo de parcheado
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNEPrimeros pasos
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNESituación actual (I)
• Resultados:
30 TB de información almacenada
Más de 875 millones de URL:
Más de 317 millones en la primera recolección
Cantidades menores en las tres siguientes complementarias
• Acceso a la colección
• Interfaz de consulta que necesita personalización
• Búsquedas:
Por URL
Por palabra a texto completo (necesita depuración)
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNESituación actual (II)
• Informes
MIME (Multipurpose Internet Mail Extension)
Respuestas de servidores
Servidores
Exclusiones
• Análisis de la colección mediante calas:
Páginas recolectadas con éxito
Niveles de navegación que se han guardado
Porcentaje de webs guardadas que han desaparecido (casi un 3%)
Otros dominios capturados aparte de .es
Aproximación a porcentaje de temáticas
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNEPruebas
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNEPruebas
Con motivo de las elecciones municipales y autonómicas de 2011
Pruebas de rastreo selectivo de la web española
NetarchiveSuite:
– Software de código abierto y gratuito
– También utilizado por Dinamarca, Francia y Austria
Búsqueda de conclusiones para evaluar capacidad de autogestión
Selección de 23 dominios:
– Cabeceras de prensa
– Medios de comunicación audiovisuales
– Partidos políticos
Biblioteca Nacional de España
EL PROYECTO DE LA BNEPruebas
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNEPruebas
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNEPlanes inmediatos
• Nuevo contrato con Internet Archive:
2 recolecciones masivas (2011), alternadas con
2 recolecciones selectivas (2011 y 2012):
Temáticas
Acontecimientos (Elecciones Generales 2012)
• Probablemente estaremos cerca de duplicar la colección actual
• Análisis de la colección más de cerca durante los rastreos
• Seguiremos con pruebas de recolección y archivado autogestionadas
Archivo de la Web española
Biblioteca Nacional de España
EL PROYECTO DE LA BNEPlanes inmediatos: cooperación
Colaboración para las recolecciones selectivas:
• Personal de la BNE
• Universidades
• Otras instituciones (CSIC, bibliotecas, ministerios…)
Aunar esfuerzos con otros proyectos de archivado web en España:
• PADICAT
• ONDARENET
Cooperación con Comunidades Autónomas ??
archivoweb@bne.es
Archivo de la Web española
Biblioteca Nacional de EspañaArchivo de la Web española
EL PROYECTO DE LA BNEPlanes a medio plazo
Trasladar la colección
Dar acceso a los investigadores
Realizar rastreos de la web con medios propios
Biblioteca Nacional de EspañaArchivo de la Web española
Cuestiones a debate¿Podemos capturarlo todo?
¿Debemos capturarlo todo?
Conveniencia de una selección: criterios
Derecho al olvido
Acceso universal
Límites legales
¿Cómo usarán los investigadores estos archivos?
Uso de los metadatos: descriptivos/de preservación
Preservación: emulación/migración
Biblioteca Nacional de España
Enlaces de interés
IIPC: www.netpreserve.org
Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives
Internet Archive: www.archive.org
Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html
Heritrix: http://crawler.archive.org/
NetarchiveSuite: http://netarchive.dk/suite/Welcome
NutchWax: http://archive-access.sourceforge.net/projects/nutch/
Blog de Hanzo Archives: http://web.hanzoarchives.com/
Proyecto de Ley de depósito legal:http://www.congreso.es/portal/page/portal/Congreso/PopUpCGI?CMD=VERLST&BASE=puw9&DOCS=1-1&DOCORDER=LIFO&QUERY=%28CDA20110602011808.CODI.%29#(Página1)
Archivo de la Web española
Biblioteca Nacional de España
Colecciones web
Wayback Machine: http://www.archive.org/web/web.php
PANDORA (Archivo web de Australia): http://pandora.nla.gov.au
MINERVA (Biblioteca del Congreso): http://lcweb2.loc.gov/diglib/lcwa/html/lcwa-home.html
Archivo web de la Biblioteca Británica: http://www.webarchive.org.uk/ukwa/
PADICAT (Patrimonio Digital de Cataluña): http://www.padicat.cat/
ONDARENET (Patrimonio Digital Vasco): http://www.ondarenet.kultura.ejgv.euskadi.net:8085/consulta/editC
onsultaBase.do?dispatch=editConsultaBase
Archivo de la Web española
Biblioteca Nacional de España
Bibliografía
A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-webs-past/0
Oxford Internet Institute, “Web archives: the future(s)” [documento de trabajo], 2011, http://www.netpreserve.org/events/Hague/Presentations/OII-IIPC.pdf
E. Bermes, L. Fauduet et al., “A data first approach to digital preservation: the SPAR project”, World Library and Information Congress: 76th IFLA General Conferenceand Assembly (2010), http://www.ifla.org/files/hq/papers/ifla76/157-bermes-en.pdf
E. Bermes y G. Illien, “Metrics and Strategies for Web Heritage. Management andPreservation”, 75th IFLA General Conference and Assembly (2009), http://www.ifla.org/files/hq/papers/ifla75/92-bermes-en.pdf
G. Mohr, et al., “An introduction to Heritrix. An open source archival quality webcrawler”, 4th International Web Archiving Workshop (2004), http://iwaw.europarchive.org/04/Mohr.pdf
WARC File Format ISO/DIS 28500 (Borrador, 2008), http://bibnum.bnf.fr/WARC/warc_ISO_DIS_28500.pdf
Archivo de la Web española
Biblioteca Nacional de EspañaArchivo de la Web española
Agradecimientos
Biblioteca Nacional de España
Icíar Muguerza LópezMar Pérez Morillo
Servicio de Coordinación Web
archivoweb@bne.es
Pº de Recoletos 20 -22 28071 Madrid
Tfno: 91 580 782
www.bne.es
Archivo de la Web española