Date post: | 28-May-2015 |
Category: |
Technology |
Upload: | biblioteca-nacional-de-espana |
View: | 752 times |
Download: | 1 times |
Retos y Oportunidades en Archivos y Gestión Documental
ante la Web Semántica
Curso impartido en la Escuela Gallega de Administración Pública, Xunta de Galicia
21 y 22 de abril de 2014
Ana Carrillo Pozas @anacarrillop
1
Objetivos
Entender los retos y oportunidades que plantea la Web
Semántica en la gestión y difusión documental con el fin de compartir, relacionar y reutilizar la información en Archivos
y otras instituciones culturales.
2
De la Web 1.0 a la Web 3.0
Evolución de la Web En realidad todas las eras de la Web conviven en la Web actual
Web 1.0 (1995) Internet de las
empresas
Consumidores Enfocada a empresas Contenido propietario
Britannica online HTML, portales
Web 2.0 (2005) Internet de las
personas Prosumidores
Redes sociales Aplicaciones en línea
Definición de estándares Wikipedia, Blogs, Wikis
Web 3.0 (2015) Internet de las
cosas Portable y personal
Construida socialmente y reinventada contextualmente
Web Semántica Mashups
RDF/RDFS/OWL 3
El problema del acceso a la información en la Web actual
4
HTML
HTML
href
href href href
href
href
href
href
La web de documentos, tal y como la conocemos
Los orígenes de la Web Semántica
5
1994 1st International Conference on the World Wide Web. “Future directions”.
2001 Berners-Lee, Hendler y Lassila. “The Semantic Web: A New form of web content that is meaningful to computers will unleash a revolution of new possibilities”. Scientific American, vol. 284 (5), pp. 35-43
Tim Berners-Lee
2006 “Linked Data Principles”
2009: The Next Web
6
http://www.ted.com/talks/tim_berners_lee_on_the_next_web/
¡ Datos crudos !
7
Raw Data Now ! Tim Berners-Lee, 2009
En esta famosa charla Berners-Lee hizo un llamamiento a los gobiernos, científicos e instituciones a poner sus datos de forma abierta y accesible en la web, lo que denominó “datos crudos”. Declaró que si la gente pusiera sus datos en la web (científicos, gobiernos, comunidades, etc.), serían usados por otras personas para hacer cosas maravillosas en formas que nunca pudieron haber imaginado. Tras esta charla de 2009, se inició un movimiento de open data en todo el mundo.
Entendiendo conceptos
8
Open Data = Datos Abiertos “Open data son todos los datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona (OKF, 2012)
Características: Disponibilidad y acceso. Reutilización y redistribución. Participación universal.
Open Government Data = Reutilización de la Información del Sector Público (RISP) Es publicar la información del sector público en formatos estándares, abiertos e interoperables, facilitando su acceso y permitiendo su reutilización.
10
Relación conceptual entre Gobierno Abierto y Open Data. Autora: Dra. Flavia Baladán
https://twitter.com/datosgob/status/454586287899422721/photo/1
Open Government = Gobierno Abierto
11 http://esaged.files.wordpress.com/2014/04/transparencia-archivos-esaged-02.jpg
Relación entre los conceptos de Gobierno Abierto
12
Fuente: Fundación Telefónica. Las TICs en el gobierno abierto: Transparencia, participación y colaboración. Ariel, 2011.
Inclusión de las TIC en los procesos administrativos internos
Utilización por parte de los políticos de la Web 2.0
Abarca los procesos electorales y/o procesos de votación, deliberación y participación
Apertura de datos al público y reutilización
Gobierno Abierto: permite reforzar o restaurar los mecanismos de control y de exigencia efectiva de rendición de cuentas a políticos y gestores públicos, así como los mecanismos de pesos y contrapesos al poder ejecutivo, mediante Transparencia y derecho de Acceso a la Información Pública.
Linked Data = Datos enlazados Un conjunto de buenas prácticas para publicar y conectar datos estructurados en la Web.
13
“The term Linked Data refers to a set of best practices for publishing and connecting structured data on the Web. These best practices have been adopted by an increasing number of data providers over the last three years, leading to the creation of a global data space containing billions of assertions - the Web of Data”.
Bizer, Heath and Berners-Lee (2009)
Principios básicos de Linked Data: Time Berners-Lee Utilizar URIs para asignar un nombre (y por tanto identificar) objetos
o recursos.
Utilizar URIs para que los recursos y objetos sean accesibles a través del protocolo HTTP.
Ofrecer información útil de dichos recursos identificados mediante URIs, y en formato estándar (RDF, SPARQL).
Incluir enlaces a URIs de datos externos para conectar con recursos que puedan ser descubiertos por los clientes web.
14
Ejemplo de Linked Data: VIAF
15 http://viaf.org/
Ofrece URIs para cada registro único de autoridad. VIAF es en sí misma una aplicación Linked Data porque genera automáticamente conexiones a páginas de Wikipedia y a entidades de WorldCat.
Linked Open Data = Datos abiertos enlazados Son los datos enlazados que se han publicado
explícitamente bajo una licencia abierta.
No todos los datos enlazados son o serán abiertos.
No todos los datos abiertos son o serán enlazados.
#lodlam 16
Linked Open Data
17
Ejemplo de Linked Open Data
18
19 Ejemplo de interfaz de Linked Open Data del LOCAH Linked Archives Hub Project http://data.archiveshub.ac.uk/page/person/nra/webbmarthabeatrice1858-1943socialreformer
21 Fundación CTIC. Mapa Mundial de catálogos de datos públicos: http://datos.fundacionctic.org/sandbox/catalog/faceted/
Catalogo mundial de datos públicos
Ejemplos de reutilización (RISP) Oferta Formativa del Sector Público de Empleo del Principado de
Asturias: ejemplo de buscador facetado. Se muestran los cursos en una línea de tiempo y los centros en que se imparten en un mapa.
Federal IT Spending Dashboard: ejemplo de lo que persigue el gobierno de EEUU con la “Open Governement Directive”, una directiva en la que el presidente Obama dio instrucciones a departamentos y agencias del gobierno para “abrirse” a los ciudadanos. Este sitio web permite ver qué proyectos TIC están siendo realizados por el gobierno y su planificación.
Zaragoza Estaziona: aplicación móvil desarrollada por el propio Ayuntamiento de Zaragoza, lo que constituye un servicio de valor añadido de la propia administración creando nuevas utilidades basadas en sus propios datos.
22
España: Transparencia, Buen Gobierno, Acceso y Reutilización de la Información Pública
23
Ley 19/2013, de 9 de diciembre de transparencia, acceso a la información pública y buen gobierno.
Resolución de 19 de febrero de 2013, se la Secretaría de Estado de Administraciones Públicas, por la que se aprueba la Norma Técnica de Interoperabilidad de Reutilización de recursos de la información.
Real Decreto 1495/2011, de 24 de octubre, por el que se desarrolla la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público, para el ámbito del sector público estatal.
Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público.
El presente/futuro de la Administración española
24
Ley 19/2013 Transparencia,
Acceso a la Información
Pública y Buen Gobierno
Ley 37/2007 RISP
Ley 11/2007 Administración
Electrónica
Sobre estas tres leyes pivotará la administración
La Tecnología no lo es todo
“La Tecnología por sí misma, no va a conseguir que una Administración sea más transparente,
abierta, participativa o generadora de conocimiento.
Lo más importante son los cambios culturales,
procedimentales, organizativos y normativos que adopte la Administración en su conjunto.”
25
La Web Semántica
26
Diapositiva presentada por Berners-Lee en TED 2009, "The Great Unveiling" en Long Beach, CA. USA, 4, Feb 2009
En la Web de documentos podemos navegar enlace tras enlace. En la Web de datos, las máquinas continúan esa navegación de un modo más profundo y ofrecen mucho más contexto de cualquier dato.
Una definición
27
“La Web Semántica es una extensión de la web actual en la que a la información disponible se le otorga un significado bien definido que permita a los ordenadores y las personas trabajar en cooperación. Está basada en la idea de proporcionar en la web datos definidos y enlazados, permitiendo que aplicaciones heterogéneas localicen, integren, razonen y reutilicen la información presente en la web”.
Hendler, Miller y Berners-Lee (2002)
Modelo Multicapa de la Web Semántica
28
Arquitectura básica Web actual Localización de objetos y recursos
mediante URL. Uso del protocolo HTTP para
establecer la comunicación entre clientes y servidores.
Marcado de documentos con el lenguaje HTML.
Web Semántica Identificación y referenciación de
recursos mediante URI.
El protocolo HTTP sigue siendo la base sobre la que se crean el resto de desarrollos.
Marcado de información en XML.
Dotar de semántica a los recursos web: RDF, RDFS, OWL.
29
Capa Sintáctica Unicode: estándar de caracteres
universal.
URI (Uniform Resource Identifier): elemento que permite referenciar e identificar los recursos de una manera unívoca.
XML (Extensible Markup Language): lenguaje de marcado, formato estándar válido para representar la información. Va a conformar la base sintáctica de todo el modelo.
XML Schema: lenguaje de esquema sintáctico que nos permite definir y validar tanto su contenido como su estructura.
30
Esta capa es el basamento del modelo de Web Semántica
Capa Semántica RDF: la piedra angular sobre la que se
vertebra la estructura semántica de la Web. Es un modelo de datos que estructura la información en forma de tripletas sujeto-propiedad-objeto que pueden ser representadas en forma de grafos.
RDF Schema (RDFS): extensión
semántica del RDF, define un lenguaje con el que es posible describir las propiedades y las clases de los recursos RDF así como las jerarquías entre dichas propiedades y clases.
31
No confundir RDF, que es un modelo de datos, con la sintaxis en la que puede presentarse RDF: RDF/XML, RDFa (para documentos HTML), Trutle, RDF/JSON.
Capa Ontológica OWL: aporta un modelo para la
representación de ontologías. Es una extensión semántica de RDFS con una semántica formal mucho más precisa. Permite crear ontologías a un nivel muy detallado, expresando relaciones semánticamente más avanzadas.
32
Capa Lógica Para el establecimiento de reglas adicionales se están desarrollando: SWRL (Semantic Web Rule
Language): lenguaje para la definición de reglas de inferencia.
RIF (Rule Interchange Format): vocabulario que permite el intercambio de reglas entre diferentes lenguajes.
SPARQL: para la búsqueda de patrones de tripletas RDF y su consiguiente consulta. Es un lenguaje de consulta al estilo de SQL.
33
Capa de pruebas y confianza Finalmente, es necesario establecer mecanismos para evaluar el nivel de confianza y veracidad de los recursos de información: Tecnologías de firma digital y
encriptación de datos.
34
¿?
Vamos a intentar aclararnos
35
Web de Documentos vs Web de Datos
36
dato dato dato
enlace
enlace enlace
enlace
enlace
Bases sobre las que se asienta la filosofía de la Web Semántica Se apoya en mecanismos universales como RDF, OWL y
SPARQL que proporcionan una infraestructura global.
RDF y el mecanismo de URIs son piezas fundamentales para dar forma a una red de datos enlazados (Linked Open Data) que permita exponer, compartir y conectar datos, información, recursos y conocimiento en la web semántica.
37
Elementos básicos URIs: el identificador único del recurso.
RDF: el modelo de datos para la descripción conceptual de
relaciones.
Serialización RDF: lenguaje procesable (RDF-XML)
Vocabularios RDF: define los vocabularios que utilizamos en las sentencias RDF.
SPARQL: protocolo de búsqueda de sentencias RDF.
38
Gramática de relaciones
39
Recurso A
Recurso B
relacionado con
sujeto
predicado
objeto
Lo importante son las relaciones. Estos grafos son la base de RDF.
Cada “recurso-relación-recurso” es una sentencia, con una estructura gramatical. Hay reglas para construir estos “grafos”.
La Web de Documentos tiene relaciones implícitas, pero las máquinas no pueden interpretarlas.
En la Web de Datos hacemos las relaciones explícitas para que las máquinas las “comprendan”.
Ejemplo básico de un grafo
40
http://es.wikipedia.org/wiki/Rosalia_de_
Castro
Rosalía de Castro
http://purl.org/dc/terms/title
http://bdh.bne.es/bnesearch/detalle/bdh0000058968
http://purl.org/dc/elements/1.1/creator
Cantares gallegos
http://purl.org/dc/terms/title
El grafo podría interpretarse del siguiente modo: Rosalía de Castro http://es.wikipedia.org/wiki/Rosalia_de_Castro es autora de la obra digitalizada en BDH http://bdh.bne.es/bnesearch/detalle/bdh0000058968 cuyo título es “Cantares gallegos”.
Las relaciones entre URIs se realizan mediante vocabularios/ontologías controladas. En este caso. Dublin Core: http://purl.org/dc/terms
Modelos de datos RDF para colecciones de archivos
41 http://sites.tufts.edu/liam/
42
43
RDF/XML
44
Metadatos y Ontologías En ellos se fundamenta la representación de la información en la web semántica. Metadatos
De propósito general: DCMI (Dublin Core Metadata Initiative) Para archivos: EDM (Europeana Data Model), EAD (Encoded Archival
Description), EAC-CPF (Encoded Archival Context for Corporate Bodies, Persons, and Families)
Ontologías: tienen como objetivo describir tipos de entidades y la forma en
la que se relacionan entre sí. Realizan descripciones de objetos, basadas en los principios de interoperabilidad semántica, mediante la definición de clases, propiedades, relaciones y axiomas.
45
EDM (Europeana Data Model)
Modelo adecuado para descripciones y objetos de archivos, bibliotecas y museos.
Objetivo: preservar los datos originales manteniendo la interoperabilidad mediante RDF como modelo de representación. Y sustentar la búsqueda semántica.
Construido sobre estándares establecidos: RDF(S), OAI-ORE, SKOS y Dublin Core.
Manual básico de Europeana Data Model: http://travesia.mcu.es/portalnb/jspui/bitstream/10421/7261/1/EDM_Primer_130714_es.pdf
46
EAD (Encoded Archival Description)
47
http://www.loc.gov/ead/tglib/index.html
48
http://editor.archiveshub.ac.uk/edit/
EAC-CPF (Encoded Archival Context for coporate bodies, persons and families)
49 http://eac.staatsbibliothek-berlin.de/
Modelo Conceptual de la CNEDA
50 http://www.mcu.es/archivos/docs/NEDA_MCDA_P1_P2_20120618.pdf http://www.mcu.es/archivos/MC/CNEDA/Presentacion.html
Algunas aplicaciones software para el desarrollo de la Web Semántica Editores RDF (Protégé, IsaViz) Herramientas de visualización (RDF Validator, Protégé, IsaViz) Software de almacenamiento y recuperación (Sesame) Gestión de contenido semántico (Apache Stanbol) Plataformas de desarrollo (Perllib, Pyrple, Apache Jena) Navegadores (Tabulator) Paquetes de gestión de ontologías (Ontobuilder, Text-to-Onto) Plataformas de desarrollo de servicios web semánticos (Internet Reasoning
Service) Motores de inferencia (Pellet) Aplicaciones web (Swoogle) Aplicaciones de gestión y publicación de colecciones de datos (CKAN)
“Hay un mercado open source de aplicaciones software para el desarrollo de la web semántica”. Santiago Navarro. En: Jornada de Web Semántica en archivos, bibliotecas y museos (10 abril 2014).
51
Metodología para la Reutilización de la Información y Transparencia
52
1. Selección de datos
Análisis de fuentes de
información, datos, soportes,
formatos, herramientas,
usos
Tecnologías auxiliares
2. Extracción de datos
Extraer datos de sus fuentes primarias
Tecnologías de digitalización de la información, para formatos
analógicos
3. Catalogación e Indexación de
datos
Proceso de limpieza,
catalogación, asignación de
metadatos,
Dublin Core, XML, RDF…
4. Almacenamiento y Búsqueda
de datos
Almacenamiento eficiente y con
capacidad de acceder a los
datos de forma rápida y segura
Big Data, almacenamiento
en la nube, SPARQL
5. Generación de
conocimiento
Generación de conocimiento a
partir de la información en
bruto
Linked Data
6. Presentación y
Consulta
Garantizar el acceso a la información
desde herramientas y aplicaciones de
usuario final
Aplicaciones de visualización, aplicaciones
móviles, portales…
CKAN
7. Protección de datos y seguridad
Papel esencial de Archiveros, Bibliotecarios
Requisitos para la transparencia de la información
53
Datos (no estructurados) disponibles en la Web bajo cualquier formato y en licencia abierta.
Datos disponibles como datos estructurados.
Datos disponibles en formatos no propietarios.
Utilizar URIs de forma que se puedan referenciar los datos.
Enlazar los datos con otros datos para proporcionar contexto adicional.
Sistema de clasificación de Tim Berners-Lee sobre la calidad de los datos
El objetivo de la Administración debe ser alcanzar al menos las 3 estrellas en el corto plazo: catalogar toda la información sobre los datos disponibles en la actualidad, sea cual sea su formato, primando la exposición de la información.
Formatos de Open Data (según Open Data Handbook) JSON XML RDF Hojas de Cálculo CSV Documento de texto Texto Imagen escaneada Formatos propietarios HTML
54
Proyectos de Gobierno Abierto, Transparencia y Open Data
55 http://datos.gob.es/content/iniciativas-espanolas
56
Fundación CTIC. Mapa actualizado (marzo 2014) donde se pueden consultar todas las iniciativas de datos públicos abiertos en el territorio español: http://datos.fundacionctic.org/2014/03/mapa-actual-de-las-iniciativas-open-data-en-espana/
59 http://www20.gencat.cat/portal/site/dadesobertes?newLang=es_ES
60 http://governobert.terrassa.cat/
61
http://www.zaragoza.es/ciudad/risp y http://www.zaragoza.es/ciudadania/gobierno-abierto/
68 http://www.nationalarchives.gov.uk/webarchive/default.htm http://www.ontotext.com/case/nationalArchives-skb
71
Video: Qué es Linked Open Data según Europeana http://vimeo.com/album/2072014/video/49231112
72
En la Jornada de Web Semántica en archivos, bibliotecas y museos (10 de abril de 2014, Madrid), Alfonso Sánchez Mairena presentó la voluntad de caminar hacia la web semántica en PARES. http://pares.mcu.es/
BNE y Web Semántica Desde 2010 se viene trabajando en el proyecto de datos
enlazados datos.bne.es, gracias a un acuerdo con UPM (Ontology Engineering Group).
73
http://www.slideshare.net/DanielVilaSuero/datosbnees-20
http://www.slideshare.net/asungomezperez/datos-enlazados-en-la-biblioteca-nacional-de-espaa
http://www.slideshare.net/bne/datos-enlazados-en-la-bne
Caso BNE: El Mapa de Procesos 2011: Definición del Modelo de Gestión
Documental de la BNE.
2012: Desarrollo del Mapa de procesos de la BNE.
2012: Implantación de la herramienta Alfresco para la gestión documental.
2013: Despliegue de la gestión documental por procesos.
74
http://www.slideshare.net/bne/definicin-de-un-modelo-de-gestin-documental-para-la-bne
http://blog.bne.es/blog/el-mapa-de-procesos-un-medio-para-la-transparencia-de-la-bne/
http://blog.bne.es/blog/gestion-documental-colaborativa-en-la-intranet/
Caso BNE: El Mapa de Procesos Vinculación entre el Mapa de Procesos y el Sistema de Gestión
Documental:
75
Mapa de Procesos <metadatos> Estructura documental del SGD
Proceso <codigoproceso> Espacio de colaboración
Subproceso <codigosubproceso> Espacio de colaboración o Carpeta 1 nivel
Serie <codigosimplificadoserie> Carpeta 2 nivel
Expediente <denominacioncarpeta> Unidad documental compuesta
Unidad documental <denominacionunicaficheroENI>
Unidades documentales Simples
Caso BNE: El Mapa de Procesos Estructura de información del Mapa de Procesos
76
Campos Información
Nombre del Proceso Adquisiciones
Id Proceso 007
Tipo de proceso Realización
Descripción Proceso por el que se incorporan nuevos materiales o recursos al fondo de la BNE con el fin de incrementar y enriquecer el patrimonio bibliográfico.
Entradas Materiales o recursos susceptibles de adquisición
Salidas Materiales o recursos adquiridos y preparados para su proceso técnico
Áreas implicadas Departamento de Adquisiciones e Incremento del Patrimonio
Legislación y normativa Ley 29/2011, de 29 de julio, de depósito legal…. etc
Procesos asociados Proceso Técnico
Ejemplo de ficha de proceso
Caso BNE: El Mapa de Procesos Reflexión evolutiva del Mapa de Procesos:
No sólo es un instrumento de soporte a la Gestión Documental de la
BNE para respaldar su producción informativa y documental. Puede ser un medio para la transparencia de la institución, al informar
de qué se hace, cómo y por quién. Puede ser un instrumento estratégico: para el control de las actividades
y servicios, para servir de apoyo a los programas de evaluación y calidad de la biblioteca, así como facilitar la adopción de decisiones.
Puede ser un elemento clave en el Plan RISP de la BNE, en la fase de selección de datos.
Puede ser el esquema de conocimiento de la BNE, enlazado con otros esquemas de conocimiento, basándose en la web semántica.
ver más: http://blog.bne.es/blog/el-mapa-de-procesos-un-medio-para-la-transparencia-de-la-bne/#sthash.exstEE7E.dpuf
77
Caso BNE: El Mapa de Procesos Objetivos de esta reflexión evolutiva del Mapa de
Procesos: Mejorar la flexibilidad y rendimiento de la aplicación en su
vinculación con la GD. Rediseñar la aplicación cambiando el lenguaje de la base de
datos a formatos abiertos y con posibilidad de reutilización por otras aplicaciones.
Considerar la posibilidad de explotación de los recursos del mapa en entornos de datos abiertos y semánticos.
Rediseñar el modelo de datos hacia un modelo entidad-relación, basándose en el Modelo Conceptual de la CNEDA.
78
Caso BNE: El Mapa de Procesos Basándonos en el Modelo de la CNEDA se plantea un modelo de datos básico con 4 entidades:
Proceso: son los procesos y subprocesos del mapa. Agente: son las áreas implicadas, unidades productoras y proveedores externos e internos
del mapa. Documentos: son los elementos series, expedientes y documentos del mapa. Normas: la legislación y normativa consignada en el mapa.
79
Retos para archiveros y gestores de documentos
Hacer frente al reto de gestionar eficazmente el gran volumen de documentos que almacenan los archivos e instituciones culturales para facilitar a sus usuarios un acceso sencillo y enriquecido que satisfaga sus necesidades de información.
Necesidad de aportar otras soluciones para adaptar servicios a los entornos de conocimiento.
La curva de aprendizaje de la Web Semántica es muy elevada. La tecnología de Linked Data no es sencilla. Dificultad de mantener los datos actualizados. Cuestiones de licencias de datos. Faltan más ejemplos de archivos.
80
Oportunidades para archiveros y gestores de documentos
Las leyes de transparencia y reutilización son una oportunidad para los archivos.
Generación de conocimiento. Pensar primero, antes de comenzar un proyecto, qué se quiere hacer
con la información: ¿explotarla semánticamente?, ¿abrirla para su reutilización?, ¿difundirla?
Visibilidad de las instituciones. Posicionar a los archivos en el espacio global de la información. Romper el concepto de silo de información. Valores añadidos:
descripción enriquecida de objetos y repositorios, contextualización externa, sistemas de recomendación, establecimiento de esquemas comunes de conocimiento
81
82
“La web semántica puede dar salida a las relaciones de la información, de manera automática, si los datos (documentos,
expedientes, personas, lugares....) de los archivos están correctamente estructurados, normalizados y lo que es más
importante identificados con RDF”, @jmcollado
http://www.slideshare.net/bne/il-ny-a-pas-de-horstexte-challenges-for-archivallinkeddataadrianstevenson
Ana Carrillo Pozas
83
Jefe de Servicio de Intranet Responsable del Sistema de Gestión Documental
y del Mapa de Procesos
Biblioteca Nacional de España
@anacarrillop