Date post: | 16-Jul-2015 |
Category: |
Internet |
Upload: | jose-emilio-labra-gayo |
View: | 162 times |
Download: | 4 times |
TIC APLICADA A LA
HISTORIA DEL ARTE
6 - Repositorios y Gestión de ActivosDigitales
6.2 Metadatos
Repositorios y Gestión Activos
Digitales
ContenidosMetadatos
Definiciones
Organización del conocimiento
La Web
La Web Semántica
Aplicaciones para Historia del Arte
Recursos
Recurso: Cualquier cosa, concreta o
abstracta Concretos: libro, obra de arte, foto, página web, ...
Abstractos: una colección, un estilo, un conjunto, ...
Recurso
Un árbolRecurso
Una foto
Recurso
Un álbum de fotos
Dato
Dato: Un valor cualquiera, un símbolo
No es verdadero ni falso
Ejemplos: "1984", "verde"
Nivel de abstracción más bajo
Puede pertenecer a un conjunto
Fecha, nº habitantes, colores
verde
Información
Información: Valor asociado a una
interpretación
Puede ser verdadero o falso según interpretación
Interpretación: asignación de significado en un
contexto
"La Regenta fue publicada en 1984"
"El árbol de mi casa es de color verde"
Conocimiento
Información adquirida por un agente
Ejemplo: "Ana sabe que el árbol de su casa es
verde"
Tradicionalmente el agente era una persona
Pero el agente también puede ser una máquina
RecursosAgente
Conocimiento
Organización del conocimiento
Catalogación
Metadatos
Clasificación facetada
Vocabularios controlados
Modelos entidad-relación
Ontologías
Folksonomías
Catalogación
Proceso de indexar un recurso para que
pueda ser encontrado posteriormente
Objetivo: Facilitar búsqueda y recuperación del
recurso
Catalogación = Gestionar metadatos de un
recurso
Sistemas de catalogación:
evolución
Orígenes: archivos y bibliotecas
Más de 4000 años de antigüedad
3 etapas
Catálogos como colecciones impresas
Estaban desfasados en el mismo momento de su
impresión
Tarjetas
Charles A. Cutter (1876)
Uso masivo en s. XX
Catálogos en la Web
s. XXI
Evolución de la Web
Crecimiento casi exponencial
Fuente: Netcraft webserver survey
http://www.facebook.com/note.php?note_id=76191543919
http://beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/
Datos y datos...
Facebook: 250.000 millones fotos (2012)
Youtube: 100 horas de video subidas cada
minuto
Twitter: 218 millones de usuario activos
Flickr: 518 millones de fotos subidas en 2012
...
Fuente: http://www.coverpop.com/pop/flickr_interesting
Catálogos en la Web
Estamos en la era de los datos en la Web
Catálogos en el s. XXI
Si no está en la Web, no está
Catalogación vs Posicionamiento
Si está en la Web, pero no se encuentra, no está
Catálogos Web = publicación de metadatos
Algunos Problemas/retos:
Ingentes cantidades de datos
Confianza y Sistemas abiertos
Catalogación y Metadatos
Metadatos
Etimológicamente: "Datos acerca de otros datos"
Otra definición:
"Información estructurada que describe ó explica un
recurso"
Autor: Juan Torres
Lugar: Jardín de su casa
Álbum: Personal
Fecha: 22/02/2013
Resolución: 5Mpx
Metadatos
Recurso
Tipos de metadatos
Descriptivos: describen un recurso
Título, autor, lugar,...
Estructurales: relaciones entre objetos
Colección, álbum, ...
Administrativos: ayudan a gestionar el
recurso.
Fecha, nº de versión, derechos digitales, etc.
Autor: Juan Torres
Lugar: Jardín de su casa
Álbum: Personal
Fecha: 22/02/2013
Resolución: 5Mpx
Metadatos
Recurso
Proceso de metadatos
Metadatos deben ser procesables
automáticamente
Generación
Almacenamiento, catalogación
Transmisión
Búsqueda
Metadatos
Autor: Juan Torres
Lugar: Jardín de su casa
Álbum: Personal
Fecha: 22/02/2013
Resolución: 5Mpx
Fotos de
jardines
en
invierno
胡安花園照片
Sintaxis para metadatos
Solución de compromiso
Procesado automático por ordenadores
Manipulación por personas
001010000100100010010010010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
Codificaciones
MARC (MAchine Readable Cataloging)
Utilizado para información bibliográfica
001010000100100010010010010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
MARC
Vocabularios controlados
Tesauro
Utilizado para clasificación
001010000100100010010010010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
Tesauro
Lenguajes de marcado
Mezclan texto en lenguaje natural con marcas
Las marcas proporcionan metadatos
Lenguajes genéricos: SGML, XML
001010000100100010010010010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
XML
<work><artist id="23">Leonardo da Vinci</artist><title>La Gioconda</title><commentarios>Pudo haber sido realizado
por <artist id="24">Miguel Ángel</artist></comentarios></work>
RDF
Modelo de grafo.
Base para Web Semántica
Varias sintaxis procesables automáticamente
001010000100100010010010010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
RDF
http://museo.org/obras/23
2 Leonardo da
Vinci
La
Gioconda
http://museo.org/autores/4
3
http://xmlns.com/foaf/0.1/namehttp://purl.org/dc/elements/1.1/author
http://purl.org/dc/elements/1.1/title
Estándares para metadatos
Clasificación facetada
Vocabularios controlados
Clasificación facetada, vocabularios controlados,
conjuntos de términos, enumeraciones, anillos de
sinónimos, taxonomías, tesauros
Modelos entidad-relación
Ontologías
Folksonomías
Clasificación facetada
Facetas: atributos de un recurso
Ejemplo: color, resolución, estilo,...
Permite búsqueda de recursos a partir de
valores de dichos atributos
Algunos sistemas
CC. Colon Classification
Clasificación deciman de Dewey
CDU, Clasificación decimal universal
Vocabularios controlados
Disposición organizada de palabras o frases
Permiten indexar/buscar/recuperar recursos
Normalmente, en un dominio acotado
Ejemplos:
Conjuntos de términos
Encabezados de materia: Listas subject/heading
Enumeraciones
Anillos de sinónimos
Taxonomía
Tesauro
Conjuntos de términos
Definen un conjunto de términos y propiedades que se pueden asignar a un recurso
Ejemplo: Dublin-core
15 elementos
Utilizado para catálogos online
1. Title
2. Creator
3. Subject
4. Description
5. Publisher
6. Contributor
7. Date
8. Type
9. Format
10.Identifier
11.Source
12.Language
13.Relation
14.Coverage
15.Rights
Encabezamientos de materia
Listas subject/heading
Ejemplos:
LEMBP: lista encabezamientos bibliotecas
públicas
LCSH: Library of Congress Subject Heading
Charles A. CutterFuente: Wikipedia
Lista encabezamientos materias bibliotecas públicasFuente: http://www.mcu.es/bibliotecas/docs/MC/LEMBP/LEMBP.pdf
Enumeraciones
Una enumeración es una lista de términos
Preferiblemente únicos
Suelen aparecer como listas desplegables
Es posible enlazar términos entre diferentes
vocabularios
Gato
Perro
Animal
Persona
Objeto
Anillos de sinónimos
Una lista que incluye conjuntos de términos
que son equivalentes
Utilizada para búsquedas y recuperación
Enriquecimiento de términos de búsqueda
Pueden incluirse términos relacionados
Taxonomías
Clasificación ordenada de un dominio
Cuerpo de conocimiento dividido en categorías
Tesauro
Lista de términos y relaciones
Jerárquicas: todo/parte, ámbito más amplio/estrecho
Equivalencias: sinonimia, homonimia, antonimia, ...
Asociativas: términos relacionados
No tiene porqué incluir definiciones
En ese caso sería un diccionario
Múltiples tesauros especializados
SKOS
SKOS = Simple Knowledge Organization
System
Lenguaje para definir tesauros y vocabularios
controlados
Sintaxis RDF
Permite expresar términos, relaciones y
jerarquías
Muchos vocabularios han migrado a SKOS
Eurovoc, LCSH, MeSH, ...
Modelos entidad-relación
Técnica para describir bases de datos
Entidades: pueden identificarse de forma única
Relaciones entre entidades
Atributos: propiedades de entidades o relaciones
Artista Obra
nombre estilo
realiza
fecha
nombre
FRBR
FRBR - Functional Requirements for Bibliographical
Records
Modelo entidad-relación
Desarrollado por IFLA (Asociación Intl. de
bibliotecas)Work
Expression
Manifestation
Item
realization
embodime
nt
examplar
El Quijote
Versión inglés
Traductor John Ormsby1885
1604
2011Publicación
Simon&Brown
2013Ejemplar
comprado
1
n
1
n
1
n
Ontologías
Definición formal del conocimiento de un
dominio
Objetivo: representación de conocimiento
Contiene
Vocabulario de términos: clases, individuos
Relaciones entre términos: propiedades
Reglas y axiomas
Folksonomías
Etiquetado colaborativo
Semántica emergente
Sabiduría de las masas
Fuente: http://blog.ponoko.com/2008/09/10/folksonomy/
La Web
Mayor almacén de información jamás recopilado
por la humanidad
Acceso casi instantáneo desde cualquier lugar
No centralizado Cualquiera puede añadir
cosas
Multimedia (Texto, Imágenes, Vídeo, etc.)
Identificación de recursos unificada (URIs)
Interactividad: Aplicaciones Web
Características de la Web
Pilares de la Web
3 pilares
Protocolo: HTTP
Identificación: URIs
Formatos de representación: HTML, JSON, XML,
...
Identificación
URI
Protocolo
HTTPFormatos
HTML, JSON,...
WWW
Funcionamiento de la Web
Usuario Navegador
Cliente
Servidor
URI
Representación
WWW
HTTP
Protocolo HTTP:
Cliente (petición) - Servidor (respuesta)
URIs para identificar recursos
Lenguajes de representación: HTML, XML,
etc.
Protocolo HTTP
HTTP (Hypertext transfer protocol):
Arquitectura cliente/servidor (petición / respuesta)
Conjunto de acciones reducido:
GET, PUT, POST, DELETE, etc.
Mensajes de texto
línea inicial
cabecera del mensaje*
cuerpo del mensaje ?
Formato de mensajes
URIs
URI = Identificación de recurso
Recurso = Unidad básica, Cualquier cosa
URI ≠ Recurso ≠ Representación
URI http://tiempo.com/Asturias/Oviedo
Metadatos: Content-type: text/html
Datos:
<html><head><title>Tiempo</title></head><body><h1>Tiempo en Oviedo</h1><p>Nubes y claros</p>
</body></html>
Representación
Recurso
Tiempo en Oviedo
¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://www.uniovi.es
<!DOCTYPE html><html><head><title>Universidad de Oviedo</title>
</head><body><h1>Universidad de Oviedo</h1><p>Fundada en el año 1608 en <a
href="http://www.wikipedia.org/Oviedo">Oviedo</a></p>
. . .</body></html>
identifica
Ejemplo: Una página Web
Una página Web
Recurso de información
Formato HTML
¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://www.di.uniovi.es/~labra/images/asturias.jpg
identifica
Ejemplo: Una fotografía (recurso multimedia)
Una fotografía
Recurso de información
Formato JPG
¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://www.w3.org/People/Berners-Lee/card#i
identifica
Ejemplo: Una persona
Una persona (Tim Berners-Lee)
Recurso de no información
¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://xmlns.com/foaf/0.1/Person
identifica
Ejemplo: Conjunto de todas las personas
Conjunto de Personas (concepto abstracto)
Recurso de no información
¿Qué se puede identificar con una
URI? Cualquier cosa concreta o abstracta
http://purl.org/dc/terms/creator
identifica
Ejemplo: Propiedad de creación
Propiedad de creación (concepto abstracto)
Recurso de no información
¿Qué se puede identificar con una
URI? Cualquier cosa concreta o abstracta
http://purl.org/dc/terms
identifica
Ejemplo: Espacio de nombres
Espacio de nombres (concepto)
Recurso de no información
description
language
publisher
. . .
Dereferenciación
Dereferenciar URI = Acceder al contenido de URI
Obtener una representación del recurso identificado por la URI
Habitualmente se utiliza protocolo HTTP
Pueden existir diferentes representaciones
La representación puede incluir enlaces a otras URIscon información relacionada
Principio: Follow your nose (“Sigue tu instinto”)
A partir de una URI, se puede ir encontrando más
información y más recursos relacionados fácilmente y de
casualidad (serendipia)
Estabilidad de las URIs
URIs = base de cualquier aplicación Web
Objetivo: Esquema de URIs estable
Lema: Cool URIs don’t change
Modificar una URI puede romper aplicaciones
existentes
Evitar URIs que dependen de detalles de
implementación
Ejemplo: http://156.35.41.34:8080/pagina.php
URI
FORMATOS DE
REPRESENTACIÓN
Formatos de representación
En la Web, el formato más habitual es HTML
Existen muchos más: XML, JSON, RDF, PNG, …
Un recurso puede tener diferentes tipos de
representación
Cada tipo de representación sirve para un
propósito
HTML
Tipo de representación más popular en la Web
Objetivo: representar hipertexto
Ejemplo:
<!DOCTYPE html><html>
<head><meta charset="UTF-8"><title>Ejemplo</title>
</head><body>
<h1>Lista de enlaces</h1><p>Mis enlaces preferidos</p>
<ul><li><a href="http://www.wikipedia.org">Wikipedia</a><li><a href="http://www.w3c.org">Consorcio W3c</a></ul>
</body></html>
XML
Lenguaje de marcado generalizado
Objetivo: intercambio de información
Procesamiento automático y comercio electrónico
<?xml version="1.0"> <pedido><producto codigo="R23"><nombre>Rotulador RX2</nombre>
<cantidad>20</cantidad><comentarios>Comprobad que escriben</comentarios>
</producto><producto codigo="G56">
<nombre>Grapadora Lin</nombre><cantidad>2</cantidad>
<comentarios>Envuelta para regalo</comentarios></producto></pedido>
Tipos de representación
Los tipos de representación se identifican con
MIME
MIME (Multipurpose Internet Mail Extensions)
Identificar el tipo de contenido (Cabecera Content-
type)
Formato tipo/subtipo
Ejemplos:
text/html: Página Web en formato HTML
text/xml, application/xml : Documento XML
application/json: Documento JSON
application/pdf: Fichero PDF
image/jpeg: Imagen JPEGLista oficial: http://www.iana.org/assignments/media-types
Funcionamiento de la Web
2 computadores conceptuales: Cliente y
Servidor
La representación puede calcularse
dinámicamente
Computación en Cliente
Computación en servidor
Usuario Navegador
Cliente
Servidor
URI
Representación
WWW
HTTP
Cliente
También se conoce como Agente de Usuario
Normalmente es un navegador (browser)
Múltiples tipos de agentes de usuarios y
navegadores
Navegadores: Internet Explorer, Chrome, Firefox,
Lynx, …
Dispositivos móviles
Lectores de pantalla
eBooks
TVs
…
Componentes de un navegador
Interfaz
Analizador
Motor visualización
Intérprete ECMAScript: procesa eventos
Usuario
Navegador
Cliente
URI
Representación
WWW
HTTP
Analizador
Árbol
DOM
Motor
VisualizaciónInterfaz
Usuario
Intérprete
ECMAscript
URI
Motor de visualización
A veces los navegadores comparten el
mismo motor de visualización (rendering
engine)Navegadores Motor de
visualización
Internet Explorer Trident
Firefox Gecko
Opera Presto
Chrome Webkit (Webcore)
Safari (iPhone, iPad) Webkit
Componentes de un Servidor
La arquitectura del servidor suele
descomponerse en varias capas
Vista: Se encarga de preparar la representación
Negocio: Gestión de objetos de negocio
Datos: Modelos de datos
Capa
Vista
Capa
Negocio
URI
Capa
Datos
Representación
URI
WWW
HTTP
Razones para publicar datos
Datos abiertos
Razones para liberar datos
Facilitan la investigación
Tasa de descubrimiento se
acelera con mejores
accesos a los datos
Por el bien común de la
humanidad
Razones para liberar datos
Los sistemas abiertos facilitan las contribuciones
externas
Razones para liberar datos
Trasparencia
Fomentar participación
Generar confianza
Evaluar al gobierno
Como ciudadanos…
…también podemos demandar datos
abiertos…
…demandar datos abiertos
Cuando pertenecen a la humanidad
…demandar datos abiertos
Hechos independientes y verificables ó de
conocimiento común
Ejemplo: conocimiento científico
…demandar datos abiertos
Cuando han sido creados
con dinero público
Los hemos pagado con
nuestros impuestos
¡Son nuestros!
OK, ¡vivan los datos abiertos!
pero…
El mayor reto = Integración
En general, el problema no es informatizar algo
El problema es integrar los sistemas
Interoperabilidad
No basta con publicar datos…
Modelo de Estrellas *
★ Publicar los datos en la Web
(en cualquier formato)
★★ Utilizar formato estructurado
(Excel en lugar de imágenes escaneadas)
★★★ Usar formatos no propietarios
(CSV en lugar de Excel)
★★★★ Usar URIs para identificar datos
(otros sistemas puedan enlazar nuestros
datos)
★★★★★ Enlazar con otros datos externos
(proporcionar contexto)* Enunciado por Tim Berners-Lee en Gov 2.0 Expo 2010
http://www.youtube.com/watch?v=ga1aSJXCFe0
Formatos no
estructurados
Formatos “caja negra”: Imágenes, vídeos,
música, etc.
Formatos binarios: PDF, PS, etc.
Requieren técnicas de tratamiento de la señal,
reconocimiento de patrones, etc.
★
Ejemplo:
Servicio Público de Empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/
★
Formatos estructurados
Los datos tienen una estructura
Pueden procesarse automáticamente
Ejemplo: Hojas de cálculo
Problema con formatos propietarios
Requieren herramientas que no son
públicas
★ ★
Ejemplo: Servicio Público de
empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9
★ ★
Formatos no
propietarios
Formatos abiertos estructurados
Ejemplos: CSV, HTML
Pueden manipularse de forma
independiente
No se requiere un software concreto
Problema: Contenido depende del
contexto
★ ★ ★
CSV: Valores delimitados por comas
★ ★ ★Ejemplo: CSV
URIs para identificar
datos
Utilizar URIs para identificar datos
Negociación de contenido
★ ★ ★ ★
Ejemplo: RDF ★ ★ ★ ★
<http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10>
HTML?
@prefix sepe: <http://www.sepe.es/datos/>
sepe:obs1 sepe:municipio "Allande" ;sepe:desempleados 18 .
RDF?
Enlazar con otros datos
Las representaciones enlazan con otros
datos
Reutilización de datos
★ ★ ★ ★ ★
Ejemplo: RDF bien enlazado★ ★ ★ ★ ★
<http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10>
HTML?
@prefix sepe: <http://www.sepe.es/datos/>
sepe:obs1 sepe:municipio <http://dbpedia.org/resource/Allande>;sepe:desempleados 23 .
RDF?
dbo:allande dbo:areaTotal 342.24 ;rdf:type <http:/.../municipalitiesInAsturias> ;dbo:country <http:/.../Spain> ;dbo:populationTotal 2106 ;. . .
Principios de Linked Open
Data
1. Utilizar URIs para denotar cosas
2. Permitir que las URIs sean dereferenciables
3. Proporcionar información útil
Para personas (HTML) y máquinas (RDF)
4. Incluir enlaces a otras cosas relacionadas
★ ★ ★ ★ ★
La mejor manera de explotar tus
datos se le ocurrirá a otro
Jo Walsh, Rufus Pollock, http://www.okfn.org/files/talks/xtech_2007/
Linking Open Data
(2007)★ ★ ★ ★ ★
Linking Open Data
(2008)★ ★ ★ ★ ★
Linking Open Data
(2009)★ ★ ★ ★ ★
Linking Open Data
(2010)★ ★ ★ ★ ★
Linking Open Data
(2011)★ ★ ★ ★ ★
Web Semántica
Propuesta de la Web semántica (Tim Berners-Lee):
“disponer datos en la Web definidos y enlazados
de forma que puedan ser utilizados por las
máquinas no solamente para visualizarlos sino
también para:
automatizar tareas,
integrar y
reutilizar datos entre aplicaciones”
Web Semántica
Características de la Web...
No centralizada: problemas para garantizar integridad de la
información)
Información Dinámica: puede cambiar la información e incluso el
conocimiento sobre esa información
Mucha información: El sistema no puede pretender acaparar toda
la información
Es abierta: Muchos sistemas anteriores usaban la Closed World
Assumption
En inglés: Principio AAA: Anyone can say Anything about Any topic
Fuente: Semantic Web for the Working Ontologist, D. Allemang, J. Hendler
Tarta de la Web
URIUnicode
XML + Namespaces + XML Schema
Demostración
RDF + RDF Schema
Ontologías
Lógica
Confianza
Versión propuesta por Tim Berners Lee, año 2000
http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide10-0.html
Cambios en la tarta…
URIUnicode
XML
Intercambio de datos: RDF
Consultas:
SPARQL
Lógica unificadora
Confianza
RDF Schema
Ontologías
OWL
Reglas
RIF
Demostración
Versión actual (desde 2007)
http://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb/#(24)
RDF
Resource Description Framework (1998)
Descripción de recursos
Recurso = se identifica con URI
Se basa en tripletas
Sujeto Predicado Objeto
Tripletas RDF
http://purl.org/dc/elements/1.1/creator
Sujeto
Puede ser:
URI
Nodo anónimo (bNode)
Predicado
Identificado por URI
Objeto
Valor de una propiedad
Puede ser:
URI
Literal
Nodo anónimo
@prefix dc: <http://purl.org/dc/elements/1.1/>.
@prefix uni: <http://uniovi.es/> .
uni:biologia dc:creator uni:juan .
http://uniovi.es/biology
http://uniovi.es/juan
<http://uniovi.es/biologia> <http://purl.org/dc/elements/1.1/creator> <http://uniovi.es/juan> .
Notación (turtle)
simplificado
Grafo RDF
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .
uni:biologia dc:creator uni:juan .uni:biologia dc:creator uni:ana .uni:juan rdf:type uni:Profesor .uni:ana rdf:type uni:Profesor .
Puede representarse en Notación Turtle
uni:biologia
uni:juan
dc:creator
uni:anadc:creator
uni:Profesor
rdf:type
rdf:type
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luisdc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
uni:Profesor
uni:ana
rdf:type
uni:luis
uni:Becario
rdf:type
Grafo 1
Grafo 2
Grafo 3
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luisdc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
uni:Profesor
uni:ana
rdf:type
uni:luis
uni:Becario
rdf:type
Grafo 1
Grafo 2
Grafo 3
RDF es composicional
uni:quimica
uni:anadc:creator
uni:luis
dc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derecho
dc:creator
Grafo 1
+
Grafo 2
+
Grafo 3
Formatos RDF
Existen varios formatos:
N3
RDF/XML
N-Triples
Turtle
etc.
SPARQL
Simple Protocol and RDF Query Language
Lenguaje de consultas para la web semántica
Encaje de grafos
Extrae información de modelos RDF
Un protocolo
Define un mecanismo para invocar un servicio
También define un vocabulario para resultados
SPARQL
Ejemplo:
Buscar páginas cuyo autor sea un profesor
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> prefix uni: <http://uniovi.es/> prefix dc: <http://purl.org/dc/elements/1.1/>
SELECT ?p ?c WHERE { ?p dc:creator ?c .?c rdf:type uni:Profesor.
}
Encaje de grafos
SELECT ?p ?c WHERE {?p dc:creator ?c .?c rdf:type uni:Profesor .}
uni:quimica
uni:anadc:creator
uni:luis
dc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derecho
dc:creator
?p
dc:creator ?c
uni:Profesor
rdf:type
?p
?c
Resultados
?p ?c
uni:biologia uni:juan
uni:quimica uni:ana
uni:biologia uni:ana
?p
?c
?p
?c
RDF Schema
Extiende RDF con un vocabulario de esquema
Class, Property, Resource,…
type, subClassOf, subPropertyOf,…
range, domain,…
RDF Schema permite inferencias
RDF Schema
rdf:type
uni:Profesor
rdfs:subClassOf
uni:Persona
Ejemplo
uni:juan
rdf:type
SPARQL + Inferencia
Combinar SPARQL e inferencia
Ejemplo:
Páginas cuyo autor sea una persona
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .
SELECT ?p ?c WHERE {?p dc:creator ?c .?p rdf:type uni:Persona. }
uni:quimica
uni:anadc:creator
uni:luis
dc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derecho
dc:creator
uni:Persona
rdfs:subClassOf
rdfs:subClassOf
SPARQL con inferencia
SELECT ?p ?c WHERE {?p dc:creator ?c .?c rdf:type uni:Persona .}
?p
dc:creator ?c
uni:Persona
rdf:type
?p
?c
Resultados
?p ?c
uni:biologia uni:juan
uni:quimica uni:ana
uni:biologia uni:ana
?p
?c
?p
?c
rdf:type
rdf:type
?p
?c
uni:derecho uni:luis
Ontologías
RDF Schema permite hacer inferencias
sencillas
Limitaciones de expresividad
OWL (Web Ontology Language)
Añade más expresividad
Formalizar dominios concretos: ontologías
Expresividad vs Complejidad
Mitos de la Web Semántica
Navegador inteligente
Una nueva Web
El cerebro global
La gran verdad: Una única ontología
Una etiqueta para cada cosa
Nadie querrá compartir datos
Demasiada apertura
Moda pasajera
No hay Killer application
El navegador inteligente
Mito:
El objetivo es conseguir sistemas que naveguen
por internet de forma inteligente
Realidad:
Objetivo = desarrollar tecnologías que faciliten el
procesamiento automático de la información de la
Web y su integración
No es Inteligencia Artificial pero sí se utilizan
técnicas de esa disciplina
Una nueva Web
Mito:
La Web Semántica ( Web 3.0) es una nueva
versión de la web que obligará a cambiar todo lo
que ya hay
Realidad:
Se propone transición gradual. Las tecnologías
ofrecerán valor añadido.
El cerebro global
Mito:
El proyecto de la Web semántica generará un
cerebro global
Realidad:
La web semántica facilitará un mejor uso de los
datos de la web.
Sí es un camino hacia la inteligencia colectiva
La gran verdad
Mito:
Se propone la creación de una única ontología
con todo el conocimiento de la humanidad
Realidad:
Múltiples ontologías para diferentes dominios
Facilitar la integración
Mejorar la descripción de dominios
Una etiqueta para cada cosa
Mito:
El objetivo es asignar una etiqueta similar a RFID
para cada cosa
Realidad
No es factible que cada cosa conlleve sus
propios metadatos
Pueden realizarse descripciones de recursos
externas
Nadie querrá compartir datos
Mito:
Los proveedores de información no tendrán
motivación para adoptar tecnologías nuevas
Realidad:
Lo harán cuando encuentren un retorno de
inversión adecuado
Posicionamiento semántico
Demasiada apertura
Mito:
Si se sacan los datos de las bases de datos, se
pierden
Realidad:
Tecnologías para limitar acceso y controlar
privacidad
Declarar de dónde provienen los datos
Establecer propiedad legal de los datos
Moda pasajera
Mito:
Mito1: La Web semántica es algo nuevo
Mito 2: La Web semántica es algo viejo
Realidad:
Planteada ya en 1994, visión a largo plazo
Exceso de entusiasmo vs escepticismo
Casos de éxito: RSS, microformatos, XBRL,…
"A little semantics goes a long way"
No hay killer application
Mito:
No se ha desarrollado una killer application
Realidad:
¿Es necesaria?
¿Podría ser el proyecto Linked Open Data?
Retos de la Web Semántica
Escalabilidad
¿Dónde están los agentes?
Privacidad y seguridad
Confianza
Manejar ambigüedad e imprecisión
Cantidad vs Calidad
¿Servicios web semánticos?
MetadatosCDWA
VRA
CCO
ProyectosOpen Archives Initiative
Europeana
Aplicaciones en Historia del
Arte
CDWA
Categories for the description of Works of Art
Financiado por fundación Getty
31 categorías, +380 subcategorías
Distingue
Work
Imagen (Representación)
CDWA Lite
Subconjunto de CDWA
Vocabulario XML
VRA
VRA (Visual Resources Association)
Creado en 2007
Descripción de imágenes y objetos culturales
Vocabulario XML
Estructura de los datos
CCO
Cataloging Cultural Objects
Vocabulario XML
Contenido de datos
Open Archives
Objetivo: Interoperabilidad de bienes
culturales
Comienza en Cornell
Basado en XML
Europeana
Proyecto europeo
Desripción semántica de catálogos de obras de
arte
Utilización de RDF y Linked Data