Vocabularios abiertos para datos abiertos
María Poveda Villalón Agradecimientos: Asunción Gómez Pérez
[email protected] ETSI Informaticos
Universidad Politécnica de Madrid
Campus de Montegancedo s/n
28660 Boadilla del Monte, Madrid, Spain
Twitter: @MariaPovedaV
17 Marzo 2016, Alicante
Context – Ontology Engineering Group Directors: A. Gómez-Pérez, O. Corcho Position: 8th in the UPM ranking (200 groups) Founded: 1994 Ø Research Group (30 people) Ø Experience on
1. Ontologies, Semantic Web, Linked Data, Open Data 2. Semantic E-science 3. Multilingualism
Ø ODI Madrid : Madrid Node of the Open Data Institute
Ø Projects § 27 EU projects (7 as coordinator) § 54 National Projects § 27 contracts with companies
Ø Standardization activities § >25 @ W3C, ISO, OASIS, etc.
Ø Impact of publications H-index (scholar)
§ Asunción Gómez-Pérez (h:50, citations 14852) § Oscar Corcho García (h: 36, citations 8152)
Ø Services to the Spanish community § esDbpedia § linkeddata.es § vocab.linkeddata.es
http://www.oeg-upm.net/ https://github.com/oeg-upm @oeg-upm 170+ Past Collaborators 50+ Past Visitors
Slide taken from “Open Data” by A. Gómez-Pérez”
License
• This work is licensed under the Creative Commons Attribution – Non Commercial – Share Alike License
• You are free: • to Share — to copy, distribute and transmit the work • to Remix — to adapt the work
• Under the following conditions • Attribution — You must attribute the work by inserting
• “[source http://www.oeg-upm.net/]” at the footer of each reused slide
• a credits slide stating: “Vocabularios abiertos para datos abiertos” by M. Poveda Villalón”
• Non-commercial • Share-Alike
Ventajas de los datos abiertos
• Transparencia y control democrático • Empoderamiento • Participación ciudadana • Mejora y creación de nuevos productos y servicios • Innovación • Mejora en la eficiencia de los servicios ofrecidos por
el gobierno • Nuevos conocimientos a partir de fuentes de datos
combinadas • …
¿Qué son los datos abiertos (open data)?
• “Los datos abiertos son datos que pueden ser accedidos, reutilizados y redistribuidos libremente por cualquiera”
[fuente: Open Data Handbook, http://opendatahandbook.org/en/what-is-open-data/ ]
Slide taken from “Open Data” by A. Gómez-Pérez”
¿Qué son los datos abiertos (open data)?
• “Los datos abiertos son datos que pueden ser accedidos, reutilizados y redistribuidos libremente por cualquiera”
• Elementos clave: • Disponibilidad y Acceso: los datos deben estar disponibles
como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo, deben ser fáciles de modificar.
• Reutilización y Redistribución: los datos deben darse con una licencia que permita la reutilización y redistribución, incluyendo la mezcla con otros conjuntos de datos.
• Participación Universal: todos deben poder usarlos, reutilizarlos y redistribuirlos.
[fuente: Open Data Handbook, http://opendatahandbook.org/en/what-is-open-data/ ]
Slide taken from “Open Data” by A. Gómez-Pérez”
Datos Abiertos y Enlazados (I)
★ En la web, cualquier formato pero con licencia abierta
• Ej: Un pdf
http://www.ayto-torrejon.es/plantilla.asp?nPagina=1&ccClave=34
Datos Abiertos y Enlazados (II)
★ En la web, cualquier formato pero con licencia abierta
• Ej: Un pdf
★★ Formato estructurado, procesable
• Ej: tabla en excel
ftp://ftp.ibge.gov.br/
Datos Abiertos y Enlazados (III)
★ En la web, cualquier formato pero con licencia abierta
• Ej: Un pdf
★★ Formato estructurado, procesable
• Ej: tabla en excel
★★★ Formato no propietario • Ej: csv en lugar de excel
Datos Abiertos y Enlazados (IV)
http://datos.bne.es/persona/XX1718747.rdf
★ En la web, cualquier formato pero con licencia abierta
• Ej: Un pdf
★★ Formato estructurado, procesable
• Ej: tabla en excel
★★★ Formato no propietario • Ej: csv en lugar de excel
★★★★ RDF y estándares web • Ej: URI como identificadores
Datos Abiertos y Enlazados (V)
★ En la web, cualquier formato pero con licencia abierta
• Ej: Un pdf
★★ Formato estructurado, procesable
• Ej: tabla en excel
★★★ Formato no propietario • Ej: csv en lugar de excel
★★★★ RDF y estándares web • Ej: URI como identificadores
★★★★★ Enlaza con otros datos • Ej: apunta a URIs de otros
proveedores de datos
http://datos.bne.es/persona/XX1718747.rdf
Datos Abiertos Enlazados - Beneficios
Integración de datos
• Distintos formatos
• Distinta granularidad
• Distintos idiomas
Interoperabilidad
• Tecnología web estandar
ID COL1 COL2 COL3 COL4 COL5 COL6 1200013 28/04/1992 01/01/1993 -67.052 -10.074 205.894 12 1200054 01/03/1963 01/01/1977 -69.563 -10.943 234.867 12 1200104 21/12/1938 01/01/1939 -68.748 -11.016 188.324 12 1200138 28/04/1992 01/01/1993 -67.952 -9.820 198.174 12 1200179 28/04/1992 01/01/1993 -67.674 -10.570 212.303 12 1200203 07/09/1904 01/01/1939 -72.673 -7.631 183.080 12 1200252 28/04/1992 01/01/1993 -68.745 -11.028 206.036 12 1200302 21/12/1938 01/01/1939 -70.354 -8.160 159.822 12 1200328 28/04/1992 01/01/1993 -71.951 -9.193 264.978 12 1200336 01/03/1963 01/01/1977 -72.917 -7.593 187.066 12 1200344 01/03/1963 01/01/1977 -69.260 -8.836 162.134 12 1200351 28/04/1992 01/01/1993 -72.790 -8.954 214.911 12 1200385 01/03/1963 01/01/1977 -67.188 -10.335 129.189 12 1200807 28/04/1992 01/01/1993 -67.541 -9.601 134.323 12 1200393 28/04/1992 01/01/1993 -72.742 -8.267 201.806 12 1200401 07/09/1904 01/01/1939 -67.811 -9.978 137.866 12 1200427 28/04/1992 01/01/1993 -72.648 -7.734 189.585 12 1200435 28/04/1992 01/01/1993 -70.486 -9.443 216.724 12 1200500 25/09/1904 01/01/1939 -68.656 -9.065 132.133 12 1200450 01/03/1963 01/01/1977 -67.743 -10.148 207.925 12 1200609 23/10/1912 01/01/1939 -70.756 -8.156 172.144 12 1200708 23/10/1912 01/01/1939 -68.506 -10.652 173.282 12
¿Y el significado de los datos?
ftp://ftp.ibge.gov.br/
ID COL1 COL2 COL3 COL4 COL5 COL6 1200013 28/04/1992 01/01/1993 -67.052 -10.074 205.894 12 1200054 01/03/1963 01/01/1977 -69.563 -10.943 234.867 12 1200104 21/12/1938 01/01/1939 -68.748 -11.016 188.324 12 1200138 28/04/1992 01/01/1993 -67.952 -9.820 198.174 12 1200179 28/04/1992 01/01/1993 -67.674 -10.570 212.303 12 1200203 07/09/1904 01/01/1939 -72.673 -7.631 183.080 12 1200252 28/04/1992 01/01/1993 -68.745 -11.028 206.036 12 1200302 21/12/1938 01/01/1939 -70.354 -8.160 159.822 12 1200328 28/04/1992 01/01/1993 -71.951 -9.193 264.978 12 1200336 01/03/1963 01/01/1977 -72.917 -7.593 187.066 12 1200344 01/03/1963 01/01/1977 -69.260 -8.836 162.134 12 1200351 28/04/1992 01/01/1993 -72.790 -8.954 214.911 12 1200385 01/03/1963 01/01/1977 -67.188 -10.335 129.189 12 1200807 28/04/1992 01/01/1993 -67.541 -9.601 134.323 12 1200393 28/04/1992 01/01/1993 -72.742 -8.267 201.806 12 1200401 07/09/1904 01/01/1939 -67.811 -9.978 137.866 12 1200427 28/04/1992 01/01/1993 -72.648 -7.734 189.585 12 1200435 28/04/1992 01/01/1993 -70.486 -9.443 216.724 12 1200500 25/09/1904 01/01/1939 -68.656 -9.065 132.133 12 1200450 01/03/1963 01/01/1977 -67.743 -10.148 207.925 12 1200609 23/10/1912 01/01/1939 -70.756 -8.156 172.144 12 1200708 23/10/1912 01/01/1939 -68.506 -10.652 173.282 12
Ciudad Fecha de creación
Fecha de establecimiento Estado
Latitud Longitud Altitud
¿Y el significado de los datos?
ftp://ftp.ibge.gov.br/
Los Vocabularios definen los conceptos y las relaciones utilizadas para describir y representar un área de interés.
Definición adaptada de: http://www.w3.org/standards/semanticweb/ontology
Vocabularios (ontologías)
Ciudad Fecha de creación
Fecha de establecimiento
Estado
La6tud Longitud Al6tude
ID COL1 COL2 COL3 COL4 COL5 COL6 1200013 28/04/1992 01/01/1993 -67.052 -10.074 205.894 12 1200054 01/03/1963 01/01/1977 -69.563 -10.943 234.867 12 1200104 21/12/1938 01/01/1939 -68.748 -11.016 188.324 12 1200138 28/04/1992 01/01/1993 -67.952 -9.820 198.174 12 1200179 28/04/1992 01/01/1993 -67.674 -10.570 212.303 12 1200203 07/09/1904 01/01/1939 -72.673 -7.631 183.080 12 1200252 28/04/1992 01/01/1993 -68.745 -11.028 206.036 12 1200302 21/12/1938 01/01/1939 -70.354 -8.160 159.822 12 1200328 28/04/1992 01/01/1993 -71.951 -9.193 264.978 12 1200336 01/03/1963 01/01/1977 -72.917 -7.593 187.066 12 1200344 01/03/1963 01/01/1977 -69.260 -8.836 162.134 12 1200351 28/04/1992 01/01/1993 -72.790 -8.954 214.911 12 1200385 01/03/1963 01/01/1977 -67.188 -10.335 129.189 12 1200807 28/04/1992 01/01/1993 -67.541 -9.601 134.323 12 1200393 28/04/1992 01/01/1993 -72.742 -8.267 201.806 12 1200401 07/09/1904 01/01/1939 -67.811 -9.978 137.866 12 1200427 28/04/1992 01/01/1993 -72.648 -7.734 189.585 12 1200435 28/04/1992 01/01/1993 -70.486 -9.443 216.724 12 1200500 25/09/1904 01/01/1939 -68.656 -9.065 132.133 12 1200450 01/03/1963 01/01/1977 -67.743 -10.148 207.925 12 1200609 23/10/1912 01/01/1939 -70.756 -8.156 172.144 12 1200708 23/10/1912 01/01/1939 -68.506 -10.652 173.282 12
Data taken from ftp://ftp.ibge.gov.br/
Conceptos y relaciones
Punto
Ciudad Fecha de creación
Fecha de establecimiento
Estado
La6tud Longitud Al6tude
ID COL1 COL2 COL3 COL4 COL5 COL6 1200013 28/04/1992 01/01/1993 -67.052 -10.074 205.894 12 1200054 01/03/1963 01/01/1977 -69.563 -10.943 234.867 12 1200104 21/12/1938 01/01/1939 -68.748 -11.016 188.324 12 1200138 28/04/1992 01/01/1993 -67.952 -9.820 198.174 12 1200179 28/04/1992 01/01/1993 -67.674 -10.570 212.303 12 1200203 07/09/1904 01/01/1939 -72.673 -7.631 183.080 12 1200252 28/04/1992 01/01/1993 -68.745 -11.028 206.036 12 1200302 21/12/1938 01/01/1939 -70.354 -8.160 159.822 12 1200328 28/04/1992 01/01/1993 -71.951 -9.193 264.978 12 1200336 01/03/1963 01/01/1977 -72.917 -7.593 187.066 12 1200344 01/03/1963 01/01/1977 -69.260 -8.836 162.134 12 1200351 28/04/1992 01/01/1993 -72.790 -8.954 214.911 12 1200385 01/03/1963 01/01/1977 -67.188 -10.335 129.189 12 1200807 28/04/1992 01/01/1993 -67.541 -9.601 134.323 12 1200393 28/04/1992 01/01/1993 -72.742 -8.267 201.806 12 1200401 07/09/1904 01/01/1939 -67.811 -9.978 137.866 12 1200427 28/04/1992 01/01/1993 -72.648 -7.734 189.585 12 1200435 28/04/1992 01/01/1993 -70.486 -9.443 216.724 12 1200500 25/09/1904 01/01/1939 -68.656 -9.065 132.133 12 1200450 01/03/1963 01/01/1977 -67.743 -10.148 207.925 12 1200609 23/10/1912 01/01/1939 -70.756 -8.156 172.144 12 1200708 23/10/1912 01/01/1939 -68.506 -10.652 173.282 12
Data taken from ftp://ftp.ibge.gov.br/
establecida en
creada en
longitud altitude latitud
es parte de
Conceptos y relaciones
Punto situada en
Vocabularios (ontologías) - beneficios
• Proporcionar semántica / contexto
• Facilita la reutilización
• Facilita la integración de datos
• Facilita el mantenimiento de los datos
• Razonamiento, inferencia
• Desambiguación, prevención de errores
Who’s birthday is today?
Linda was born on the 11/05/1983
5th of November 2015
Oliver was born on the 05/11/1986
Who’s birthday is today?
Linda was born on the 11/05/1983
5th of November 2015
Oliver was born on the 05/11/1986
Who’s birthday is today?
Linda was born on the 11/05/1983
5th of November 2015
Oliver was born on the 05/11/1986
Happy birthday Oliver!
Who’s birthday is today?
Linda was born on the 11/05/1983
5th of November 2015
Oliver was born on the 05/11/1986
Who’s birthday is today?
Linda was born on the 11/05/1983
5th of November 2015
Oliver was born on the 05/11/1986
Happy birthday Linda!
Describe your data
Linda was born on the 11/05/1983
Oliver was born on the 05/11/1986
5th of November 2015
U.K date format DD/MM/YYYY
U.S. date format MM/DD/YYYY
Describe your data
Linda was born on the 11/05/1983
Oliver was born on the 05/11/1986
5th of November 2015
U.K date format DD/MM/YYYY
U.S. date format MM/DD/YYYY
Happy birthday Linda and Oliver!
Just one more thing
Keep describing
Linda was born on the 11/05/1983
Oliver was born on the 05/11/1986
U.K date format DD / MM / YYYY
U.S. date format MM / DD / YYYY
DD YYYY MM
ISO 8601
Just one more thing
Keep describing
Linda was born on the 11/05/1983
Oliver was born on the 05/11/1986
U.K date format DD / MM / YYYY
U.S. date format MM / DD / YYYY
DD YYYY MM
ISO 8601
Just one more thing
Keep describing
Linda was born on the 11/05/1983
Oliver was born on the 05/11/1986
U.K date format DD / MM / YYYY
U.S. date format MM / DD / YYYY
DD YYYY MM
ISO 8601
Vocabularios 5 estrellas (I)
★ En la web, con licencia abierta
• Ej: Un pdf describiendo los datos y sus descripciones
Diagramas
UML, E/R,
texto…
Vocabularios 5 estrellas (II)
★ En la web • Ej: Un pdf describiendo los
datos y sus descripciones
★★ Formato estructurado • Ej: por ejemplo XML, OWL,
Vocabularios 5 estrellas (III)
★ En la web • Ej: Un pdf describiendo los
datos y sus descripciones
★★ Formato estructurado • Ej: por ejemplo XML
★★★ Incluye descripciones • Ej: etiquetas, definiciones,
metadatos, etc.
http://purl.org/net/VideoGameOntology
Vocabularios 5 estrellas (IV)
★ En la web • Ej: Un pdf describiendo los
datos y sus descripciones
★★ Formato estructurado • Ej: por ejemplo XML
★★★ Incluye descripciones • Ej: etiquetas, definiciones,
metadatos, etc.
★★★★ Varios formatos • Ej: html, ttl, xml, etc.
http://purl.org/net/VideoGameOntology
Vocabularios 5 estrellas (V)
★ En la web • Ej: Un pdf describiendo los
datos y sus descripciones
★★ Formato estructurado • Ej: por ejemplo XML
★★★ Incluye descripciones • Ej: etiquetas, definiciones,
metadatos, etc.
★★★★ Varios formatos • Ej: html, ttl, xml, etc.
★★★★★ Enlaza con otros vocabularios
• Ej: reutiliza definiciones, extiende otros vocabularios, etc.
gr:ProductOrService
vgo:GameProduct
schema:Product
vgo:Character
vgo:Item
vgo:PlayingArea
vgo:Game
vgo:Achievement
∪
Conclusiones
• No sólo necesitamos datos
• Describir datos mediante vocabularios consensuados
Datos
Información
Conoci-miento
Conclusiones
• No sólo necesitamos datos
• Describir datos mediante vocabularios consensuados
• ¡Publica, documenta y abre los vocabularios!
Datos
Información
Conoci-miento
o Vocabularies on the semantic web • http://www.w3.org/standards/semanticweb/ontology
o Linked Open Vocabularies (LOV): a gateway to reusable semantic vocabularies on the Web • http://goo.gl/QE3mXl
o http://vocab.linkeddata.es
o http://smartcity.linkeddata.es
o OnToology: http://ontoology.linkeddata.es/
o Cómo licenciar RDF: http://www.cosasbuenas.es/blog/how-to-license-rdf
¡Gracias!
¿Preguntas?
Vocabularios abiertos para datos abiertos
María Poveda Villalón Agradecimientos: Asunción Gómez Pérez
[email protected] ETSI Informaticos
Universidad Politécnica de Madrid
Campus de Montegancedo s/n
28660 Boadilla del Monte, Madrid, Spain
Twitter: @MariaPovedaV
17 Marzo 2016, Alicante
Foundations
Unique identifiers: URI identify or name a resource
RDF(S) models
El Quijote Cervantes Is creator of
Work Person Is creator of
Is a Is a
http://datos.bne.es/resource/XX1718747 http://datos.bne.es/resource/XX3383563
http://datos.bne.es/def/C1005 http://datos.bne.es/def/C1001
Equivalence links to other datasets Same As
http://viaf.org/viaf/17220427
Cervantes
Same As Same As
http://dbpedia.org/resource/Miguel_de_Cervantes
Cervantes
Data navigation
Subject Object predicate
Slide taken from “Open Data” by A. Gómez-Pérez”
The model (Ontology) and the data
Work
Language
translation
Year Publication date
Library
Located at
Person Is creator of
Has subject
El Quijote Cervantes
Is creator of
Catalán
translation
1960 Publication date
BNE
Located in
Has subject
Vida de Cervantes
birthPlace Place
birthPlace Alcalá de Henares
Ontology
Data
Slide taken from “Open Data” by A. Gómez-Pérez”
http://iflastandards.info/ns/fr/frbr/frbrer/C1001
http://iflastandards.info/ns/fr/frbr/frbrer/C1002
translation
Año
Publication date
http://xmlns.com/foaf/0.1/Organization
Located in
http://iflastandards.info/ns/fr/frbr/frbrer/C1005
Is creator of
Has subject
http://datos.bne.es/resource/XX3383563 http://datos.bne.es/resource/XX1718747 Es autor
http://datos.bne.es/resource/XX1924295
translation
1960 Publication date
BNE
Located in
Has subject
http://datos.bne.es/resource/bimo0002045496
Vida de Miguel de Cervantes Saavedra
Don Quijote de la Mancha Cervantes Saavedra, Miguel de
Catalán
Ontology
Data
http://datos.bne.es/#
Language
work
Biblioteca
Person
http://geo.linkeddata.es/ontology/Municipio
birthPlace
http://geo.linkeddata.es/resource/Alcalá de Henares
birthPlace
Linked data is full of URIs
Slide taken from “Open Data” by A. Gómez-Pérez”