Curso Herramientas digitales para periodismo de DatosDías: 24 y 25 enero 2019
Facultad de Periodismo-Cuenca
Sesión 1: Datos abiertos – Formatos y fuentes de datos – Extracción – Limpieza de datos (Open Refine)
Jueves, 24 de enero 2019
Docente: David Pardo: [email protected]
DATOS ABIERTOS (open data):
Datos libremente accesibles, reutilizables y redistribuiblesDisponibles de forma libre para todo el mundo, sin exigencia de permisos específicos (aunque algunos pueden estar controlados mediante algún tipo de licencia).
Tiene una ética similar a otros movimientos y comunidades abiertas
Única condición de atribución (reconocimiento de su auditoría)
DATOS PÚBLICOS (del Sector Público)
En inglés PSI (Public Sector Information) o Government DataDatos que recoge, producen, reproducen y difunden las Administraciones y organismos públicos
• Cualquier tipo de documentos en especial en soporte digital
• Información social, económica, jurídica, geográfica, meteorológica, turística, de empresas, estudios económicos, datos financieros, patentes, científicos, médicos, educación, acuerdos políticos, ..
DATOS PÚBLICOS ABIERTOS
• Open Public Data o Open Government Data
• Datos de titularidad pública que se “abren” (sean accesibles y estén disponibles para todo el mundo, sin restriccionestécnicas ni legales)
• Cartografía, mapas, …
• Cultura y ocio
• Ciencia y tecnología: patentes, proyectos investigación
• Económico y financiero: mercado valores, financiación pública, …
• Empleo: ofertas
• Estadísticas: demografía, educación
• Ayudas, subvenciones
• Meteorología,
• Medioambiente
• Transporte, urbanismo, infraestructuras
• Energía, industria
• Turismo
• Salud, sociedad y bienestar
• Justicia,
• Sector público (organigramas, presupuestos, licitaciones)
• Político: acuerdos, …
Temáticas de los DATOS PÚBLICOS (ABIERTOS)
Temáticas de los DATOS PÚBLICOS (ABIERTOS)
(AENOR Norma UNE 178301 “Ciudades inteligentes Datos Abiertos (Open data)”Publicada Julio 2015)
Fuente EFE (07/06/2016):http://www.efesalud.com/noticias/biden-anuncia-una-nueva-base-datos-abiertos-la-lucha-cancer/
Fuente Agencia Sinc (28/05/2014):http://www.agenciasinc.es/Noticias/Bill-Gates-financia-la-publicacion-en-abierto-del-genoma-de-3.000-arroces
CARACTERISTICAS de la Información (Open Data) del Sector Público
Los datos recopilados desde el sector público se presuponen fiables y veraces (calidad), además de ser, en muchos casos, bastante exhaustivos (completos). Esto hace que sean muy atractivos.
Completos Fiables Calidad
OBJETIVO de la Apertura de datos públicos¿Cómo generar impacto económico (y social)?
¡¡¡ LA REUTILIZACIÓN !!!
Uso por parte de personas físicas o jurídicas, de los datos generados y custodiados por los organismos del sector público, con fines comerciales o no.
Los datos son el combustible de la nueva economía,
[...], el nuevo petróleo de la era digital“
• Los datos y la tecnología se pueden asociar para
generar valor económico a través servicios de valor
añadido
• Datos públicos que se reutilizan para añadirles
valor y que la ciudadanía los aproveche
OBJETIVOS / BENEFICIOS de la Reutilización de la Información del Sector Público (RISP)
• Con los datos las empresas generan valor y por tanto productos y servicios a los ciudad
1.Los datos recopilados con fondos públicos reviertan al ciudadano aportando valor
• Optimización de los recursos públicos2.Eliminar esfuerzos duplicados entre administraciones
• Control al gobierno por parte de los ciudadanos, y organizaciones civiles
3.Como ejercicio de transparencia y rendición de cuentas
BENEFICIARIOS de la Reutilización de la Información del Sector Público (RISP)
Ciudadanos
• Más transparencia
• Participación ciudadana
• Nuevos servicios que mejoran la vida de los ciudadanos
Administración
• Más eficiente al reducir costes
• Conoce las inquietudes de los ciudadanos
• Los ciudadanos aportan ideas y contenidos
• Las empresas crean aplicaciones
Empresas
• Generan valor económico
• Crean riqueza y empleo
• Dan servicios de valor añadido
REUTILIZACIÓN
• Ley de reutilización de la información del sector público:
• Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público (Ref. BOE-A-2007-19814) (modificada por la Ley
18/2015)
• Transpone la Directiva 2003/98/CE del Parlamento Europeo y del Consejo, de 17 de noviembre de 2003, relativa a la reutilización de la
información del sector público (Ref. DOUE-L-2003-82244).
• Se desarrolla por Real Decreto 1495/2011, de 24 de octubre (Ref. BOE-A-2011-17560).
• Ley 18/2015, de 9 de julio, por la que se modifica la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público (Ref. BOE-A-2015-7731)
• Transpone la Directiva 2013/37/UE del Parlamento Europeo y del Consejo, de 26 de junio de 2013, por la que se modifica la Directiva 2003/98/CE relativa a la reutilización de la información del sector público (Ref. DOUE-L-2013-81251).
• Esquemas y Normas de interoperabilidad
• Real Decreto 4/2010, de 8 de Enero, por el que se regula el Esquema Nacional de Interoperabilidad en el ámbito de la Administración Electrónica.
• Resolución febrero 2013, de la Secretaría de Estado de Administraciones Públicas, por las que se aprueba la Norma Técnica de Interoperabilidad de Reutilización de recursos de la información
ACCESO
• Ley 19/2013, de 9 de diciembre, de transparencia, acceso a la información pública y buen gobierno.
• Establece una serie de obligaciones referentes a la publicación de información pública que permita a los ciudadanos conocer cómose toman las decisiones que les afectan.
• Entre la información que se debe compartir está la distribución de fondos públicos, las funciones de los distintos órganos o loscriterios de actuación de las diversas instituciones.
MARCO LEGAL
CLASIFICACIÓN DE LOS DATOS
8 + 2 PRINCIPIOS DEL OPEN (PUBLIC) DATA:1.COMPLETOS: lo más completa posible, base de datos, y descrita semánticamente
2.PRIMARIOS: de la fuente de los datos
3.OPORTUNOS: a tiempo, actualizado según su naturaleza
4.FACILIDAD DE ACCESO: electrónico, al mayor nº de usuarios y propósitos
5.LEGIBLES POR MÁQUINAS: estructurado para procesado automático, …
6.NO DISCRIMINATORIOS: para cualquiera, sin registros (anónimo)
7.NO PROPIETARIOS: en formatos abiertos y estándares
8.LIBRES DE LICENCIAS: no está sujeta a ningún derecho de autor, patentes, marcas.
Se puede permitir licencias abiertas como mínimas restricciones de reutilización.
9.PERSISTENTES: accesible a lo largo del tiempo
10.COSTE DE USO: gratuito o costes marginales (recogida, producción, preproducción y difusión)
Principios de la Carta Internacional de Datos Abiertos (Open Data Chapter: Gobiernos, Asociaciones, Organizaciones)Eight principles of open government data (Opengovdata.org)TEN PRINCIPLES FOR OPENING UP GOVERNMENT INFORMATION (Sun Light Foundation)
FORMATOS DE DATOS
Es la forma en la que se encapsulan los datos
En cada formato se definen unas reglas conocidas de forma que se expanda su uso y se estandarice
Normalmente los formatos de datos abiertos son de texto
FORMATOS DATOS ABIERTOS MÁS POPULARES
• PDF (archivo de presentación e intercambio: con texto o sin texto) inicialmente privativo, ahora estándar abierto
• XLS (o XLSX) aunque popular es privativo (desarrollado por Microsoft para Excel)
• CSV, TSV: texto separado por comas “,” o puntos y comas “;” o tabuladores. Su 1ª fila suele llevar la definición de los campos. Alternativa popular al XLS
nombre, color, tallamanzana, rojo, mediapera, verde, mediamelón, verde, grandeciruela, morado, pequeña
FORMATOS DATOS ABIERTOS MÁS POPULARES
• XML: Lenguaje de marcado, se basa en etiquetas de apertura y cierre configurables, y puede estar basado en una gramática DTD. Permite jerarquías
<frutas>
<fruta>
<nombre>manzana</nombre>
<color>rojo</color>
<talla>media</talla>
</fruta>
<fruta><nombre>pera</nombre><color>verde</color><talla>media</talla></fruta>
<fruta><nombre>melón</nombre><color>verde</color><talla>grande</talla></fruta>
<fruta><nombre>ciruela</nombre><color>morado</color><talla>pequeña</talla></fruta>
</frutas>
• JSON: Javascript Object Notation. Muy popular como el XML, pero con menor coste de capacidad. Se basa en {clave:valor}
{ “frutas”: [
{“nombre”: “manzana”, “color”: “rojo”. “Talla”: “media”},
{“nombre”: “pera”, “color”: “verde”. “Talla”:“media”},
{“nombre”: “melón”, “color”: “verde”. “Talla”: “grande”},
{“nombre”: “ciruela”, “color”: “morado”. “Talla”: “pequeña”}
] }
FORMATOS DATOS ABIERTOS MÁS POPULARES
• RDF, N3, TURTLE, JSON-LD, … son modelos de intercambio de datos en la web. Usa URI’s para nombrar las relaciones entre elementos: modelo de tripletas
• Geográficos: SHAPE, WFS, GML, KMZ, WMS, GEOJSON, KML, JSON-G.Utilizados para representar información geográfica (básicamente puntos, líneas, polígonos)
FUENTES DE INFORMACIÓN
y PORTALES DE DATOS ABIERTOS
https://datos.gob.es/es/iniciativas
CONTENIDO DE LOS PORTALES DE DATOS ABIERTOS
• INFORMACIÓN GENERAL
• Información de la iniciativa (el portal: objetivos)
• Actualidad, noticias
• Información qué es Open Data
• DATOS:
• Descarga del catálogo
• Descarga de los conjuntos de datos:
Búsqueda simple, Filtrado y navegación por (sectores, formatos, Fecha de actualización, etiquetas)
Estadísticas de visitas y descargas de cada conjunto de datos
• Punto de acceso SPARQL (consultas) / Información y ejemplos de ayuda SPARQL
• Acceso mediante API / Información y ejemplos de uso de la API
• APLICACIONES Y VISUALIZACIONES
• PARTICIPACIÓN: IDEAS, PETICIÓN DE NUEVOS CONJUNTOS DE DATOS, SUGERENCIAS
• LICENCIA / CONDICIONES DE USO
datos.gob.eshttp://datos.gob.es/
datos.gob.es aloja el Catálogo Nacional de datos abiertos que es punto único de acceso a los conjuntos de datos que las Administraciones Públicas ponen a disposición para su reutilización en España.
Además proporciona información general, materiales formativos y noticias de actualidad
FUENTES INTERNACIONALES 1/3
undata - Datos estadísticos de la ONU
Información elaborada por la Organización de las Naciones Unidas (ONU) con información estadística de sus bases de datos agricultura, crimen, educación empleo,
energía, medio ambiente, salud, HIV/SIDA, Desarrollo humano, industría, comuniciación, cuentas nacionales, refugiados, población, turismo, indicadores de los
objetivos del milenio, etc. En su portal de la ONU también cuenta con numerosos recursos, bases de datos, estadísticas.
World Bank Open Data / Datos abiertos del Banco Mundial
Datos de libre acceso del Banco Mundial, datos abiertos sobre el desarrollo en el mundo. Se puede buscar por indicadores, países y temas. Son un subconjunto de los datos
disponibles en el sitio "Banco de datos" o DataBank.
Contiene enlaces a otros sitios del propio Banco Mundial. Entre ellos:
DataBank o Banco de datos del Banco Mundial
Es más una heramienta de análisis y visualización que contiene una recopilación extensa de datos en series cronológicas (donde se puede generar sus propias consultas; y
generar cuadros, gráficos y mapas y fácilmente guardarlos, incrustarlos y compartirlos).
Indicadores del desarrollo mundial
El principal conjunto de indicadores de desarrollo del Banco Mundial, que se compilan de fuentes internacionales reconocidas oficialmente.
Catálogo o Índice de datos del Banco Mundial
lista de los conjuntos de datos disponibles del Banco Mundial, que incluye bases de datos, cuadros preformateados, informes y otros recursos.
Microdatos (del Banco Mundial)
Datos recopilados mediante encuestas por muestreo de hogares, establecimientos comerciales u otras instalaciones en países.
Proyectos Banco Mundial
Da acceso a información básica sobre todos los proyectos de financiamiento del Banco Mundial desde 1947 hasta el presente.
FAO Stats y Bases de datos e la FAO
Acceso libre a datos sobre alimentación y agricultura de más de 245 países y 35 regiones desde 1961 así como a las bases de datos de la FAO que abarcan un amplio
abanico de temas relacionados con la seguridad alimentaria y la agricultura.
Unesco (UIS.Stat)
Contiene los últimos datos e indicadores disponibles para la educación, la alfabetización, la ciencia, la tecnología y la innovación, la cultura, la comunicación y la
información.
Global Partnership for Sustainable Development Data
Trabajan para crear un mundo donde los datos son usados para lograr sociedades justas y sostenibles, promueven los datos abiertos, realizan iniciativas, estudios,
organizan anualmente el Data Fest - Data for Development Festival
API Highways
Herramienta de Global Partnership for Sustainable Development Data, todavía en desarrollo para dar mayor valor a los conjuntos de datos y APIs a Gobiernos, ONGs y
organizaciones del sector privado en una única infraestructura. Da a desarrolladores APIs estandarizadas y herramientas de visualización relacionados con data de
desarrollo.
FUENTES INTERNACIONALES 2/3
Resource Watch
Plataforma que muestra información (cientos de conjuntos de datos) del estado de los recursos y ciudadanos del planeta: desafíos como el cambio climático, pobreza, riesgo de agua,
instabilidad del estado, contaminación aire, migración humana, ..
Our World in Data
Publicación online que muestra cómo estan cambiando las condiciones de vida a través de los datos y visualizaciones libres de uso así como sus datos. Cubre temas como salud, provisión
de alimentos, crecimiento y distribución de la riqueza, violencia, derechos, gueerra, cultura, uso de energía, educación, cambios ambientales.
Data World
Plataforma de pago (gratuita con limitaciones) donde crear proyectos o conjuntos de datos junto a herramientas para descubrir, comprender y usar datos para analistas individuales hasta
equipos. Existen conjunto de datos para realizar ejercicios de distintos niveles, visualizaciones, etc.
Portal de datos abiertos de la Unión Europea.
Punto de acceso único a gran variedad de datos elaborados por las instituciones y otros organismos de la Unión Europea.
Cuenta con el European Data Portal que recopilar los metadatos a partir de información del sector público disponible en portales de datos de acceso público de los distintos países
europeos.
EUROESTAT
Oficina estadística de la Union Europea. Información estadística oficial de la U.E. (acceso a las estadísticas del Banco Central Europeo) y de sondeos.
HDX - Plataforma de Intercambio de Información Humanitaria
Plataforma de información sobreel contexto, las personas afectadas en una crisis humanitaria.
Portal de datos abiertos del Gobierno de USA
datos generados o recopilados por las Instituciones de USA.
Datos y estadísticas de la OMS
Datos del Observatorio mundial de la salud.
Data del FMI (IMF Data)
Datos del Fondo Monetario Internacional (FMI).
Banco Interamericano de Desarrollo
Bases de Datos del Banco Interamericano de Desarrollo (BID) con disponibilidad de API.
FUENTES INTERNACIONALES 3/3
Otras internacionales
Open Weather Map
Información meteorológica de todo el mundo (histórica de pago).
Fuentes de datos gratuitas de Amazon
Datos de diversa tipos oferecidos por Amanzon Web Services (entre ellas el genoma humano).
Kaggle Datasets
Conjunto de datos sobre turismo, plantas,películas, accidentes, ....
Data in Gapminder World
Fuentes de datos gratuitas de todo el mundo de la Fundación Sueca Gapminder que lucha para contrarrestar los conceptos erróneos sobre el desarrollo global. Su director fallecido en 2017
fue Hans Rosling conocido por sus visualizaciones y charlas donde promo
Organización intergubernamental Instituto Internacional para la Democracia y la Asistencia Electoral
datos sobre participación, sistemas electorales y financiación, entre otras.
Papeles de Panamá
Información de mlasde 500.000 entidades offshore de las investigaciones de los Papeles de Panamá.
FUENTES NACIONALES
Datos.gob.es - Catálogo nacional de datos abiertos
Punto único de acceso a los conjuntos de datos que las Administraciones Públicas ponen a disposición para su reutilización en España.
Línea de actuación de la iniciativa Aporta promovida por el Ministerio de Energía, Turismo y Agenda Digital, a través de la Entidad Pública Empresarial Red.es
INE
Istituto Nacional de Estadística con apartado INEbase de información estadística estructurada por temas y apartados. Entre ellos el Censo Electoral, Demografía y población, IPC o
datos de economía, mercado laboral, servicios, sociedad, ciencia y tecnología agricultura, etc.
CIS
IAcceso Web al Banco de Datos del CIS, estudios científicos de la sociedad española.
AEMET
Agencia Estatal de Meteorología. Cuenta con la sección Datos Abiertos con subsecciónes de Catálogo y subsección AEMET OpenData con acceso a un API REST
Delegación del Gobierno para la Violencia de Género
Información relacionada con los delitos de Violencia de Género en España
Estadísticas del Ministerio de Empleo y Seguridad Social.
Información del mercado de trabajo, inmigración y migración, condiciones de trabajo, prestaciones de S.S.
Estadísticas del SEPE - Servicio Público de Empleo Estatal.
Estadísticas histórica de empleo, paro por municipios, contratos, formación y prestaciones por desempleo del Servicio Público de Empleo Estatal.
Estadísticas del Catastro
Dirección General del Catastro lleva a cabo la publicación de las estadísticas catastrales, así como de las estadísticas tributarias del Impuesto sobre Bienes Inmuebles.
Base de datos del Consejo General del Poder Judicial
Base de datos y estadística judicial del C.G.P.J. y consultas al CENDOJ (Centro de Documentación Judicial)
Otras nacionales
Portal de transparencia del Congreso de los Diputados
Datos en formato XML sobre las votaciones realizadas en las sesiones plenarias desde la X Legislatura.
Catálogo de datos abiertos del Senado de España
Datos de la actividad parlamentaria, de su composición y organización, rrss de senadores y económica
TIPI
herramienta on-line de transparencia, acceso a información y rendición de cuentas. Nacida desde la sociedad civil, está focalizada en el seguimiento de la toda la actividad
parlamentaria española relacionada con la pobreza, la justicia social y el desarrollo sostenible.
FUENTES AUTONÓMICAS Y LOCALES
Espacio de Datos Abiertos de Castilla-La Mancha dentro de su Portal de Transparencia
Servicio de Estadística de Castilla-La ManchaAcceso a su navegador estadístico
Portal de contratación pública de Castilla-La ManchaDifusión y acceso a todas las aplicaciones y servicios de interés relativos a los contratos del sector público regional y a la sede electrónica dela misma.Acceso a la Plataforma de Contratación del Sector Público (licitaciones, contrataciones, …)
Portal de transparencia de la Diputación Provincial de Cuenca
Otros:C. de Agricultura, Medio Ambiente y Desarollo Rural (Medio Ambiente)C. de SanidadC. de Economía, Empresas y Empleo (Empleo)C. de Educación, Cultura y Deportes (Educación)
Extracción de datos: WEB SCRAPING
Web scrappingTanto en diversos portales de datos abiertos (como en general en la Web) nos encontramos con datos o información que no proporcionan niveles altos de cumplimiento de las especificaciones de datos abiertos.
Por desgracia esta práctica es muy común en los portales de datos abiertos como mecanismo aglutinador de enlaces a otras webs en donde ya se encontraba dicha información que se pretende liberar.
Para rescatar esa información tenemos que hacer uso de una técnica artesanal o semiautomática como es la del Web Scraping.
Web scraping es una técnica para extraer datos/información de páginas web.
Se genera un automatismo que permite de forma autónoma recopilar una serie de elementos que cumplen un determinado patrón.
• Puede usarse herramientas o utilidades que permiten la extracción o usar códigos de Python como lenguaje de programación ya que es fácil manejar HTML en dicho lenguaje.
• Hay librerías muy potentes como por ejemplo Scrapy y otras más sencillas como BeautifulSoup.
Herramientas básicas de Webscrapping
• Importar tablas en páginas web a hojas de cálculo (necesaria URL)
• En Hoja de Cálculo de Google (Drive): =IMPORTHTML(“URL”;”table”;n)
• En Excel: Datos Desde Web --> …
• Importar tablas mediante extensión navegador Table Capture (extensión Chrome): No necesita la URL (copia al portapapeles o a Hoja de Google)
• Otros avanzados: import.io Extract (7 días gratis) / Data Scraper (data-miner.io) / QuickCode / Librerías en Python (scrapy, BeautifulSoup, …)
• Tabula: Extracción de tablas en PDFs a CSV offline (cuidado si existen celdas sin valores)
• Conversores online (ejemplos):
• https://pdftables.com/ (de prueba x páginas y luego pago). Convierte a Excel todo.
• https://pdf2doc.com/es/ Gratis, convierte a Word todo el documento
• https://tools.pdf24.org/es/ocr-pdf OCR (Word, pdfs a texto) y otras herramientas
Ejercicios de Webscrapping
A. Importar tablas con Hoja de cálculo de Google y Excel con los datos:
1. Profesorado Facultad Periodismo o
2. Infraestructuras y Recursos materiales del Centro
B. Convertir tablas en PDF a texto (Excel o csv)
1. Con Table Capture (instalar en Chrome): Listado de farmacias de Cuenca del Sescam
2. Con Tabula:
i. Relación de contratos menores de la Diputación Provincial de Cuenca del 2º trimestre de 2018
ii. El listado de páginas 13 a 16 del Informe de Transparencia de Universidades enero 2019 de Dyntra o
iii. El listado material préstamo – UCLM
C. Convertir PDF imágenes a PDF texto con PDF24 OCR el listado en PDF Exámenes extraordinarios Facultad Periodismo y convertirlo a Excel con algún conversor online (pdftables, …)