Planes de Gestión de Datos en Humanidades y Ciencias Sociales
Isabel Bernal DIGITAL.CSIC
Seminario, CSIC-CCHS, Madrid 20 junio 2019
Características de los datos de Humanidades/Ciencias Sociales
Gran diversidad de datos primarios para la investigación
• Yacimientos arqueológicos
• Artefactos
• Textos
• Mapas
• Manuscritos
• Fotografías, censos…
• Encuestas, censos… Gran diversidad en métodos de recolección, análisis y difusión
• Se requiere un enfoque disciplinar
• Heterogeneidad de estándares y protocolos
• Repositorios temáticos, infraestructuras de redes y agregadores, bibliotecas digitales, revistas, proyectos de Humanidades Digitales ..
Tratamiento de datos personales/sensibles y licencias específicas
• Muchos investigadores recelan de usos comerciales y/o de obras derivadas de sus datos
• Necesidad de conocer licencias y estándares específicos para Humanidades/Ciencias Sociales
¿Por qué compartir los datos de investigación?
• Promueve la investigación y el debate • Promueve la innovación y nuevos usos para los datos • Da paso a nuevos tipos de colaboraciones entre los creadores
y los usuarios de los datos • Aumenta la transparencia y la rendición de cuentas de los
proyectos • Permite el análisis de las conclusiones de las investigaciones • Anima a mejorar y validar los métodos de investigación • Reduce el coste de la duplicación en la recolección de datos • Aumenta el impacto y la visibilidad de la investigación • Da crédito a los creadores de los datos • Proporciona nuevos recursos educativos/de investigación
Ejemplos interesantes
https://huni.net.au/#/search
https://data.worldbank.org/
HUMANIDADES CIENCIAS SOCIALES
Variedad de datos de investigación en institutos CCHS
• Datos numéricos que habitualmente los tenemos en forma de tablas
en Excel o Access • Imágenes que se almacenan individualmente en formato tiff o jpg • Fotografías, fotogrametrías • Modelos 3D • Bases de datos • Fragmentos audiovisuales • Grabaciones sonoras • Todo tipo de fuentes documentales • Tablas • Dataciones • Bibliografías • Mapas de reconstrucción geomorfológica y de paisajes en el pasado • ¿Qué más?
TIPOS DE DATASETS EN DIGITAL.CSIC
Si buscas otros repositorios/infraestructuras…
Principales motivaciones para depositar datos de investigación en
DIGITAL.CSIC
Publicación de datos de
investigación Asignación de DOIs
Cumplimiento de políticas de datos
de revistas
Cumplimiento de políticas de
agencias financiadoras
Almacenamiento y descripción de datasets según
estándares
Los datos de investigación en el mandato institucional de acceso abierto
• Solicita que las referencias bibliográficas (…) de los datasets asociados a artículos de revistas sean hechas públicas de manera permanente en DIGITAL.CSIC desde el momento de la aceptación para su publicación de los artículos asociados.
• Solicita que se ofrezcan en modalidad de
acceso abierto en DIGITAL.CSIC aquellos datasets asociados a publicaciones siempre y cuando no se den legítimas razones de confidencialidad, propiedad intelectual y/o seguridad. Estos datasets en acceso abierto deben ser FAIR (“findable, accessible, interoperable, reproducible”) e ir acompañados de una licencia estándar que explícitamente indique las condiciones de uso y favorezca la reproducibilidad científica (por ejemplo, Creative Commons y Open Data Commons)
• Solicita el depósito público de los metadatos de los datasets asociados a artículos de revistas desde el momento de su aceptación
• Acceso abierto a los datasets asociados a artículos de revistas en DIGITAL.CSIC tan pronto como sea posible (a menos que haya excepciones)
• DIGITAL.CSIC no es una infraestructura de big data
• Los metadatos de los datasets deben estar bien descritos según estándares internacionales y los datasets debe llevar licencias de uso estándar para que sean FAIR
• Alineamiento con la política EOSC (European Open Science Cloud) de la Comisión Europea
• FAQS del mandato: http://digital.csic.es/handle/10261/181729
El papel de la Comisión Europea en impulsar la planificación y la difusión
de los datos FAIR
Plantillas H2020/ERC para crear planes de gestión de datos
Recomendaciones para los investigadores • Define las responsabilidades para la gestión de datos entre los miembros del
equipo en el plan de gestión de datos • Acuerda el uso de estándares comunes para recoger, almacenar y describir datos • Asegúrate de que todos los datos resultantes del proyecto se comparten en una
plataforma común y segura entre todos los miembros del equipo • Documenta la metodología usada en la recogida de datos y las decisiones de una
manera sistemática, por ejemplo, usando plantillas comunes • Usa estándares comunes para denominar a los ficheros, formatos, estructura de los
contenidos • Pon por escrito cómo se gestionan los datos y se comparten entre los miembros del
equipo • Establece qué datos son de uso interno para los miembros del equipo y cuáles se
difundirán públicamente • Deposita los datos en un repositorio que permite el acceso a los revisores de las
publicaciones resultantes del proyecto • Elige licencias de uso estándares para los datos resultantes del proyecto • Asigna un identificador persistente (DOI, Handle, PURL…) a los datos resultantes
para que puedan ser encontrados, reutilizados y citados • Publica información (METADATOS) sobre los datos resultantes en repositorios
Las preguntas que debes hacerte para que tus datos sean FAIR
• ¿Tiene el dataset un identificador persistente (handle, DOI)? • ¿Hay documentación/metadatos que permitan entender los
datos adecuadamente? • ¿Los metadatos están accesibles? • ¿Se ha aplicado al dataset una licencia de uso? ¿Es una licencia
estándar? ¿Impone algún tipo de restricciones? ¿Permite explícitamente la reutilización?
• ¿Los ficheros del dataset se encuentran en formatos abiertos o en formatos propietarios ampliamente soportados?
• ¿Están el dataset/metadatos codificados según algún estándar global?
• ¿Está el dataset enlazado a otros datasets u otros resultados de investigación? ¿Cómo?
Generadores de Planes de Gestión de Datos
https://ds-wizard.org/ En fase demo: a través de un cuestionario en torno a diversas cuestiones se guía a los creadores de datos a lo largo del proceso para generar un plan de gestión Design of experiment Data design and planning Data Capture/Measurement Data processing and curation Data integration Data interpretation Information and insight
Herramienta de facto para preparar planes para proyectos H2020 https://dmponline.dcc.ac.uk/ https://dmponline.dcc.ac.uk/public_plans
CESSDA: Plantilla para hacer un plan de gestión de datos
https://www.cessda.eu/content/download/4302/48656/file/TTT_DO_DMPExpertGuide_v1.2.pdf
https://www.cessda.eu/content/download/4304/48666/file/TTT_DO_DMPExpertGuideEditVersion_v1.2.docx
PARTHENOS: DMP para Humanidades
https://www.rd-alliance.org/sites/default/files/attachment/PARTHENOS%20DMP_draft.pdf
Elementos comunes en todos los Planes de Gestión de datos
• Roles y responsabilidades • Descripción, volumen, estructura,
estándares, formatos de los datos • Recogida y procesamiento de datos • Esquema de Metadatos • Propiedad intelectual y licencias de
uso • Consideraciones éticas • Acceso, publicación y reutilización
de los datos • Selección del repositorio • Seguridad y almacenamiento • Preservación a largo plazo • Presupuesto
Planes de gestión de software
• ¿Qué software se ha desarrollado? • ¿Cuáles son sus usuarios potenciales? • ¿Cómo se facilitará su disponibilidad a
los usuarios? • ¿Qué tipo de ayuda se dará a los
usuarios potenciales? • ¿Cómo contribuye este software a la
investigación? • ¿Cómo se relaciona el software con otros
resultados del proyecto y otros softwares?
• ¿Cómo se analizará el impacto del software en la investigación?
• ¿Dónde se depositará el software para garantizar su accesibilidad a largo plazo?
• https://zenodo.org/record/2159713#.XHl7AvlKi1s
Formatos y esquemas de metadatos estándares (1/2)
Formatos usados frecuentemente por la comunidad científica Usan especificaciones abiertas Independientes de software/empresas específicas
Iniciativa internacional de voluntarios para crear un directorio de esquemas de metadatos que son estándares internacionales
Formatos y esquemas de metadatos estándares (2/2)
Buscador de guías y políticas
http://www.parthenos-project.eu/portal/wizard/policy-wizard
Herramienta para calcular costes en la gestión de datos
Herramienta de la Universidad Técnica de Delft para ayudar a los investigadores y personal institucional a definir las necesidades de personal extra y costes en la gestión de datos de un proyecto
Guía de la Universidad de Utrecht para identificar posibles gastos en la gestión de datos a través de todo el ciclo del proyecto de investigación
GESTIÓN DE COPYRIGHT. CUESTIONES ÉTICAS. DUDAS FRECUENTES, RECURSOS
Hacia protocolos comunes (1/2)
• Both Cultural Heritage Institutions and Researchers agree to share content and knowledge equally with each other, making use of data centres and research infrastructures.
• Cultural Heritage Data will be made accessible in a form that facilitates reuse of the data for research. Formats should work and be interoperable for both scholars and CHIs.
• Cultural Heritage data and any resulting research need to be fully citable to increase their visibility and impact. Relevant data citation standards should be applied.
• Cultural Heritage data should be shared under an open license whenever possible, taking into account existing copyright and any restrictions due to national legislation and privacy issues.
• Long-time preservation, persistence, accessibility and legibility of cultural heritage data should be a priority.
• The provenance of Cultural Heritage data and any consequent research should be clear, up to date, openly available and therefore trustworthy.
• https://datacharter.hypotheses.org/77
Hacia protocolos comunes (2/2)
• RightsStatements.org provee doce declaraciones de derechos diferentes que pueden ser utilizadas por las instituciones culturales patrimoniales para comunicar al público el estado de derecho de autor y de reutilización de objetos digitales.
• No son licencias de uso, sino que estas declaraciones deben ir acompañadas de la licencia correspondiente
• https://rightsstatements.org/page/1.0/?language=es
Cómo saber si puedes usar un trabajo ajeno: generalidades
Si piensas combinar datos sujetos a distintas licencias de uso..no todo es
posible
Usos permitidos de contenidos para licencia CC-BY-ND
Ética y gestión de datos
https://www.ukdataservice.ac.uk/manage-data/legal-ethical/consent-data-sharing/consent-forms Plantilla modelo
Hoja informativa previa al consentimiento informado
An information sheet should cover the following topics: • Purpose of the research • What is involved in participating • Benefits and risks of participating • Procedures for withdrawal • Usage of the data during research, dissemination,
storage, publishing and archiving • Strategies for assuring ethical use of the data:
procedures for safeguarding personal information, maintaining confidentiality and anonymising data, especially in relation to data archiving and reuse
• Details of the research: funding source, sponsoring institution, name of project, contact details for researchers, how to file a complaint.
• Más ejemplos
https://ukdataservice.ac.uk/media/622381/ukdaesrcinfosheet.pdf
SERVICIOS DE DIGITAL.CSIC
Condiciones para usar DIGITAL.CSIC como repositorio de datos resultantes de proyecto
H2020 (u otro)
Informa a la Oficina Técnica del repositorio tan pronto
como sea posible
No hay límite en dimensión de ficheros pero
DIGITAL.CSIC no es una infraestructura de big data
Ten preparada información preliminar sobre: formato y
volumen de datos, expectativas en gestión de los datos
Recuerda que la colaboración de los investigadores para describir los datos
es fundamental
DIGITAL.CSIC no impone ningún tipo de licencia de uso
Preferencia por datos de investigación en acceso abierto/embargado
VER PRESENTACIÓN ESPECÍFICA EN http://digital.csic.es/handle/10261/164332
Formatos conocidos y soportados por DSpace
Descripción de datasets según estándares
http://digital.csic.es/handle/10261/81323
• La plantilla se basa en el esquema de Dublin Core Cualificado con extensiones de DataCite (por ejemplo, Vocabulario de Tipos de Contribución) y formato estándar de citación de FORCE11
• Marca un mínimo común denominador para la descripción de datasets de cualquier disciplina
Exportación en formato DataCite <?xml version='1.0' encoding='utf-8'?>
<resource xmlns="http://datacite.org/schema/kernel-4" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4.1/metadata.xsd">
<creators>
<creator>
<creatorName>Marzán, Ignacio</creatorName>
<creator>
<creatorName>Martí, David</creatorName>
</creator>
<creator>
<creatorName>Torné, Montserrat</creatorName>
</creator>
<creator>
<creatorName>Ruiz Fernández, Mario</creatorName>
</creator>
<creator>
<creatorName>Carbonell, Ramón</creatorName>
</creator>
</creators>
<publicationYear>2014</publicationYear>
<dates>
<date dateType="Issued">2014-01-30</date>
</dates>
<alternateIdentifiers>
<alternateIdentifier alternateIdentifierType="Handle">http://hdl.handle.net/10261/179856</alternateIdentifier>
</alternateIdentifiers>
<descriptions>
<description descriptionType="Other">The data acquisition contract was awarded to ENRESA and took place in January 2014. Seismic data was successfully collected in the Záncara river basin (Cuenca, Spain). This is a high-resolution seismic tomography survey to obtain a full 3-D P-wave seismic velocity image of the studied area. A regular and dense grid of 676 shots and 1200 receivers was used to image a 500 m x 500 m area of the shallow surface. A 240-channel system and a seismic source, consisting of an accelerated weight drop, were used in the acquisition. Half a million travel-time picks were inverted to provide the 3-D seismic velocity distribution up to 120 m depth. The 3-D survey was acquired in five swaths, each one consisting on five receiver lines, resulting in a total of 3380 shot gathers. Technical specifications of the profiles: Receiver number: 240, Receiver interval: 2 m, Source accelerated weightdrop: 250 kg, Source interval: 6 m, Sample rate: 1 ms, Record time: 4 s.</description>
</descriptions>
<descriptions>
<description descriptionType="Abstract">A high-resolution seismic tomography survey was acquired to obtain a full 3-D P-wave seismic velocity image of the Záncara river basin (eastern Spain). The study area consists of lutites and gypsum from a Neogene sedimentary sequence. The project also targeted the geometry of the underground structure with emphasis on defining the lithological contacts but also the presence of cavities and faults or fractures. An extensive drilling campaign provided uniquely tight constraints on the lithology; these included core samples and wireline geophysical measurements. The analysis of the well log data enabled the
Por defecto, los registros bibliográficos de DIGITAL.CSIC se generan sobre el esquema Dublin Core Cualificado
Asignación de DOIs a través de DataCite
La creación del DOI es posterior a la subida del dataset en DIGITAL.CSIC Se asigna DOI a los items que llevan determinados valores en dc.type
Con la asignación del DOI se pueden explotar diversos servicios de valor añadido, como: -Agregación en el buscador DataCite -DataCite Event Data service -Alimentación de ORCIDs -Exportación en diversos estilos
Licencias en datasets de DIGITAL.CSIC
Licencias Creative Commons
Licencias Open Data Commons
Licencia estándar de DIGITAL.CSIC
• CC BY 4.0
• CC BY NC SA
• CC BY SA
• Para datasets de estructura compleja
• Ejemplo
• Acceso gratuito a los datasets para uso personal/investigación
Cómo elegir una licencia de uso para datos/software
Una herramienta para aclarar políticas editoriales
https://digital.csic.es/sites/permisos_editoriales/
Políticas de revistas para datos de investigación asociados
• PLOS One All data and related metadata underlying the findings reported in a submitted manuscript should be deposited in an appropriate public repository, unless already provided as part of the submitted article. Repositories may be either subject-specific (where these exist) and accept specific types of structured data, or generalist repositories that accept multiple data types
• Quaternary International This journal requires and enables you to share data that supports your research publication where appropriate, and enables you to interlink the data with your published articles. Research data refers to the results of observations or experimentation that validate research findings. To facilitate reproducibility and data reuse, this journal also encourages you to share your software, code, models, algorithms, protocols, methods and other useful materials related to the project. If you have made your research data available in a data repository, you can link your article directly to the dataset.
¿Publicas data papers?
https://openhumanitiesdata.metajnl.com/
https://brill.com/view/journals/rdj/rdj-overview.xml
https://openarchaeologydata.metajnl.com/
GRACIAS [email protected]