Date post: | 21-Jul-2015 |
Category: |
Education |
Upload: | aprender-3c |
View: | 43 times |
Download: | 2 times |
Repositorios de datoscientíficos
Expositor: Emiliano Marmonti
[email protected]@emarmonti
24 de Octubre de 2014
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Datos Abiertos
DatosGubernamentales
Datos Científicos
Participación ciudadanaServicios innovadores
● Posibilidad de replicar los resultados● Evitar el fraude● Preservación● Ciencia cooperativa
Difundir!
Particularidades de los datos científicos
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
A diferencia de otros tipos de información, se recogen, observan o crean datos de investigación
a los efectos de producir y validar resultados de investigación originales .
Los datos podrían ser creados por un equipo de investigación con un propósito
y luego ser re-usados por otro, con otra finalidad o para responder otras preguntas.
“Situacionales"
Cámara de seguridad / insumo investigación comportamiento
Clasificación de datoscientíficos
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Observacionales: datos capturados en tiempo real, comúnmente únicos e irremplazables Ej: imágenes cerebrales, encuestas
Experimentales: datos provenientes de resultados experimentales, Ej: Aquellos que provienen de aparatos de medición en laboratorios, comúnmente reproducibles, pero caros.
Simulación: datos generados de modelos de prueba donde el modelo y los metadatos pueden ser mas importantes que los datos de salida del modelo. Ej: Modelos económicos o climáticos.
Desarrollados o compilados: resultado de procesar y/o combinar datos “crudos”, comúnmente reproducibles pero caros. Ej. Bases de datos compiladas,Resultados de text mining, Datos de censos consolidados.
Reference or canonical: Una (estática u orgánica) conglomeración o collección de datasets mas pequeños (revisados por pares), la mayor parte de ellos publicados y “curados” Ej. Bancos de datos genéticos, bases de datos cristalográficas.
Datos primarios vs. Datos secundarios.
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Dato colectado porel investigador para conducir
la investigación
Dato colectadoPor alguien más que
El usuario
IncertidumbreAcerca de
Sobre qué baseSe colectó
NecesidadDe conocerTodas las
Condiciones de obtención
Primario Secundario
Qué considera/ría/rá a un investigador al re-usar un
dataset?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Documentación
Data Management Plan
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Que haría un investigador de nuestra institución si luego de
tres años de publicado un paperampliamente citado
es acusado de falsificar Los datos?
One study has found that 80 percent of scientific data is lost
within two decades and the odds of sourcing datasets decline
by 17 percent each year.
If data continues to be poorly managed, science will ultimately suffer,
with experiments being hard to replicate, findings called into question,
papers retracted and careers impacted.
Eighty percent of scientific data are lost within two decades, disappearing into old
email addresses and obsolete storage devices,
a Canadian study indicated.
Data management plan (II). Cifras escalofriantes (diría un noticiero).
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
1. Data output is growing rapidly. Ninety percent of all the data in the world has been generated over the last two years, while scientific data
output is currently increasing at an annual rate of 30 percent.
2. Despite significant investment, data is not being managed effectively—$1.5 trillion is the current estimated total global spending on research and development,
which could all be at risk.
3. Much of the data generated is lost. In one study, the odds of sourcing datasets declined by 17 percent each year, with 80 percent of datasets more than 20 years old not available.
4. Much of the data that remains could be unverified. Fifty-four percent of the resources used across 238 published studies could not be identified, making verification impossible.
5. Time and money is wasted, impacting science and society. Since 2000, more than 80,000 patients have taken
part in clinical trials based on research that was later retracted because of error or fraud. The number of retractions due to errors has also grown more than fivefold since 1990.
6. Funders now require data management and sharing policies. Thirty-four countries have signed up to the “Declaration on Access to Research Data from Public Funding,” while key funding bodies such as the NIH and Wellcome Trust now
request data management plans be part of applications.
Por donde empezamos?Por ejemplo, qué antecedentes de planes de
administración de datos científicos hay?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Data management plans are not one-size-fits-all.
An appropriate data management plan should take
into consideration, early on in the data life cycle, the size and complexity
of the data to be collected or assembled, the likely audience for reuse of the data,
sponsor requirements, and general legal and
ethical requirements (e.g. that data be shared in a way that preserves
the confidentiality of subject information).
Data Management PlanTemplate NSF
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Sobre los datos
Data Management PlanTemplate NSF
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Sobre los metadatos / infraestructura /
seguridad
Data Management PlanTemplate NSF
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Sobre el presupuesto / propiedad intelectual y otros.
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Vemos entonces que las entidades financiadoras de I+D comienzan a solicitar a sus proyectos financiados la existencia de
un plan de administración de datos científicos. Lógicamenteno resulta económico crear un plan específico para cada proyecto, excepto
Situaciones excepcionales.
Y con cual dificultad principal se enfrentan?De acuerdo a la literatura, a uno muy grande:La reticencia de la propia comunidad científica
Los repositorios de datos científicos nacen como producto
De un DMP
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Cuáles son los retos que deben enfrentar los repositorios de datos científicos?
Los repositorios de datos científicossirven (entre otros fines) para validarresultados de investigación, por tanto
deben vincularse con los Repositorios institucionales donde
se muestra para qué fueronusados esos datos
Se asume entonces que el RI y el RDC sonRepositorios distintos dado que difieren en:
● Objetivos● Técnicas de gestión y mantenimiento● Políticas de Acceso y depósito● Tipología ● Cantidad de datos a preservar● Importancia de la procedencia● Validez de los datos● Infraestructura de IT necesaria● Esquemas de metadatos. Puedo catalogar
con el mismo esquema de metadatos del RIDatos Científicos? Es mas, puedo catalogar con un único esquema datos científicos?
Desafío en cuanto a infraestructuraLa cantidad de espacio necesario
Excede lo que la institución puede brindar
Obsolecencia en formatos. Preservación digital Formación de usuarios y profesionales
de bibliotecas para gestionar estos desafíos
Presupuesto!
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué ejemplos de Repositorios de datos primarios conocemos?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Cómo atacan algunos de los desafíos los RdC?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué ejemplos de Repositorios de datos primarios conocemos?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Best practices para el almacenamiento / depósito de datos
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Cómo intervienen los Bibliotecarios en la administración de los datos científicos?
+ Citas!
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué tipos de metadatos se reporta (en la literatura consultada) que poseen o deberían poseer los
datasets?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Porqué es importante citar los datos?
● Importancia: Datos deberían ser considerados productos de investigación legítimamente citablesLas citas de datos deberían acordarse con la misma importancia en registros académicos como otros objetos de investigación, tal comolas publicaciones.
● Crédito y atribución: Las citas de datos deberían faciliar otorgarcrédito académico y atribución normativa y legal a todos quienes contribuyeron a la creación del dataset, reconociendo que un únicoestilo o mecanismo de atribución no es aplicable a todos los datasets.
● Evidencia: Siempre que se produzca un reclamo académico por sobrelos datos, el mismo debe ser citado.
● Identificador único (y persistente): El Dataset debe poseer un identificadorúnico y persistente, accionable por máquina y globlamente usado por una comunidad.
Hay mas!
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué esquemas de metadatos existen para datasets? (Solo un ejemplo)
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Hay algo similar a DOAR o ROAR para RDCs?
Esquema de metadatos para
describir repositorios de datos?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Hay algo similar a DOAR o ROAR para RDCs?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué plataformas de software existen para administración de repositorios de datos? (Dos ejemplos), hay otros casos de
aplicación de plataformas corrientes como Dspace, Eprints o Fedora
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué iniciativas encontramos hoy en la
región? (no incluyo participación en
temáticos donde hay varios países de la
región)
Argentina
Temático Gubernamental México
LAGO Regional
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Iniciativas en formación en la región
Argentina PLICSS
Chile ChiVO
Bibliografía
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
● Data Management Plans and you. Boston College. 2012http://www.bc.edu/content/dam/files/offices/ides/docs/eteachingday/2012/E-Teaching-Day-DMP.pdf
● Research Data MANTRA. Online coursehttp://datalib.edina.ac.uk/mantra/
● Datos abiertos y repositorios de datos: nuevo reto para los bibliotecarios.http://eprints.rclis.org/19524/1/postprint_Hernandez_Garcia.pdf
● Love, or loose your datahttp://www.laboratoryequipment.com/articles/2014/04/love-or-lose-your-data
● Data management plan as required by NSFhttp://thedata.org/book/data-management-plan-template
¿Preguntas?
MUCHAS GRACIAS
Expositor: Emiliano [email protected]
24 de Octubre de 2014
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C