Aplicación del Big Data en Salud: aplicaciones...

1

Aplicación del Big Data en Salud: aplicaciones, oportunidades y sesgos

Autor: José Manuel Martínez Sesmero

Especialista en Farmacia Hospitalaria. Doctor en Farmacia. Complejo

Hospitalario de Toledo

Resumen:

Big Data es una posibilidad tecnológica que permite analizar grandes

cantidades de datos, de cualquier tipo (sanitarios y no sanitarios), de una forma

rápida, eficaz, y de fuentes muy diversas. Además, proporciona la oportunidad

de obtener datos globales sobre grandes franjas de la población y recoger

prospectivamente ricos flujos de información de individuos seleccionados

mediante la aplicación de diversas tecnologías (sensores, telemetría, etc.). La

gran mayoría de los agentes que participan en las estructuras de los servicios

de salud reconocen que el análisis del Big Data puede ofrecer nuevas

posibilidades en la elaboración de modelos predictivos, patrones de

comportamiento, el descubrimiento de nuevas necesidades, reducir riesgos, así

como proveer servicios más personalizados, todo ello en tiempo real y teniendo

en cuenta toda la información relevante. Centrándonos en el paciente crónico,

cabe destacar que algunas instituciones sanitarias, e incluso autoridades en

esta materia de determinados países, están potenciando el análisis del Big

Data para resolver los problemas tradicionales de salud, como la reducción de

los reingresos, el aumento de la eficacia y eficiencia de la asistencia sanitaria,

la mejora de la calidad de la atención, y las demandas de predicción para los

servicios de salud. Sin embargo, también hay que considerar la cara menos

amable y las limitaciones del Big Data, por ejemplo, no tenemos que pensar en

los resultados del análisis del Big Data como única fuente de información, la

tecnificación todavía no está implementada en todos los servicios de salud,

existe aún una brecha digital en determinados segmentos de la sociedad, la

protección de los datos en determinados países es controvertida y, por último,

el riesgo de incurrir en algún tipo de sesgo, tal como los sesgos de confusión,

selección e información.

2

1. Introducción.

Entre los cambios de paradigma que protagonizan el vertiginoso mundo

en el que vivimos, destaca uno de especial importancia, el conocido como

“revolución digital” o también denominado como “tercera revolución industrial”.

En el centro de esta revolución está la producción en masa y el uso

generalizado de tecnologías basadas en circuitos lógicos digitales, como los

ordenadores personales, el dinero electrónico, los relojes digitales, los juegos

electrónicos, los smartphones, Internet, etc. Como consecuencia, la

información que antes era analógica está sufriendo una imparable

digitalización, entendiendo por digitalización la transformación de documentos

físicos en imágenes digitales para su visualización instantánea desde cualquier

ordenador y desde cualquier parte del mundo. Con la revolución digital

concluye la última etapa del proceso postindustrial y surge la sociedad del

conocimiento, un cambio social superlativamente dinámico que aporta masivas

cantidades de información en forma de textos, signos gráficos, imágenes,

ideogramas y sonidos que están cambiando la manera en que los ciudadanos

piensan, opinan, actúan, se comunican y o se ganan la vida1.

Las discusiones y elucubraciones sobre el Big Data (datos masivos

podría ser una traducción adecuada) han llegado a dominar muchas de las

visiones del futuro comportamiento de las organizaciones industriales,

científico-técnicas y sociales. Por ello, preguntas tales como ¿qué entendemos

por Big Data, y cómo puede ser de beneficioso para los profesionales de la

salud y los gestores del sistema sanitario? han comenzado a aflorar en los

últimos tiempos. Big Data es una posibilidad tecnológica que permite analizar

grandes cantidades de datos, de cualquier tipo (sanitarios y no sanitarios), de

una forma rápida, eficaz, y de fuentes tan diversas como llamadas telefónicas,

transacciones bancarias, búsquedas en Google, mensajes en redes sociales o

sensores que monitorizan los objetos y personas, y por ende, generar

conocimiento de forma casi inmediata.

Resumiendo de manera sencilla y más académica el concepto Big Data

podríamos decir que éste hace referencia a aquel conjunto de datos que, por

su tamaño ingente, sobrepasa la capacidad de ser gestionado por bases de

3

datos de integración tradicionales. A pesar de que muchos autores consideran

esta definición demasiado dispersa2, si profundizamos en las características

que componen el Big Data, existe un mayor grado de acuerdo en aducir que se

fundamenta en el paradigma de la 3 “V” (volumen, variedad y velocidad)3. El

elevado volumen de datos (superior a un petabyte) precisa nuevas técnicas de

almacenamiento a gran escala y enfoques distintos para recuperar la

información; la variedad de las fuentes de datos (texto, audio, vídeo, etc.) hace

que las redes relacionales sencillas sean difícilmente aplicables; y por último, el

incesante incremento con que se generan los datos, hace que la velocidad sea

un parámetro clave en su manejo4. Según el Massachusetts Institute of

Technology podríamos añadir una cuarta “V”, que hace referencia al valor

aportado por estos grandes conjuntos de datos.

Como se ha comentado, en comparación con la metodología de

recopilación de datos tradicional, la incursión en los últimos años de las

Tecnologías de la Información y Comunicación (TIC) ha producido la

generación de un mayor conjunto de datos, de una forma trepidante y

aparentemente fácil. Estos datos también pueden crear nuevas oportunidades

para abordar la investigación y resolución de determinadas preguntas, siempre

desde una perspectiva eminentemente innovadora. En líneas generales

podríamos decir que las nuevas TIC son las que giran en torno a tres medios

básicos: la informática, la microelectrónica y las telecomunicaciones; pero

giran, no sólo de forma aislada, sino lo que es más significativo es que lo hacen

de manera interactiva e interconexionada, lo que permite conseguir nuevas

realidades comunicativas y de explotación de la información. Las TIC están

produciendo una innovación y cambio constante en todos los ámbitos sociales

y en diferentes parcelas del conocimiento. La innovación tecnológica que

sustenta a las TIC ha posibilitado la creación del concepto Big Data, y de su

análisis exhaustivo esperamos obtener nuevas vías de innovación aplicadas a

la mejora de la salud colectiva e individual, y a una mejor gestión de los

sistemas sanitarios, en especial, en la asistencia del paciente crónico complejo.

El Big Data proporciona la oportunidad de obtener datos globales sobre

grandes franjas de la población y recoger prospectivamente ricos flujos de

información de individuos seleccionados mediante la aplicación de diversas

tecnologías (sensores, telemetría, etc.). Si estos sistemas están cada vez más

4

disponibles y su coste se reduce, su penetración y utilización se incrementarán,

y con ello la riqueza de la información que generen.

2. Fuentes de datos sanitarios.

En el sector sanitario se genera una inmensa cantidad y variedad de

datos tanto estructurados, semi-estructurados como desestructurados o no

estructurados. El potencial de Big Data en medicina reside en la posibilidad de

combinar los datos tradicionales con otras nuevas formas de datos tanto a nivel

individual como poblacional, es decir, realizar la integración de datos

estructurados y no estructurados.

Los datos estructurados son los que tienen un esquema definido, en

formato y longitud, para poder ser incluidos en un campo fijo (fechas, números,

cadenas de caracteres, etc.) y almacenados en tablas, por ejemplo las de una

hoja de cálculo o una base de datos relacional. Los datos semi-estructurados

carecen de formato fijo o de campo determinado, pero están dotados de

marcadores que permiten diferenciar los distintos elementos dato. Un ejemplo

lo constituyen las etiquetas de lenguajes HTML y XML. En el ámbito de la

salud, ejemplo de estas modalidades serían los datos de contabilidad,

facturación electrónica, algunos datos de actuario o datos clínicos. Los datos

no estructurados no tienen un formato específico ni se pueden asignar a un

campo fijo, por lo que no es posible su almacenamiento en una tabla. Se tratan

como documentos u objetos. Ejemplos de este tipo de datos son documentos

de audio, vídeo, fotografías, e-mails o archivos PDF. En el sector sanitario,

cabe citar imágenes de radiografías, resonancias magnéticas, recetas en

papel, etc.

Se calcula que un paciente medio genera alrededor de dos gigas de

información, que crecen rápidamente en el caso de determinados tratamientos.

¿De qué tipo de información estamos hablando?: hay una gran variedad, desde

información perfectamente tabulada, como en el caso de resultados de

analíticas, hasta datos no estructurados, como imágenes de todo tipo o lecturas

de parámetros variados. Toda ella es información “digitalizable”, pero en muy

pocos casos se digitaliza y almacena adecuadamente. Sin duda, un campo

perfecto para la aplicación de técnicas de Big data, no solo por una cuestión de

5

aplicación al paciente, sino también – y con grandes posibilidades – al

tratamiento de la información agregada.

Hay que recordar que un dato estructurado es un dato que puede ser

almacenado, consultado, analizado y manipulado por máquinas, normalmente,

en modo tabla de datos. Un dato no estructurado o desestructurado es todo lo

contrario. Datos estructurados, son los datos clásicos de los pacientes

(nombre, edad, sexo, etc.) y datos no estructurados son las recetas de papel,

los registros médicos, las notas manuscritas de médicos y enfermeras, las

grabaciones de voz, las radiografías, escáneres, resonancias magnéticas, TAC

y otras imágenes médicas. A estos datos y pertenecientes a ambas categorías

también, se pueden considerar los archivos electrónica de contabilidad y

gestión administrativa, datos clínicos, etc.

Los avances tecnológicos están generando nuevas avalanchas de datos

de todo tipo que provienen de los más variándose dispositivos, sensores,

fitness, aparatos médicos diversos, datos hospitalarios, etc., y a ellos se suman

los datos procedentes de los medios sociales (redes sociales, blogs, wikis,

podcast, etc.), de los teléfonos inteligentes, de áreas tan voluminosas como

importantes tales como genética y genómica, etc.

Atendiendo a los datos que las empresas deben analizar, según

diferentes propósitos, y con arreglo a las fuentes donde se originan, se

distinguen cinco categorías básicas de fuentes de datos:

Web and Social Media. Incluye datos procedentes de los flujos de

clicks, entradas de Twitter, Facebook, LinkedIn, blogs y diversos

contenidos Web. Por ejemplo, Big Data puede recoger

información cada vez más abundante para el sector de la salud

desde este tipo de fuentes, como las redes sociales temáticas

para profesionales médicos o para comunidades virtuales de

pacientes.2

Machine-to-Machine (M2M). Se refiere a las tecnologías que

permiten conectarse a otros dispositivos, como sensores o

medidores que capturan un evento en particular (humedad,

velocidad, temperatura, presión, etc.). Entre los datos

procedentes de estos dispositivos se encuentran: lecturas de

medidores inteligentes, de RFID, de sensores de plataformas

6

petroleras y señales GPS. En servicios de salud, los sistemas que

recogen los datos procedentes de sensores en dispositivos

weareables o de smartphones en pacientes monitorizados en

teleasistencia.

Big Transaction Data. Incluye registros de facturación, de

telecomunicaciones y registros detallados de llamadas (CDR). Los

datos transaccionales pueden ser semiestructurados y no

estructurados.

Biometrics. Hace referencia a datos de información biométrica,

como huellas digitales, de reconocimiento facial, de escaneo de

retina, de genética (ADN), etc. Son importantes en el área de

seguridad e inteligencia para las agencias de investigación

Human Generated. En este apartado se incluyen datos generados

por personas, como los que se guardan en un call center al

establecer una llamada telefónica, las notas de voz, correos

electrónicos, documentos, estudios y registros médicos

electrónicos o recetas médicas.

Si atendemos a la interpretación del Big Data en uno de los sistemas de

salud más tecnificados, como es el caso de Estados Unidos, podemos apreciar

que se definen cuatro grandes grupos de datos dentro de la atención a la salud,

y cada uno de ellos se mantiene fundamentalmente en una circunscripción muy

diferente5. Los cuatro sectores (ver Figura 1) se componen de datos del

proveedor clínico, la actividad del pagador (claims o reclamaciones) y datos de

costes, productos farmacéuticos y productos médicos de investigación y

desarrollo (I + D) y, finalmente, los datos relativos al entorno y preferencias del

paciente. Se podría suponer que la cantidad de datos que está disponible se

recoge, digitaliza y analiza primeramente dentro de cada sector. Sin embargo,

lo más habitual es que los proveedores de salud tengan los datos financieros y

administrativos ampliamente digitalizados, incluyendo contabilidad y la

información básica del paciente, pero ello no sucede con la agregación de

datos clínicos que cubren áreas tales como los avances y resultados en salud

de los tratamientos, que está aún poco desarrollada y, menos aún, explotada.

Dependiendo del ámbito de atención, se estima que hasta un 30 por ciento de

7

los textos clínicos que se manejan en los Estados Unidos, incluyendo los

registros médicos, facturas, informes de laboratorio y cirugía, todavía no se

generan electrónicamente6. Aun cuando los datos clínicos están en formato

digital, éstos suelen estar en manos de un proveedor individual y rara vez son

compartidos con el resto de proveedores.

Figura 1.

En el ámbito europeo, por su parte, aunque la perspectiva de los

sistemas sanitarios es diametralmente opuesta a la perspectiva

norteamericana, los sectores de datos anteriormente descrita podría ser

perfectamente viable, sobre todo, si tenemos en cuenta que en la mayoría de

las ocasiones proveedor y pagador pertenecen al mismo ente. Sin embargo,

en la actualidad, la información no se encuentra generalmente en una forma

apta para que los pagadores puedan utilizarla para un análisis avanzado que

genere ideas reales, ya que rara vez se estandariza, a menudo se fragmenta, o

se generan datos en formatos incompatibles.

Hay que hacer cambios tecnológicos para abordar proyectos de Big

Data, pero ¿cuáles son los retos tecnológicos a los que se enfrenta el sistema

8

sanitario?. El sistema sanitario de entrada a lo que se enfrenta es al reto del

cambio. Un cambio provocado por los avances científicos, los costes

económicos, los requerimientos de los ciudadanos y naturalmente por los

avances tecnológicos. Este reto supone modificar procedimientos, legislación,

roles profesionales y nuevas formas de atención sanitaria. Y todos estos

cambios deben ser contemplados desde la perspectiva de utilizar la tecnología

disponible. Ahora bien, en lo que se refiere a retos tecnológicos, es necesario

redefinir la edificación de las redes de comunicación y sistemas, de forma que

toda la información de salud de un ciudadano esté disponible allí donde se

halle y a su disposición. En cuanto a la existencia de un Big Data sanitario

efectivamente puede cambiar nuestro escenario a medio plazo de una forma

importante. Es el momento de definir una clara estrategia para el sistema

sanitario en su conjunto ya que el valor que aportaría el poder disponer de

grandes volúmenes de información real y contrastada, sería enorme en cuanto

a generación de conocimiento para mejorar la seguridad de la atención

sanitaria y su eficiencia. Desde mi punto de vista, estamos traspasando el

momento adecuado para definir la estrategia y el modelo a aplicar en todo el

sistema las infraestructuras tecnológicas, todo ello planteado no solo para

garantizar los servicios actuales y en implantación, como por ejemplo la historia

clínica, sino con la visión de lo que habrá que poner en marcha.

Por último, ¿puede haber una valoración del funcionamiento de las

historias clínicas? ¿La recogida masiva de datos va a cambiar el modelo

sanitario? En cuanto a la historia clínica electrónica (HCE), este proyecto está

muy implantado en los centros sanitarios. En Atención Primaria y Especializada

se dispone de millones de Historias, Otro tema vital es la necesidad de la

interoperabilidad de todos los niveles. La cantidad de información existente

relacionada con nuestra salud es abrumadora. Los centros de salud, los

hospitales, la administración pública e incluso nosotros mismos como pacientes

acumulamos grandes cantidades de datos en formatos muy diversos: informes

en papel, archivos de Office, imágenes, videos, recetas, tarjeta sanitaria, etc.

Hasta que se instauró la Historia clínica electrónica cada miembro de la

comunidad sanitaria tenía una visión parcial del paciente, lo que dificultaba el

diagnóstico y tratamiento. Aunque hoy en día el historial médico de un paciente

es compartido e interoperable.

9

3. Plataformas de Big Data y modelos predictivos.

El uso de los datos masivos requiere la utilización de nuevas

herramientas tecnológicas para su captura desde las diferentes fuentes y

sistemas, así como su transformación, almacenamiento, análisis, visualización,

etc. La plataforma de código abierto Apache Hadoop es la que ha liderado

desde un principio los distintos proyectos de software especializado en Big

Data7. Ha sido adoptada tanto por la comunidad de desarrolladores de

aplicaciones de software libre como por los principales proveedores de

software propietario de bases de datos (Oracle®, IBM® y Microsoft®).

El proyecto Hadoop consta de tres componentes fundamentales:

Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop

Common.

Hadoop Distributed File System (HDFS). Los datos en el clúster

de Hadoop se dividen en piezas pequeñas llamadas bloques que

son distribuidas a través del clúster; de este modo, las funciones

map y reduce pueden ser ejecutadas en pequeños subconjuntos,

y esto proporciona la escalabilidad necesaria para el

procesamiento de grandes volúmenes.

Hadoop MapReduce. Es considerado el componente nuclear de

Hadoop. El término MapReduce se refiere a dos procesos

separados que ejecuta Hadoop. El primero de ellos, map, toma un

conjunto de datos y lo convierte en otro conjunto, donde los

elementos individuales son separados en tuplas (pares de

clave/valor). El segundo proceso, reduce, obtiene la salida de

map como datos de entrada y combina las tuplas en un conjunto

más pequeño de las mismas. Existe una fase intermedia,

denominada shuffle, que obtiene las tuplas del proceso map y

determina qué nodo deberá procesar estos datos, dirigiéndolos

hacia una salidaespecífica para una tarea reduce. En la siguiente

figura se presenta un ejemplo del flujo de datos en un proceso

MapReduce.

10

Hadoop Common. Constituye un conjunto de librerías que

soportan varios subproyectos de Hadoop.

Uno de los pilares básico de la utilidad de Big Data en salud es la

creación de modelos predictivos (se verá en el siguiente capítulo). Los

modelos predictivos son funciones matemáticas o algoritmos, capaces

de determinar y aprender la correlación entre un conjunto de variables

de datos de entrada, por lo general empaquetadas en un registro, y una

variable de respuesta o de destino. Estos algoritmos forman parte de las

técnicas y métodos de minería de datos. El creciente uso de la analítica

predictiva para aplicarla sobre un componente importante de datos no

estructurados ha impulsado a los desarrolladores de software a incluir en

sus aplicaciones específicas un número cada vez mayor de algoritmos

para cubrir un amplio espectro de posibles soluciones de modelado

predictivo, de forma que el modelo óptimo se encuentre en la

combinación de métodos. No obstante, hay un reducido grupo de

algoritmos genéricos que suelen incluir tanto los fabricantes de software

de código abierto como comercial, como los señalados a continuación:

Máquinas de vectores de soporte (SVM). Se trata de un

conjunto de algoritmos de aprendizaje supervisado que dan

solución a problemas de clasificación y regresión. Una SVM

construye uno o varios hiperplanos en un espacio de

dimensión mayor que el conjunto hallado calculando aquel que

proporcione la mayor separación entre dos subconjuntos

diferenciados, que será el “hiperplano óptimo”. Eso los

proveerá de una etiqueta de clase y de una función de

regresión que le otorgue valor predictivo. La predicción será

que los puntos de un nuevo conjunto analizado por el modelo

construido serán clasificados correctamente.

Redes neuronales (NN). Las redes neuronales representan

una estructura de aprendizaje automatizado inspirada en el

funcionamiento del sistema nervioso de los animales. Está

compuesto de una capa de entrada, con tantos nodos como

número de campos y características que se están

considerando; de una capa de salida, con un solo nodo que

11

representa el campo predicho; y de una o más capas

intermedias de nodos ocultos. Deberá establecerse una

función de correlación entre los campos de entrada y de

destino. Cuando hay más de una capa interpuesta de nodos

ocultos puede aprender mejor la función un modelo de red

neuronal de retropropagación, que busca el ajuste de los

valores intermedios desde el valor de salida.

Árboles de decisión. Dado un conjunto de datos, se

construyen diagramas de construcción lógica, similares a los

sistemas de predicción basados en reglas, que sirven para

representar y categorizar una serie de condiciones que se

presentan de forma sucesiva para la resolución de un

problema. Al contrario que los modelos anteriores, resulta más

fácil de usar y entender.

De agregación o clustering. Es un procedimiento que trata de

agrupar de modo cercano a grupos de individuos con

características semejantes. Entre los métodos más utilizados

para establecer el agrupamiento figura el de los centroides, o

k-means y el de los vecinos más cercanos, o K-nn (K nearest

neighbors). El algoritmo k-means trata de obtener la partición

de un conjunto de n observaciones en k grupos, en el que

cada observación pertenece al grupo más cercano a la media.

Los elementos más próximos a la media son los centroides.

En el conjunto inicial se pueden elegir aleatoriamente los

centroides o bien las particiones. Se calcula la media de cada

grupo y se repite el proceso hasta que la asignación de sus

centroides no varía. El algoritmo k-nn es un método de

clasificación supervisada, que se basa en establecer

previamente ejemplos de entrenamiento ya clasificados. Un

nuevo elemento que se desea clasificar se asignará a la clase

a la que pertenezca el mayor número de vecinos más

cercanos de un grupo de k elementos.

Reglas de asociación. Se utilizan cuando una variable de

destino o una medida similar no es importante, pero sí lo son

12

las asociaciones entre los elementos de entrada. Por ejemplo,

qué pueden tener en común las personas que además de

comprar pañales y leche compran también cerveza. Esto sería

un análisis de la cesta de la compra, que puede utilizarse para

decisiones de marketing. El modelo se usa en otras muchas

áreas, entre ellas la investigación en biología molecular.

4. Aplicaciones y oportunidades.

El análisis del Big Data ha abierto la puerta a una nueva era para la

mejora en la prestación de servicios y solución de problemas en el ámbito de

los sistemas sanitarios. La gran mayoría de los agentes que participan en las

estructuras de los servicios de salud reconocen que el análisis del Big Data

puede ofrecer nuevas posibilidades en la elaboración de modelos predictivos,

patrones de comportamiento, el descubrimiento de nuevas necesidades,

reducir riesgos, así como proveer servicios más personalizados, todo ello en

tiempo real y teniendo en cuenta toda la información relevante.

Existe un amplio consenso en que el mejor cuidado de la salud,

impulsado por el tratamiento global y sistemático de los datos, debiera

plantearse desde tres perspectivas8: la individual de cada paciente, la de las

comunidades de pacientes y, por último, la de la sociedad en su conjunto.

Individualmente, en el área de dispositivos médicos y de los cuidados

domiciliarios de pacientes crónicos se están desarrollando aplicaciones de

monitorización remota del electrocardiograma, seguimiento de los datos de los

sensores de dispositivos como marcapasos o desfibriladores implantados, que

han logrado grandes avances en lo que respecta a la gestión y la prevención

de rehospitalizaciones por tales pacientes9. Estas experiencias, a través de la

utilización de datos de múltiples sensores (wearables), van encaminadas a

ayudar a la vida independiente de las personas de edad avanzada o

pluripatológicos, con un gran potencial para mejorar los procesos asistenciales

complejos y facilitar un cuidado individualizado y eficiente para pacientes

crónicos y ancianos bajo estas circunstancias.

En las comunidades de pacientes, los sujetos se influyen mutuamente, y

parte de esta influencia hoy fluye a través de las redes sociales y en la web 2.0

13

(Facebook, Twitter, etc.). Este hecho es relevante tanto para aprovecharlo

como instrumento encaminado a las cuestiones relacionadas con la salud,

incluso como modelo para entender cómo los patrones de comportamiento

pueden emerger o involucionar. Las redes sociales pueden ser aprovechadas

directamente como una herramienta para ayudar a los pacientes a vivir más y

con mejor calidad. Por ejemplo, ya existen varios servicios en línea dirigidos a

los pacientes con condiciones específicas, para unirse a determinadas

comunidades en las que se interrelacionan, intercambian información u

opiniones, y ofrecer y recibir apoyo (por ejemplo

http://www.patientslikeme.com/). Estas redes pueden convertirse en

excelentes fuentes de datos si cada vez es más grande el número de pacientes

que participan en ellas, y pueden ayudar a descubrir nuevos e inesperados

patrones de salud o aspectos relacionados con la misma.

Una tercera área donde existe un claro potencial significativo para las

grandes tecnologías de Big Data, desde un prisma más global, es la de gestión

de enfermedades infecciosas. Las epidemias se extienden a través de

personas y de los contactos persona-persona o por el entorno, y ello puede

suponer un gran peligro para la sociedad, sobre todo en los países en vías de

desarrollo. Sin embargo, debido a la gran movilidad de personas que se

produce actualmente, esta idea ha de extenderse a los países con sistemas de

salud más evolucionados. Por ejemplo, la Comisión Europea ha desarrollado el

sistema “MediSys”10, una herramienta para escanear y buscar información con

el objeto de reforzar la red de vigilancia de enfermedades transmisibles y la

detección temprana de las actividades bioterroristas. A través del algoritmo de

“MediSys” se pueden obtener noticias de última hora utilizando más de 20.000

artículos de Internet analizados al día y producidos por la Europa Media

Monitor, que se pueden enviar a las personas clave, gestores, decisores, etc.,

por correo electrónico y SMS.

Otro ejemplo en el ámbito de la farmacoterapia, la acumulación de datos

sanitarios (clínicos, genéticos, etc.) que relacionan las estructuras químicas de

sustancias a una enfermedad por su efecto terapéutico o adverso, ha permitido

desarrollar modelos predictivos que asocian una estructura química con el

efecto que tendría en humanos. Como muestra de ello, recientemente se ha

publicado un estudio que incluye moléculas relacionadas con la etiología de

14

934 condiciones que amenazan la salud y se utilizan para tratar 835

enfermedades diferentes. En primer lugar, se identifican restos químicos que

podrían estar asociados de forma independiente con cada efecto fenotípico.

Con el uso de estos fragmentos, se construyen predictores precisos para

aproximadamente 400 fenotipos clínicos, encontrando muchas estructuras

relacionadas y responsables de estos efectos.

Centrándonos en el paciente crónico, cabe destacar que algunas

instituciones sanitarias, e incluso autoridades en esta materia de determinados

países, están potenciando el análisis del Big Data para resolver los problemas

tradicionales de salud, como la reducción de los reingresos8, el aumento de la

eficacia y eficiencia de la asistencia sanitaria, la mejora de la calidad de la

atención, y las demandas de predicción para los servicios de salud. Al hilo de la

reducción de reingresos, y del peso cada vez mayor que enfermedades

crónicas tienen en nuestro país (debido en parte al aumento de la esperanza

de vida y a la adopción de estilos de vida propios de países desarrollados), el

desarrollo de estrategias a nivel nacional para mejorar la atención sanitaria a

los pacientes crónicos debe ser una prioridad para el Sistema Sanitario. Dos de

los pilares de dicha estrategia debieran ser la estratificación y segmentación de

la población en niveles de riesgo, y la aplicación de modelos predictivos que

permitan optimizar la gestión de los pacientes de mayor riesgo para, por

ejemplo, anticiparse a un reingreso hospitalario y reducir los costes asociados.

La estratificación de la población no es un proceso estático, ya que las

características de los pacientes evolucionan con el tiempo y su nivel de riesgo

debe ajustarse periódicamente. Una vez agrupada la población en niveles de

riesgo, existe la posibilidad de realizar un análisis pormenorizado de patologías

concretas que representen una prioridad para el sistema, bien por su severidad

o bien por su impacto económico. Es por ello que el Big Data se posiciona

como una herramienta clave en estos procesos.

A través del análisis Big Data seremos capaces de analizar, resumir y

presentar de forma sencilla la información médica contenida en el conjunto de

historias clínicas electrónicas, para su reutilización en la práctica clínica, y en

tiempo real. Esta información reviste gran valor al presentar el fiel reflejo de la

forma de actuar de los profesionales sanitarios a la hora de enfrentarnos a los

problemas de los pacientes, en condiciones reales de incertidumbre (Real

15

World Evidence o datos de vida real). Se trata de una información de alto valor

que no está en los libros ni en las publicaciones científicas. Dicho de otra

forma, con ello estamos avanzando desde la medicina basada en la evidencia

hacia un nuevo horizonte que podríamos denominar “medicina generadora de

evidencia”, ya que con cada búsqueda literalmente se genera un nuevo

conocimiento que previamente no existía. Lo previsible es que en los siguientes

años asistamos a una coexistencia de ambas disciplinas: basada en la

evidencia para generar conocimiento y generadora de evidencia para matizarlo

y generalizarlo. Ello puede ayudar a reducir la variabilidad de la práctica clínica

no deseada, uno de los peores enemigos del sistema sanitario y, por supuesto,

de nuestros pacientes. Es ahí donde los profesionales sanitarios podemos

sacar ventaja del Big Data, dotándonos de una nueva arma para hacer frente a

la falta de conocimiento empírico, mediante una herramienta que permite

agrupar el conocimiento colectivo (experiencia masiva), haciendo valer a las

mindlines (recomendaciones basadas en la experiencia masiva) frente a las

guidelines11.

A parte de las posibles aplicaciones ya comentadas, hay innumerables

ejemplos de cómo el Big Data se puede aprovechar para transformar los

sistemas de la prestación de atención a la salud, incluyendo la reducción de

errores, identificación de poblaciones de alto riesgo (tales como los pacientes

crónicos), el apoyo a la medicina basada en evidencia, la mejora de la

organización procesos, etc., en definitiva, para servir de fuente de innovación y

conocimiento de alto valor. Sería recomendable el estudio académico formal

del análisis del Big Data para poder ampliar y validar la aplicación práctica del

mismo, tanto en el ámbito de la asistencia hospitalaria y, desde luego, puertas

afuera de su estructura (atención primaria, centros sociosanitarios, etc.). Dicho

estudio debería centrarse en los criterios más significativos y objetivos que

podamos disponer, tales como la eficacia, efectividad clínica y social, eficiencia,

utilidad, para adoptar el análisis del Big Data en la práctica real como una

herramienta más en la toma de decisiones.

5. Problemas potenciales y sesgos.

Existen varios factores que deben ser tenidos en cuenta a la hora de

utilizar el análisis del Big Data en el ámbito sanitario12. En primer lugar, los

16

nuevos componentes y relaciones entre los datos han de trabajar de forma

sistemática y deben garantizar altas cotas de calidad, sólo así obtendremos

resultados e informaciones útiles y valiosas para la comprensión de los

diferentes contextos de los estados de salud y pronosticar el futuro de la

asistencia sanitaria. En segundo lugar, tenemos que manejar la información

que genere el Big Data con cierto grado de prudencia, incluso después de las

diferentes consideraciones estratégicas que se puedan plantear, ya que a

pesar de que tenga mucho potencial para mejorar nuestra comprensión de los

fenómenos asistenciales y fortalecer nuestra capacidad de predecir con cierto

grado de exactitud el futuro, siempre se han de barajar otros aspectos

coyunturales, ético-morales, protección de datos, etc. Por lo tanto, no tenemos

que pensar en los resultados del análisis del Big Data como única fuente de

información, por muy poderosa que fuera, ni tampoco se debe incurrir en ideas

preconcebidas ni tendenciosas. En tercer lugar, se habrá de garantizar la

seguridad y la protección de los datos, que en el caso del sector sanitario son

de especial sensibilidad (datos de carácter personal relacionados con la salud,

información clínica, datos genéticos, etc.) y que según la legislación vigente

siempre habrán de ser preservados. La regulación europea prevé la protección

de los datos personales, entre los que se encuentran los de la salud de la

ciudadanía13. Sin embargo, existen países donde la normativa puede ser más

laxa o inexistente, y donde obtener estos datos puede ser más fácil.

Por otro lado, si bien cada vez es mayor el número de pacientes con una

buena competencia digital, con los que resulta fácil y cómodo emplear

tecnologías de la información, no debe olvidarse que aún son minoría, y que la

mayor parte de nuestros pacientes presentan un problema al respecto, lo que

se conoce como brecha digital. Es innegable que gran parte de los pacientes

que entran en contacto con los sistemas sanitarios tienen serias dificultades

para usar este tipo de funcionalidades por un sencillo problema de

alfabetización (convencional o digital). Resulta imprescindible que la sociedad

se esfuerce en mejorar la alfabetización de los ciudadanos con menor

formación, ya que desde la perspectiva del máximo aprovechamiento del Big

Data en salud, solo se alcanzará el éxito en este campo teniendo en cuenta el

carácter antropológico de la delicada relación profesional sanitario-paciente y la

17

inclinación al ritual al que los seres humanos tendemos a someternos cuando

estamos enfermos14.

Los datos útiles para la investigación en salud pública y en

epidemiología proceden habitualmente de fuentes diseñadas “ad hoc” para la

investigación o bien de fuentes secundarias, como las historias clínicas,

pruebas de laboratorio, censo de población, registros de enfermedades, etc. Lo

que distinguiría al entorno Big Data es, por un lado, la incorporación de otras

fuentes de información, como las derivados de los servicios prestados por las

App de e-salud, wereables, las redes sociales o las plataformas cloud (nube),

entre otras, y la posibilidad de realizar la consulta a múltiples fuentes de datos

on-line15. Hay que señalar que los datos que se obtienen de estas plataformas

son muestras de conveniencia y pueden tener un número importante de sesgos

de selección y de información, de los cuales no nos protege el tamaño muestral

de los datos. Un ejemplo de sesgo de información podría ser el uso de los

Twitterbots, programas usados para producir mensajes automatizados que

permiten, mediante el acceso a potenciales clientes, mejorar el posicionamiento

de una empresa. Al contrario, puede surgir un sinnúmero de asociaciones,

algunas de ellas debidas al azar y a la existencia de sesgos como el de

confusión. También, las empresas de estas plataformas mejoran los servicios a

los usuarios constantemente, lo cual podría afectar a la comparabilidad de los

datos a lo largo del tiempo. Así mismo, tampoco es fácil obtener datos y

replicar los resultados de los estudios para poder determinar su robustez.

La tecnología permite y permitirá analizar un ingente volumen de datos y

establecer innumerables asociaciones mediante modelos complejos. Habrá que

desarrollar nuevas propuestas que traten los niveles de significación estadística

de forma diferente. Todo ello nos lleva a recordar los criterios de causalidad de

Bradford-Hill, en los que la fuerza de asociación estadística es solo una de las

nueve condiciones para establecer la causalidad16.

El Big Data como tecnología absorbe una masiva cantidad de datos

generados por un usuario en todos los formatos posibles (estructurados o no)

junto a una cantidad similar o mayor de los llamados shadow data (accesos,

búsquedas y datos no explícitos de todo tipo que también quedan

almacenados), que son susceptibles de ofrecer una visión de la persona que

supera con mucho el conocimiento que la persona tiene de sí misma.

18

Tendencias, comportamientos, influencias, secuencias, etc., originadas en

nuestro comportamiento en la red y en el creciente flujo de información que

decidimos compartir constituyen un universo de datos sensibles que requieren

un trato cuidadoso y respetuoso. Los datos públicos son datos suministrados

voluntariamente a cambio de una propuesta de valor determinada, mientras

que la mayoría de los otros datos que contiene el Big Data son información

privada que no siempre deseamos que se dé a conocer.

Tampoco puede desecharse la posibilidad de la manipulación por parte

de empresas con ánimo de lucro, o bien desde visiones corporativas que muy

lícitamente para sus intereses pretenden influir mediante los Big Data en las

decisiones sobre la salud de la población, sin obviar que puedan tener una

mayor capacidad de transferencia que las instituciones públicas encargadas de

la salud pública. Un aspecto no desdeñable es poder refutar o aceptar

resultados de estudios basados en los Big Data. No obstante, requerirá que el

estudio esté bien sustentado metodológicamente, sea cual sea el origen de los

datos.

6. Conclusiones.

Pacientes, gestores, proveedores de servicios de auxiliares y, como no, los

cuidadores y profesionales sanitarios podrán beneficiarse de la eficiencia y

ventajas que trae obtener insights de los datos. Aquí es donde varios expertos

de la materia hablan de la futura Medicina 5P, el cruce entre la sanidad y Big

Data17:

Personalizada: el eterno sueño de la medicina. Poder dar un tratamiento

singular al diagnóstico y necesidades concretas de cada uno de los

pacientes. Con el Big Data, la cantidad ingente de datos, y el contexto

que describe a cada uno de los pacientes, esto es posible. Solo es

cuestión de “codificar” en datos lo que hasta ahora no hemos hecho, en

cuestión de aspectos clínicos como estado de ánimo, emociones,

expresión del dolor, etc.

Predictiva: se trataría de pasar de un modelo reactivo de sanidad a otro

modelo activo y predictivo mucho más eficiente en el que el sistema

sanitario y sus cuidadores, advierte directamente al paciente de

19

situaciones potencialmente peligrosas. La estadística al servicio de

nuestra salud.

Preventiva: se trataría de prevenir la aparición de enfermedades, basada

en un conjunto de actuaciones médicas y el análisis de patrones y datos

históricos. Ya sabemos esa máxima de “Es mejor prevenir que

lamentar”, que en medicina cobra más sentido que en cualquier otra

área de la vida.

Participativa: la importancia que todos los agentes de los que hemos

hablado anteriormente estén bien coordinados. El trabajo con pacientes

no solamente tiene impacto en los aspectos terapéuticos, sino también

en la gestión y los procesos, de manera que no escape detalle alguno

(esto en España, donde tenemos una fragmentación de la organización

del Sistema Sanitario importante, con 17 sistemas, vendría realmente

bien).

Poblacional: para toda la población. La posibilidad de hacer más

eficiente el sistema podría traer que con los mismos recursos,

pudiéramos atender a un mayor volumen de población. En definitiva, no

dejar a nadie sin atención.

Las principales tendencias que transformarán las actividades en los

hospitales y demás instituciones de salud, refieren a los responsables de la

necesidad de situar las inversiones en TIC entre sus prioridades para apoyar el

proceso de integración tecnológica. En general, las consultoras de análisis

constatan que el Big Data jugará un papel crucial en la organización interna del

sistema sanitario. Los costes no pararán de crecer, lo que influirá directamente

en la calidad de las operaciones los hospitales18. Para finales del año 2016, se

estima que la solución a la ineficiencia operativa obligará a las organizaciones

de salud a invertir una parte de sus presupuestos en una estrategia digital

basada en los datos.

Entre los principales costes, los relacionados con la gestión de los pacientes

con enfermedades crónicas crearán una mayor demanda de sistemas

inteligentes de macrodatos y capacidad analítica para apoyar las iniciativas de

gestión de la salud de la población. En consecuencia, el 70% de las

20

instituciones sanitarias globales invertirán en aplicaciones móviles, wearable o

sistemas de monitorización remota de la salud19.

Por otro lado, los datos acumulados por las organizaciones sanitarias no

solo ayudarán a mejorar la calidad de los servicios, sino también gestionar de

forma más eficiente los costes derivados de los tratamientos de los pacientes.

De aquí a dos años, se estima que el 15% de los hospitales dispondrán de

perfiles detallados de sus pacientes que le permitirán entregar planes de

tratamiento personalizados20.

21

Bibliografía

1 Elenko E, Underwood L, Zohar D. Defining digital medicine.Nature Biotechnol.

2015;33:456-61.

2 Y. Genovese and S. Prentice, “Pattern-based strategy: getting value from big

data,” Gartner Special Report G00214032, 2011.

3 The Big Data Research and Development Initiative, http://

www.whitehouse.gov/sites/default/files/microsites/ostp/bigdata press release

final 2.pdf.

4 Merelli I, Pérez-Sánchez H, Gesing S, D'Agostino D. Managing, analysing,

and integrating big data in medical bioinformatics: open problems and future

perspectives. Biomed Res Int. 2014;2014:134023.

5 Big data: The next frontier for innovation, competition, and productivity

(consultado 12/02/15).

http://www.mckinsey.com/insights/business_technology/big_data_the_next_fron

tier_for_innovation).

6 Duran-Frigola M, Rossell D, Aloy P. A chemo-centric view of human health and disease. Nat Commun. 2014 Dec 1;5:5676.

7 "Big Data y su fuerza para Business Intelligence" (2013, octubre). Stefanini.

[Fecha de consulta: 12 de septiembre de 2016]

https://stefanini.com/es/2013/10/big-data-y-su-fuerza-para-business-

intelligence/

8 Grossglauser M, Saner H. Data-driven healthcare: from patterns to actions.

Eur J Prev Cardiol. 2014 Nov;21(2 Suppl):14-7.

http://www.whitehouse.gov/sites/default/files/microsites/ostp/bigdata%20press%20release%20final%202.pdf

http://www.whitehouse.gov/sites/default/files/microsites/ostp/bigdata%20press%20release%20final%202.pdf

http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation

http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation

https://stefanini.com/es/2013/10/big-data-y-su-fuerza-para-business-intelligence/

https://stefanini.com/es/2013/10/big-data-y-su-fuerza-para-business-intelligence/

22

9 IBM. Reducing readmissions to improve care [Internet]. Armonk (NY): IBM;

c2014 [cited at 2014 Oct 20]. Available from: http://www-

01.ibm.com/software/sg/industry/healthcare/pdf/setonCaseStudy.pdf.

10 European Commission. Medical intelligence in Europe [Internet]. Brussels:

European Commission; c2014 [cited at 2014 Oct 20]. Available from:

http://ec.europa.eu/health/preparedness_response/generic_preparedness/plann

ing/medical_intelligence_en.htm

11 Gabbay J. Evidence based guidelines or collectively constructed«mindlines?». Ethnographic study of knowledge management inprimary care. BMJ. 2004;329:1013-20.

12 Song TM. Efficient utilization of big data on healthcare and welfare area.

Healthc Welf Forum 2012;193:68-76.

13 European Comission. Why do we need an EU data protection reform?

[Internet]. 2011. p. 10-1. (Consultado el 10/05/2015.) Disponible en:

http://ec.europa.eu/ justice/data-protection/document/review2012/factsheets/1

en.pdf

14 Abad-Alcalá L. Media literacy for older people facing the digitaldivide: The e-

inclusion programmes design. Comunicar: MediaEducation Research Journal.

2014;21:173-80.

15 Standen A. How big data is changing medicine listen: KQED Science

[Internet]. 2014. (Consultado el 10/05/2015) Disponible en:

http://ww2.kqed.org/science/2014/09/29/how-big-data-is-changing-medicine/

16 Hill A-B. President’s address the environment and disease. Proc R Soc Med.

1965;58:295–300.

17 Feldman, Bonnie; Martin, Ellen M.; Skotnes, Toby (2012, Octubre). Big Data

Healthcare Hype and Hope. Disponible en pdf: < http://www.west-

info.eu/files/big-data-in-healthcare.pdf>.

http://www-01.ibm.com/software/sg/industry/healthcare/pdf/setonCaseStudy.pdf

http://www-01.ibm.com/software/sg/industry/healthcare/pdf/setonCaseStudy.pdf

http://ec.europa.eu/health/preparedness_response/generic_preparedness/planning/medical_intelligence_en.htm

http://ec.europa.eu/health/preparedness_response/generic_preparedness/planning/medical_intelligence_en.htm

http://ec.europa.eu/

http://ww2.kqed.org/science/2014/09/29/how-big-data-is-changing-medicine/

http://www.west-info.eu/files/big-data-in-healthcare.pdf

http://www.west-info.eu/files/big-data-in-healthcare.pdf

23

18 Parra Calderón C. Big data en sanidad en España: la oportunidad de una

estrategia nacional. Gaceta sanitaria: Órgano oficial de la Sociedad Española

de Salud Pública y Administración Sanitaria,Vol. 30, Nº. 1, 2016, págs. 63-65.

19 Informe IDC 2016 (Consultado el 16/09/2016) Disponible en pdf:

https://www.idc.com/getdoc.jsp?containerId=US41100816

20 Criado MA. Cómo reducir las visitas al médico con un algoritmo matemático.

La reutilización de los datos clínicos personales es clave tanto para la

planificación sanitaria como la investigación médica, El País 17 de Marzo de

2016.

https://www.idc.com/getdoc.jsp?containerId=US41100816

Date post:	09-Jul-2020
Category:	Documents
Upload:	others
View:	5 times
Download:	0 times

Aplicación del Big Data en Salud: aplicaciones...

Documents