1
Aplicación del Big Data en Salud: aplicaciones, oportunidades y sesgos
Autor: José Manuel Martínez Sesmero
Especialista en Farmacia Hospitalaria. Doctor en Farmacia. Complejo
Hospitalario de Toledo
Resumen:
Big Data es una posibilidad tecnológica que permite analizar grandes
cantidades de datos, de cualquier tipo (sanitarios y no sanitarios), de una forma
rápida, eficaz, y de fuentes muy diversas. Además, proporciona la oportunidad
de obtener datos globales sobre grandes franjas de la población y recoger
prospectivamente ricos flujos de información de individuos seleccionados
mediante la aplicación de diversas tecnologías (sensores, telemetría, etc.). La
gran mayoría de los agentes que participan en las estructuras de los servicios
de salud reconocen que el análisis del Big Data puede ofrecer nuevas
posibilidades en la elaboración de modelos predictivos, patrones de
comportamiento, el descubrimiento de nuevas necesidades, reducir riesgos, así
como proveer servicios más personalizados, todo ello en tiempo real y teniendo
en cuenta toda la información relevante. Centrándonos en el paciente crónico,
cabe destacar que algunas instituciones sanitarias, e incluso autoridades en
esta materia de determinados países, están potenciando el análisis del Big
Data para resolver los problemas tradicionales de salud, como la reducción de
los reingresos, el aumento de la eficacia y eficiencia de la asistencia sanitaria,
la mejora de la calidad de la atención, y las demandas de predicción para los
servicios de salud. Sin embargo, también hay que considerar la cara menos
amable y las limitaciones del Big Data, por ejemplo, no tenemos que pensar en
los resultados del análisis del Big Data como única fuente de información, la
tecnificación todavía no está implementada en todos los servicios de salud,
existe aún una brecha digital en determinados segmentos de la sociedad, la
protección de los datos en determinados países es controvertida y, por último,
el riesgo de incurrir en algún tipo de sesgo, tal como los sesgos de confusión,
selección e información.
2
1. Introducción.
Entre los cambios de paradigma que protagonizan el vertiginoso mundo
en el que vivimos, destaca uno de especial importancia, el conocido como
“revolución digital” o también denominado como “tercera revolución industrial”.
En el centro de esta revolución está la producción en masa y el uso
generalizado de tecnologías basadas en circuitos lógicos digitales, como los
ordenadores personales, el dinero electrónico, los relojes digitales, los juegos
electrónicos, los smartphones, Internet, etc. Como consecuencia, la
información que antes era analógica está sufriendo una imparable
digitalización, entendiendo por digitalización la transformación de documentos
físicos en imágenes digitales para su visualización instantánea desde cualquier
ordenador y desde cualquier parte del mundo. Con la revolución digital
concluye la última etapa del proceso postindustrial y surge la sociedad del
conocimiento, un cambio social superlativamente dinámico que aporta masivas
cantidades de información en forma de textos, signos gráficos, imágenes,
ideogramas y sonidos que están cambiando la manera en que los ciudadanos
piensan, opinan, actúan, se comunican y o se ganan la vida1.
Las discusiones y elucubraciones sobre el Big Data (datos masivos
podría ser una traducción adecuada) han llegado a dominar muchas de las
visiones del futuro comportamiento de las organizaciones industriales,
científico-técnicas y sociales. Por ello, preguntas tales como ¿qué entendemos
por Big Data, y cómo puede ser de beneficioso para los profesionales de la
salud y los gestores del sistema sanitario? han comenzado a aflorar en los
últimos tiempos. Big Data es una posibilidad tecnológica que permite analizar
grandes cantidades de datos, de cualquier tipo (sanitarios y no sanitarios), de
una forma rápida, eficaz, y de fuentes tan diversas como llamadas telefónicas,
transacciones bancarias, búsquedas en Google, mensajes en redes sociales o
sensores que monitorizan los objetos y personas, y por ende, generar
conocimiento de forma casi inmediata.
Resumiendo de manera sencilla y más académica el concepto Big Data
podríamos decir que éste hace referencia a aquel conjunto de datos que, por
su tamaño ingente, sobrepasa la capacidad de ser gestionado por bases de
3
datos de integración tradicionales. A pesar de que muchos autores consideran
esta definición demasiado dispersa2, si profundizamos en las características
que componen el Big Data, existe un mayor grado de acuerdo en aducir que se
fundamenta en el paradigma de la 3 “V” (volumen, variedad y velocidad)3. El
elevado volumen de datos (superior a un petabyte) precisa nuevas técnicas de
almacenamiento a gran escala y enfoques distintos para recuperar la
información; la variedad de las fuentes de datos (texto, audio, vídeo, etc.) hace
que las redes relacionales sencillas sean difícilmente aplicables; y por último, el
incesante incremento con que se generan los datos, hace que la velocidad sea
un parámetro clave en su manejo4. Según el Massachusetts Institute of
Technology podríamos añadir una cuarta “V”, que hace referencia al valor
aportado por estos grandes conjuntos de datos.
Como se ha comentado, en comparación con la metodología de
recopilación de datos tradicional, la incursión en los últimos años de las
Tecnologías de la Información y Comunicación (TIC) ha producido la
generación de un mayor conjunto de datos, de una forma trepidante y
aparentemente fácil. Estos datos también pueden crear nuevas oportunidades
para abordar la investigación y resolución de determinadas preguntas, siempre
desde una perspectiva eminentemente innovadora. En líneas generales
podríamos decir que las nuevas TIC son las que giran en torno a tres medios
básicos: la informática, la microelectrónica y las telecomunicaciones; pero
giran, no sólo de forma aislada, sino lo que es más significativo es que lo hacen
de manera interactiva e interconexionada, lo que permite conseguir nuevas
realidades comunicativas y de explotación de la información. Las TIC están
produciendo una innovación y cambio constante en todos los ámbitos sociales
y en diferentes parcelas del conocimiento. La innovación tecnológica que
sustenta a las TIC ha posibilitado la creación del concepto Big Data, y de su
análisis exhaustivo esperamos obtener nuevas vías de innovación aplicadas a
la mejora de la salud colectiva e individual, y a una mejor gestión de los
sistemas sanitarios, en especial, en la asistencia del paciente crónico complejo.
El Big Data proporciona la oportunidad de obtener datos globales sobre
grandes franjas de la población y recoger prospectivamente ricos flujos de
información de individuos seleccionados mediante la aplicación de diversas
tecnologías (sensores, telemetría, etc.). Si estos sistemas están cada vez más
4
disponibles y su coste se reduce, su penetración y utilización se incrementarán,
y con ello la riqueza de la información que generen.
2. Fuentes de datos sanitarios.
En el sector sanitario se genera una inmensa cantidad y variedad de
datos tanto estructurados, semi-estructurados como desestructurados o no
estructurados. El potencial de Big Data en medicina reside en la posibilidad de
combinar los datos tradicionales con otras nuevas formas de datos tanto a nivel
individual como poblacional, es decir, realizar la integración de datos
estructurados y no estructurados.
Los datos estructurados son los que tienen un esquema definido, en
formato y longitud, para poder ser incluidos en un campo fijo (fechas, números,
cadenas de caracteres, etc.) y almacenados en tablas, por ejemplo las de una
hoja de cálculo o una base de datos relacional. Los datos semi-estructurados
carecen de formato fijo o de campo determinado, pero están dotados de
marcadores que permiten diferenciar los distintos elementos dato. Un ejemplo
lo constituyen las etiquetas de lenguajes HTML y XML. En el ámbito de la
salud, ejemplo de estas modalidades serían los datos de contabilidad,
facturación electrónica, algunos datos de actuario o datos clínicos. Los datos
no estructurados no tienen un formato específico ni se pueden asignar a un
campo fijo, por lo que no es posible su almacenamiento en una tabla. Se tratan
como documentos u objetos. Ejemplos de este tipo de datos son documentos
de audio, vídeo, fotografías, e-mails o archivos PDF. En el sector sanitario,
cabe citar imágenes de radiografías, resonancias magnéticas, recetas en
papel, etc.
Se calcula que un paciente medio genera alrededor de dos gigas de
información, que crecen rápidamente en el caso de determinados tratamientos.
¿De qué tipo de información estamos hablando?: hay una gran variedad, desde
información perfectamente tabulada, como en el caso de resultados de
analíticas, hasta datos no estructurados, como imágenes de todo tipo o lecturas
de parámetros variados. Toda ella es información “digitalizable”, pero en muy
pocos casos se digitaliza y almacena adecuadamente. Sin duda, un campo
perfecto para la aplicación de técnicas de Big data, no solo por una cuestión de
5
aplicación al paciente, sino también – y con grandes posibilidades – al
tratamiento de la información agregada.
Hay que recordar que un dato estructurado es un dato que puede ser
almacenado, consultado, analizado y manipulado por máquinas, normalmente,
en modo tabla de datos. Un dato no estructurado o desestructurado es todo lo
contrario. Datos estructurados, son los datos clásicos de los pacientes
(nombre, edad, sexo, etc.) y datos no estructurados son las recetas de papel,
los registros médicos, las notas manuscritas de médicos y enfermeras, las
grabaciones de voz, las radiografías, escáneres, resonancias magnéticas, TAC
y otras imágenes médicas. A estos datos y pertenecientes a ambas categorías
también, se pueden considerar los archivos electrónica de contabilidad y
gestión administrativa, datos clínicos, etc.
Los avances tecnológicos están generando nuevas avalanchas de datos
de todo tipo que provienen de los más variándose dispositivos, sensores,
fitness, aparatos médicos diversos, datos hospitalarios, etc., y a ellos se suman
los datos procedentes de los medios sociales (redes sociales, blogs, wikis,
podcast, etc.), de los teléfonos inteligentes, de áreas tan voluminosas como
importantes tales como genética y genómica, etc.
Atendiendo a los datos que las empresas deben analizar, según
diferentes propósitos, y con arreglo a las fuentes donde se originan, se
distinguen cinco categorías básicas de fuentes de datos:
Web and Social Media. Incluye datos procedentes de los flujos de
clicks, entradas de Twitter, Facebook, LinkedIn, blogs y diversos
contenidos Web. Por ejemplo, Big Data puede recoger
información cada vez más abundante para el sector de la salud
desde este tipo de fuentes, como las redes sociales temáticas
para profesionales médicos o para comunidades virtuales de
pacientes.2
Machine-to-Machine (M2M). Se refiere a las tecnologías que
permiten conectarse a otros dispositivos, como sensores o
medidores que capturan un evento en particular (humedad,
velocidad, temperatura, presión, etc.). Entre los datos
procedentes de estos dispositivos se encuentran: lecturas de
medidores inteligentes, de RFID, de sensores de plataformas
6
petroleras y señales GPS. En servicios de salud, los sistemas que
recogen los datos procedentes de sensores en dispositivos
weareables o de smartphones en pacientes monitorizados en
teleasistencia.
Big Transaction Data. Incluye registros de facturación, de
telecomunicaciones y registros detallados de llamadas (CDR). Los
datos transaccionales pueden ser semiestructurados y no
estructurados.
Biometrics. Hace referencia a datos de información biométrica,
como huellas digitales, de reconocimiento facial, de escaneo de
retina, de genética (ADN), etc. Son importantes en el área de
seguridad e inteligencia para las agencias de investigación
Human Generated. En este apartado se incluyen datos generados
por personas, como los que se guardan en un call center al
establecer una llamada telefónica, las notas de voz, correos
electrónicos, documentos, estudios y registros médicos
electrónicos o recetas médicas.
Si atendemos a la interpretación del Big Data en uno de los sistemas de
salud más tecnificados, como es el caso de Estados Unidos, podemos apreciar
que se definen cuatro grandes grupos de datos dentro de la atención a la salud,
y cada uno de ellos se mantiene fundamentalmente en una circunscripción muy
diferente5. Los cuatro sectores (ver Figura 1) se componen de datos del
proveedor clínico, la actividad del pagador (claims o reclamaciones) y datos de
costes, productos farmacéuticos y productos médicos de investigación y
desarrollo (I + D) y, finalmente, los datos relativos al entorno y preferencias del
paciente. Se podría suponer que la cantidad de datos que está disponible se
recoge, digitaliza y analiza primeramente dentro de cada sector. Sin embargo,
lo más habitual es que los proveedores de salud tengan los datos financieros y
administrativos ampliamente digitalizados, incluyendo contabilidad y la
información básica del paciente, pero ello no sucede con la agregación de
datos clínicos que cubren áreas tales como los avances y resultados en salud
de los tratamientos, que está aún poco desarrollada y, menos aún, explotada.
Dependiendo del ámbito de atención, se estima que hasta un 30 por ciento de
7
los textos clínicos que se manejan en los Estados Unidos, incluyendo los
registros médicos, facturas, informes de laboratorio y cirugía, todavía no se
generan electrónicamente6. Aun cuando los datos clínicos están en formato
digital, éstos suelen estar en manos de un proveedor individual y rara vez son
compartidos con el resto de proveedores.
Figura 1.
En el ámbito europeo, por su parte, aunque la perspectiva de los
sistemas sanitarios es diametralmente opuesta a la perspectiva
norteamericana, los sectores de datos anteriormente descrita podría ser
perfectamente viable, sobre todo, si tenemos en cuenta que en la mayoría de
las ocasiones proveedor y pagador pertenecen al mismo ente. Sin embargo,
en la actualidad, la información no se encuentra generalmente en una forma
apta para que los pagadores puedan utilizarla para un análisis avanzado que
genere ideas reales, ya que rara vez se estandariza, a menudo se fragmenta, o
se generan datos en formatos incompatibles.
Hay que hacer cambios tecnológicos para abordar proyectos de Big
Data, pero ¿cuáles son los retos tecnológicos a los que se enfrenta el sistema
8
sanitario?. El sistema sanitario de entrada a lo que se enfrenta es al reto del
cambio. Un cambio provocado por los avances científicos, los costes
económicos, los requerimientos de los ciudadanos y naturalmente por los
avances tecnológicos. Este reto supone modificar procedimientos, legislación,
roles profesionales y nuevas formas de atención sanitaria. Y todos estos
cambios deben ser contemplados desde la perspectiva de utilizar la tecnología
disponible. Ahora bien, en lo que se refiere a retos tecnológicos, es necesario
redefinir la edificación de las redes de comunicación y sistemas, de forma que
toda la información de salud de un ciudadano esté disponible allí donde se
halle y a su disposición. En cuanto a la existencia de un Big Data sanitario
efectivamente puede cambiar nuestro escenario a medio plazo de una forma
importante. Es el momento de definir una clara estrategia para el sistema
sanitario en su conjunto ya que el valor que aportaría el poder disponer de
grandes volúmenes de información real y contrastada, sería enorme en cuanto
a generación de conocimiento para mejorar la seguridad de la atención
sanitaria y su eficiencia. Desde mi punto de vista, estamos traspasando el
momento adecuado para definir la estrategia y el modelo a aplicar en todo el
sistema las infraestructuras tecnológicas, todo ello planteado no solo para
garantizar los servicios actuales y en implantación, como por ejemplo la historia
clínica, sino con la visión de lo que habrá que poner en marcha.
Por último, ¿puede haber una valoración del funcionamiento de las
historias clínicas? ¿La recogida masiva de datos va a cambiar el modelo
sanitario? En cuanto a la historia clínica electrónica (HCE), este proyecto está
muy implantado en los centros sanitarios. En Atención Primaria y Especializada
se dispone de millones de Historias, Otro tema vital es la necesidad de la
interoperabilidad de todos los niveles. La cantidad de información existente
relacionada con nuestra salud es abrumadora. Los centros de salud, los
hospitales, la administración pública e incluso nosotros mismos como pacientes
acumulamos grandes cantidades de datos en formatos muy diversos: informes
en papel, archivos de Office, imágenes, videos, recetas, tarjeta sanitaria, etc.
Hasta que se instauró la Historia clínica electrónica cada miembro de la
comunidad sanitaria tenía una visión parcial del paciente, lo que dificultaba el
diagnóstico y tratamiento. Aunque hoy en día el historial médico de un paciente
es compartido e interoperable.
9
3. Plataformas de Big Data y modelos predictivos.
El uso de los datos masivos requiere la utilización de nuevas
herramientas tecnológicas para su captura desde las diferentes fuentes y
sistemas, así como su transformación, almacenamiento, análisis, visualización,
etc. La plataforma de código abierto Apache Hadoop es la que ha liderado
desde un principio los distintos proyectos de software especializado en Big
Data7. Ha sido adoptada tanto por la comunidad de desarrolladores de
aplicaciones de software libre como por los principales proveedores de
software propietario de bases de datos (Oracle®, IBM® y Microsoft®).
El proyecto Hadoop consta de tres componentes fundamentales:
Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop
Common.
Hadoop Distributed File System (HDFS). Los datos en el clúster
de Hadoop se dividen en piezas pequeñas llamadas bloques que
son distribuidas a través del clúster; de este modo, las funciones
map y reduce pueden ser ejecutadas en pequeños subconjuntos,
y esto proporciona la escalabilidad necesaria para el
procesamiento de grandes volúmenes.
Hadoop MapReduce. Es considerado el componente nuclear de
Hadoop. El término MapReduce se refiere a dos procesos
separados que ejecuta Hadoop. El primero de ellos, map, toma un
conjunto de datos y lo convierte en otro conjunto, donde los
elementos individuales son separados en tuplas (pares de
clave/valor). El segundo proceso, reduce, obtiene la salida de
map como datos de entrada y combina las tuplas en un conjunto
más pequeño de las mismas. Existe una fase intermedia,
denominada shuffle, que obtiene las tuplas del proceso map y
determina qué nodo deberá procesar estos datos, dirigiéndolos
hacia una salidaespecífica para una tarea reduce. En la siguiente
figura se presenta un ejemplo del flujo de datos en un proceso
MapReduce.
10
Hadoop Common. Constituye un conjunto de librerías que
soportan varios subproyectos de Hadoop.
Uno de los pilares básico de la utilidad de Big Data en salud es la
creación de modelos predictivos (se verá en el siguiente capítulo). Los
modelos predictivos son funciones matemáticas o algoritmos, capaces
de determinar y aprender la correlación entre un conjunto de variables
de datos de entrada, por lo general empaquetadas en un registro, y una
variable de respuesta o de destino. Estos algoritmos forman parte de las
técnicas y métodos de minería de datos. El creciente uso de la analítica
predictiva para aplicarla sobre un componente importante de datos no
estructurados ha impulsado a los desarrolladores de software a incluir en
sus aplicaciones específicas un número cada vez mayor de algoritmos
para cubrir un amplio espectro de posibles soluciones de modelado
predictivo, de forma que el modelo óptimo se encuentre en la
combinación de métodos. No obstante, hay un reducido grupo de
algoritmos genéricos que suelen incluir tanto los fabricantes de software
de código abierto como comercial, como los señalados a continuación:
Máquinas de vectores de soporte (SVM). Se trata de un
conjunto de algoritmos de aprendizaje supervisado que dan
solución a problemas de clasificación y regresión. Una SVM
construye uno o varios hiperplanos en un espacio de
dimensión mayor que el conjunto hallado calculando aquel que
proporcione la mayor separación entre dos subconjuntos
diferenciados, que será el “hiperplano óptimo”. Eso los
proveerá de una etiqueta de clase y de una función de
regresión que le otorgue valor predictivo. La predicción será
que los puntos de un nuevo conjunto analizado por el modelo
construido serán clasificados correctamente.
Redes neuronales (NN). Las redes neuronales representan
una estructura de aprendizaje automatizado inspirada en el
funcionamiento del sistema nervioso de los animales. Está
compuesto de una capa de entrada, con tantos nodos como
número de campos y características que se están
considerando; de una capa de salida, con un solo nodo que
11
representa el campo predicho; y de una o más capas
intermedias de nodos ocultos. Deberá establecerse una
función de correlación entre los campos de entrada y de
destino. Cuando hay más de una capa interpuesta de nodos
ocultos puede aprender mejor la función un modelo de red
neuronal de retropropagación, que busca el ajuste de los
valores intermedios desde el valor de salida.
Árboles de decisión. Dado un conjunto de datos, se
construyen diagramas de construcción lógica, similares a los
sistemas de predicción basados en reglas, que sirven para
representar y categorizar una serie de condiciones que se
presentan de forma sucesiva para la resolución de un
problema. Al contrario que los modelos anteriores, resulta más
fácil de usar y entender.
De agregación o clustering. Es un procedimiento que trata de
agrupar de modo cercano a grupos de individuos con
características semejantes. Entre los métodos más utilizados
para establecer el agrupamiento figura el de los centroides, o
k-means y el de los vecinos más cercanos, o K-nn (K nearest
neighbors). El algoritmo k-means trata de obtener la partición
de un conjunto de n observaciones en k grupos, en el que
cada observación pertenece al grupo más cercano a la media.
Los elementos más próximos a la media son los centroides.
En el conjunto inicial se pueden elegir aleatoriamente los
centroides o bien las particiones. Se calcula la media de cada
grupo y se repite el proceso hasta que la asignación de sus
centroides no varía. El algoritmo k-nn es un método de
clasificación supervisada, que se basa en establecer
previamente ejemplos de entrenamiento ya clasificados. Un
nuevo elemento que se desea clasificar se asignará a la clase
a la que pertenezca el mayor número de vecinos más
cercanos de un grupo de k elementos.
Reglas de asociación. Se utilizan cuando una variable de
destino o una medida similar no es importante, pero sí lo son
12
las asociaciones entre los elementos de entrada. Por ejemplo,
qué pueden tener en común las personas que además de
comprar pañales y leche compran también cerveza. Esto sería
un análisis de la cesta de la compra, que puede utilizarse para
decisiones de marketing. El modelo se usa en otras muchas
áreas, entre ellas la investigación en biología molecular.
4. Aplicaciones y oportunidades.
El análisis del Big Data ha abierto la puerta a una nueva era para la
mejora en la prestación de servicios y solución de problemas en el ámbito de
los sistemas sanitarios. La gran mayoría de los agentes que participan en las
estructuras de los servicios de salud reconocen que el análisis del Big Data
puede ofrecer nuevas posibilidades en la elaboración de modelos predictivos,
patrones de comportamiento, el descubrimiento de nuevas necesidades,
reducir riesgos, así como proveer servicios más personalizados, todo ello en
tiempo real y teniendo en cuenta toda la información relevante.
Existe un amplio consenso en que el mejor cuidado de la salud,
impulsado por el tratamiento global y sistemático de los datos, debiera
plantearse desde tres perspectivas8: la individual de cada paciente, la de las
comunidades de pacientes y, por último, la de la sociedad en su conjunto.
Individualmente, en el área de dispositivos médicos y de los cuidados
domiciliarios de pacientes crónicos se están desarrollando aplicaciones de
monitorización remota del electrocardiograma, seguimiento de los datos de los
sensores de dispositivos como marcapasos o desfibriladores implantados, que
han logrado grandes avances en lo que respecta a la gestión y la prevención
de rehospitalizaciones por tales pacientes9. Estas experiencias, a través de la
utilización de datos de múltiples sensores (wearables), van encaminadas a
ayudar a la vida independiente de las personas de edad avanzada o
pluripatológicos, con un gran potencial para mejorar los procesos asistenciales
complejos y facilitar un cuidado individualizado y eficiente para pacientes
crónicos y ancianos bajo estas circunstancias.
En las comunidades de pacientes, los sujetos se influyen mutuamente, y
parte de esta influencia hoy fluye a través de las redes sociales y en la web 2.0
13
(Facebook, Twitter, etc.). Este hecho es relevante tanto para aprovecharlo
como instrumento encaminado a las cuestiones relacionadas con la salud,
incluso como modelo para entender cómo los patrones de comportamiento
pueden emerger o involucionar. Las redes sociales pueden ser aprovechadas
directamente como una herramienta para ayudar a los pacientes a vivir más y
con mejor calidad. Por ejemplo, ya existen varios servicios en línea dirigidos a
los pacientes con condiciones específicas, para unirse a determinadas
comunidades en las que se interrelacionan, intercambian información u
opiniones, y ofrecer y recibir apoyo (por ejemplo
http://www.patientslikeme.com/). Estas redes pueden convertirse en
excelentes fuentes de datos si cada vez es más grande el número de pacientes
que participan en ellas, y pueden ayudar a descubrir nuevos e inesperados
patrones de salud o aspectos relacionados con la misma.
Una tercera área donde existe un claro potencial significativo para las
grandes tecnologías de Big Data, desde un prisma más global, es la de gestión
de enfermedades infecciosas. Las epidemias se extienden a través de
personas y de los contactos persona-persona o por el entorno, y ello puede
suponer un gran peligro para la sociedad, sobre todo en los países en vías de
desarrollo. Sin embargo, debido a la gran movilidad de personas que se
produce actualmente, esta idea ha de extenderse a los países con sistemas de
salud más evolucionados. Por ejemplo, la Comisión Europea ha desarrollado el
sistema “MediSys”10, una herramienta para escanear y buscar información con
el objeto de reforzar la red de vigilancia de enfermedades transmisibles y la
detección temprana de las actividades bioterroristas. A través del algoritmo de
“MediSys” se pueden obtener noticias de última hora utilizando más de 20.000
artículos de Internet analizados al día y producidos por la Europa Media
Monitor, que se pueden enviar a las personas clave, gestores, decisores, etc.,
por correo electrónico y SMS.
Otro ejemplo en el ámbito de la farmacoterapia, la acumulación de datos
sanitarios (clínicos, genéticos, etc.) que relacionan las estructuras químicas de
sustancias a una enfermedad por su efecto terapéutico o adverso, ha permitido
desarrollar modelos predictivos que asocian una estructura química con el
efecto que tendría en humanos. Como muestra de ello, recientemente se ha
publicado un estudio que incluye moléculas relacionadas con la etiología de
14
934 condiciones que amenazan la salud y se utilizan para tratar 835
enfermedades diferentes. En primer lugar, se identifican restos químicos que
podrían estar asociados de forma independiente con cada efecto fenotípico.
Con el uso de estos fragmentos, se construyen predictores precisos para
aproximadamente 400 fenotipos clínicos, encontrando muchas estructuras
relacionadas y responsables de estos efectos.
Centrándonos en el paciente crónico, cabe destacar que algunas
instituciones sanitarias, e incluso autoridades en esta materia de determinados
países, están potenciando el análisis del Big Data para resolver los problemas
tradicionales de salud, como la reducción de los reingresos8, el aumento de la
eficacia y eficiencia de la asistencia sanitaria, la mejora de la calidad de la
atención, y las demandas de predicción para los servicios de salud. Al hilo de la
reducción de reingresos, y del peso cada vez mayor que enfermedades
crónicas tienen en nuestro país (debido en parte al aumento de la esperanza
de vida y a la adopción de estilos de vida propios de países desarrollados), el
desarrollo de estrategias a nivel nacional para mejorar la atención sanitaria a
los pacientes crónicos debe ser una prioridad para el Sistema Sanitario. Dos de
los pilares de dicha estrategia debieran ser la estratificación y segmentación de
la población en niveles de riesgo, y la aplicación de modelos predictivos que
permitan optimizar la gestión de los pacientes de mayor riesgo para, por
ejemplo, anticiparse a un reingreso hospitalario y reducir los costes asociados.
La estratificación de la población no es un proceso estático, ya que las
características de los pacientes evolucionan con el tiempo y su nivel de riesgo
debe ajustarse periódicamente. Una vez agrupada la población en niveles de
riesgo, existe la posibilidad de realizar un análisis pormenorizado de patologías
concretas que representen una prioridad para el sistema, bien por su severidad
o bien por su impacto económico. Es por ello que el Big Data se posiciona
como una herramienta clave en estos procesos.
A través del análisis Big Data seremos capaces de analizar, resumir y
presentar de forma sencilla la información médica contenida en el conjunto de
historias clínicas electrónicas, para su reutilización en la práctica clínica, y en
tiempo real. Esta información reviste gran valor al presentar el fiel reflejo de la
forma de actuar de los profesionales sanitarios a la hora de enfrentarnos a los
problemas de los pacientes, en condiciones reales de incertidumbre (Real
15
World Evidence o datos de vida real). Se trata de una información de alto valor
que no está en los libros ni en las publicaciones científicas. Dicho de otra
forma, con ello estamos avanzando desde la medicina basada en la evidencia
hacia un nuevo horizonte que podríamos denominar “medicina generadora de
evidencia”, ya que con cada búsqueda literalmente se genera un nuevo
conocimiento que previamente no existía. Lo previsible es que en los siguientes
años asistamos a una coexistencia de ambas disciplinas: basada en la
evidencia para generar conocimiento y generadora de evidencia para matizarlo
y generalizarlo. Ello puede ayudar a reducir la variabilidad de la práctica clínica
no deseada, uno de los peores enemigos del sistema sanitario y, por supuesto,
de nuestros pacientes. Es ahí donde los profesionales sanitarios podemos
sacar ventaja del Big Data, dotándonos de una nueva arma para hacer frente a
la falta de conocimiento empírico, mediante una herramienta que permite
agrupar el conocimiento colectivo (experiencia masiva), haciendo valer a las
mindlines (recomendaciones basadas en la experiencia masiva) frente a las
guidelines11.
A parte de las posibles aplicaciones ya comentadas, hay innumerables
ejemplos de cómo el Big Data se puede aprovechar para transformar los
sistemas de la prestación de atención a la salud, incluyendo la reducción de
errores, identificación de poblaciones de alto riesgo (tales como los pacientes
crónicos), el apoyo a la medicina basada en evidencia, la mejora de la
organización procesos, etc., en definitiva, para servir de fuente de innovación y
conocimiento de alto valor. Sería recomendable el estudio académico formal
del análisis del Big Data para poder ampliar y validar la aplicación práctica del
mismo, tanto en el ámbito de la asistencia hospitalaria y, desde luego, puertas
afuera de su estructura (atención primaria, centros sociosanitarios, etc.). Dicho
estudio debería centrarse en los criterios más significativos y objetivos que
podamos disponer, tales como la eficacia, efectividad clínica y social, eficiencia,
utilidad, para adoptar el análisis del Big Data en la práctica real como una
herramienta más en la toma de decisiones.
5. Problemas potenciales y sesgos.
Existen varios factores que deben ser tenidos en cuenta a la hora de
utilizar el análisis del Big Data en el ámbito sanitario12. En primer lugar, los
16
nuevos componentes y relaciones entre los datos han de trabajar de forma
sistemática y deben garantizar altas cotas de calidad, sólo así obtendremos
resultados e informaciones útiles y valiosas para la comprensión de los
diferentes contextos de los estados de salud y pronosticar el futuro de la
asistencia sanitaria. En segundo lugar, tenemos que manejar la información
que genere el Big Data con cierto grado de prudencia, incluso después de las
diferentes consideraciones estratégicas que se puedan plantear, ya que a
pesar de que tenga mucho potencial para mejorar nuestra comprensión de los
fenómenos asistenciales y fortalecer nuestra capacidad de predecir con cierto
grado de exactitud el futuro, siempre se han de barajar otros aspectos
coyunturales, ético-morales, protección de datos, etc. Por lo tanto, no tenemos
que pensar en los resultados del análisis del Big Data como única fuente de
información, por muy poderosa que fuera, ni tampoco se debe incurrir en ideas
preconcebidas ni tendenciosas. En tercer lugar, se habrá de garantizar la
seguridad y la protección de los datos, que en el caso del sector sanitario son
de especial sensibilidad (datos de carácter personal relacionados con la salud,
información clínica, datos genéticos, etc.) y que según la legislación vigente
siempre habrán de ser preservados. La regulación europea prevé la protección
de los datos personales, entre los que se encuentran los de la salud de la
ciudadanía13. Sin embargo, existen países donde la normativa puede ser más
laxa o inexistente, y donde obtener estos datos puede ser más fácil.
Por otro lado, si bien cada vez es mayor el número de pacientes con una
buena competencia digital, con los que resulta fácil y cómodo emplear
tecnologías de la información, no debe olvidarse que aún son minoría, y que la
mayor parte de nuestros pacientes presentan un problema al respecto, lo que
se conoce como brecha digital. Es innegable que gran parte de los pacientes
que entran en contacto con los sistemas sanitarios tienen serias dificultades
para usar este tipo de funcionalidades por un sencillo problema de
alfabetización (convencional o digital). Resulta imprescindible que la sociedad
se esfuerce en mejorar la alfabetización de los ciudadanos con menor
formación, ya que desde la perspectiva del máximo aprovechamiento del Big
Data en salud, solo se alcanzará el éxito en este campo teniendo en cuenta el
carácter antropológico de la delicada relación profesional sanitario-paciente y la
17
inclinación al ritual al que los seres humanos tendemos a someternos cuando
estamos enfermos14.
Los datos útiles para la investigación en salud pública y en
epidemiología proceden habitualmente de fuentes diseñadas “ad hoc” para la
investigación o bien de fuentes secundarias, como las historias clínicas,
pruebas de laboratorio, censo de población, registros de enfermedades, etc. Lo
que distinguiría al entorno Big Data es, por un lado, la incorporación de otras
fuentes de información, como las derivados de los servicios prestados por las
App de e-salud, wereables, las redes sociales o las plataformas cloud (nube),
entre otras, y la posibilidad de realizar la consulta a múltiples fuentes de datos
on-line15. Hay que señalar que los datos que se obtienen de estas plataformas
son muestras de conveniencia y pueden tener un número importante de sesgos
de selección y de información, de los cuales no nos protege el tamaño muestral
de los datos. Un ejemplo de sesgo de información podría ser el uso de los
Twitterbots, programas usados para producir mensajes automatizados que
permiten, mediante el acceso a potenciales clientes, mejorar el posicionamiento
de una empresa. Al contrario, puede surgir un sinnúmero de asociaciones,
algunas de ellas debidas al azar y a la existencia de sesgos como el de
confusión. También, las empresas de estas plataformas mejoran los servicios a
los usuarios constantemente, lo cual podría afectar a la comparabilidad de los
datos a lo largo del tiempo. Así mismo, tampoco es fácil obtener datos y
replicar los resultados de los estudios para poder determinar su robustez.
La tecnología permite y permitirá analizar un ingente volumen de datos y
establecer innumerables asociaciones mediante modelos complejos. Habrá que
desarrollar nuevas propuestas que traten los niveles de significación estadística
de forma diferente. Todo ello nos lleva a recordar los criterios de causalidad de
Bradford-Hill, en los que la fuerza de asociación estadística es solo una de las
nueve condiciones para establecer la causalidad16.
El Big Data como tecnología absorbe una masiva cantidad de datos
generados por un usuario en todos los formatos posibles (estructurados o no)
junto a una cantidad similar o mayor de los llamados shadow data (accesos,
búsquedas y datos no explícitos de todo tipo que también quedan
almacenados), que son susceptibles de ofrecer una visión de la persona que
supera con mucho el conocimiento que la persona tiene de sí misma.
18
Tendencias, comportamientos, influencias, secuencias, etc., originadas en
nuestro comportamiento en la red y en el creciente flujo de información que
decidimos compartir constituyen un universo de datos sensibles que requieren
un trato cuidadoso y respetuoso. Los datos públicos son datos suministrados
voluntariamente a cambio de una propuesta de valor determinada, mientras
que la mayoría de los otros datos que contiene el Big Data son información
privada que no siempre deseamos que se dé a conocer.
Tampoco puede desecharse la posibilidad de la manipulación por parte
de empresas con ánimo de lucro, o bien desde visiones corporativas que muy
lícitamente para sus intereses pretenden influir mediante los Big Data en las
decisiones sobre la salud de la población, sin obviar que puedan tener una
mayor capacidad de transferencia que las instituciones públicas encargadas de
la salud pública. Un aspecto no desdeñable es poder refutar o aceptar
resultados de estudios basados en los Big Data. No obstante, requerirá que el
estudio esté bien sustentado metodológicamente, sea cual sea el origen de los
datos.
6. Conclusiones.
Pacientes, gestores, proveedores de servicios de auxiliares y, como no, los
cuidadores y profesionales sanitarios podrán beneficiarse de la eficiencia y
ventajas que trae obtener insights de los datos. Aquí es donde varios expertos
de la materia hablan de la futura Medicina 5P, el cruce entre la sanidad y Big
Data17:
Personalizada: el eterno sueño de la medicina. Poder dar un tratamiento
singular al diagnóstico y necesidades concretas de cada uno de los
pacientes. Con el Big Data, la cantidad ingente de datos, y el contexto
que describe a cada uno de los pacientes, esto es posible. Solo es
cuestión de “codificar” en datos lo que hasta ahora no hemos hecho, en
cuestión de aspectos clínicos como estado de ánimo, emociones,
expresión del dolor, etc.
Predictiva: se trataría de pasar de un modelo reactivo de sanidad a otro
modelo activo y predictivo mucho más eficiente en el que el sistema
sanitario y sus cuidadores, advierte directamente al paciente de
19
situaciones potencialmente peligrosas. La estadística al servicio de
nuestra salud.
Preventiva: se trataría de prevenir la aparición de enfermedades, basada
en un conjunto de actuaciones médicas y el análisis de patrones y datos
históricos. Ya sabemos esa máxima de “Es mejor prevenir que
lamentar”, que en medicina cobra más sentido que en cualquier otra
área de la vida.
Participativa: la importancia que todos los agentes de los que hemos
hablado anteriormente estén bien coordinados. El trabajo con pacientes
no solamente tiene impacto en los aspectos terapéuticos, sino también
en la gestión y los procesos, de manera que no escape detalle alguno
(esto en España, donde tenemos una fragmentación de la organización
del Sistema Sanitario importante, con 17 sistemas, vendría realmente
bien).
Poblacional: para toda la población. La posibilidad de hacer más
eficiente el sistema podría traer que con los mismos recursos,
pudiéramos atender a un mayor volumen de población. En definitiva, no
dejar a nadie sin atención.
Las principales tendencias que transformarán las actividades en los
hospitales y demás instituciones de salud, refieren a los responsables de la
necesidad de situar las inversiones en TIC entre sus prioridades para apoyar el
proceso de integración tecnológica. En general, las consultoras de análisis
constatan que el Big Data jugará un papel crucial en la organización interna del
sistema sanitario. Los costes no pararán de crecer, lo que influirá directamente
en la calidad de las operaciones los hospitales18. Para finales del año 2016, se
estima que la solución a la ineficiencia operativa obligará a las organizaciones
de salud a invertir una parte de sus presupuestos en una estrategia digital
basada en los datos.
Entre los principales costes, los relacionados con la gestión de los pacientes
con enfermedades crónicas crearán una mayor demanda de sistemas
inteligentes de macrodatos y capacidad analítica para apoyar las iniciativas de
gestión de la salud de la población. En consecuencia, el 70% de las
20
instituciones sanitarias globales invertirán en aplicaciones móviles, wearable o
sistemas de monitorización remota de la salud19.
Por otro lado, los datos acumulados por las organizaciones sanitarias no
solo ayudarán a mejorar la calidad de los servicios, sino también gestionar de
forma más eficiente los costes derivados de los tratamientos de los pacientes.
De aquí a dos años, se estima que el 15% de los hospitales dispondrán de
perfiles detallados de sus pacientes que le permitirán entregar planes de
tratamiento personalizados20.
21
Bibliografía
1 Elenko E, Underwood L, Zohar D. Defining digital medicine.Nature Biotechnol.
2015;33:456-61.
2 Y. Genovese and S. Prentice, “Pattern-based strategy: getting value from big
data,” Gartner Special Report G00214032, 2011.
3 The Big Data Research and Development Initiative, http://
www.whitehouse.gov/sites/default/files/microsites/ostp/bigdata press release
final 2.pdf.
4 Merelli I, Pérez-Sánchez H, Gesing S, D'Agostino D. Managing, analysing,
and integrating big data in medical bioinformatics: open problems and future
perspectives. Biomed Res Int. 2014;2014:134023.
5 Big data: The next frontier for innovation, competition, and productivity
(consultado 12/02/15).
http://www.mckinsey.com/insights/business_technology/big_data_the_next_fron
tier_for_innovation).
6 Duran-Frigola M, Rossell D, Aloy P. A chemo-centric view of human health and disease. Nat Commun. 2014 Dec 1;5:5676.
7 "Big Data y su fuerza para Business Intelligence" (2013, octubre). Stefanini.
[Fecha de consulta: 12 de septiembre de 2016]
https://stefanini.com/es/2013/10/big-data-y-su-fuerza-para-business-
intelligence/
8 Grossglauser M, Saner H. Data-driven healthcare: from patterns to actions.
Eur J Prev Cardiol. 2014 Nov;21(2 Suppl):14-7.
22
9 IBM. Reducing readmissions to improve care [Internet]. Armonk (NY): IBM;
c2014 [cited at 2014 Oct 20]. Available from: http://www-
01.ibm.com/software/sg/industry/healthcare/pdf/setonCaseStudy.pdf.
10 European Commission. Medical intelligence in Europe [Internet]. Brussels:
European Commission; c2014 [cited at 2014 Oct 20]. Available from:
http://ec.europa.eu/health/preparedness_response/generic_preparedness/plann
ing/medical_intelligence_en.htm
11 Gabbay J. Evidence based guidelines or collectively constructed«mindlines?». Ethnographic study of knowledge management inprimary care. BMJ. 2004;329:1013-20.
12 Song TM. Efficient utilization of big data on healthcare and welfare area.
Healthc Welf Forum 2012;193:68-76.
13 European Comission. Why do we need an EU data protection reform?
[Internet]. 2011. p. 10-1. (Consultado el 10/05/2015.) Disponible en:
http://ec.europa.eu/ justice/data-protection/document/review2012/factsheets/1
en.pdf
14 Abad-Alcalá L. Media literacy for older people facing the digitaldivide: The e-
inclusion programmes design. Comunicar: MediaEducation Research Journal.
2014;21:173-80.
15 Standen A. How big data is changing medicine listen: KQED Science
[Internet]. 2014. (Consultado el 10/05/2015) Disponible en:
http://ww2.kqed.org/science/2014/09/29/how-big-data-is-changing-medicine/
16 Hill A-B. President’s address the environment and disease. Proc R Soc Med.
1965;58:295–300.
17 Feldman, Bonnie; Martin, Ellen M.; Skotnes, Toby (2012, Octubre). Big Data
Healthcare Hype and Hope. Disponible en pdf: < http://www.west-
info.eu/files/big-data-in-healthcare.pdf>.
23
18 Parra Calderón C. Big data en sanidad en España: la oportunidad de una
estrategia nacional. Gaceta sanitaria: Órgano oficial de la Sociedad Española
de Salud Pública y Administración Sanitaria,Vol. 30, Nº. 1, 2016, págs. 63-65.
19 Informe IDC 2016 (Consultado el 16/09/2016) Disponible en pdf:
https://www.idc.com/getdoc.jsp?containerId=US41100816
20 Criado MA. Cómo reducir las visitas al médico con un algoritmo matemático.
La reutilización de los datos clínicos personales es clave tanto para la
planificación sanitaria como la investigación médica, El País 17 de Marzo de
2016.