Med Clin (Barc). 2013;140(8):366–373
Artıculo especial
La formulacion de recomendaciones en salud: el sistema GRADE
Formulating health care recommendations: The GRADE system
Pablo Alonso-Coello a,b,*, David Rigau a,b, Ivan Sola a,b y Laura Martınez Garcıa a,b
a Centro Cochrane Iberoamericano, Instituto de Investigacion Biomedica (IIB-Sant Pau), Barcelona, Espanab CIBER de Epidemiologıa Clınica y Salud Publica (CIBERESP), Barcelona, Espana
I N F O R M A C I O N D E L A R T I C U L O
Historia del artıculo:
Recibido el 14 de junio de 2012
Aceptado el 18 de octubre de 2012
On-line el 13 de diciembre de 2012
www .e lsev ier .es /m ed i c in ac l in ic a
Introduccion
La elaboracion de guıas de practica clınica (GPC) ha experi-mentado una enorme transformacion durante las ultimas dosdecadas1. Entre las novedades metodologicas en los que se hapercibido de manera mas importante este cambio estan labusqueda sistematica de la literatura medica, la declaracion ygestion de los conflictos de interes, ası como la formulacion de lasrecomendaciones2–4. Respecto a este ultimo aspecto, se hanutilizado multiples sistemas para la evaluacion de la calidad dela evidencia y graduacion de la fuerza de las recomendaciones5,6.Esta diversidad de sistemas, ligados en mayor o menor medida alimitaciones intrınsecas de todos ellos6, ha dificultado la optimacomprension de las GPC por parte de los usuarios.
Recientemente, un grupo internacional de elaboradores de GPC,epidemiologos y clınicos pertenecientes a las principales institu-ciones que desarrollan GPC, ha elaborado una nueva propuesta quetiene como objetivo consensuar un sistema comun que supere laslimitaciones presentes en los sistemas previos4. Este grupo deprofesionales constituye el grupo de trabajo GRADE (Grading of
Recommendations Assessment, Development and Evaluation).
El sistema GRADE ya ha sido adoptado por numerosasinstituciones tan importantes como la OMS, la ColaboracionCochrane, el National Institute of Clinical Excellence, el Scottish
Intercollegiate Guidelines Network o publicaciones como Clinical
Evidence o UpToDate, entre otras7. En nuestro entorno, el ProgramaNacional de Elaboracion de Guıas de Practica Clınica del SistemaNacional de Salud (www.guiasalud.es/web/guest/gpc-sns), entreotros8, ha incluido al sistema GRADE dentro de su manualmetodologico para la elaboracion de guıas1.
* Autor para correspondencia.
Correo electronico: [email protected] (P. Alonso-Coello).
0025-7753/$ – see front matter � 2012 Elsevier Espana, S.L. Todos los derechos reserv
http://dx.doi.org/10.1016/j.medcli.2012.10.012
Las principales ventajas de GRADE respecto a otros sistemasson:
- La separacion explıcita entre la clasificacion de la calidad de laevidencia y la graduacion de fuerza de la recomendacion.
- Disponer de criterios explıcitos para aumentar o disminuir lacalidad de la evidencia independientemente del diseno (ensayoclınico aleatorizado [ECA] o estudio observacional).
- Valoracion de la importancia relativa de los desenlaces de interes.- Consideracion de los valores y preferencias en la formulacion de
recomendaciones.- Proponer un proceso estructurado y explıcito para la graduacion
de la fuerza de las recomendaciones.
El sistema GRADE abarca la mayorıa de las etapas deelaboracion de una GPC (fig. 1), incluyendo desde la formulacionde la pregunta y la identificacion de los desenlaces de interes, hastala formulacion de las recomendaciones. Este artıculo resume lasprincipales caracterısticas del sistema GRADE y esta dirigido a losusuarios de GPC. Para profundizar existen dos series de artıculosdirigidos tanto a usuarios como a elaboradores de GPC4,9. Estos yotros artıculos estan disponibles en la pagina web del grupo detrabajo (www.gradeworkinggroup.org).
Formulacion de preguntas y desenlaces de interes
En esta etapa inicial de la formulacion de recomendaciones elgrupo elaborador de una guıa debe definir los desenlaces deresultado de interes para las preguntas que abordara, y calificar laimportancia relativa de las mismas10. Los desenlaces disponibleshabitualmente tienen una importancia muy diferente a la hora detomar decisiones y, por otra parte, a menudo los pacientes ycuidadores pueden valorar su importancia de manera diferente alos profesionales sanitarios.
ados.
Redacción de la GPC
Revisión externa GPC
Graduación de la fuerza de las recomendaciones
Evaluación de la calidad de la evidencia
Búsqueda de la literatura
Formulación de prequntas y graduación de la importancia de losdesenlaces
Delimitación del alcance y de los objetivos
Figura 1. Etapas de elaboracion de una guıa de practica clınica (GPC).
P. Alonso-Coello et al / Med Clin (Barc). 2013;140(8):366–373 367
GRADE sugiere clasificar la importancia de los desenlaces conuna escala de nueve puntos:
- 1-3: desenlace no importante.- 4-6: desenlace importante, pero no clave para la toma de
decisiones.- 7-9: desenlace clave para la toma de decisiones.
Por ejemplo, en una GPC sobre la prevencion primaria de laenfermedad cardiovascular el grupo elaborador puede seleccionarlos siguientes desenlaces para evaluar el efecto del tratamiento conAspirina1 a largo plazo (fig. 2): 1) probablemente el grupo valoraralos desenlaces de mortalidad, ictus no fatal o el sangradoextracraneal como claves para la toma de decisiones (7-9); 2)mientras que considerara calidad de vida o el sangrado no gravecomo importantes, pero no claves (4-6); 3) finalmente, proba-blemente considerara los valores de lipoproteınas de baja densidaden sangre como no importantes (1-3). Seran los desenlaces clavelos que tengan mayor peso a la hora de evaluar la calidad de laevidencia y graduar la fuerza de las recomendaciones.
Evaluacion de la calidad de la evidencia
El sistema GRADE define la calidad de la evidencia en las GPCcomo el grado de confianza que tenemos en que la estimacion de
Importancia de los desenlaces
Sangrado graveextracraneal
Clavepara la toma dedecisiones
Importante,pero no clave
No importante
Sangradono grave
Calidad de vida
Ictus no fatal
Mortalidad
LDL
8
7
6
5
4
3
1
2
9
Figura 2. Jerarquıa de los desenlaces en la evaluacion de la Aspirina1 en la
prevencion primaria de episodios cardiovasculares. LDL: lipoproteınas de baja
densidad.
un efecto es adecuada para apoyar una recomendacion11. Paracada uno de los desenlaces considerados como clave se realiza unaevaluacion de la calidad de toda la evidencia disponible(idealmente tras una revision sistematica), de forma que sepuede disponer de una clasificacion de la calidad diferentepara una misma comparacion de interes. Por ejemplo, paraun desenlace (como la supervivencia global en un paciente concancer) se puede disponer de un conjunto de estudios sinlimitaciones en el diseno y ejecucion (por tanto, con un bajoriesgo de sesgo), y para otro desenlace (por ejemplo, la medida dela calidad de vida en estos mismos pacientes) disponer de menosestudios, algunos con limitaciones importantes de diseno yejecucion. Nuestra confianza sera, por tanto, diferente para estosdos desenlaces (menor confianza sobre la medida de la calidadde vida).
Por otro lado, la evaluacion de la calidad de la evidencia segunGRADE implica un proceso que amplıa la habitual evaluacion delriesgo de sesgo a otros factores como, por ejemplo, la consistenciade los resultados o la precision de los mismos. GRADE propone laclasificacion de la calidad en cuatro categorıas12:
- Calidad alta: confianza alta en que la estimacion del efectodisponible en la literatura cientıfica se encuentra muy cercano alefecto real.
- Calidad moderada: es probable que la estimacion del efecto seencuentre cercano al efecto real, aunque podrıan existirdiferencias sustanciales.
- Calidad baja: la estimacion del efecto puede ser sustancialmentediferente al efecto real.
- Calidad muy baja: es muy probable que la estimacion del efectosea sustancialmente diferente al efecto real11.
Factores que pueden disminuir la calidad de la evidencia
Tanto para los ECA (que inicialmente se considera queconllevan una calidad alta para evaluar el efecto de diferentesintervenciones) como para los estudios observacionales (queinicialmente se considera que conllevan una calidad baja) existendiferentes factores que pueden disminuir la calidad en laestimacion del efecto observado para los distintos desenlacesconsiderados (tabla 1). La suma de limitaciones detectadas paraestos factores determinara que la calidad baje un nivel (porejemplo, de alta a moderada) o varios niveles (por ejemplo, de altaa baja). Al contrario de otros sistemas, GRADE no considera laopinion de expertos un tipo de evidencia, y reconoce quela opinion de estos influye en la evaluacion de los diferentestipos de evidencia disponibles.
Limitaciones en el diseno o la ejecucion
Los ECA y los estudios observacionales pueden presentarlimitaciones particulares para cada tipo de diseno y estaspueden, por tanto, reducir la confianza en sus resultados. Estadimension evalua el riesgo de sesgo clasico de otros sistemas. Enlos ECA se consideran los siguientes factores potencialmentelimitantes: la ausencia de ocultamiento de la secuencia dealeatorizacion, un enmascaramiento inadecuado, unas perdidasde seguimiento importantes y la ausencia de analisis porintencion de tratar, la inclusion selectiva de los desenlaces deinteres, ademas de otros factores menos frecuentes como lafinalizacion prematura de un estudio por razones de beneficio, eluso de medidas no validadas, el efecto arrastre (carryover) en losensayos cruzados o la presencia de sesgo de reclutamiento enensayos aleatorizados por grupos (clusters)13. En los estudiosobservacionales se consideran: la presencia de unos criterios deseleccion de la poblacion inapropiados, las mediciones inapro-piadas para la exposicion o el desenlace de interes, el control
Tabla 1Resumen de la propuesta GRADE para la evaluacion de la calidad de la evidencia segun el tipo de diseno de los estudios
Diseno de estudio Calidad de la
evidencia inicial
En ensayos clınicos
disminuir si
En estudios observacionales
aumentar si
Calidad del conjunto
de la evidencia
Ensayos clınicos aleatorizados Alta Limitaciones en eldiseno o la ejecucion
Fuerza de asociacion Alta
– Fuerte
– Muy fuerte– Importantes
– Muy importantes
Inconsistencia Gradiente dosis-respuesta Moderada
– Importante – Presente
– Muy importante
Incertidumbre en que laevidencia sea directa
Consideracion de los posiblesfactores de confusion que
Baja
– Importante – Habrıan reducido el efecto
– Muy importante
– Sugerirıan un efecto espurio
si no hay efecto
Estudios observacionales Baja Imprecision Muy baja
– Importante
– Muy importante
Adaptada de: Balshem et al.11.
GRADE: Grading of Recommendations Assessment, Development and Evaluation.
P. Alonso-Coello et al / Med Clin (Barc). 2013;140(8):366–373368
inadecuado de los factores de confusion o el seguimientoincompleto13.
Resultados inconsistentes
Nuestra confianza en la estimacion de un efecto es menor si losresultados disponibles son inconsistentes. Por tanto, se deberıaconsiderar disminuir la calidad de la evidencia si existendiferencias entre los resultados de los distintos estudios (resul-tados heterogeneos) y estas diferencias persisten tras haberexplorado las razones que podrıan explicarlas (por ejemplo,diferencias en la poblacion, la intervencion, los desenlaces deresultado o el riesgo de sesgo). En estas circunstancias puedenexistir diferencias reales entre las estimaciones del efecto y, portanto, nuestra confianza disminuirıa14.
En la fig. 3 se muestra el metaanalisis de una revisionsistematica que evaluo la Aspirina1 en la prevencion primaria dedesenlaces vasculares en personas con diabetes. Como se puedeapreciar en la figura, los estimadores de efecto para los infartosde miocardio son muy variables entre los diferentes estudios ysus intervalos de confianza se solapan muy poco; ademas, laprueba de heterogeneidad es significativa y el estadıstico I2
presenta un valor elevado15. Por tanto, esta situacion puedegenerar una menor confianza en los resultados y, por tanto, unamenor calidad.
Estud io
JPA DPOPA DADWHSPPPETDRSPHS
Total (IC 95%)
Eventos totalesHeterogeneidad: Tau2 = 0.07; Chi2 = 13.11, df = 5 (P = 0.02); I2 = 62%Prueba para el efecto global: Z = 0.83 (P = 0.41)
129036
5241
11
395
1262638514519
1856275
5064
Eventos
14822410
28326
439
Total
1277638513512
1855258
5053
Pes o
10.0%25.5%16.6%
6.0%30.3%11.6%
100.0%
AspirinaEventos To tal
Placebo o control
Figura 3. Eficacia de la Aspirina1 para la prevencion de los episodios cardiovasculares
confianza al 95%.
Ausencia de evidencia directa
En relacion con este aspecto, GRADE distingue entre laausencia de comparaciones directas entre las intervencionesevaluadas y las potenciales diferencias en la poblacion, lasintervenciones o los desenlaces de la pregunta de interes y laevidencia disponible16.
Un ejemplo de comparacion indirecta entre intervenciones loproporciona una revision sistematica que evaluo la eficacia de laAspirina1 a dosis bajas (50 a 150 mg/dıa) o a dosis medias (300 a325 mg/dıa) tras la cirugıa de bypass coronario. Aunque en losestudios no se han comparado nunca las dosis bajas y mediasdirectamente (solo se dispone de cada una frente a placebo), larevision sistematica proporciona mediante un analisis indirectouna reduccion del 26% en el riesgo de reoclusion, favorable a lasdosis medias17. No obstante, nuestra confianza respecto a esteresultado es menor que si se dispusiera de una comparacion directaentre dichas dosis.
Un ejemplo de comparacion indirecta entre poblaciones es elcaso de los antihistamınicos en pacientes con asma y rinitisalergica. Una GPC sobre este tema puso de manifiesto que los ECAincluyeron hasta un 60% de pacientes sin asma al inicio del ensayo.La misma GPC evaluo la eficacia de los descongestionantes nasalescomo tratamiento de rescate en pacientes con rinitis alergica. Losestudios incluidos analizaron la eficacia del uso regular (no
0.87 [ 0.40, 1.87 ]1.10 [ 0.83, 1.45 ]1.50 [ 0.91, 2.47 ]0.49 [ 0.17, 1.43 ]0.85 [ 0.73, 1.00 ]0.40 [0.20, 0.79 ]
0.89 [0.66, 1.18 ]
Riesgo Relativo Riesgo relativo, IC 95 %
0.02 0.1 1 10 50Aspiri na Placebo o contr ol
en pacientes con diabetes (desenlace: infarto de miocardio). IC 95%: intervalo de
P. Alonso-Coello et al / Med Clin (Barc). 2013;140(8):366–373 369
ocasional) de estos tratamientos. En ambos casos se explicito unamenor confianza en los resultados, en el primero por las diferencias(entre la pregunta y la evidencia disponible) en la poblacion y en elsegundo por el tipo de intervencion (tratamiento continuo frente atratamiento de rescate)18.
Un ejemplo de comparacion indirecta entre desenlaces loencontramos en el campo de las intervenciones para el control dela diabetes tipo 2. Actualmente, farmacos como la sitagliptina o losinhibidores de la alfa-glucosidasa disponen de resultados sobredesenlaces como control glucemico o hemoglobina glucosilada,pero no sobre las complicaciones macrovasculares o microvascu-lares (mas importantes para los pacientes). La calidad, caso de nodisponer de resultados de estos desenlaces mas importantes serıa,por tanto, menor19.
Imprecision
Para evaluar la imprecision para la estimacion del efecto de unaintervencion para un desenlace se debe considerar su intervalo deconfianza, preferiblemente en terminos absolutos. Si una decisionclınica o recomendacion pudieran ser diferentes dependiendo de sise tiene en cuenta un extremo u otro del intervalo de confianza comoel efecto «real» de una intervencion, la confianza (y, por tanto, lacalidad) en la estimacion del efecto deberıa disminuir. Asimismo,incluso con un intervalo de confianza preciso segun estos criterios, siel numero de sucesos o el numero de sujetos evaluados en losdiferentes estudios son escasos, se debe considerar la necesidad dedisminuir la calidad12.
Por ejemplo, si una intervencion para la prevencion deepisodios vasculares (ictus isquemicos) reduce el riesgo en un5% (intervalo de confianza del 95% [IC 95%] del 9 al 1%) enterminos absolutos, podrıamos aceptar cualquier escenario(reduccion de ictus desde un 9 a un 1%) y realizar unarecomendacion fuerte si la intervencion careciera de efectosindeseables destacados y el coste fuera razonable. La estimacion ysu intervalo serıan, por tanto, precisos. Por el contrario, si laintervencion se asociara a un incremento absoluto de lashemorragias graves extracraneales del 4%, no realizarıamos lamisma recomendacion si aceptamos como «real» una reduccionde los ictus del 1% (los riesgos podrıan no compensar losbeneficios) que si la reduccion «real» es del 9% (los beneficiossuperan los riesgos). En este caso, el estimador serıa, por tanto,impreciso. La valoracion de la precision requiere, por consi-guiente, de informacion sobre el beneficio absoluto de unaintervencion, del intervalo de confianza y de informacion sobrelos posibles riesgos e inconvenientes.
Sesgo de publicacion
La calidad de la evidencia puede disminuir si se tiene la dudarazonable de que no se han valorado todos los estudiosrealizados, debido fundamentalmente a que los negativos tienenmenos probabilidades de ser publicados20. Asimismo, se debesospechar de este potencial sesgo si la mayorıa de los ensayosson de pequeno tamano, positivos y financiados por laindustria21. La realizacion de pruebas estadısticas (por ejemplo,test de Egger) o la valoracion visual de los graficos de embudo(funnel plots) pueden orientar a la existencia de este tipo sesgo depublicacion.
Factores que pueden aumentar la calidad
Las situaciones que pueden llevar a incrementar la confianza enlos resultados de los estudios son poco frecuentes y aplicanfundamentalmente a los estudios observacionales. Estos factoresse deberıan considerar solo despues de constatar que no seencuentra presente ninguna condicion para disminuir la calidad dela evidencia debido a limitaciones en el diseno o ejecucion22.
Fuerza de la asociacion
Cuando el efecto observado de una intervencion muestra unaasociacion fuerte (riesgo relativo u odds ratio (OR) > 2 o < 0,5) o muyfuerte (riesgo relativo u OR > 5 o < 0,2), en estudios sin limitacionesmetodologicas, aumenta nuestra confianza en el efecto descrito, seaprotector o perjudicial22. Por ejemplo, estudios observacionalesmuestran de manera consistente que situar al bebe boca abajo paradormir aumenta 4 veces el riesgo de muerte subita respecto a laposicion de boca arriba (OR 4,1; IC 95% de 3,1 a 5,5)23. En estascircunstancias nuestra confianza en los resultados aumenta.
Presencia de un gradiente dosis-respuesta
La existencia de un gradiente dosis-respuesta es un factorreconocido para establecer con mayor certidumbre una relacioncausa-efecto y es una razon para considerar aumentar la calidad de laevidencia. Por ejemplo, una revision sistematica mostro ungradiente entre el consumo de alcohol en mujeres embarazadas yel riesgo de parto pretermino. Los resultados no muestran unaasociacion significativa para el consumo de una unidad al dıa, pero elriesgo es un 23% superior para consumos de 3 unidades al dıa o decasi el doble para 7 unidades al dıa de consumo de alcohol24. Estegradiente puede, por tanto, aumentar nuestra confianza en losresultados.
Consideracion de los potenciales factores de confusion
En ocasiones pueden existir situaciones en las que se observaun efecto asociado a una intervencion y para la cual, despues deanalizar los potenciales factores que podrıan reducir el efectoobservado, se considera que estos factores, de existir, reforzarıanlas conclusiones obtenidas22. Por ejemplo, una revision siste-matica de estudios observacionales mostro una tasa demortalidad superior en hospitales de gestion privada con animode lucro en comparacion con hospitales de gestion privada sinanimo de lucro, a pesar de que estos ultimos atendieronpacientes mas graves25.
Determinacion global de la confianza en los resultados
En GRADE, tras evaluar la calidad de la evidencia para cada unode los desenlaces clave para responder una pregunta clınica, seclasifica la calidad global de toda la evidencia disponible. Esta es lamenor entre los desenlaces que se han considerado clave para latoma de decisiones26.
Resumen de la evidencia
El sistema GRADE permite resumir la evidencia en una tabla(«tabla de resumen de los hallazgos», summary of findings [SoF] eningles) que refleja de manera estructurada el numero de estudiosdisponibles para cada desenlace de interes, el analisis de la calidadde la evidencia y los estimadores del efecto observados, enterminos relativos y absolutos. Estas tablas ofrecen un resumenglobal de la literatura cientıfica disponible para responder a unapregunta clınica y se generan con un programa informatico dedistribucion libre (GRADEPro)27.
Por ejemplo, en una guıa sobre la prevencion primaria de laenfermedad cardiovascular28 se resumio la evidencia para formularuna recomendacion sobre el uso de la Aspirina1 (tabla 2). En estecaso se disminuyo la calidad de la evidencia en dos de los desenlacesde interes (mortalidad e ictus no fatal) por la imprecision observadaen los resultados de dos revisiones sistematicas29,30. El impacto deltratamiento sobre la mortalidad podrıa ser nulo, pero podrıa llegar aevitar seis muertes de cada 1.000 pacientes tratados. Estosresultados sugieren tanto la posibilidad de un beneficio importantede la Aspirina1 en la reduccion del riesgo de estos dos desenlaces,como la ausencia de este beneficio.
Tabla 2Tabla de resumen de los hallazgos: Aspirina1, comparada con no tratamiento, en la prevencion primaria de la enfermedad cardiovascular
Desenlace de interes Participantes (estudios),
seguimiento
Calidad de la
evidencia
Efecto relativo
(IC 95%)
Efecto absoluto esperado a los 10 anos
Riesgo sin Aspirina1 Riesgo con Aspirina1
Mortalidad 100.076 (9), entre 4 y 10 anos Moderada
(por imprecision)a
0,94 (0,88 a 1,00) 100 muertes de cada 1.000 6 muertes menos por cada
1.000 pacientes tratados
(entre 12 y 0 menos)
Infarto de miocardio
no fatal
95.000 (6), entre 4 y 10 anos Alta 0,77 (0,69 a 0,86) 27 infartos de cada 1.000
(pacientes con riesgo bajob)
6 infartos menos por cada
1.000 pacientes tratados
(entre 8 y 4 menos)
83 infartos de cada 1.000
(pacientes con riesgo moderadob)
19 infartos menos de cada
1.000 pacientes tratados
(entre 26 y 12 menos)
136 infartos de cada 1.000
(pacientes con riesgo altob)
31 infartos menos de cada
1.000 pacientes tratados
(entre 42 y 19 menos)
Ictus 95.000 (6), entre 4 y 10 anos Moderada
(por imprecision)a
0,95 (0,85 a 1,06) 23 ictus de cada 1.000 Sin diferencias significativas
Sangrado grave 95.000 (6), entre 4 y 10 anos Alta 1,54 (1,30 a 1,82) 8 sangrados de cada 1.000
(pacientes con riesgo bajob)
4 sangrados mas de cada
1.000 pacientes tratados
(entre 2 y 7 mas)
24 sangrados de cada 1.000
(pacientes con riesgo moderadob)
16 sangrados mas de cada
1.000 pacientes tratados
(entre 7 y 20 mas)
40 sangrados de cada 1.000
(pacientes con riesgo altob)
22 sangrados mas de cada
1.000 pacientes tratados
(entre 12 y 33 mas)
Fuente: Vandvik et al.28.
IC 95%: intervalo de confianza del 95%.a El intervalo de confianza del 95% incluye tanto la posibilidad de un beneficio importante como de una ausencia de este con el tratamiento con Aspirina1.b Framingham score a los 10 anos de tratamiento (bajo: 5%; moderado: 15%; alto: 25%).
P. Alonso-Coello et al / Med Clin (Barc). 2013;140(8):366–373370
De la evidencia a la formulacion de las recomendaciones
Fuerza y direccion de la recomendacion
La fuerza de una recomendacion refleja el grado en quepodemos confiar que los desenlaces deseados de una intervencion(por ejemplo, sus beneficios) sean superiores a los desenlacesindeseados (por ejemplo, efectos adversos o inconvenientes deadministracion de un tratamiento)31. El sistema GRADE divide lasrecomendaciones en dos categorıas, segun la direccion de suenunciado:
- Recomendacion a favor: los efectos deseados de una intervencionfrente a otra intervencion superan los efectos indeseados.
- Recomendacion en contra: los efectos indeseados de unaintervencion frente a otra intervencion superan los efectosdeseados.
Y en dos categorıas segun su fuerza:
- Recomendacion fuerte: disponemos de una confianza altarespecto a un balance favorable de los efectos deseables frentea los indeseados de una intervencion frente a otra.
Tabla 3Implicaciones de la fuerza de las recomendaciones
Recomendacion fuerte
Para los pacientes La mayorıa de las personas estarıan de acuerdo
intervencion recomendada y unicamente una p
parte no lo estarıan
Para los profesionales sanitarios La mayorıa de los pacientes deberıan recibir la
intervencion recomendada
Para los gestores La recomendacion puede ser adoptada como po
sanitaria en la mayorıa de las situaciones
Adaptada de: Guyatt et al.4.
- Recomendacion debil: existen dudas sobre el balance entre losefectos deseables y los indeseados de una intervencion frente aotra.
Las recomendaciones fuertes y debiles tienen implicacionesdiferentes para los pacientes, los profesionales sanitarios y losgestores (tabla 3)31.
Factores determinantes de la fuerza de las recomendaciones
El sistema GRADE propone cuatro factores que influyen en lafuerza de las recomendaciones: el balance entre los beneficios yriesgos, la calidad de la evidencia disponible, los valores ypreferencias de los pacientes y los costes y recursos asociadoscon las intervenciones. En la tabla 4 se muestran diferentesejemplos de recomendaciones y el papel de estos factores en suformulacion.
Balance entre beneficios y riesgos
Al elaborar una recomendacion es necesario considerar elbalance entre la mejor estimacion del efecto para los desenlacesdeseados y para los desenlaces indeseados. Cuando la diferenciaentre los desenlaces deseados e indeseados de la intervencion es
Recomendacion debil
con la
equena
La mayorıa de las personas estarıan de acuerdo con la accion
recomendada, pero un numero importante de ellas no
Se reconoce que diferentes opciones son apropiadas para diferentes
pacientes y que el medico tiene que ayudar a cada paciente a
llegar a la decision mas consistente con sus valores y preferencias
lıtica Existe necesidad de un debate importante con la participacion de
los grupos de interes
Tabla 4Papel de los diferentes factores implicados en la fuerza de las recomendaciones
Recomendaciones fuertes Recomendaciones debiles
Balance entre
beneficios y riesgos
Recomendacion: «Se recomienda implantar el Listado
de Verificacion de Seguridad Quirurgica en cualquier
procedimiento quirurgico para mejorar la seguridad
de las intervenciones quirurgicas y disminuir las
complicaciones»32
Comentario: El «Listado de Verificacion de Seguridad
Quirurgica» disminuye las complicaciones y la mortalidad
asociadas a la cirugıa y no presenta inconvenientes
Recomendacion: «En los ninos con alergia a la leche de vaca
mediada por IgE se sugiere la utilizacion de una formula de
leche hidrolizada en lugar de una formula de leche de soja»33
Comentario: la formula de leche de soja presenta reacciones
adversas mas frecuentemente
Calidad de la evidencia Recomendacion: «Los glucocorticoides inhalados son los
farmacos preventivos de eleccion para el asma, tanto en
ninos como en adultos34
Comentario: los ECA sobre los beneficios de los
glucocorticoides inhalados en el asma no presentan
limitaciones importantes
Recomendacion: «Para viajes de larga distancia en pacientes
con un riesgo elevado de trombosis venosa profunda se sugiere
el uso de medias de compresion graduadas (por debajo de la rodilla
y que proporcionen una presion en el tobillo de 15 a 30 mmHg)»35
Comentario: los ECA en los que se basa esta estimacion del
efecto presentan problemas metodologicos importantes
Valores y preferencias Recomendacion: «En mujeres que reciben anticoagulacion
para el tratamiento de un tromboembolismo venoso y
que se quedan embarazadas, se recomienda sustituir el
antagonista de la vitamina K por una heparina no
fraccionada o una heparina de bajo peso molecular»36
Comentario: la gran mayorıa de las mujeres embarazadas
rechazan una intervencion que suponga un pequeno
riesgo de anormalidades fetales importantes
Recomendacion: «En pacientes adultos con rinitis alergica
estacional, se sugiere el uso de glucocorticoides intranasales
sobre los antihistamınicos H1 orales»18
Comentario: existe variabilidad importante respecto a la vıa de
administracion (oral o intranasal) que prefieren los pacientes
Costes Recomendacion: «En pacientes con fibrilacion auricular
que presenten un alto riesgo de ictus (CHADS2 = 2) se
recomienda la anticoagulacion oral frente a no realizar
tratamiento»37
Comentario: la anticoagulacion oral, comparada con el
no tratamiento, es coste-efectiva38
Recomendacion: «En pacientes con fibrilacion auricular en los
que se recomienda la anticoagulacion oral, se sugiere el
tratamiento con dabigatran (150 mg 2 veces al dıa) en lugar
de dosis ajustadas de un antagonista de la vitamina K (rango
INR de 2,0 a 3,0)»37
Comentario: antes de prescribir dabigatran, debido a su alto coste,
se debe considerar su coste-efectividad en comparacion con el
tratamiento con antagonista de la vitamina K39
ECA: ensayo clınico aleatorizado; INR: international normalized ratio («ratio normalizada internacional»).
P. Alonso-Coello et al / Med Clin (Barc). 2013;140(8):366–373 371
muy importante, lo mas apropiado es formular una recomendacionfuerte (a favor o en contra). Cuando el balance es equilibrado lo masapropiado es formular una recomendacion debil.
Calidad de la evidencia
Antes de formular una recomendacion es necesario conocer laconfianza en la estimacion de los efectos observados. Si la calidadde la evidencia es baja, es mas probable formular una recomenda-cion debil, debido a que disminuye la confianza en los resultadosdisponibles en la literatura medica. Si la calidad es alta, es masprobable formular una recomendacion fuerte.
Sin embargo, hay situaciones en que se puede justificar unarecomendacion fuerte aunque la calidad de la evidencia sea baja omuy baja:
- Cuando la calidad de la evidencia es baja y sugiere un beneficiopara una intervencion en una situacion de riesgo vital(recomendacion fuerte a favor).
- Cuando la calidad de la evidencia es baja y sugiere un beneficiopara una intervencion y es alta para un potencial dano o un costemuy elevado de la intervencion (recomendacion fuerte en contra).
- Cuando la calidad de la evidencia es baja y sugiere equivalenciaentre dos intervenciones, pero es alta para un potencial danomenor para una de las alternativas (recomendacion fuerte a favor
de la intervencion con menos efectos adversos).- Cuando la calidad de la evidencia es alta y muestra equivalencia
entre dos intervenciones, pero es baja y sugiere un dano para unade las alternativas (recomendacion fuerte a favor de la intervencion
con menos efectos adversos).
Valores y preferencias
La variabilidad y la confianza en la estimacion de los valores ypreferencias es otro de los factores a tener en cuenta. Diferentespacientes pueden tener distintos puntos de vista acerca de lo queimplica un desenlace deseado o indeseado, y el punto de vista de los
profesionales sanitarios a menudo difiere del de los pacientes. Si laconfianza sobre la estimacion de los valores y preferencias es alta yla variabilidad es escasa es mas probable formular una recomenda-cion fuerte. En caso contrario, es mas probable que sea debil.
Costes y uso de recursos
Los costes, a diferencia de otros desenlaces, son mucho masvariables en el tiempo, en distintas areas geograficas y en funcionde las implicaciones de los recursos. Un coste elevado disminuye laprobabilidad de formular una recomendacion fuerte a favor de unaintervencion, aunque el contexto puede ser crıtico en la valoracionfinal.
Integracion de los factores
En el proceso de formulacion de las recomendaciones esnecesario integrar todos los factores que se han comentado, quedeterminaran la fuerza de las mismas. Este proceso requiere unbalance ponderado y explıcito de estos factores. Por tanto esimportante que este proceso se refleje, por ejemplo, en forma deuna tabla accesible para los usuarios de las GPC.
En la tabla 5 se presenta un ejemplo proveniente de la GPC sobrela prevencion primaria de la enfermedad cardiovascular mencio-nada anteriormente28. En relacion con el balance beneficio-riesgo,la Aspirina1, frente al no tratamiento, reducirıa 6 infartos demiocardio por cada 1.000 pacientes con bajo riesgo cardiovasculartratados durante 10 anos, pero causarıa 4 hemorragias graves decada 1.000 pacientes (balance beneficios y riesgos). La calidad de laevidencia es moderada debido a la imprecision de algunos de losresultados de los desenlaces clave (mortalidad e ictus). Asimismo,existe una importante variabilidad en los valores y preferencias delos pacientes ante las implicaciones de los desenlaces evaluados.Finalmente, la Aspirina1 presenta un coste bajo. La integracion deestos factores condujo a la formulacion de una recomendaciondebil a favor, sugiriendo que los pacientes sin enfermedad
Tabla 5Integracion de los factores determinantes en la fuerza de una recomendacion
Balance entre beneficios y riesgos
El tratamiento con Aspirina1 reduce el riesgo de infarto de miocardio (6 casos
menos por cada 1.000 pacientes tratados durante 10 anos) y, aunque de
manera no significativa, los casos de muerte, sin que se haya observado un
beneficio sobre el riesgo de ictus. Por el contrario, el tratamiento prolongado
aumenta el riesgo de sangrados extracraneales graves (4 casos mas por cada
1.000 pacientes tratados durante 10 anos)
Calidad de la evidencia
La calidad de la evidencia se considera moderada debido a la imprecision
observada en los resultados en la mortalidad, incluyendo resultados que
muestran tanto un potencial beneficio como la ausencia del mismo
Costes y uso de recursos
Aunque el coste de la Aspirina1 es muy escaso, no se dispone de estudios de
costes sobre esta intervencion
Valores y preferencias de los pacientes
En aquellos pacientes que en general se muestran reacios a tomar un
tratamiento durante un perıodo prolongado de tiempo, el limitado
beneficio de la Aspirina1 podrıa hacerles tomar una decision contraria
al tratamiento. En cambio, en pacientes que valoran mas negativamente el
hecho de sufrir un potencial infarto y no perciben de manera tan negativa la
posibilidad de sufrir un sangrado grave, la decision de tomar Aspirina1
puede ser mas clara, principalmente en aquellos pacientes con un riesgo
cardiovascular moderado o alto
Recomendacion
En los pacientes sin enfermedad cardiovascular sintomatica se sugiere el
tratamiento con Aspirina1 (entre 75 y 100 mg al dıa) a partir de los 50 anos
(recomendacion debil a favor)
P. Alonso-Coello et al / Med Clin (Barc). 2013;140(8):366–373372
cardiovascular sintomatica reciban un tratamiento con Aspirina1 apartir de los 50 anos28.
Conclusiones
GRADE es una iniciativa internacional de estandarizacion de lossistemas para formular recomendaciones disponibles, con elobjetivo de superar sus limitaciones y mejorar la comunicacionentre los usuarios y los elaboradores de guıas y revisionessistematicas. GRADE es un sistema exhaustivo, estructurado parala evaluacion de la calidad de la evidencia y la fuerza de lasrecomendaciones. Estas caracterısticas conllevan que sus usuariostengan que realizar multiples juicios de manera explıcita a la horade decidir si adherirse a una recomendacion conllevara masbeneficios que riesgos. El sistema GRADE ya ha sido adoptado pornumerosas instituciones, tanto en el ambito internacional como ennuestro entorno, y se consolida como el lenguaje comun para laformulacion de recomendaciones en el futuro.
Conflicto de intereses
Los autores son miembros del grupo GRADE.
Bibliografıa
1. Grupo de Trabajo sobre GPC. Elaboracion de Guıas de Practica Clınica en elSistema Nacional de Salud. Manual Metodologico. Guıas de Practica Clınica en elSNS: I+CS. N8 2006/0I. Madrid: Plan Nacional para el SNS del MSC. InstitutoAragones de Ciencias de la Salud-I+CS; 2007.
2. Scotish Intercollegiate Guidelines Network. A guideline developer’s handbook.Edinburgh: SIGN; 2001; Publication n8 50 [consultado 12 Jun 2012]. Disponibleen: http://www.sign.ac.uk/guidelines/fulltext/50/index.html
3. National Institute for Health and Clinical Excellence. The guidelines manual.London: National Institute for Health and Clinical Excellence; 2009.
4. Guyatt GH, Oxman AD, Vist G, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al.; forthe GRADE Working Group. Rating quality of evidence and strength of recom-mendations GRADE: an emerging consensus on rating quality of evidence andstrength of recommendations. BMJ. 2008;336:924–6.
5. Systems to rate the strength of scientific evidence. Summary, evidence report/technology assessment: number 47. AHRQ Publication No. 02-E015. Rockville,MD: Agency for Healthcare Research and Quality; 2002.
6. The GRADE Working Group. Systems for grading the quality of evidence and thestrength of recommendations I: critical appraisal of existing approaches. BMCHealth Serv Res. 2004;4:38.
7. Thornton J, Alderson P, Tan T, Turner C, Latchem S, Shaw E, et al. IntroducingGRADE across the NICE clinical guideline program. J Clin Epidemiol. 2012 Mar 8,http://dx.doi.org/10.1016/j.jclinepi.2011.12.007.
8. Marzo-Castillejo M, Alonso-Coello P, Rotaeche del Campo R.
?
Como clasificar lacalidad de la evidencia y la fuerza de las recomendaciones? Aten Primaria.2006;37:5–8.
9. Guyatt GH, Oxman AD, Schunemann HJ, Tugwell P, Knotterus A. GRADE guide-lines: a new series of articles in the Journal of Clinical Epidemiology. J ClinEpidemiol. 2010;64:380–2.
10. Guyatt GH, Oxman AD, Kunz R, Atkins D, Brozek J, Vist G, et al. GRADE guidelines2. Framing the question and deciding on important outcomes. J Clin Epidemiol.2011;64:395–400.
11. Balshem H, Helfand M, Schunemann HJ, Oxman AD, Kunz R, Brozek J, et al.GRADE guidelines 3: rating the quality of evidence. J Clin Epidemiol.2011;64:401–6.
12. Guyatt G, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADEguidelines 6. Rating the quality of evidence–imprecision. J Clin Epidemiol.2011;64:1283–93.
13. Guyatt GH, Oxman AD, Vist G, Kunz R, Brozek J, Alonso-Coello P, et al. GRADEguidelines: 4. Rating the quality of evidence–study limitations (risk of bias). JClin Epidemiol. 2011;64:407–15.
14. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADEguidelines: 7. Rating the quality of evidence–inconsistency. J Clin Epidemiol.2011;64:1294–302.
15. De Berardis G, Sacco M, Strippoli GF, Pellegrini F, Graziano G, Tognoni G, et al.Aspirin for primary prevention of cardiovascular events in people with dia-betes: meta-analysis of randomised controlled trials. BMJ. 2009;339:b4531.
16. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADEguidelines: 8. Rating the quality of evidence–indirectness. J Clin Epidemiol.2011;64:1303–10.
17. Lim E, Ali Z, Ali A, Routledge T, Edmonds L, Altman DG, et al. Indirect comparisonmeta-analysis of aspirin therapy after coronary surgery. BMJ. 2003;327:1309.
18. Brozek JL, Bousquet J, Baena-Cagnani CE, Bonini S, Canonica GW, Casale TB, et al.Allergic Rhinitis and its Impact on Asthma (ARIA) guidelines: 2010 revision. JAllergy Clin Immunol. 2010;12:466–76.
19. Scottish Intercollegiate Guidelines Network (SIGN). Management of Diabetes(SIGN publication no. 116). Edinburgh: SIGN; 2010 [consultado 12 Jun 2012].Disponible en: http://www.sign.ac.uk/pdf/sign116.pdf
20. Sterne JAC, Egger M, Moher D. (editors). Chapter 10: Addressing reportingbiases. En: Higgins JPT, Green S, editors. Cochrane Handbook for SystematicReviews of Intervention. Version 5.1.0 (updated March 2011). The CochraneCollaboration, 2011 [consultado 12 Jun 2012]. Disponible en: www.cochrane-handbook.org
21. Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J, et al. GRADEguidelines: 5. Rating the quality of evidence–publication bias. J Clin Epidemiol.2011;64:1277–82.
22. Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA, Alonso-Coello P, et al.GRADE guidelines: 9. Rating up the quality of evidence. J Clin Epidemiol.2011;64:1311–6.
23. Gilbert R, Salanti G, Harden M, See S. Infant sleeping position and the suddeninfant death syndrome: systematic review of observational studies and histor-ical review of recommendations from 1940 to 2002. Int J Epidemiol.2005;34:874–87.
24. Patra J, Bakker R, Irving H, Jaddoe VW, Malini S, Rehm J. Dose-responserelationship between alcohol consumption before and during pregnancy andthe risks of low birthweight, preterm birth and small for gestational age (SGA)-asystematic review and meta-analyses. BJOG. 2011;118:1411–21.
25. Devereaux PJ, Choi PT, Lacchetti C, Weaver B, Schunemann H, Haines T, et al. Asystematic review and meta-analysis of studies comparing mortality ratesof private for-profit and private not-for-profit hospitals. CMAJ. 2002;166:1399–406.
26. Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, Alonso-Coello P, et al.GRADE guidelines 11-making an overall rating of confidence in effect estimatesfor a single outcome and for all outcomes. J Clin Epidemiol. 2012 Apr 27, http://dx.doi.org/10.1016/j.jclinepi.2012.01.006 [Epub ahead of print].
27. Brozek J, Oxman A, Schunemann H. GRADEpro [programa informatico]. Version3.2 para Windows, 2008. Disponible en: http://ims.cochrane.org/gradepro
28. Vandvik PO, Lincoff AM, Gore JM, Gutterman DD, Sonnenberg FA, Alonso-CoelloP, et al.; American College of Chest Physicians. Primary and secondary preven-tion of cardiovascular disease: antithrombotic therapy and prevention ofthrombosis, 9th ed: American College of Chest Physicians Evidence-BasedClinical Practice Guidelines. Chest. 2012;141(2 Suppl). e637S–368S.
29. Raju N, Sobieraj-Teague M, Hirsh J, O’Donnell M, Eikelboom J. Effect of aspirinon mortality in the primary prevention of cardiovascular disease. Am J Med.2011;124:621–9.
30. Rothwell PM, Fowkes FG, Belch JF, Ogawa H, Warlow CP, Meade TW. Effect ofdaily aspirin on long-term risk of death due to cancer: analysis of individualpatient data from randomised trials. Lancet. 2011;377:31–41.
31. Guyatt GH, Oxman AD, Kunz R, Falck-Ytter Y, Vist GE, Liberati A, et al.; GRADEWorking Group. Rating quality of evidence and strength of recommendations:going from evidence to recommendations. BMJ. 2008;336:1049–51.
32. Grupo de trabajo de la Guıa de Practica Clınica para la Seguridad del PacienteQuirurgico. Centro Cochrane Iberoamericano, coordinador. Guıa de Practica
P. Alonso-Coello et al / Med Clin (Barc). 2013;140(8):366–373 373
Clınica para la Seguridad del Paciente Quirurgico. Plan de Calidad para elSistema Nacional de Salud del Ministerio de Sanidad, Polıtica Social e Igualdad.Agencia d’Informacio, Avaluacio i Qualitat en Salut (AIAQS) de Cataluna; 2010.Guıas de Practica Clınica en el SNS: AATRM N.0 2007/24.
33. Fiocchi A, Brozek J, Schunemann H, Bahna SL, von Berg A, Beyer K, et al. WorldAllergy Organization (WAO) Diagnosis and Rationale for Action against Cow’sMilk Allergy (DRACMA) guidelines. Pediatr Allergy Immunol. 2010;21 Suppl21:1–125.
34. Direccion de Asistencia Sanitaria de Osakidetza-Servicio Vasco de Salud, editor.Guıa de Practica Clınica sobre Asma. 1.a ed. Vitoria-Gasteiz: Servicio Central dePublicaciones del Gobierno Vasco; 2005.
35. Geerts W, Ray JG, Colwell CW, Bergqvist D, Pineo GF, Lassen MR, et al. Preven-tion of venous thromboembolism. Chest. 2005;128:3775–6.
36. Bates SM, Greer IA, Pabinger I, Sofaer S, Hirsh J, American College of ChestPhysicians. Venous thromboembolism, thrombophilia, antithrombotic therapy,
and pregnancy: American College of Chest Physicians Evidence-Based ClinicalPractice Guidelines (8th Edition). Chest. 2008;133(6 Suppl):844S–86S.
37. You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, et al. Antith-rombotic therapy for atrial fibrillation: Antithrombotic Therapy and Preventionof Thrombosis, 9th ed: American College of Chest Physicians Evidence-BasedClinical Practice Guidelines. Chest. 2012;141(2 Suppl):e531S–75S.
38. Hughes M, Lip GY, Guideline Development Group, National Clinical Guidelinefor Management of Atrial Fibrillation in Primary and Secondary Care,National Institute for Health and Clinical Excellence. Stroke and thromboem-bolism in atrial fibrillation: a systematic review of stroke risk factors, riskstratification schema and cost effectiveness data. Thromb Haemost. 2008;99:295–304.
39. Freeman JV, Zhu RP, Owens DK, Garber AM, Hutton DW, Go AS, et al. Cost-effectiveness of dabigatran compared with warfarin for stroke prevention inatrial fibrillation. Ann Intern Med. 2011;154:1–11.