Dentro de la práctica clínica habitual, es común encontrar múltiples preguntas relacionadas a la eficacia de una intervención terapéutica, al rendimiento diagnóstico de una examen o a factores tanto pronósticos como de riesgo después de una exposición1. En este escenario, cabe recordar que una pregunta clínica bien estructurada, siguiendo la estructura PICO (Paciente - Intervención - Comparador - Outcome o desenlace) facilita la búsqueda de la mejor evidencia disponible a través de PubMed, Epistemonikos o algún otro buscador científico2. En este momento, es importante destacar que, dentro de los distintos tipos de estudios disponibles, las revisiones sistemáticas (RS) son frecuentemente la fuente de mayor evidencia debido a que recolectan, evalúan y resumen gran parte de la evidencia disponible relacionada a una pregunta clínica en particular. Adicionalmente, este tipo de análisis puede estar asociado con un metaanálisis (MA), lo que permite calcular el estimador puntual obtenido posterior al análisis combinado de los valores numéricos de los estudios incluidos3. De manera adicional, es posible calcular el intervalo de confianza (IC) del MA y el nivel de variabilidad o heterogeneidad de los resultados, entregando otras herramientas útiles para el análisis de los mismos3.
El análisis tradicional de las RS y los MA se basa en comparaciones directas entre una intervención y un comparador (placebo o manejo estándar), con el fin de analizar cuantitativamente e integrar los resultados disponibles de múltiples estudios para la intervención de interés. Sin embargo, existen escenarios en los que nos encontramos con múltiples intervenciones para la misma población o enfermedad, sin tener estudios clínicos que realicen comparaciones directas entre ellas. En otros casos, la pregunta clínica puede comparar de manera simultánea dos o más comparadores; lo que debilita drásticamente la aplicabilidad de los resultados RS y los MA4.
A continuación, presentaremos un enfoque práctico para el entendimiento y la toma de decisiones basados en los resultados proporcionados por RS y MA con comparaciones múltiples; estos tipos de estudios, también llamados “network meta-analysis” (NMA) deben reportar tres principios que entregan validez al análisis: Homogeneidad, Transitividad y consistencia. Adicionalmente, incluiremos un ejemplo reciente de un NMA que se realizó con el fin de identificar el esquema de tratamiento más efectivo y seguro para la tuberculosis latente5.
Definición
El NMA o también llamado análisis de comparación múltiple o comparación indirecta ajustada, es un tipo de análisis obtenido a partir de una RS de intervención o de eficacia terapéutica, por lo que los estudios incluidos deberían ser ensayos clínicos aleatorizados (ECA). Un escenario práctico para entender un NMA es cuando tenemos dos medicamentos, (medicamento A y B). La búsqueda en la literatura arroja múltiples estudios que comparan ambos fármacos contra placebo (comparación directa). Sin embargo, ninguno o muy pocos estudios (los que pueden reportar limitado poder estadístico o un alto riesgo de sesgo) comparan los medicamentos A y B de manera directa. Si se extraen los resultados de los estudios que evalúan el medicamento A (A vs placebo), al igual que para el medicamento B (B vs placebo), se pueden extrapolar para obtener el efecto de A vs B (Comparación indirecta) hasta que exista evidencia directa disponible en la literatura (Figura 1). El NMA permite sintetizar cuantitativamente la evidencia disponible de comparaciones directas entre distintas intervenciones, con el fin de obtener evidencia indirecta basada en un comparador común, que puede ser placebo u otras intervenciones2,6. Esta metodología ha tomado gran importancia en los últimos años en el ámbito clínico para la toma de decisiones, especialmente cuando no hay estudios disponibles, o cuando los estudios que existen tienen alto riesgo de sesgo o pobreza metodológica.
Principios de un Network metaanálisis
Validez interna
El análisis para la validez interna se basa en los mismos principios empleados para las RS y deben seguir las directrices publicadas en el protocolo PRISMA en su versión PRISMA-NMA7,8. Las principales diferencias están en la extensión de la pregunta PICO y los criterios de selección para la inclusión y exclusión de los artículos seleccionados. En una RS usualmente la intervención se limita a una comparación directa contra placebo o el manejo convencional, mientras en el NMA la pregunta puede abarcar múltiples intervenciones y comparadores en la misma población. En este escenario, se deben tener en cuenta los siguientes factores: a) La población en la que se realizaron los estudios; b) Las características de la intervención (por ejemplo, la dosis empleada de un medicamento) y c) Los desenlaces reportados por cada ECA de manera individual.
Como regla general, las RS deben incluir todas las intervenciones publicadas en el marco de la pregunta clínica, con una búsqueda amplia, sin restricción por idioma e incluyendo distintas fuentes de información como distintas bases de datos, revisión de resúmenes de congresos, búsqueda de artículos financiados por la industria y una buena búsqueda manual de referencias, evitando de esta manera el sesgo de publicación. Por otro lado, cuando se incluyen estudios con comparaciones entre intervenciones sin incluir directamente el uso de placebo como comparador, existe riesgo de reporte selectivo de desenlaces, por lo cual los resultados pueden ser incorrectos. En las Tablas 1 y 2 se presentan las principales diferencias entre MA y NMA y los principales dominios a evaluar dentro del análisis crítico de RS con NMA, respectivamente.
Tabla 1 Tabla comparativa entre revisión sistemática con metaanálisis y network meta análisis
Tabla 2 Análisis crítico de revisión sistemática con análisis por comparación múltiple o network metaanálisis (NMA)
Dominio | Cumple (sí/no) | |
---|---|---|
1 | ¿Pregunta de investigación generada previo al estudio? | |
2 | ¿Suficiente soporte para el uso de comparaciones indirectas? | |
3 | ¿Suficiente soporte en la selección de comparadores comunes? | |
4 | ¿Hay una descripción detallada de la revisión de literatura? | |
5 | ¿Criterios de inclusión y exclusión previamente descritos? | |
6 | ¿Hubo reporte completo de toda la literatura relevante disponibles? | |
7 | Los principios básicos fueron evaluados | |
8 | ¿Se usaron métodos estadísticos adecuados y fueron descritos detalladamente? | |
9 | ¿Fueron descritas las limitaciones detalladamente? |
Como se puede observar en nuestro ejemplo de NMA, todos los regímenes para el tratamiento de la tuberculosis latente se comparan frente al placebo y ninguna intervención. Adicionalmente, la gran mayoría de los estudios incluidos fueron desarrollados en países con alta incidencia de tuberculosis.
Homogeneidad de la evidencia directa
Para comprender este principio, es esencial entender su contrario, heterogeneidad (I2). Este concepto se basa en diferencias en el efecto del tratamiento reportadas entre los distintos estudios que son explicadas por otros motivos distintos del azar, lo que en casos de ser elevada, disminuyen la confianza y validez del análisis estadístico. Dentro de las principales causas de I2 elevada se encentran diferencias en la planificación de los estudios (población, duración, intensidad de la intervención, entre otros), y a veces se superpone con el siguiente principio, transitividad o similitud.
Para que las comparaciones directas tengan la validez esperada, estas comparaciones en “network” o red deben ser lo suficientemente homogéneas. Por ejemplo, los estudios utilizados para obtener el estimador directo “X” vs placebo deben ser lo suficientemente homogéneos entre ellos al igual que “Y” vs placebo. Esto se debe evaluar previo a iniciar el análisis de datos, debido a que, si se encuentra un grado moderado de heterogeneidad entre los estudios, los resultados obtenidos a través de las distintas comparaciones deberían ser sometidos a análisis de subgrupos con el fin de superar esta limitación. Mientras que, si previo al análisis se encuentra un indicio significativo de alta heterogeneidad, los estimadores no serían válidos, por lo que se recomienda no realizar el NMA6.
Transitividad o similitud
Este concepto se basa principalmente en la similitud u homogeneidad entre los estudios incluidos en el análisis. En esta instancia es cuando el modelo PICO toma gran importancia. Esto permite evaluar las características propias de cada estudio, con el fin de definir si los estimadores arrojados por el análisis estadístico tienen validez. Retomando nuestro primer ejemplo, los pacientes incluidos en los estudios que comparan A vs placebo deben ser similares en población, intervención, comparador, desenlace y diseño del estudio, a los incluidos en B vs placebo.
Dentro de este análisis, las variables modificadoras de efecto pueden tomar gran importancia al momento de definir si existe transitividad o no, ya que estas deben ser equivalentes en las poblaciones en las que se realizaron los estudios. Es por esta razón que los estudios observacionales al igual que los ECAs que comparan intervenciones farmacológicas vs no farmacológicas no deberían ser incluidos en el análisis.
Efecto estimado en cada comparación
Los estimadores de efectos se expresan como estimadores puntuales con 95% de rango de credibilidad. Este concepto es distinto al IC y se fundamenta en el análisis bayesiano, donde se pueden calcular n* (n-1)/2 comparaciones incluidas en el NMA, por ejemplo, si incluimos 6 intervenciones para el mismo desenlace, podemos tener: 6* (6-1)/2 = 15 comparaciones. Para evaluar la precisión del estimador puntual, basta con evaluar el estimador puntual, así como su interacción con la línea del no efecto y su rango de credibilidad (ICred)8.
Consistencia entre la evidencia directa e indirecta
Para un NMA se considera que hay consistencia entre la evidencia directa e indirecta cuando el efecto analizado en comparaciones directas es similar al efecto obtenido de las comparaciones indirectas. Dentro de las razones para encontrar inconsistencia se pueden ser diferencias entre los pacientes incluidos, así como diferentes esquemas de tratamientos, o incluso una pobre calidad metodológica en alguno de los estudios9.
Análisis de los resultados
¿Los estudios incluidos son suficientes?
Como se mencionó previamente, los factores cruciales a evaluar son número de ECAs incluidos en la revisión, los comparadores usados en cada estudio y la interacción entre ellos (Figura 1). Comúnmente, la primera imagen en un NMA muestra el número de ECAs que forman la red y el grado interacción entre ellos4,5. Dentro de las opciones de redes podemos encontrar:
- Red con cierre simple: En este caso se puede tener evidencia desde la intervención “A” y “B” comparando con placebo mediante comparaciones directas, y se puede estimar la comparación indirecta “A” vs “B”. También se puede tener una red con comparaciones directas entre “A”, “B” vs placebo y “A” vs” B” (Figura 2a).
–. Red en estrella: En este caso todas las intervenciones usan el mismo comparador. Todas las comparaciones son directas contra el comparador, mientras que las diferencias entre las intervenciones son a partir de comparaciones indirectas (Figura 2b).
–. Red Conectada: En este caso todas las intervenciones han sido evaluadas entre sí (Figura 2c).
–. Red compleja: Múltiples ramas que corresponden a intervenciones sin comparaciones bien establecidas (Figura 2d).
¿Son similares los resultados entre los estudios?
A diferencia del MA tradicional, los NMA incluyen resultados tanto de comparaciones directas como indirectas. En este caso, no es suficiente con ver el estimador puntual y su IC para cada comparación, sino el comportamiento entre ambos tipos de comparaciones.
Consistencia entre resultados
La consistencia entre resultados dependerá principalmente del estimador puntual reportado en la comparación directa, que en última instancia son estimadores más confiables y válidos. En caso de que se reporten discrepancias entre las comparaciones directas e indirectas, el siguiente paso es evaluar la inconsistencia mediante la prueba de incoherencia, que es similar al I2 reportado en el Forrest Plot de un MA tradicional. Ahora, dentro de las causas de inconsistencia y sesgo de un NMA, se debe tener en cuenta: 1) Diferencias genuinas entre los resultados (población, intervención, definición y desenlaces en los estudios primarios); 2) Diferencias en la comparación directa (sesgo de publicación, efecto sobreestimado por detención precoz de beneficio, reporte selectivo de resultados y riesgo de sesgo de los estudios incluidos); 3) Diferencias en la comparación indirecta y 4) Diferencias debido al azar.
Confianza en el ranking
En un NMA los autores deben reportar la probabilidad que una intervención sea superior a otra mediante una escala o ranking. Sin embargo, estas escalas pueden verse influenciadas por el riesgo de sesgo, inconsistencia y evidencia indirecta. Una forma de evaluar la veracidad en la escala es explorando el comportamiento en las comparaciones tanto directas como indirectas.
Los NMA organizan las intervenciones en términos de eficacia y reportan estos resultados en: Grados de eficacia (el fármaco A es el más efectivo), Probabilidad (fármaco A tiene 70% de ser más efectivo) o como SUCRA -”Surface under the cumulative ranking área”- (SUCRA para el fármaco A es 80%). Adicionalmente, estos estudios también pueden presentar sus resultados en un modo “Pairwise” (comparación para cada permutación posible entre los medicamentos o intervenciones incluidas en el NMA); usualmente este tipo de análisis es presentado en OR (Odds Ratio) o en Riesgo Relativo en una tabla “Staircase”. Finalmente, estos estimadores son presentados como comparaciones directas, indirectas o estimados del NMA (Combinados), y permiten al lector entender la consistencia y la calidad de la evidencia. Este tipo de análisis se logra gracias a un enfoque bayesiano o frecuentista, que significa que la elección entre el tipo de enfoque depende en la experiencia estadística del equipo desarrollando el NMA2.
Certeza de la evidencia
Las recomendaciones presentadas por el GRADE working group son también validas para los resultados de un NMA al igual que para los análisis presentados en una RS con MA convencional10. Sin embargo, para los NMA se recomienda evaluar tanto la certeza de la evidencia reportada en las comparaciones directas e indirectas. Debido a que los datos incluidos en un NMA provienen de ECAs, usualmente la evidencia es alta o moderada, sin embargo factores que pueden disminuir la certeza de le evidencia son el riego de sesgo de los estudios incluidos, mediante el uso de las herramientas recomendadas por la colaboración Cochrane11, así como la evaluación del sesgo de publicación de estudios incluidos. Para definir si la certeza de la evidencia debe ser disminuida por evidencia indirecta, uno de los puntos a considerar en el análisis por comparación indirecta es la presencia de sesgo por pérdida de la secuencia de aleatorización, así como la pérdida de seguimiento9. Sobre los otros puntos a considerar, la imprecisión se evalúa con inspección de los intervalos de credibilidad y su interacción con la significancia clínica, mientras que la inconsistencia mediante la variabilidad entre los estudios que no pueden ser explicados o mediante la prueba para incoherencia12.
Aplicabilidad
Al finalizar el análisis crítico del NMA hay que recordar los aspectos relevantes asociados a la aplicabilidad de los resultados y evaluar los desenlaces clínicamente relevantes, haciendo énfasis para el caso de los NMA si los revisores consideraron todas las opciones disponibles. En casos en los que se presentan análisis por subgrupos, se debe evaluar el efecto de subgrupo, siguiendo los criterios de credibilidad para este tipo de análisis. Finalmente, al momento de aceptar o descartar una intervención se debe tener en cuenta el análisis de valores y preferencias, así como el análisis de costo-beneficio, y por ultimo la factibilidad de implementarla en el lugar de trabajo.
Ejemplo
Para entender el objetivo de nuestra revisión, presentamos el siguiente caso clínico: Un paciente de 32 años que decide viajar a al extranjero y le realizan una prueba de tuberculina o PPD que resulta positiva. El paciente consulta para definir cuál es el mejor esquema disponible para su profilaxis. Se realizó una búsqueda en PubMed (MEDLINE) y se encuentraron 7 RS de ECAs, en los cuales se evaluaron distintos esquemas de profilaxis anti-TBC. Todos los estudios encontrados cumplieron el objetivo de nuestra pregunta, sin embargo, no todos utilizaron el mismo comparador o los mismos esquemas de tratamiento. Por ejemplo, es posible que en unos estudios se comparara un esquema contra placebo, mientras que en otros se compararon contra la terapia estándar (Isoniazida) u otro esquema farmacológico disponible. Esto hace que sea casi complejo determinar el esquema con mayor eficacia y mejor perfil de eventos adversos. Para desarrollar el análisis tomaremos como ejemplo el artículo: “Treatment of latent tuberculosis: An updated Network Meta analysis”, de Dominik Zenner y cols. En este estudio, se realizó un Network Meta análisis que incluyo un total de 61 ECAs3. La RS seleccionada para el NMA tuvo como objetivo evaluar el esquema de tratamiento farmacológico más efectivo y seguro, entre un total de 16 regímenes disponibles que variaban en duración entre 6 y 72 meses, para el manejo de la tuberculosis latente.
En este caso la búsqueda fue amplia, sin restricción de idioma y con criterios de inclusión y exclusión adecuados para identificar artículos sobre el tratamiento de la tuberculosis latente. La selección de los artículos incluidos, así como la extracción de datos y análisis de riesgo de sesgo fue desarrollada por dos revisores independientes, y en caso de discrepancia consultaron a un tercer revisor. Tanto el objetivo de la RS y la pregunta PICO se encontraba previamente establecido en el protocolo de la RS.
Respecto al análisis estadístico, se incluyeron comparaciones directas siguiendo un modelo de metaanálisis convencional y las comparaciones indirectas fueron realizadas mediante un “Mixed-Treatment Comparisons” (MCT's) para generar los resultados bajo el modelo del NMA. Todos los análisis fueron desarrollados bajo el modelo bayesiano usando software pre establecido y los estimadores fueron presentados según el método “pairwise” mediante OR con 95% de rango de credibilidad (Crl) y el ranking fue presentado en orden de régimen evaluado. Respecto al análisis de inconsistencia, los autores usaron el “Omnibus test of inconsistency” y para el análisis de sesgo de publicación realizaron inspección visual del funnel plot.
Prevención de tuberculosis activa
Como resultado se encontraron esquemas que incluían Isoniazida (INH) por 6 o 12-72 meses, Rifampicina (RMP) individual, RMP-INH por 3 a 4 meses, RMP-INH-Pirazinamida (PZA), RMP-PZA y INH-Etambutol (EMB). El riesgo de sesgo de los estudios incluidos fue catalogado como alto y no claro en la mayoría de ellos. El modelo de la NMA dio como resultado una red compleja y en la Tabla 3 se presentan los Odds ratios (OR) con su respectivo (Crl) para cada régimen comparándolos individualmente contra placebo y no-tratamiento.
Tabla 3 Odds ratio de eficacia de distintos esquemas empleados para la tuberculosis latente mediante el modelo de comparacion directa e indirecta
Régimen | OR vs placebo (95% CrI) | OR vs ningún tratamiento (95% CrI) | Rank (95% CrI) |
---|---|---|---|
Sin tratamiento | 1,62 (1,06 - 2,47) | 1,00 (referencia) | 16 (14 - 16) |
Placebo | 1,00 (referencia) | 0,62 (0,41 - 0,94) | 13 (11 - 15) |
INH 3–4 m | 0,93 (0,55 - 1,50) | 0,57 (0,31 - 1,02) | 13 (8 - 15) |
INH 6 m | 0,65 (0,50 - 0,83) | 0,40 (0,26 - 0,60) | 10 (7 - 12) |
INH 9 m | 0,75 (0,35 - 1,62) | 0,46 (0,22 - 0,95) | 11 (4 - 15) |
INH 12–72 m | 0,50 (0,41 - 0,62) | 0,31 (0,21 - 0,47) | 6 (4 - 10) |
RFB-INH | 0,30 (0,05 - 1,50) | 0,18 (0,03 - 0,95) | 3 (1 - 15) |
RFB-INH (Dosis Alta) | 0,30 (0,05 - 1,52) | 0,19 (0,03 - 0,98) | 3 (1 - 15) |
RPT-INH | 0,58 (0,30 - 1,12) | 0,36 (0,18 - 0,73) | 8 (3 - 14) |
RMP | 0,41 (0,19 - 0,85) | 0,25 (0,11 - 0,57) | 5 (1 - 12) |
RMP-INH 1 m | 1,05 (0,37 - 2,77) | 0,65 (0,23 - 1,71) | 14 (4 - 16) |
RMP-INH 3–4 m | 0,53 (0,36 - 0,78) | 0,33 (0,20 - 0,54) | 7 (4 - 11) |
RMP-INH-PZA | 0,35 (0,19 - 0,61) | 0,35 (0,19 - 0,61) | 3 (1 - 8) |
RMP-PZA | 0,53 (0,33 - 0,84) | 0,33 (0,18 - 0,58) | 7 (3 - 12) |
INH-EMB | 0,87 (0,32 - 2,36) | 0,54 (0,19 - 1,56) | 12 (4 - 16) |
INH-EMB 12 m | 0,20 (0,04 - 0,82) | 0,12 (0,02 - 0,54) | 2 (1 - 11) |
OR: Odds ratio; Crt: Intervalo credibilidad) Rank: Ranking; INH: isoniazida; RMP: Rifampicina; RFB: Rifabutina; PZA: Pirazinamida; EMB: Etambutol; M: meses.
Al analizar los principios de un NMA, se obtiene que todos los estudios incluidos fueron considerados homogéneos respecto a la población en donde se realizaron al igual que las regiones geográficas reportadas en la tabla de características de estudios incluidos. Respecto a la inconsistencia, el test para el análisis de inconsistencia fue bajo, lo que representa adecuada transatividad entre los resultados. Finalmente, al analizar los resultados mediante la Tabla 2, encontramos que los esquemas fueron similares en el análisis directo y en el análisis indirecto, con estrecho (Crl), siendo los esquemas RMP-INH-Pirazinamida (PZA), RMP-PZA y INH-Etambutol (EMB) por 12 meses aquellos que reportaron mayor eficacia, así como el lugar en el ranking de cada intervención.
Finalmente, al evaluar la calidad del estudio mediante la pauta reportada en la Tabla 3. Encontramos que el estudio cumple adecuadamente en todos los ítems, y respecto a la certeza de la evidencia según GRADE, teniendo como base que la evidencia proviene de ECAs (evidencia moderada-alta), tenemos que disminuir por riesgo de sesgo de los estudios incluidos, y no descontar por inconsistencia, evidencia indirecta, sesgo de publicación y por imprecisión. Lo que resulta en un GRADE: Bajo para estos esquemas.
Limitaciones del NMA
Dentro de las principales limitaciones de los NMA se encuentran la diferencia en la transitividad y la potencial incoherencia entre los resultados de los estudios, un caso común es la discordancia entre las comparaciones directas e indirectas. Para estas situaciones, el análisis de la calidad metodología de los estudios incluidos es relevante para la toma de decisiones. Sin embargo, esta área de la medicina basada en evidencia se encuentra en desarrollo continuo, por lo que es relevante conocer y saber interpretar estos tipos de estudios.
Conclusiones
Las comparaciones indirectas en los NMA hacen posible estimar el efecto en revisiones sistemáticas cuando no hay comparaciones directas entre dos intervenciones, o cuando múltiples intervenciones son comparadas entre ellas simultáneamente. Los principios básicos para las comparaciones indirectas son: homogeneidad, transitividad y consistencia. La presentación detallada y transparente de la información utilizada para las comparaciones indirectas debe ser reportada, ya que esto permite al lector evaluar si los análisis tienen validez, y si los resultados se pueden extrapolar al ámbito clínico.