Cómo hacer un meta-análisis paso a paso en 2026: efectos aleatorios, forest plot e I² según PRISMA 2020
Un meta-análisis bien ejecutado es la cúspide de la jerarquía de evidencia científica. Combina matemáticamente los resultados de múltiples estudios primarios para obtener una estimación global más precisa que cualquier estudio individual; y su pieza central — la elección entre el modelo de efectos fijos y el modelo de efectos aleatorios — determina si esa estimación es válida o engañosa. Sin embargo, la mayoría de los manuales en español explican qué es un meta-análisis, pero no cómo construirlo paso a paso ni cómo justificar ante un comité las decisiones estadísticas clave. Esta guía cubre exactamente eso: desde la pregunta PICO hasta el forest plot final, siguiendo la declaración PRISMA 2020.
La renovación metodológica de los últimos años — especialmente la publicación de PRISMA 2020 en BMJ, PLOS Medicine y otras seis revistas simultáneamente — ha elevado el estándar de reporte. Hoy no basta con presentar un valor p global: es obligatorio declarar el modelo elegido, el estimador de heterogeneidad, el software utilizado y los métodos para explorar causas de la variabilidad entre estudios. Esta guía desglosa cada uno de esos requisitos con el rigor que exige la comunidad académica española y europea.
¿Qué es un meta-análisis y cuándo tiene sentido hacerlo?
Un meta-análisis es una técnica estadística que sintetiza cuantitativamente los resultados de varios estudios primarios sobre la misma pregunta de investigación. A diferencia de la revisión narrativa, donde el autor selecciona estudios de forma implícita, el meta-análisis aplica procedimientos explícitos y reproducibles para combinar estimaciones y calcular un efecto global con su intervalo de confianza.
Sin embargo, combinar estudios numéricamente solo tiene sentido cuando los estudios son suficientemente homogéneos en cuanto a población, intervención, comparador y resultado — el marco PICO. Cuando la heterogeneidad clínica o metodológica es extrema, puede ser más honesto presentar una síntesis narrativa en lugar de un meta-análisis forzado, algo que la propia declaración PRISMA 2020 reconoce explícitamente al permitir revisiones sistemáticas sin síntesis cuantitativa.
Un meta-análisis es pertinente cuando se cumplen, como mínimo, estas condiciones:
- Existe un número razonable de estudios primarios — habitualmente no menos de cinco o seis — con datos extraíbles.
- Los estudios comparten una pregunta PICO suficientemente homogénea.
- Los estudios individuales tienen potencia estadística limitada para responder la pregunta por sí solos.
- Existe variabilidad entre resultados que conviene cuantificar, no solo describir.
Fase 1: Protocolo previo y registro en PROSPERO
PRISMA 2020 exige declarar en el apartado de métodos si la revisión tiene un protocolo registrado y dónde puede consultarse (ítem 2). El registro previo en PROSPERO (International Prospective Register of Systematic Reviews, Universidad de York) es el estándar para revisiones con componente clínico o de salud pública; para revisiones de ciencias sociales y educación existe también el registro en OSF (Open Science Framework).
El protocolo debe especificar de antemano: la pregunta PICO, los criterios de inclusión y exclusión, las bases de datos que se consultarán, el modelo estadístico previsto, las medidas de efecto que se calcularán y los posibles análisis de subgrupos. Desviarse del protocolo sin justificación explícita es una de las principales causas de rechazo en revistas indexadas. En el protocolo conviene también calcular el número de estudios necesario para alcanzar una potencia adecuada; para ello, una herramienta como la que se explica en la guía sobre cómo calcular el tamaño muestral con G*Power y el análisis de potencia a priori ofrece el marco conceptual necesario antes de comenzar la búsqueda.
Fase 2: Búsqueda sistemática y criterios de elegibilidad
La búsqueda bibliográfica debe ser sistemática, exhaustiva y reproducible. El ítem 7 de PRISMA 2020 pide presentar la estrategia de búsqueda completa en al menos una base de datos, incluyendo los filtros y fechas aplicados. Las bases mínimas para una revisión con meta-análisis en ciencias de la salud son MEDLINE/PubMed, Embase y Cochrane CENTRAL; en ciencias sociales se añaden PsycINFO y ERIC; en educación superior, ERIC y Scopus.
El proceso de selección — que PRISMA 2020 representa en su diagrama de flujo de cuatro fases (identificación, cribado, elegibilidad, inclusión) — debe realizarse de forma independiente por dos revisores y con una medida de acuerdo entre evaluadores como el índice kappa de Cohen para las discrepancias.
Para gestionar los miles de registros que suele generar una búsqueda amplia y aplicar el cribado de forma eficiente, puede resultar de gran utilidad conocer el flujo completo de una revisión sistemática con PRISMA 2020, que detalla cómo documentar cada fase del diagrama.
Fase 3: Extracción de datos y tamaños del efecto
El meta-análisis requiere que todos los estudios incluidos aporten el mismo tipo de medida de efecto, o que sus datos sean convertibles. Las medidas más habituales son:
| Tipo de variable | Medida de efecto | Expresión habitual |
|---|---|---|
| Dicotómica (evento sí/no) | Odds ratio (OR) | OR con IC 95 % |
| Dicotómica (incidencia) | Riesgo relativo (RR) | RR con IC 95 % |
| Continua (misma escala) | Diferencia de medias (DM) | DM con IC 95 % |
| Continua (escalas distintas) | Diferencia de medias estandarizada (DME / d de Cohen) | DME con IC 95 % |
| Supervivencia / tiempo hasta evento | Hazard ratio (HR) | HR con IC 95 % |
La extracción de datos — medias, desviaciones típicas, tamaños muestrales, eventos y no-eventos — debe hacerse por pares de revisores con plantillas predefinidas. Cuando un estudio reporta solo la mediana con rango intercuartílico, existen fórmulas validadas (método de Wan et al.) para estimar la media y la desviación típica. Si los datos necesarios no están en el artículo, PRISMA 2020 (ítem 13a) recomienda contactar a los autores originales.
Fase 4: Evaluación de la heterogeneidad — Q e I²
Antes de elegir el modelo estadístico es imprescindible cuantificar la heterogeneidad entre estudios. Los dos estadísticos complementarios que PRISMA 2020 exige reportar son la prueba Q de Cochran y el estadístico I² de Higgins.
La prueba Q de Cochran
La Q suma las diferencias al cuadrado entre cada estimación individual y la estimación global, ponderadas por el inverso de la varianza. Un valor p < 0,10 (umbral más permisivo que el habitual 0,05, dado el bajo poder de la prueba con pocos estudios) indica heterogeneidad estadísticamente significativa. Sin embargo, la Q tiene escaso poder cuando el número de estudios es pequeño y exceso de poder cuando es muy grande, por lo que debe complementarse con I².
El estadístico I²
Propuesto por Higgins y Thompson (2002) y validado en Higgins et al. (2003), el I² expresa el porcentaje de la variabilidad total que se debe a diferencias reales entre estudios y no al azar de muestreo. La fórmula es:
I² = (Q − gl) / Q × 100
donde gl son los grados de libertad (número de estudios menos 1). Los umbrales orientativos de interpretación — que los propios autores califican de «tentativas» y dependientes del contexto clínico — son:
| Valor de I² | Interpretación | Implicación para el modelo |
|---|---|---|
| 0–24 % | Heterogeneidad baja o ausente | Efectos fijos o efectos aleatorios ambos válidos |
| 25–49 % | Heterogeneidad moderada | Preferir efectos aleatorios; explorar fuentes |
| 50–74 % | Heterogeneidad sustancial | Efectos aleatorios; análisis de subgrupos obligatorio |
| ≥ 75 % | Heterogeneidad considerable | Cuestionar la validez del pool; síntesis narrativa como alternativa |
Un tercer parámetro que los autores avanzados reportan es τ² (tau cuadrado), la varianza entre estudios estimada por el método de DerSimonian y Laird (y por estimadores más robustos como REML o el método de Paule-Mandel). Mientras I² es una medida relativa, τ² está en las unidades originales del efecto y permite cuantificar la dispersión real de los efectos verdaderos en la población de estudios.
Fase 5: Elección del modelo — efectos fijos vs. efectos aleatorios
Esta es la decisión estadística más crítica del meta-análisis. Ambos modelos ponderan los estudios individuales para calcular un efecto global, pero parten de supuestos radicalmente distintos.
Modelo de efectos fijos
Asume que existe un único efecto verdadero subyacente común a todos los estudios, y que la variabilidad observada se debe exclusivamente al error de muestreo. Los estudios se ponderan por el inverso de su varianza intraestudio (1/σ²), de modo que los estudios grandes dominan la estimación. El resultado es un intervalo de confianza estrecho, pero solo inferible a la población exacta de los estudios incluidos.
Modelo de efectos aleatorios (DerSimonian-Laird)
Asume que los estudios incluidos son una muestra aleatoria de una distribución más amplia de posibles efectos. Cada estudio tiene su propio efecto verdadero, distribuido en torno a una media global μ con varianza entre estudios τ². La ponderación incorpora tanto la varianza intraestudio como τ², lo que otorga más peso relativo a los estudios pequeños en comparación con el modelo de efectos fijos. El resultado es un intervalo de confianza más amplio, más honesto sobre la incertidumbre real, y la inferencia se generaliza a una población más amplia de estudios. Cuando los datos de los estudios presentan una estructura jerárquica — por ejemplo, participantes anidados en centros o aulas — conviene considerar también los modelos multinivel o jerárquicos para datos anidados, que extienden la lógica de la varianza entre niveles más allá del meta-análisis clásico.
Un error frecuente es seleccionar el modelo en función de la significación de la prueba Q: si p < 0,10 se usa efectos aleatorios; si p ≥ 0,10 se usa efectos fijos. Este enfoque condicionado introduce sesgo y ha sido criticado en la literatura metodológica. La decisión debe basarse en el supuesto sobre la naturaleza de los efectos — ¿son idénticos o diferentes entre estudios? — no en el resultado de una prueba estadística.
Fase 6: Construcción e interpretación del forest plot
El forest plot (diagrama de bosque) es la representación visual por excelencia del meta-análisis. Su nombre se atribuye a que los múltiples intervalos de confianza recuerdan a los árboles de un bosque cuando se disponen verticalmente.
Anatomía del forest plot
Un forest plot estándar según la Colaboración Cochrane se organiza en cinco columnas:
- Identificador del estudio: autor y año de publicación.
- Datos originales: frecuencias o medias de cada grupo, según el tipo de variable.
- Representación gráfica: cuadrado (estimación puntual) con líneas horizontales (IC 95 %). El área del cuadrado es proporcional al peso del estudio en el pool.
- Peso relativo (%): contribución de cada estudio al efecto global.
- Estimación ponderada con IC 95 %: el valor numérico de la contribución de cada estudio.
La línea vertical de no efecto se sitúa en 0 para diferencias de medias o en 1 para razones (OR, RR, HR). Los estudios cuyo IC 95 % no cruza esta línea son estadísticamente significativos de forma individual. El rombo en la parte inferior del gráfico representa el efecto global combinado: su posición indica la dirección del efecto y su amplitud refleja la precisión de la estimación.
Cómo leer el rombo
- Si el rombo no toca ni cruza la línea nula, el efecto combinado es estadísticamente significativo.
- Un rombo estrecho indica alta precisión (estudios grandes o numerosos).
- Un rombo amplio señala gran incertidumbre (pocos estudios, heterogeneidad elevada).
- En modelos de efectos aleatorios, el rombo suele ser más amplio que en efectos fijos con los mismos datos, reflejando la incertidumbre adicional de τ².
Elementos adicionales del forest plot PRISMA 2020
PRISMA 2020 (ítem 21) exige que el forest plot presente el modelo utilizado (M-H para efectos fijos, D+L para efectos aleatorios), el estimador de heterogeneidad, el valor de I² y el p-valor de la prueba Q, así como la medida de efecto y el tipo de IC. Muchos autores añaden además el I² predicción interval — el rango en el que se espera que caiga el efecto verdadero en un nuevo estudio similar — que complementa al IC 95 % del efecto global.
Fase 7: Sesgo de publicación — funnel plot y test de Egger
El sesgo de publicación ocurre porque los estudios con resultados positivos o estadísticamente significativos tienen mayor probabilidad de ser publicados que los de resultados nulos. Ignorarlo puede inflar artificialmente el efecto combinado. PRISMA 2020 (ítem 23) exige que los autores evalúen este riesgo cuando el número de estudios lo permita (generalmente con diez o más estudios).
El funnel plot
El gráfico de embudo (funnel plot) dispone el tamaño del efecto de cada estudio en el eje horizontal frente a una medida de precisión — habitualmente el error estándar — en el eje vertical invertido. En ausencia de sesgo, los puntos forman un triángulo simétrico: los estudios pequeños (base del triángulo) se dispersan más, mientras que los grandes (cima) convergen al efecto real. Una asimetría en la base — especialmente la ausencia de estudios pequeños con efectos negativos — sugiere sesgo de publicación u otros factores de sesgo de pequeño estudio.
El test de Egger
La asimetría del funnel plot puede cuantificarse estadísticamente mediante el test de regresión de Egger, que detecta si el intercepto de la regresión de efectos sobre el error estándar difiere significativamente de cero. En R, el paquete metafor implementa este test con la función regtest(). Un p-valor < 0,10 se considera indicativo de asimetría significativa. El método de Trim and Fill de Duval y Tweedie completa el análisis al estimar cuántos estudios «faltantes» serían necesarios para restaurar la simetría del funnel y corregir el efecto global.
Fase 8: Análisis de sensibilidad y meta-regresión
Los análisis de sensibilidad evalúan la robustez de los resultados repitiendo el meta-análisis tras modificar una decisión clave: excluir estudios con alto riesgo de sesgo, cambiar el modelo estadístico o restringir el análisis a un subgrupo de diseño (p.ej., solo ECAs). Si los resultados cambian sustancialmente, la evidencia es frágil; si permanecen estables, la conclusión es robusta.
Los análisis de subgrupos exploran si el efecto difiere según características de los estudios (p.ej., edad de los participantes, dosis de la intervención, diseño del estudio). Sin embargo, los subgrupos no planificados en el protocolo deben interpretarse con mucha cautela — son generadores de hipótesis, no confirmadores.
La meta-regresión es la extensión multivariante: modela la relación entre el efecto y una o más variables moderadoras continuas o categóricas. Requiere al menos diez estudios por covariable para evitar un sobreajuste severo. El paquete metafor de R implementa la meta-regresión a través de la función rma() con el argumento mods. Cuando una de las variables moderadoras es continua y la relación con el outcome no es lineal, puede ser útil complementar con un análisis de covarianza (ANCOVA) que verifique el supuesto de pendientes homogéneas antes de modelar esa covariable en la regresión.
PRISMA 2020: ítems específicos para el meta-análisis
La declaración PRISMA 2020 — publicada en 2021 en BMJ, PLOS Medicine y otras revistas de acceso abierto — consta de 27 ítems para revisiones con síntesis cuantitativa. Los ítems más directamente relevantes para un meta-análisis son:
| Ítem | Sección | Qué exige |
|---|---|---|
| 2 | Abstract / Intro | Registrar el protocolo en PROSPERO u OSF e indicar el número de registro. |
| 7 | Métodos | Presentar la estrategia de búsqueda completa en al menos una base de datos, con filtros y fechas. |
| 13a | Métodos | Detallar el proceso de extracción de datos, incluyendo si se contactó a autores para datos faltantes. |
| 14a | Métodos | Especificar las medidas de efecto elegidas y la justificación del método de combinación. |
| 14b | Métodos | Describir el modelo estadístico (efectos fijos o aleatorios), el estimador de heterogeneidad y el software. |
| 14c | Métodos | Describir los métodos para explorar fuentes de heterogeneidad (subgrupos, meta-regresión). |
| 21 | Resultados | Presentar el forest plot con I², τ², p-Q y el efecto global con IC 95 % para cada resultado sintetizado. |
| 22 | Resultados | Reportar los resultados de los análisis de subgrupos o meta-regresión con el número de estudios en cada grupo. |
| 23 | Resultados | Presentar la evaluación del sesgo de publicación con funnel plot y, si procede, test de Egger o Trim and Fill. |
Una guía más detallada sobre cómo documentar cada fase del diagrama de flujo PRISMA y estructurar el apartado de métodos de la revisión se encuentra en la guía completa de revisión sistemática PRISMA 2020 en español con plantilla, que incluye el checklist oficial descargable. La declaración de contribuciones en el manuscrito final debe seguir la taxonomía CRediT; para entender los 14 roles estándar y cómo evitar la mala conducta científica en una revisión con varios autores, consulta la guía sobre CRediT, autoría y retractación en 2026.
Software recomendado: RevMan, R (metafor) y OpenMeta-Analyst
La elección del software influye en las funcionalidades disponibles y en la reproducibilidad del análisis. Las opciones más utilizadas en el ámbito académico español y europeo son:
RevMan (Review Manager)
Desarrollado por la Colaboración Cochrane y de descarga gratuita, RevMan es la herramienta estándar para revisiones Cochrane. Genera forest plots y funnel plots con buena calidad gráfica, implementa los modelos de Mantel-Haenszel (efectos fijos) y DerSimonian-Laird (efectos aleatorios) y exporta los resultados en formato compatible con las guías de la Cochrane. Su limitación principal es que no implementa pruebas avanzadas de sesgo de publicación (test de Egger, Trim and Fill) ni meta-regresión.
R — paquete metafor
El paquete metafor (Viechtbauer, 2010) es la referencia académica para meta-análisis en R. Ofrece múltiples estimadores de τ² (DerSimonian-Laird, REML, Paule-Mandel, Hedges), modelos de efectos mixtos, meta-regresión, gráficos de alta calidad (forest, funnel, Baujat, GOSH) y todas las pruebas de sesgo de publicación. Es la opción recomendada cuando el meta-análisis incluye análisis avanzados o cuando la reproducibilidad mediante scripts es una prioridad editorial.
Una alternativa en R para investigadores menos familiarizados con la programación es el paquete meta (Balduzzi et al.), que incluye una interfaz más intuitiva. Para quien necesita una estimación rápida del tiempo que supone dominar estas herramientas estadísticas, puede ser útil revisar cuántas horas cuesta realmente el análisis estadístico de un TFG por software y disciplina.
OpenMeta-Analyst
OpenMeta-Analyst es una interfaz gráfica de código abierto que llama internamente a R, pensada para quienes prefieren evitar la programación directa. Permite realizar meta-análisis de resultados binarios y continuos, forest plots, análisis de subgrupos y funnel plots sin escribir código.
Comparativa rápida
| Software | Coste | Forest plot | Meta-regresión | Test de Egger | Curva de aprendizaje |
|---|---|---|---|---|---|
| RevMan 5 | Gratuito | Sí | No | No | Baja |
| R (metafor) | Gratuito | Sí | Sí | Sí | Alta |
| OpenMeta-Analyst | Gratuito | Sí | Sí | Sí | Media |
| Stata (meta) | De pago | Sí | Sí | Sí | Media |
En el contexto de una tesis doctoral, la combinación más robusta y mejor valorada por comités revisores es PRISMA 2020 + R (metafor), acompañada del script de análisis disponible en un repositorio público (OSF, GitHub, Zenodo) para garantizar la reproducibilidad.
Conocer también las diferencias entre los tipos de revisión es fundamental: la elección entre un diseño de TFG de revisión sistemática con el protocolo PICO y un meta-análisis completo depende del volumen de estudios disponibles y del objetivo de síntesis del trabajo.
Preguntas frecuentes
¿Cuántos estudios se necesitan mínimo para un meta-análisis?
No existe un número mínimo legal, pero la práctica metodológica y las guías Cochrane desaconsejan el meta-análisis con menos de tres o cuatro estudios. Con cinco o más estudios la estimación de τ² se vuelve más estable y las pruebas de heterogeneidad ganan poder. Por debajo de ese umbral es generalmente preferible una síntesis narrativa estructurada, dejando claro que la evidencia disponible no justifica la combinación cuantitativa.
¿Puedo usar efectos aleatorios aunque I² sea bajo (p.ej. 10%)?
Sí. La elección del modelo debe basarse en el supuesto conceptual sobre la naturaleza de los efectos, no únicamente en el valor de I². Si los estudios proceden de contextos, poblaciones o diseños distintos, el modelo de efectos aleatorios es conceptualmente más apropiado aunque I² sea bajo. Un I² bajo con efectos aleatorios simplemente indica que τ² es pequeño, lo cual es compatible con el modelo.
¿Qué diferencia hay entre el IC 95% del efecto global y el intervalo de predicción?
El intervalo de confianza al 95% del efecto global expresa la incertidumbre sobre la estimación de la media de la distribución de efectos (μ). El intervalo de predicción, en cambio, estima en qué rango de valores se esperaría que cayera el efecto verdadero de un nuevo estudio similar al conjunto incluido. El intervalo de predicción es siempre más amplio e incorpora τ²; por eso es especialmente informativo: un efecto global significativo con un intervalo de predicción que cruza la línea nula indica que el efecto puede no ser replicable en todos los contextos.
¿PRISMA 2020 exige registrar el protocolo antes de iniciar la revisión?
PRISMA 2020 (ítem 2) exige declarar si existe protocolo y dónde puede consultarse, pero técnicamente no impide publicar una revisión sin protocolo previo registrado. No obstante, la mayoría de revistas indexadas en JCR y Scopus que publican meta-análisis solicitan hoy el número de registro PROSPERO en la carta de presentación o en el manuscrito. Para las revisiones de ciencias de la salud en España, el registro previo es el estándar esperado por las comisiones de investigación universitarias y los comités de ética.
¿Cómo se reporta el sesgo de publicación cuando hay menos de diez estudios?
Cuando el número de estudios es inferior a diez, las pruebas estadísticas de asimetría del funnel plot (Egger, Begg) carecen de potencia suficiente para detectar un sesgo real y su resultado puede ser engañoso. En ese caso, PRISMA 2020 y las guías Cochrane recomiendan discutir el riesgo de sesgo de pequeño estudio de forma narrativa, sin presentar el funnel plot como evidencia concluyente. Se puede complementar con una búsqueda en registros de ensayos clínicos (ClinicalTrials.gov, ISRCTN) para identificar estudios no publicados.
¿En qué se diferencia un meta-análisis de una revisión sistemática?
Una revisión sistemática es un diseño de investigación secundaria que localiza, evalúa y sintetiza de forma sistemática la evidencia disponible sobre una pregunta definida. Puede terminar en una síntesis narrativa sin combinar numéricamente los resultados. El meta-análisis es la técnica estadística que combina cuantitativamente esos resultados y puede formar parte de una revisión sistemática, pero no es obligatorio. Toda revisión con meta-análisis es una revisión sistemática, pero no toda revisión sistemática incluye meta-análisis. Esta diferencia es clave para elegir correctamente el diseño del trabajo, como se detalla en la guía sobre revisión sistemática paso a paso con PRISMA 2020.
Leave a Reply