¿Cómo sé si un estudio tiene buena metodología?

Introducción: por qué importa evaluar la metodología

Leer un estudio sin evaluar su metodología equivale a aceptar un diagnóstico médico sin saber si el médico tomó los signos vitales correctos. La metodología es el conjunto de decisiones sistemáticas que un investigador toma para responder una pregunta: qué medir, cómo medirlo, a quién incluir y cómo analizar los datos resultantes. Un resultado puede ser estadísticamente significativo y al mismo tiempo metodológicamente espurio. Por eso, antes de confiar en cualquier hallazgo, conviene aplicar un filtro crítico estructurado.

Primer criterio: la pregunta de investigación y su alineación con el diseño

Toda evaluación metodológica comienza verificando que el diseño de investigación —la arquitectura general del estudio— sea congruente con la pregunta que se formula. Una pregunta causal ("¿X produce Y?") exige un diseño experimental o cuasi-experimental; una pregunta descriptiva puede resolverse con un diseño observacional. Si hay desajuste entre ambos, el estudio no puede responder lo que promete, independientemente de cuán sofisticado sea su análisis estadístico.

Pregunte: ¿el diseño elegido permite establecer el tipo de inferencia que los autores reclaman? Si los autores concluyen causalidad a partir de datos transversales —recolectados en un solo momento temporal—, hay un problema estructural.

Segundo criterio: la calidad de la muestra

La muestra es el subconjunto de la población que el estudio examina. Tres elementos deben evaluarse:

Tamaño muestral y poder estadístico: el poder estadístico (poder = 1 − β) es la probabilidad de detectar un efecto real si existe. Estudios con muestras pequeñas corren el riesgo de ser subpotenciados, lo que genera tanto falsos negativos como —paradójicamente— estimaciones de efecto infladas cuando sí encuentran algo.
Procedimiento de muestreo: el muestreo probabilístico (aleatorio simple, estratificado, por conglomerados) permite generalizar los resultados a la población de origen. El muestreo no probabilístico —por conveniencia, bola de nieve— restringe la validez externa, es decir, la capacidad de generalizar.
Criterios de inclusión y exclusión: deben estar definidos con precisión y justificados. La ausencia de estos criterios sugiere una muestra de oportunidad no controlada.

Tercer criterio: validez y confiabilidad de los instrumentos

Los instrumentos de medición —encuestas, escalas psicométricas, pruebas de laboratorio, protocolos de observación— deben demostrar dos propiedades fundamentales. La confiabilidad (también llamada fiabilidad) se refiere a la consistencia de la medición: si aplico el instrumento dos veces bajo las mismas condiciones, ¿obtengo resultados similares? Generalmente se reporta mediante coeficientes como el alfa de Cronbach para escalas de actitudes, o el coeficiente de correlación intraclase para medidas repetidas.

La validez es más compleja: alude a si el instrumento mide realmente lo que dice medir. Existen distintas formas —validez de contenido, validez de constructo, validez de criterio— y un estudio riguroso debe reportar evidencia de al menos una de ellas, idealmente más. Un instrumento puede ser confiable sin ser válido: un termómetro descalibrado marcará siempre la misma temperatura incorrecta.

Cuarto criterio: control de sesgos

El sesgo es un error sistemático que distorsiona los resultados en una dirección particular. Los estudios sólidos identifican los sesgos potenciales y describen las medidas tomadas para controlarlos. Entre los más frecuentes están:

Sesgo de selección: ocurre cuando los participantes incluidos difieren sistemáticamente de la población de interés.
Sesgo de información o medición: surge cuando los datos se recogen de forma diferencial entre grupos comparados.
Sesgo de confusión: una variable confusora (o variable de confusión) es aquella que se asocia tanto con la exposición como con el desenlace, y que puede explicar —o distorsionar— la asociación observada. Un estudio que no identifica ni controla confusores relevantes produce estimaciones espurias.
Sesgo de deseabilidad social: relevante en estudios con autorreporte; los participantes tienden a responder lo que consideran socialmente aceptable.

Los diseños experimentales con aleatorización —asignación aleatoria de participantes a condiciones— son el mecanismo más robusto para controlar confusores, conocidos y desconocidos. En estudios observacionales, se recurre a técnicas estadísticas como la regresión múltiple, el emparejamiento por puntaje de propensión o los modelos de efectos fijos.

Quinto criterio: transparencia en el análisis estadístico

Un estudio metodológicamente sólido describe su plan de análisis con suficiente detalle para ser replicable. Elementos que debe buscar:

Reporte de medidas de efecto con sus intervalos de confianza (IC), no solo valores p. Un IC estrecho alrededor de un efecto sustantivo es más informativo que un valor p de 0.049.
Declaración explícita de si el análisis fue confirmatorio —hipótesis preregistrada antes de ver los datos— o exploratorio. El HARKing (Hypothesizing After Results are Known) —presentar hallazgos exploratorios como si fueran hipótesis a priori— infla artificialmente la tasa de falsos positivos.
Manejo transparente de los datos faltantes: si hay pérdida de participantes o respuestas ausentes, ¿se realizó un análisis de sensibilidad o imputación múltiple?
Corrección por comparaciones múltiples cuando se prueban varias hipótesis simultáneamente, mediante métodos como Bonferroni o Benjamini-Hochberg.

Sexto criterio: replicabilidad y transparencia de datos

La replicabilidad —posibilidad de que otro equipo reproduzca los resultados siguiendo el mismo protocolo— es un estándar creciente en ciencia. Verifique si los autores comparten sus datos en repositorios abiertos, si el código de análisis está disponible y si existe un protocolo preregistrado en plataformas como OSF o ClinicalTrials.gov. La ausencia de estas prácticas no invalida un estudio, pero su presencia eleva considerablemente la confianza metodológica.

Lista de verificación rápida para el lector crítico

¿El diseño responde el tipo de pregunta formulada (descriptiva, causal, predictiva)?
¿La muestra es suficientemente grande y representativa?
¿Los instrumentos tienen evidencia de confiabilidad y validez reportada?
¿Se identifican y controlan los principales sesgos y confusores?
¿Se reportan tamaños de efecto e intervalos de confianza?
¿El análisis fue preregistrado o al menos claramente distinguido como exploratorio?
¿Existe acceso a datos y código para verificación independiente?

Glosario

Diseño de investigación: arquitectura metodológica que determina cómo se recolectan y analizan los datos para responder la pregunta planteada.
Validez externa: grado en que los resultados de un estudio pueden generalizarse más allá de la muestra analizada.
Confiabilidad: consistencia o estabilidad de una medición a lo largo del tiempo o entre observadores.
Validez: propiedad de un instrumento que mide efectivamente el constructo que pretende medir.
Poder estadístico: probabilidad de detectar un efecto real cuando este existe (1 − β).
Sesgo: error sistemático que desvía los resultados de la realidad en una dirección consistente.
Variable confusora: variable asociada simultáneamente con la exposición y el desenlace que puede distorsionar la relación observada.
Aleatorización: asignación aleatoria de participantes a condiciones experimentales para distribuir equitativamente variables conocidas y desconocidas.
Intervalo de confianza: rango de valores dentro del cual, con un nivel de certeza dado (habitualmente 95%), se encuentra el parámetro poblacional verdadero.
HARKing: práctica de formular hipótesis después de conocer los resultados, presentándolas como si fueran previas al análisis.
Replicabilidad: capacidad de reproducir los resultados de un estudio siguiendo el mismo protocolo en condiciones equivalentes.
Muestreo probabilístico: procedimiento en el que cada elemento de la población tiene una probabilidad conocida y mayor que cero de ser incluido en la muestra.