¿Cómo analizo datos cuantitativos básicos?

Fundamentos del análisis cuantitativo: una guía metodológica

El análisis de datos cuantitativos es el conjunto de procedimientos estadísticos y matemáticos mediante los cuales se transforman observaciones numéricas en conocimiento interpretable. A diferencia del análisis cualitativo, que trabaja con categorías y significados, el enfoque cuantitativo opera sobre magnitudes medibles y busca describir, comparar o predecir fenómenos con base en evidencia numérica sistemática. Dominar su lógica básica es indispensable para cualquier investigador que trabaje con encuestas, registros administrativos, experimentos o bases de datos estructuradas.

Tipos de variables: el punto de partida

Antes de aplicar cualquier técnica, es imprescindible clasificar las variables del estudio. Una variable es cualquier característica que puede tomar distintos valores entre las unidades de análisis. La taxonomía estándar distingue entre variables nominales (categorías sin orden, como tipo de producto), ordinales (categorías con jerarquía, como nivel de satisfacción del 1 al 5), de intervalo (escala numérica con distancias iguales pero sin cero absoluto, como temperatura en Celsius) y de razón (escala numérica con cero absoluto, como ingresos en pesos). Esta clasificación determina qué operaciones aritméticas son válidas y qué estadísticos pueden calcularse legítimamente.

Estadística descriptiva: resumir antes de inferir

La estadística descriptiva tiene como objetivo sintetizar la información contenida en un conjunto de datos sin extrapolaciones más allá de la muestra observada. Sus herramientas centrales son las medidas de tendencia central y las medidas de dispersión.

Las medidas de tendencia central indican el valor típico o representativo de la distribución. La media aritmética (promedio) es la suma de todos los valores dividida entre el número de observaciones; es sensible a valores extremos. La mediana es el valor que divide la distribución en dos mitades iguales y resulta más robusta ante datos atípicos. La moda es el valor que aparece con mayor frecuencia, especialmente útil en variables nominales u ordinales.

Las medidas de dispersión cuantifican cuánto se alejan los datos de su centro. La varianza (σ²) es la media de los cuadrados de las desviaciones respecto a la media. Su raíz cuadrada, la desviación estándar (σ), expresa esa dispersión en las mismas unidades que la variable original y es el indicador más utilizado en ciencias sociales y aplicadas. El coeficiente de variación (CV = σ / media) permite comparar dispersiones entre variables con distintas escalas.

Distribución de frecuencias y visualización

Una distribución de frecuencias organiza los valores observados en clases o categorías y registra cuántas veces aparece cada una. Puede expresarse en frecuencias absolutas (conteo), relativas (proporción sobre el total) o acumuladas. La visualización complementa esta síntesis: los histogramas muestran la distribución de variables continuas; los diagramas de barras comparan categorías discretas; los diagramas de caja (boxplots) revelan simultáneamente la mediana, los cuartiles y los valores atípicos (outliers). Elegir el gráfico correcto no es cosmético: es parte del rigor metodológico.

Exploración de relaciones entre variables

Cuando el objetivo es examinar si dos variables varían juntas, se recurre a medidas de asociación. Para variables de razón o intervalo, el coeficiente de correlación de Pearson (r) mide la fuerza y dirección de una relación lineal en un rango de −1 a +1. Valores próximos a ±1 indican asociación fuerte; cercanos a 0, ausencia de relación lineal. Para variables ordinales, el coeficiente adecuado es el rho de Spearman, que opera sobre los rangos en lugar de los valores brutos. Es fundamental recordar que correlación no implica causalidad: dos variables pueden correlacionarse por efecto de una tercera variable (variable confusora) no medida.

Estadística inferencial básica

La estadística inferencial permite extender conclusiones de una muestra hacia una población más amplia, siempre con un margen de incertidumbre cuantificado. Para ello se utilizan pruebas de hipótesis. La lógica es la siguiente: se formula una hipótesis nula (H₀), que generalmente postula ausencia de efecto o diferencia, y una hipótesis alternativa (H₁). Se calcula un estadístico de prueba (por ejemplo, t, F, chi-cuadrada) y se obtiene el valor p, que representa la probabilidad de observar los datos obtenidos si H₀ fuera verdadera. Por convención, si p < 0.05, se rechaza H₀ al nivel de significancia del 5%; si p ≥ 0.05, no se rechaza. El intervalo de confianza al 95% complementa el valor p al estimar el rango dentro del cual se encuentra el parámetro poblacional con dicho nivel de certeza.

Proceso recomendado para el análisis cuantitativo básico

Auditar la base de datos: revisar valores faltantes, duplicados y errores de captura antes de cualquier cálculo.
Clasificar cada variable según su nivel de medición (nominal, ordinal, intervalo, razón) para determinar qué estadísticos son aplicables.
Calcular estadísticos descriptivos para cada variable relevante: media o mediana, desviación estándar y rango.
Explorar la distribución con histogramas o boxplots; identificar asimetría, curtosis y valores atípicos.
Analizar relaciones bivariadas con tablas de contingencia, correlaciones o diagramas de dispersión según el tipo de variables.
Aplicar pruebas inferenciales solo cuando la pregunta de investigación lo requiera y las condiciones del estadístico se cumplan (por ejemplo, normalidad para la prueba t).
Interpretar con cautela: reportar el tamaño del efecto junto al valor p, evitando reducir los resultados a "significativo/no significativo".
Documentar cada decisión metodológica para garantizar la reproducibilidad del análisis.

Condiciones y supuestos que no deben ignorarse

Cada técnica estadística descansa sobre supuestos cuya violación invalida los resultados. La prueba t de Student, por ejemplo, asume distribución aproximadamente normal y homocedasticidad (igualdad de varianzas entre grupos). La regresión lineal simple requiere linealidad, independencia de residuales y ausencia de multicolinealidad severa. Verificar estos supuestos mediante pruebas auxiliares —Shapiro-Wilk para normalidad, Levene para homocedasticidad— es parte integral del análisis, no un trámite opcional.

Glosario

Variable: característica que puede tomar distintos valores entre unidades de análisis.
Estadística descriptiva: conjunto de técnicas para resumir y describir un conjunto de datos sin inferencias poblacionales.
Media aritmética: suma de valores dividida entre el número de observaciones.
Mediana: valor que divide la distribución ordenada en dos mitades iguales.
Desviación estándar (σ): raíz cuadrada de la varianza; mide dispersión en unidades originales.
Coeficiente de variación (CV): razón entre la desviación estándar y la media; permite comparar dispersiones entre variables de distintas escalas.
Outlier: valor atípico que se aleja notablemente del resto de la distribución.
Coeficiente de correlación de Pearson (r): medida de asociación lineal entre dos variables de intervalo o razón.
Rho de Spearman: correlación basada en rangos, apropiada para variables ordinales o distribuciones no normales.
Variable confusora: variable no controlada que distorsiona la relación aparente entre otras dos variables.
Hipótesis nula (H₀): postulado de ausencia de efecto o diferencia que se somete a prueba estadística.
Valor p: probabilidad de obtener los datos observados si la hipótesis nula fuera verdadera.
Intervalo de confianza: rango de valores dentro del cual se estima que se encuentra el parámetro poblacional con un nivel de certeza determinado.
Homocedasticidad: supuesto de igualdad de varianzas entre grupos o a lo largo de los valores de una variable predictora.
Supuesto estadístico: condición matemática que debe cumplirse para que los resultados de una prueba sean válidos.