¿Cuántas personas necesito encuestar para que sea válido?

El tamaño de muestra: la pregunta que define la validez de toda encuesta

Cuando alguien pregunta "¿cuántas personas necesito encuestar?", en realidad está formulando tres preguntas técnicas simultáneas: ¿qué nivel de error muestral puedo tolerar?, ¿qué tan seguro quiero estar de que mis resultados no son producto del azar?, y ¿qué tan heterogénea es la población que estudio? La respuesta correcta no es un número mágico, sino el resultado de un cálculo formal que vincula estos tres parámetros.

Conceptos fundacionales antes de calcular

El tamaño de muestra (n) es la cantidad de unidades de análisis —personas, hogares, empresas— que participan en un estudio. Su validez estadística depende de que la muestra sea representativa, es decir, que reproduzca con fidelidad aceptable las características de la población objetivo (el universo total al que se quiere generalizar).

Dos conceptos son indispensables antes de cualquier cálculo. El primero es el nivel de confianza: la probabilidad de que el intervalo estimado contenga el verdadero valor poblacional. En ciencias sociales y de mercado, el estándar es 95 % (equivalente a un valor crítico Z = 1.96). El segundo es el margen de error (también llamado error máximo admisible o e): cuántos puntos porcentuales de diferencia respecto al valor real se consideran aceptables. Un margen de ±5 % es frecuente en estudios de opinión; estudios clínicos o electorales exigen ±2 % o menos.

La fórmula canónica para proporciones

Para estimar una proporción —la variable más común en encuestas— la fórmula de Cochran (1977) para poblaciones grandes (o teóricamente infinitas) es:

n₀ = (Z² × p × q) / e²

Donde p es la proporción esperada del atributo de interés, q = 1 − p, Z es el valor crítico de la distribución normal estándar asociado al nivel de confianza elegido, y e es el margen de error expresado en decimales. Cuando no se conoce p, el criterio conservador es asignar p = 0.5, porque es el valor que maximiza el producto p × q y por tanto produce el mayor tamaño de muestra posible, garantizando cobertura ante cualquier distribución real.

Cuando la población es finita y conocida (tamaño N), se aplica el factor de corrección para poblaciones finitas:

n = n₀ / (1 + (n₀ − 1) / N)

Este ajuste reduce considerablemente el tamaño requerido cuando N es pequeño relativo a n₀. Por ejemplo, si el cálculo inicial arroja n₀ = 384 pero la población total es solo N = 500 personas, la muestra corregida se acerca a 218, no a 384.

¿Qué pasa si la variable no es una proporción?

Cuando la variable de interés es continua —ingreso, edad, puntaje en una escala Likert— la fórmula utiliza la desviación estándar poblacional (σ) estimada a partir de estudios previos o de una prueba piloto:

n = (Z × σ / e)²

En ausencia de referencia empírica, algunos investigadores usan el rango esperado dividido entre cuatro como aproximación conservadora de σ. Esta decisión debe documentarse y justificarse explícitamente en el apartado metodológico.

La tasa de no respuesta y su impacto real

El tamaño calculado es el mínimo de respuestas válidas requeridas, no el número de personas a contactar. Si se anticipa una tasa de no respuesta —participantes que no completan o rechazan el instrumento—, es obligatorio inflar la muestra de reclutamiento. Si se espera 20 % de no respuesta y se necesitan 400 respuestas válidas, deben contactarse al menos 500 personas: n_contacto = n_válido / (1 − tasa de no respuesta).

Diseño muestral y efecto de diseño

Todo lo anterior asume muestreo aleatorio simple (MAS). Cuando se usa un diseño más complejo —muestreo estratificado, por conglomerados o multietápico—, entra en juego el efecto de diseño (DEFF, design effect): un factor multiplicador que corrige el tamaño de muestra por la pérdida de eficiencia estadística del diseño elegido. Ignorar el DEFF en encuestas por conglomerados lleva sistemáticamente a subestimar el error real y a reportar precisión mayor a la obtenida.

Checklist para calcular el tamaño de muestra correcto

Define la población objetivo con precisión: límites geográficos, demográficos, temporales.
Elige el nivel de confianza: 90 %, 95 % o 99 %, según el rigor requerido por el contexto.
Establece el margen de error tolerable: ±3 %, ±5 %, ±10 %; mientras más pequeño, mayor la muestra.
Estima p con evidencia previa: si no existe, usa p = 0.5.
Aplica el factor de corrección: si la población es finita y menor a ~100 000 personas.
Ajusta por no respuesta esperada: documenta el porcentaje estimado y la fuente.
Incorpora el DEFF si el diseño no es MAS: multiplica n × DEFF para obtener la muestra corregida.
Verifica la viabilidad operativa: recursos, tiempo y acceso a la población determinan si el n es alcanzable.

Lo que el tamaño de muestra no garantiza

Un n estadísticamente correcto no protege contra el sesgo de selección —cuando ciertos perfiles tienen mayor probabilidad de ser incluidos que otros— ni contra el sesgo de respuesta —cuando los participantes contestan de manera sistemáticamente distinta a la realidad—. La validez de una encuesta es multidimensional: requiere adecuación del instrumento, calidad del marco muestral, procedimiento de aplicación controlado y análisis apropiado al diseño. El tamaño de muestra resuelve la validez estadística, no la validez de constructo ni la validez externa en su totalidad.

Conclusión operativa

No existe un número universal válido para toda encuesta. La respuesta correcta siempre es "depende": del margen de error que puedes defender ante tu audiencia, del nivel de confianza que exige tu campo disciplinar y de la variabilidad del fenómeno que mides. Usar una calculadora de muestra sin comprender estos parámetros produce números que parecen rigorosos pero carecen de sustento metodológico. El cálculo formal, documentado y justificado, es lo que distingue una encuesta científica de una consulta de opinión informal.

Glosario

Tamaño de muestra (n): número de unidades de análisis incluidas en el estudio.
Población objetivo: universo total al que se pretende generalizar los resultados.
Representatividad: propiedad de una muestra que reproduce fielmente las características relevantes de la población.
Nivel de confianza: probabilidad de que el intervalo estimado contenga el valor poblacional verdadero.
Margen de error (error máximo admisible, e): máxima diferencia tolerable entre el estadístico muestral y el parámetro poblacional.
Fórmula de Cochran: expresión matemática estándar para calcular n en proporciones con población grande.
Factor de corrección para poblaciones finitas: ajuste que reduce n cuando la población total es pequeña.
Tasa de no respuesta: porcentaje de unidades seleccionadas que no completan el instrumento.
Muestreo aleatorio simple (MAS): diseño en el que cada unidad tiene igual probabilidad de ser seleccionada.
Muestreo estratificado: diseño que divide la población en subgrupos homogéneos y muestrea cada uno por separado.
Efecto de diseño (DEFF): factor multiplicador que corrige el tamaño de muestra por la ineficiencia de diseños complejos respecto al MAS.
Sesgo de selección: error sistemático derivado de que ciertos perfiles tienen mayor probabilidad de participar.
Sesgo de respuesta: error sistemático derivado de que los participantes contestan de modo diferente a su comportamiento o actitud real.