¿Cómo diseño una encuesta para mi investigación?

Introducción: el rol del instrumento en la investigación

El diseño de una encuesta es una de las decisiones metodológicas más determinantes en la investigación cuantitativa y mixta. Una encuesta bien construida permite operacionalizar constructos teóricos abstractos en reactivos medibles, obtener datos comparables entre sujetos y establecer relaciones estadísticas válidas. Sin embargo, errores en el diseño —desde la redacción de ítems hasta el procedimiento de muestreo— comprometen la validez interna (grado en que el instrumento mide lo que pretende medir) y la validez externa (generalizabilidad de los resultados). Este artículo revisa el proceso sistemático de diseño de encuestas con rigor metodológico.

Definición del problema y variables de investigación

Antes de redactar un solo reactivo, es indispensable formular con precisión la pregunta de investigación y las hipótesis derivadas. A partir de ellas se identifican las variables: unidades de análisis que pueden tomar distintos valores. Las variables se clasifican según su rol en dependientes (el fenómeno que se desea explicar), independientes (los factores explicativos) y moderadoras o controladoras. Cada variable debe ser operacionalizada: el proceso formal de traducir un concepto teórico en indicadores observables y medibles. Un constructo como "satisfacción laboral" solo puede medirse si se especifican sus dimensiones —compensación, clima organizacional, autonomía— y los indicadores que las representan.

Tipos de escalas de medición

La elección del tipo de escala condiciona el análisis estadístico posterior. Las cuatro escalas clásicas —nominal, ordinal, de intervalo y de razón— no son intercambiables:

Nominal: categorías sin orden lógico (género, ocupación). Solo permite frecuencias y moda.
Ordinal: categorías con orden, pero sin distancia igual entre ellas. Ejemplo: escalas de satisfacción muy insatisfecho–muy satisfecho. Admite mediana y percentiles.
De intervalo: distancias iguales entre puntos, sin cero absoluto. La escala Likert (que técnicamente es ordinal pero se trata como intervalo bajo ciertos supuestos) y las escalas de diferencial semántico son ejemplos frecuentes. Permite media y desviación estándar.
De razón: posee cero absoluto significativo (ingreso en pesos, horas de estudio). Admite todos los estadísticos, incluidos cocientes.

La escala Likert, la más usada en ciencias sociales, requiere una cantidad impar o par de anclajes (generalmente 5 o 7) con etiquetas verbales simétricas. El debate sobre si incluir un punto neutro central debe resolverse con base en el constructo: si la ambivalencia genuina es una respuesta válida, inclúyelo; si puede generar aquiescencia o evasión, considera eliminarlo.

Construcción de reactivos: principios técnicos

Un reactivo (ítem) es la unidad básica de la encuesta. La redacción deficiente es la fuente más común de error de medición. Los principios fundamentales son:

Redactar cada reactivo para medir un solo concepto. Los ítems dobles (double-barreled items), como "¿Está satisfecho con su salario y sus prestaciones?", imposibilitan interpretar la respuesta.
Evitar la deseabilidad social: redactar en tercera persona o con formulaciones neutras cuando el tema es sensible.
Evitar formulaciones con doble negación, jerga técnica no definida o términos ambiguos como "frecuentemente" o "bastante".
Incluir ítems inversos (reverse-scored) para detectar aquiescencia o respuestas automáticas sin lectura real del reactivo.
Ordenar los reactivos con lógica: primero los de mayor saliencia o más neutros, dejando los sensibles hacia el final para aprovechar el rapport.

Validez y confiabilidad del instrumento

Dos propiedades psicométricas son no negociables antes de aplicar la encuesta a gran escala. La confiabilidad (también llamada fiabilidad) es la consistencia de las puntuaciones cuando el instrumento se aplica en condiciones equivalentes. El coeficiente alfa de Cronbach es el índice más utilizado para medir la consistencia interna de una escala; valores ≥ 0.70 se consideran aceptables en ciencias sociales, aunque el umbral sube a ≥ 0.80 en contextos clínicos. La validez se subdivide en:

Validez de contenido: juicio de expertos sobre si los reactivos representan adecuadamente el dominio teórico. Se operacionaliza mediante el índice de validez de contenido (IVC) de Lawshe.
Validez de constructo: evidencia empírica, generalmente mediante análisis factorial exploratorio (AFE) o confirmatorio (AFC), de que los reactivos se agrupan en los factores teóricamente esperados.
Validez de criterio: correlación del instrumento con una medida externa considerada gold standard (criterio concurrente) o con un resultado futuro (criterio predictivo).

Diseño muestral

La encuesta nunca se diseña en aislamiento del plan de muestreo. Es necesario definir la población objetivo (conjunto de individuos a los que se pretende generalizar los resultados) y el marco muestral (listado o procedimiento que da acceso operativo a esa población). Los diseños muestrales se clasifican en probabilísticos —aleatorio simple, sistemático, estratificado, por conglomerados— y no probabilísticos —conveniencia, bola de nieve, cuotas—. Solo los diseños probabilísticos permiten calcular el error muestral y establecer inferencias estadísticas formales. El tamaño de muestra se determina con base en el nivel de confianza deseado (generalmente 95 %), el margen de error aceptable y la varianza estimada del constructo principal.

Pilotaje y ajuste del instrumento

Antes del levantamiento definitivo, la encuesta debe someterse a una prueba piloto con una submuestra representativa —típicamente entre 30 y 50 participantes— con el objetivo de identificar reactivos confusos, tiempos de respuesta excesivos y problemas de salto condicional en encuestas digitales. El pilotaje también permite calcular una estimación preliminar del alfa de Cronbach y la distribución de respuestas. Los reactivos con varianza cercana a cero (todo el mundo responde igual) o con cargas factoriales bajas deben ser revisados o eliminados.

Consideraciones éticas y de sesgos

El protocolo ético exige obtener el consentimiento informado de los participantes, garantizar el anonimato o la confidencialidad de los datos, y someter el instrumento a un comité de ética cuando la investigación involucra poblaciones vulnerables. En términos técnicos, es necesario controlar el sesgo de respuesta —tendencia sistemática a responder de cierta manera independientemente del contenido— y el efecto de halo —cuando la evaluación de un rasgo influye en la de otros rasgos adyacentes—.

Glosario

Operacionalización: proceso de definir cómo se medirá empíricamente un concepto teórico.
Constructo: variable latente no observable directamente, inferida a través de indicadores.
Reactivo (ítem): pregunta o afirmación individual dentro de un instrumento de medición.
Escala Likert: escala de respuesta ordenada con anclajes verbales simétricos en torno a un punto de referencia.
Alfa de Cronbach: coeficiente estadístico de consistencia interna de una escala multirreactivo.
Validez de constructo: evidencia de que un instrumento mide el factor teórico que pretende medir.
Análisis factorial: técnica estadística que identifica estructuras latentes (factores) subyacentes a un conjunto de reactivos.
Marco muestral: listado o procedimiento operativo que da acceso a la población objetivo.
Error muestral: diferencia esperada entre el estadístico de la muestra y el parámetro real de la población.
Sesgo de respuesta: tendencia sistemática del informante a responder en una dirección independientemente del contenido del reactivo.
Ítem inverso: reactivo redactado en sentido opuesto al resto de la escala, para detectar respuestas automáticas.
Deseabilidad social: tendencia a responder de manera socialmente aceptable en lugar de reflejar la opinión real.