El margen de error, ¿qué significa en las encuestas?

Author

Roberto Gil-Saura

Published

September 14, 2024

Introducción

El error es la magnitud o cifra que todos deberían citar y que pocos realmente entiende. Vivimos en un flujo constante de datos de encuestas. Ya sea en un sondeo electoral que predice un “empate técnico” o en un tracking de marca que muestra una “ligera caída” en la satisfacción, casi siempre vemos una nota al pie o en la ficha técnica del estudio: *“margen de error* de ±3%”. ¿Qué significa realmente este número? ¿Es un error que el encuestador cometió? ¿Es una garantía?

La realidad es que el error (MdE, margen de error) es uno de los conceptos más importantes y peor interpretados de la estadística y la investigación de mercados. No es un error en el sentido de “equivocación”, sino una medida verdaderamente honesta de la incertidumbre inherente a medir algo a través de una muestra. Con estas líneas, quiero explicar por qué es un indicador fundamental sobre la calidad de una encuesta y, a través de una simulación en R, mostrar visualmente lo que de verdad representa.

La incertidumbre de trabajar con muestras

Salvo en contadas ocasiones (como un censo), es imposible preguntar a toda una población (todos los votantes de un país, todos los clientes de una empresa). Por ello, seleccionamos una muestra representativa y usamos sus respuestas para inferir la opinión del total. Nótese que hablamos de muestreo probabilístico. Nunca en un muestreode tipo no probabilístico podremos hablar del concepto de error.

Pero vayamos con elconcepto en sí mismo. El error de muestreo es la diferencia inevitable que existe entre los resultados de nuestra muestra y el valor real de la población, ocasionado simplemente por el azar de haber seleccionado a unas personas y no a otras. El margen de error es la forma de cuantificar esta incertidumbre.

Un margen de error de ±3% con un nivel de confianza del 95% (el estándar) significa:

“Si repitiéramos esta misma encuesta 100 veces con 100 muestras diferentes, en 95 de ellas el resultado que obtendríamos estaría en un rango de ±3 puntos porcentuales del valor real de la población.”

Por tanto, el MdE crea un intervalo de confianza. Si una encuesta dice que el candidato A tiene un 45% de intención de voto con un MdE de ±3%, lo que realmente dice es que tenemos una confianza del 95% de que el apoyo real en la población está en algún lugar entre el 42% y el 48%.

El MdE como indicador de Calidad y Precisión

El MdE no es un resultado, sino un indicador de la fiabilidad de los resultados que mostramos. Es un indicador sobre la calidad de nuestra propia medición que:

  • Determina la Precisión: Un MdE grande (ej. ±10%) significa que nuestras estimaciones son muy imprecisas. Un MdE pequeño (ej. ±1%) indica una alta precisión.
  • Depende del Tamaño Muestral: Es la variable clave. A mayor tamaño de la muestra, menor es el margen de error. La relación no es lineal, por lo que duplicar la muestra no reduce el error a la mitad.
  • Define los “Empates Técnicos”: Si el candidato A tiene un 45% y el B un 43%, y el MdE es de ±3%, sus intervalos de confianza (42-48% y 40-46%) se solapan ampliamente. Es imposible afirmar estadísticamente que uno vaya por delante del otro.

Un ejemplo en R para ilustrar el margen de error

La mejor forma de entender el MdE es verlo nacer del azar. Vamos a simular una elección.

Escenario: Imaginemos un país con 10 millones de votantes. En esta población, sabemos la verdad absoluta (algo que nunca ocurre en la vida real): el 52% de los votantes apoya al “Partido Azul”. Ahora, vamos a ver qué resultados obtendríamos si hiciéramos miles de encuestas.

Paso 1: Crear la población y simular una encuesta. Primero, creamos nuestra población teórica. Luego, sacamos una única muestra de 1.000 personas y vemos qué resultado nos da.

Code
# Cargar librerías
library(dplyr)
library(ggplot2)
library(knitr)

# --- 1. Definir nuestra población "real" ---
set.seed(311265) # para que siempre nos de la misma población
tamano_poblacion <- 10000000
apoyo_real <- 0.52 # El 52% apoya al Partido Azul

# --- 2. Simular UNA única encuesta (n=1000) ---
tamano_muestra <- 1000
encuesta_unica <- sample(
  x = c("Azul", "Otro"), 
  size = tamano_muestra, 
  replace = TRUE, 
  prob = c(apoyo_real, 1 - apoyo_real)
)

resultado_unica_encuesta <- mean(encuesta_unica == "Azul")

cat(paste0("El resultado de nuestra primera encuesta es: ", round(resultado_unica_encuesta * 100, 1), "%"))
El resultado de nuestra primera encuesta es: 51.1%

Como vemos, nuestra primera encuesta no dio 52%. Esto es el error de muestreo en acción. ¿Qué pasaría si repitiéramos esto miles de veces?

Paso 2: Simular 5.000 Encuestas

Ahora, repetimos el proceso 5.000 veces para ver la distribución de todos los posibles resultados de encuestas. En la realidad, esto es inviable, sería como hacer ¡¡¡ y pagar !!! 5.000 veces la misma encuesta, pero a personas diferentes, aunque algunos de ellos pdrían repetir. El azar diría …

Code
# --- 3. Repetir el proceso 5,000 veces ---
n_simulaciones <- 5000
resultados_simulados <- replicate(n_simulaciones, {
  encuesta <- sample(
    x = c("Azul", "Otro"), 
    size = tamano_muestra, 
    replace = TRUE, 
    prob = c(apoyo_real, 1 - apoyo_real)
  )
  mean(encuesta == "Azul")
})

# Convertimos los resultados a un dataframe para ggplot
df_resultados <- data.frame(resultado = resultados_simulados)

kable(head(df_resultados), caption="Primeros 6 resultados de las 5.000 encuestas simuladas.")
Primeros 6 resultados de las 5.000 encuestas simuladas.
resultado
0.496
0.531
0.510
0.539
0.519
0.523

Paso 3: Visualizar la Distribución y el margen de error

Ahora, la magia. Visualicemos la distribución de esos 5.000 resultados en un histograma.

Code
# Calculamos el MdE teórico para comparar
# MdE = 1.96 * sqrt(p*(1-p)/n)
mde_teorico <- 1.96 * sqrt(apoyo_real * (1 - apoyo_real) / tamano_muestra)

limite_inferior <- apoyo_real - mde_teorico
limite_superior <- apoyo_real + mde_teorico

ggplot(df_resultados, aes(x = resultado)) +
  geom_histogram(aes(y = ..density..), bins = 50, fill = "skyblue", color = "black") +
  geom_density(color = "royalblue", size = 1.2) +
  
  # Línea vertical en el valor REAL de la población
  geom_vline(xintercept = apoyo_real, color = "red", linewidth = 1.5, alpha = 0.8) +
  
  # Sombreamos el área del Intervalo de Confianza del 95%
  geom_vline(xintercept = c(limite_inferior, limite_superior), color = "darkgreen", linetype = "solid", linewidth = 1) +
  
  annotate("rect", xmin = limite_inferior, xmax = limite_superior, ymin = 0, ymax = Inf, alpha = 0.1, fill = "lightgreen") +
  
  scale_x_continuous(labels = scales::percent_format(accuracy = 1)) +
  labs(
    title = "Simulación del _margen de error_",
    caption = "La línea roja es el valor real (52%) de la población.\nLas líneas verdes marcan el intervalo de confianza del 95%.",
    x = "Resultado de la Encuesta (% Apoyo Partido Azul)",
    y = "Densidad"
  ) +
  theme_minimal()+
    ggthemes::theme_economist()
Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
ℹ Please use `linewidth` instead.
Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
ℹ Please use `after_stat(density)` instead.

Distribución de los resultados de 5.000 encuestas simuladas (n=1000).

Interpretación y Conclusión

El gráfico revela la verdadera naturaleza del muestreo:

  1. La distribución se centra perfectamente en el valor real (52%). Esto demuestra que, aunque cada encuesta individual tiene un error, el proceso de muestreo es insesgado en su conjunto.
  2. La mayoría de los resultados de las encuestas caen muy cerca del valor real.
  3. Sin embargo, algunas encuestas, por pura mala suerte, caen bastante lejos.
  4. Las líneas verdes nos muestran el rango donde cayeron el 95% de todas las simulaciones. Este rango es precisamente el intervalo de confianza, y su distancia al centro es el margen de error (en este caso, ±3.1%).

Entender este concepto es vital. Nos enseña a no reaccionar de forma exagerada a pequeños cambios en un tracker de marca o en una encuesta electoral. Si el resultado se mueve dentro del margen de error, es muy probable que ese cambio no sea real, sino simple “ruido” estadístico. El margen de error no es un fallo, es la verdad de la honestidad estadística.

Referencias

Lohr, S. L. (2019). Sampling: Design and Analysis (2nd ed.). Chapman and Hall/CRC.

Moore, D. S., Notz, W. I., & Fligner, M. A. (2013). The basic practice of statistics. W. H. Freeman and Company.

Visser, P. S., Krosnick, J. A., Marquette, J., & Curtin, M. (1996). Mail surveys for election forecasting? An evaluation of the Columbus Dispatch poll. Public Opinion Quarterly, 60(2), 181-227. https://doi.org/10.1086/297748