Modelado estructural: PLS-SEM vs. CB-SEM

Author

Roberto Gil-Saura

Published

August 21, 2025

Introducción: Modelando lo invisible

En la investigación de mercados, rara vez medimos las cosas que más nos importan de forma directa. Conceptos como “Lealtad de marca”, “Calidad percibida” o “Satisfacción del cliente” no se pueden observar con una única pregunta. Son constructos latentes, ideas abstractas que inferimos a través de una serie de indicadores o preguntas de encuesta observables.

El verdadero reto, y donde reside el valor estratégico, es entender cómo estos constructos se relacionan entre sí. ¿Un aumento en la “Calidad percibida” conduce a una mayor “Satisfacción”, y esta a su vez fomenta la “Lealtad”? Para responder a estas preguntas complejas, los investigadores recurren a una poderosa familia de técnicas estadísticas conocida como Modelado de Ecuaciones Estructurales (SEM).

Sin embargo, bajo el paraguas de “SEM” conviven dos metodologías dominantes con filosofías, objetivos y requisitos fundamentalmente diferentes:

  1. CB-SEM (Covariance-Based SEM): El enfoque clásico, orientado a la confirmación de teorías.
  2. PLS-SEM (Partial Least Squares SEM): Un enfoque más reciente, orientado a la predicción y el desarrollo de teorías.

Elegir entre ellos no es una cuestión de superioridad, sino de alineación con los objetivos de la investigación. Este post es una inmersión profunda en estos dos modelos de análisis, una guía para entender sus diferencias fundamentales y para decidir cuándo desplegar cada uno en el campo de batalla del análisis de datos.

CB-SEM

El CB-SEM, cuyo pionero fue Karl Jöreskog, es el método original y el que muchos asocian por defecto con el término “SEM”. Su herramienta principal es el software LISREL, aunque hoy en día se implementa en R (con lavaan), AMOS, Mplus y otros.

La filosofía central: Confirmación

La esencia del CB-SEM es la prueba y confirmación de una teoría preexistente y bien fundamentada. El investigador actúa como un arquitecto: tiene un plano detallado (el modelo teórico) y su objetivo es comprobar si los datos recogidos (los materiales de construcción) se ajustan a ese plano de forma precisa.

El motor estadístico del CB-SEM es el análisis de la matriz de covarianza. Su objetivo es estimar los parámetros del modelo (las flechas entre los constructos y de los constructos a sus indicadores) de tal manera que la matriz de covarianza teórica implicada por el modelo sea lo más parecida posible a la matriz de covarianza observada en los datos.

Características clave de CB-SEM:

  • Objetivo principal: Probar una teoría. Explicar las relaciones y comprobar si el modelo propuesto es una buena representación de la realidad observada en los datos.
  • Enfoque confirmatorio: Se requiere un modelo teórico fuerte a priori, basado en literatura previa.
  • Requisitos de datos: Es sensible a las desviaciones de la normalidad multivariante y requiere tamaños de muestra relativamente grandes (típicamente > 200).
  • Modelo de medida: Tradicionalmente, se ha centrado en constructos reflectivos, donde los indicadores son vistos como “reflejos” o manifestaciones del constructo latente subyacente.
  • Evaluación del modelo: Se basa en una batería de índices de bondad de ajuste globales (Goodness-of-Fit, GoF). La lógica de estos índices es comparar el ajuste de tu modelo teórico contra modelos de referencia (como un modelo nulo donde nada se relaciona). Los más importantes son:
    • Chi-cuadrado (χ²): Una prueba formal de ajuste. Irónicamente, se busca un resultado no significativo (p > 0.05), lo que indicaría que no hay diferencia entre el modelo y los datos. Es muy sensible al tamaño muestral.
    • CFI / TLI: Índices de ajuste comparativo. Valoran el ajuste de tu modelo en relación a un modelo base. Valores > 0.90 (y preferiblemente > 0.95) se consideran buenos.
    • RMSEA: Mide el error de aproximación, penalizando la complejidad del modelo. Valores < 0.08 se consideran aceptables y < 0.06 buenos.
    • SRMR: Mide la diferencia media entre las covarianzas observadas y las predichas. Valores < 0.08 indican un buen ajuste.

PLS-SEM

El PLS-SEM, desarrollado originalmente por Herman Wold y popularizado en el marketing y la gestión por autores como Ringle, Sarstedt y Hair, ofrece una alternativa flexible y predictiva. Su herramienta más conocida es el software SmartPLS, aunque también se implementa en R (con seminr o plspm).

La filosofía central: Predicción

Si CB-SEM es el arquitecto, PLS-SEM es el ingeniero o el explorador. Su objetivo principal no es confirmar una teoría rígida, sino maximizar la varianza explicada (la predicción) de los constructos dependientes del modelo. Se centra en construir un modelo que tenga el mayor poder predictivo posible, incluso si la teoría subyacente es todavía emergente o exploratoria.

El motor estadístico de PLS-SEM es una secuencia de regresiones por mínimos cuadrados ordinarios. Estima los parámetros de forma iterativa para maximizar la capacidad predictiva. Como lo articula brillantemente Galit Shmueli (2010), PLS-SEM se inclina hacia el lado predictivo del modelado, mientras que CB-SEM se inclina hacia el explicativo.

Características clave de PLS-SEM:

  • Objetivo principal: Predicción y desarrollo de teorías. Identificar los constructos “driver” más importantes para un resultado clave.
  • Enfoque predictivo/exploratorio: Es ideal cuando la teoría es nueva, cuando el objetivo es la predicción, o cuando el modelo es muy complejo.
  • Requisitos de datos: Es robusto ante la falta de normalidad y funciona bien con tamaños de muestra pequeños.
  • Modelo de medida: Maneja con gran facilidad tanto constructos reflectivos como formativos (donde los indicadores forman o causan el constructo, en lugar de ser un reflejo de él).
  • Evaluación del modelo: Sigue un proceso secuencial y jerárquico, en lugar de usar índices globales:
    1. Evaluación del modelo de medida: Primero, se asegura que los constructos estén bien medidos. Esto implica revisar:
      • Cargas de los indicadores: Deben ser altas y significativas (> 0.708 es el ideal).
      • Fiabilidad: Fiabilidad compuesta (CR) o Alpha de Cronbach deben ser > 0.7.
      • Validez convergente: La Varianza Extraída Media (AVE) debe ser > 0.5, indicando que el constructo explica más de la mitad de la varianza de sus indicadores.
      • Validez discriminante: Se comprueba que los constructos sean distintos entre sí, usando el criterio de Fornell-Larcker o, preferiblemente, el ratio HTMT (< 0.90).
    2. Evaluación del modelo estructural: Una vez validados los constructos, se evalúan las relaciones entre ellos:
      • Significación de los paths: Se usa bootstrapping para obtener p-valores para cada relación.
      • Relevancia predictiva (R²): El coeficiente de determinación para cada constructo dependiente.
      • Tamaño del efecto (f²): Mide cuánto impacta un constructo predictor en el R² de un constructo dependiente.
      • Relevancia predictiva out-of-sample (Q²): El criterio de Stone-Geisser. Un valor > 0 indica que el modelo tiene relevancia predictiva.

Comparativa

Característica CB-SEM PLS-SEM
Objetivo principal Prueba y confirmación de teorías Predicción y desarrollo de teorías
Orientación Explicativa (¿Encaja el modelo?) Predictiva (¿Qué tan bien predecimos Y?)
Base estadística Análisis de la matriz de covarianza Serie de regresiones por mínimos cuadrados
Asunciones Normalidad multivariante, muestras grandes No requiere normalidad, funciona con muestras pequeñas
Complejidad del modelo Mejor para modelos más simples y parsimoniosos Maneja modelos muy complejos con muchos constructos e indicadores
Tipo de constructos Principalmente reflectivos Maneja fácilmente reflectivos y formativos
Evaluación del modelo Índices de bondad de ajuste globales (CFI, RMSEA…) Métricas de predicción por partes (R², Q², f²…)
Naturaleza del resultado Parámetros óptimos para el ajuste global Parámetros óptimos para la predicción local

Errores comunes y mitos a evitar

La popularización de ambos métodos ha llevado a la aparición de “reglas de simplificación” y mitos que conviene desterrar:

  • Mito 1: “Uso PLS-SEM porque mi muestra es pequeña”. Si bien PLS-SEM tiene mayor poder estadístico con muestras pequeñas, no es una panacea. Una muestra insuficiente o no representativa producirá resultados inválidos sin importar el método. La regla del “10 por flecha” es una heurística a menudo insuficiente. Es preferible realizar un análisis de potencia a priori (Hair et al., 2017).
  • Mito 2: “CB-SEM es siempre superior porque tiene índices de ajuste globales”. Los GoF de CB-SEM evalúan el ajuste del modelo, no su poder predictivo. Un modelo puede tener un ajuste excelente y una relevancia predictiva nula. El objetivo de la investigación debe dictar el criterio de evaluación.
  • Mito 3: “Los constructos formativos no se pueden usar en CB-SEM”. Es falso. Se pueden modelar, pero es técnicamente más complejo (requiere la especificación de modelos MIMIC) y menos directo que en PLS-SEM, que los maneja de forma nativa.
  • Mito 4: “Si uso PLS-SEM, no me importa la teoría”. PLS-SEM es una herramienta excelente para desarrollar teoría, pero no opera en un vacío teórico. Un buen estudio PLS-SEM siempre estará fundamentado en una lógica teórica, aunque esta sea más exploratoria.

Conclusión

La visión inicial de una rivalidad irreconciliable entre los dos métodos ha dado paso a una perspectiva mucho más matizada y sinérgica. Investigadores como Jörg Henseler han sido pioneros en tender puentes entre ambos mundos.

  1. Uso secuencial: Un flujo de trabajo de investigación robusto puede consistir en usar PLS-SEM en una fase exploratoria con una primera muestra para desarrollar y refinar un modelo predictivo. Una vez el modelo está consolidado, se puede recoger una nueva muestra para confirmarlo formalmente usando CB-SEM.
  2. Puentes metodológicos: Se han desarrollado algoritmos como PLS Consistente (PLSc) que corrigen los sesgos de los parámetros en PLS, haciendo que sus resultados para modelos reflectivos sean mucho más parecidos a los de CB-SEM.
  3. Evaluación predictiva en CB-SEM: A la inversa, cada vez más investigadores abogan por no limitarse a los índices de ajuste en CB-SEM y por evaluar también su capacidad predictiva out-of-sample, tomando prestadas ideas del mundo de PLS y del machine learning.

La elección entre PLS-SEM y CB-SEM no es una decisión sobre qué método es “mejor” en abstracto, sino sobre qué herramienta es la adecuada para el trabajo que se tiene entre manos. CB-SEM es el microscopio de alta precisión del teórico, diseñado para examinar en detalle una teoría bien definida y corroborar su estructura. PLS-SEM es la navaja suiza del analista predictivo, una herramienta flexible y robusta diseñada para construir modelos que funcionen y predigan en condiciones complejas y, a menudo, inciertas.

Un investigador de mercados moderno no debería ser un devoto de uno u otro, sino un artesano que conoce las fortalezas y debilidades de ambas herramientas. Debe saber cuándo necesita la precisión confirmatoria de un arquitecto (CB-SEM) y cuándo necesita la flexibilidad predictiva de un ingeniero (PLS-SEM) para transformar datos complejos en insights estratégicos y accionables.

Referencias

Fornell, C., & Larcker, D. F. (1981). Evaluating structural equation models with unobservable variables and measurement error. Journal of Marketing Research, 18(1), 39-50. https://doi.org/10.1177/002224378101800104

Hair, J. F., Hult, G. T. M., Ringle, C. M., & Sarstedt, M. (2017). A primer on Partial Least Squares Structural Equation Modeling (PLS-SEM) (2nd ed.). Sage.

Hair, J. F., Sarstedt, M., Ringle, C. M., & Gudergan, S. P. (2018). Advanced issues in Partial Least Squares Structural Equation Modeling (PLS-SEM). Sage.

Henseler, J., Ringle, C. M., & Sarstedt, M. (2015). A new criterion for assessing discriminant validity in variance-based structural equation modeling. Journal of the Academy of Marketing Science, 43(1), 115-135. https://doi.org/10.1007/s11747-014-0403-8

Jöreskog, K. G. (1978). Structural analysis of covariance and correlation matrices. Psychometrika, 43(4), 443-477. https://doi.org/10.1007/BF02293808

Sharma, S., & Shmueli, G. (2022). A practitioner’s guide to causal machine learning for treatment effect estimation. Available at SSRN 4280164. https://doi.org/10.2139/ssrn.4280164 (Nota: Aunque este es un trabajo más reciente de Sharma y Shmueli, su influencia en el pensamiento predictivo es muy relevante).

Shmueli, G. (2010). To explain or to predict?. Statistical Science, 25(3), 289-310. https://doi.org/10.1214/10-STS330