Descubre Cómo los Estimadores de Covarianza Sándwich Revolucionan los Modelos Estadísticos

El estimador sándwich, también conocido como el estimador robusto de la matriz de covarianza o el estimador empírico de la matriz de covarianza, ha ganado un uso creciente con la popularidad de las ecuaciones de estimación generalizadas (GEE). Su virtud radica en que proporciona estimaciones consistentes de la matriz de covarianza para las estimaciones de parámetros, incluso cuando el modelo paramétrico ajustado no se cumple o ni siquiera se especifica.

Sorprendentemente, ha habido poca discusión sobre las propiedades del método sándwich más allá de la consistencia. Investigamos el estimador sándwich en modelos de cuasi-verosimilitud de forma asintótica, y en el caso lineal de forma analítica. Bajo ciertas circunstancias, mostramos que cuando el modelo de cuasi-verosimilitud es correcto, la estimación sándwich es a menudo mucho más variable que la estimación paramétrica usual de la varianza. El aumento de la varianza es una característica fija del método, y es el precio que se paga para obtener consistencia incluso cuando el modelo paramétrico falla. Demostramos que la variabilidad adicional afecta directamente la probabilidad de cobertura de los intervalos de confianza construidos a partir de estimaciones de varianza sándwich. De hecho, el uso de estimaciones sándwich combinado con cuantiles de la distribución t da intervalos de confianza con una probabilidad de cobertura que cae por debajo del valor nominal.

Los modelos lineales generalizados son una herramienta popular en estadística aplicada, y sus estimadores de máxima verosimilitud disfrutan de gaussianidad y eficiencia asintóticas. Dado que todos los modelos están equivocados, es deseable comprender el comportamiento de estos estimadores bajo una especificación errónea del modelo. Estudiamos modelos lineales generalizados multinivel semiparamétricos, donde solo se toma la media condicional de la respuesta para seguir una forma paramétrica específica. Los estimadores preexistentes de modelos de efectos mixtos y ecuaciones de estimación generalizadas requieren la especificación de una covarianza condicional, que cuando se especifica erróneamente puede resultar en estimaciones ineficientes de los parámetros de efectos fijos. Sin embargo, a menudo es computacionalmente atractivo considerar una clase restringida y de dimensión finita de estimadores, ya que estos modelos lo implican naturalmente. Introducimos la regresión sándwich, que selecciona el estimador de varianza mínima dentro de una clase paramétrica de estimadores sobre todas las distribuciones en el modelo semiparamétrico completo.

Estimadores de Covarianza en el Marco de Objetos Orientados

Los supuestos del modelo a menudo se violan en la práctica, lo que lleva a heterocedasticidad o falta de independencia. Para abordar esto, se utilizan pruebas de parámetros o intervalos de confianza robustos. El teorema del límite central es fundamental para la validez de muchos métodos estadísticos, pero sus supuestos pueden verse comprometidos.

Se pueden calcular diferentes matrices de covarianza basadas en estas consideraciones. La mayoría de las covarianzas "usuales" se basan en supuestos que pueden no cumplirse. El paquete sandwich en R proporciona una implementación flexible de estos estimadores de covarianza robustos.

Diagrama conceptual que ilustra la relación entre supuestos del modelo, violaciones comunes (heterocedasticidad, no independencia) y la necesidad de estimadores de covarianza robustos.

Funcionalidad del Paquete `sandwich`

El paquete sandwich ofrece una variedad de estimadores de covarianza y funciones para realizar inferencias robustas. Incluye implementaciones para estimadores robustos de White, Huber-White, Eicker-Huber-White, y otros. Además, permite el cálculo de errores estándar agrupados (clustered standard errors) y covarianzas de sección transversal.

Las funciones clave en el paquete incluyen:

vcovHC(): Para calcular diferentes tipos de matrices de covarianza robustas.
vcovCR(): Para calcular errores estándar agrupados y covarianzas de sección transversal.
coeftest(): Para realizar pruebas de hipótesis y obtener errores estándar robustos para objetos de modelo.

Estimadores Disponibles y Opciones

El paquete proporciona una amplia gama de estimadores de covarianza, incluyendo:

Covarianzas robustas (type = "HC", type = "HC0" a "HC5").
Covarianzas agrupadas (type = "cluster").
Covarianzas de sección transversal (type = "HAC" para Heteroskedasticity and Autocorrelation Consistent).
Covarianzas de GARCH.

Además de los estimadores de covarianza, el paquete ofrece:

Funciones para calcular hatvalues, que miden la influencia de cada observación en las predicciones del modelo.
Compatibilidad con varios paquetes de modelado, como lm, glm, plm, lme4, betareg, y muchos más.

Captura de pantalla o ilustración de la ayuda del paquete `sandwich` mostrando la variedad de tipos de covarianza disponibles y sus parámetros.

Visualizaciones y Aplicaciones

Se pueden generar visualizaciones basadas en las funciones de covarianza e inferencia proporcionadas. Estas visualizaciones ayudan a comprender la estructura de la covarianza y el impacto de los diferentes estimadores en las pruebas y los intervalos de confianza.

La implementación del estimador sándwich se puede integrar en flujos de trabajo de análisis de datos más amplios. Por ejemplo, se puede utilizar en combinación con funciones como modelplot() para mostrar intervalos de confianza robustos junto con las estimaciones de los coeficientes.

Estimador Sándwich con Ecuaciones de Estimación Generalizadas (GEE)

La siguiente función de R devuelve la estimación de \(\beta\) utilizando el enfoque GEE (denotado como \(\hat\beta_W\) en el artículo I) bajo la configuración de un modelo lineal multivariante descrito por la ecuación (1.1). Para utilizar esta función, es necesario copiar el código y ejecutarlo en R para que esté disponible en el entorno.

La función sandwich_estimator() toma cuatro entradas: model, subjects, data y W. El model se utiliza para describir el modelo de la media y tiene la misma forma que se daría a una fórmula en lm(). La variable subjects se utiliza para identificar la variable en los datos que etiqueta los sujetos. W se utiliza para establecer la matriz de covarianza de trabajo.

En el siguiente ejemplo, se considera el mismo conjunto de datos y modelo de media que se utilizó en el ejemplo cubierto en la Sección 6.1 del artículo II. Se aplica la función sandwich_estimator() para obtener el estimador sándwich de la matriz de covarianza de los efectos fijos estimados. Primero, es necesario importar el conjunto de datos.

La función adj_sandwich_estimator() calcula el estadístico \(F\) de Wald tal como se describe en la Sección 3 del artículo I.

Referencias

Zeileis A (2004). Econometric computations with R. Journal of Statistical Software, 11(10), 1-17.
Zeileis A (2006). Multiple robust inference in linear regression models. The R Journal, 16(9), 1-16.
Zeileis A, Köll S, Graham N (2020). Benchmarking clustered standard errors. The R Journal, 12(2), 372-389.
Kauermann, Göran und Carroll, R. (2000). Asymptotic properties of efficient GEE-estimators for the marginal variance in the GEE procedure. Statistics & Probability Letters, 48(1), 35-41.
Skene & Kenward (2010). Methods in statistical modelling.

¿Debería aprender R? - R en 2 minutos 🔥

tags: #sandwich #varias #variables