12/10/2010
1
12/10/2010 1
Varianza del error no constante:
heteroscedasticidad
Fortino Vela Peón
Universidad Autónoma [email protected]
Octubre, 2010México, D. F.
12/10/2010 2
Introducción
Con bastante regularidad los datos no se ajustan a lascondiciones idealizadas del modelo de regresión linealclásico. Así, por ejemplo, es frecuente encontrar erroresheteroscedasticos, particularmente en datos de cortetransversal.
Una razón de ello radica en que la varianza en la variabledependiente raramente se mantiene constante cuandoel nivel de una (o más) variable(s) explicativa(s)aumenta o disminuye.
Por ejemplo, no sólo el nivel de consumo de los “ricos”es mucho mayor al de los “pobres”, sino que también esmás variable. Los pobres tienen pocas opciones paradedicar sus ingresos a bienes distintos a los de la canastabásica; los ricos por su parte disfrutan del privilegio deconsiderar más opciones.
12/10/2010 3
Una implicación para el análisis estadístico es que no
se podrá aplicar el modelo de regresión lineal
clásico a los datos de manera inmediata.
Una transformación matemática bien elegida puede
ayudar a corregir a la heteroscedasticidad dado que
menudo es debida a la asimetría en la distribución de
Y (transformaciones Box-Cox, por ejemplo).
Desafortunadamente, no siempre es posible hacer
esto.
12/10/2010
2
12/10/2010 4
Si el resto de los supuestos del modelo de regresiónresultan validos, es decir, la existencia de una relaciónlineal, independencia y esperanza cero del término delerror, se puede demostrar que los erroresheteroscedásticos no afectan la propiedad deinsesgamiento de los coeficientes estimados medianteMCO.
No obstante, la precisión en los valores de loscoeficientes no es la mejor. Es decir, los estimadores deMCO dejan de ser los mejores estimadores linealmenteinsesgados (MELI) aspirando a ser solamenteestimadores lineales e insesgados.
Así, los errores estándar no serán los correctos, puestoque se basan en el supuesto de homoscedasticidad.
12/10/2010 5
El modelo bajo errores heteroscedasticos
Sea
Bajo heteroscedasticidad se tiene
uXβy +=0u =)(E
Iuu' 2)( σ=E
YX'X)(X'β1ˆ −=
)(1 uXβX'X)(X' += −
uXX)(X'β '1−+=ββ =)ˆ(E insesgado
…(3)
…(2)
…(1)
donde
12/10/2010 6
Ahora su varianza
Por lo tanto, bajo heteroscedasticidad se tiene
Iuu' 2)( σ=E
uE Σ=Ω= 2)'( σuu
donde Ω es
[ ] [ ]11ˆ −−= X)X(X'uu'X'X)(X'β EVar
bajo “homo”
pero bajo “hetero” Ω=≠ 22)( σσ Iuu'E
[ ] 11 )(ˆ −− Ω= X)(X'XX'X)(X'βVar
matriz de varianzas-covarianzas
12/10/2010
3
12/10/2010 7
Tipos de ΣΣΣΣu
=Σ
2
22
21
...00
.
....
0...0
0...0
n
u
σ
σσ
Heteroscedasticidad
=Σ
−−
−
−
1...
.
....
...1
...1
321
21
11
nn
an
n
u
ρρ
ρρρρ
Autocorrelación
12/10/2010 8
=Σ
−−
−
−
2321
32221
1121
...
.
....
...
...
nnn
n
n
u
σρρ
ρσρρρσ
Autocorrelación y heteroscedasticidad
(modelos ARCH, GARCH,..)
12/10/2010 9
Identificación de heteroscedasticidad: métodos gráficos
Si no existe información a priori sobre la naturaleza dela heteroscedasticidad, es común llevar a cabo laestimación del modelo de regresión para luego hacerun análisis de los residuos que se generan.
La forma inicial del análisis de residuos es mediantegráficos.
Los residuales se definen como .
Entre las propiedades importantes de los residuales seencuentran que tienen media cero y su varianza seaproxima por:
iii yyu ˆ−=
kn
SCE
kn
u
kn
uun
ii
n
ii
−=
−=
−
−=
∑∑== 1
2
1
2
2ˆ)ˆ(
σ
12/10/2010
4
12/10/2010 10
Tipos de residuales
En ocasiones resulta mejor considerar a los residualesescalados.
Son útiles además para identificar puntos atípicos ovalores extremos.
Residuales estandarizados que se definen como
2
ˆˆσ
ii
ud =
Residuales estudentizados que se definen como
)1(
ˆˆ
2ii
ii
h
ur
−⋅=
σ
12/10/2010 11
Patrones hipóteticos de los residuos para la iden-tificación de heteroscedasticidad
Los gráficos siguientes muestran un diagrama dedispersión entre y .
Fuente: Tomado de Gujarati y Porter (2010, 377)
Y2u
12/10/2010 12
Los gráficos siguientes muestran un diagrama dedispersión entre y X .
Fuente: Tomado de Gujarati y Porter (2010, 378)
2u
12/10/2010
5
12/10/2010 13
Stata tiene implementado dentro de sus rutinasambos tipos de gráficas para la identificación deheteroscedasticidad en los residuales.
Despues de estimar el modelo de regresión la sintaxisa utilizar es: rvfplot y rvpplot .
rvfplot muestra el diagrama de dispersión entreresiduales y valores ajustados.
Por su parte, rvpplot elabora el diagrama dedispersión entre residuales y cualquiera de las variablespredictoras (X’s), razón por la requiere que se señalecual es la variable a considerar, esto es, por ejemplo:
Pruebas gráficas en Stata
rvpplot x2
12/10/2010 14
Stata permite el calculo de los residualesestandarizados y estudentizados.
Una vez estimado una ecuación de regresión, lasintaxis es la siguiente:
Calculo de residuales en Stata
predict residual, resid
predict rstand, rstand
predict rstud, rstuden
(residuales simples)
(residuales estandarizados)
(residuales estudentizados)
12/10/2010 15
Métodos formales: pruebas de Park, GlesjerGlesjer y Breusch-Pagan-Godfrey
Las tres pruebas son en esencia muy similares.
Cada una de ellas es una prueba del Multiplicador deLagrange (LM), por lo que siguen el mismoprocedimiento general.
Dado el modelo de regresión:
ikikiii uxxxy +++++= ββββ ...33221
se realizan los pasos siguientes:
1.- Se estima el modelo de regresión y se obtienen losresiduales:
2.- Se estiman las regresiones auxiliares siguientes yobtienen sus R2.
iii yyu ˆˆ −=
12/10/2010
6
12/10/2010 16
ipipii ZZu εααα ++++= ln...lnˆln 2212
donde
a) Para la prueba de Park la regresión auxiliar es
= ∑=
n
iiii nuuu
1
222 /ˆ/ˆ~
b) Para la prueba de Glesjer la regresión auxiliar es
ipipii ZZu εααα ++++= ...ˆ 2212
c) Para la prueba de Breusch-Pagan-Godfrey laregresión auxiliar es
ipipii ZZu εααα ++++= ...~221
2
12/10/2010 17
En cada regresión auxiliar, las Zi's pueden ser algunoso todos los regresores
22pnR χ=
3.- A continuación se calcula el estadístico de pruebaLM. Bajo Ho: homoscedasticidad, se puede demostrarque el producto del tamaño de la muestra “n” por la R2
obtenida de las regresiones auxiliares sigueasintoticamente una distribución Ji-cuadrada con unnúmero de grados de libertad igual al número deregresores. Esto es:
Es importante observar que los estadísticos de pruebapropuestos originalmente por Park y Glesjer sonestadísticos de prueba de Wald. Sin embargo, según loprecisado por Engle (1984), puesto que todas estaspruebas son diseñadas para muestras grandes,operacionalmente son equivalentes a la prueba LM.
12/10/2010 18
22pnR χ<
4.- Una vez que se encuentra el estadístico de pruebase compara a nR2 con el valor crítico de Ji-cuadrada.Así,
Las pruebas Park, Glesjer, y de Breusch-Pagan-Godfrey requieren el conocimiento sobre la fuente deheteroscedasticidad, es decir, la(s) variable(s) Z quepuede ser causa del problema.
En la prueba de Park, el término de error en laregresión auxiliar puede no satisfacer los supuestosdel modelo de regresión lineal clásico y puede serheteroscedástico en sí mismo.
22pnR χ>si , la conclusión es que hay
heteroscedasticidad;
por el contrario, si hayhomoscedasticidad.
12/10/2010
7
12/10/2010 19
En la prueba de Glejser, el término del error ui esdiferente a cero, puede tener autocorrelación y es,irónicamente, heteroscedástico.
En la prueba de Breusch-Pagan-Godfrey el términode error es absolutamente sensible al supuesto denormalidad (principalmente en pequeñas muestras).
La hipótesis nula de la prueba Breusch-Pagan/Cook-Weisberg es que la varianza del error es la mismaversus la alternativa de que la varianza del error esuna función multiplicativa de una o más variablesindependientes.
12/10/2010 20
La prueba Breusch-Pagan-Godfrey ha sidoimplementada en Stata.
La sintaxis es estat hettest Las opciones posibles son:
Prueba Breusch-Pagan-Godfrey en Stata
estat hettest varlist especifica las variablesexplicativas consideradas en la prueba (en caso de omisiónse realiza con los valores ajustados de la dependiente,yhat).
estat hettest,normal calcula la prueba suponiendoque los residuales de la regresión se distribuyennormalmente (es la opción por defecto).
estat hettest,iid provoca que se calcule la versiónN*R2 versión del estadístico de prueba, el cuál elimina elsupuesto de normalidad.
estat hettest,fstat provoca que se calcule laversión basada en el estadístico F.
12/10/2010 21
Ejemplo
Verificamos la prueba hettest de forma manual. Para
ello se considera la influencia que se sobre el ingreso
(income ) presentan las variables: escolaridad (educ ),
la experiencia laboral (jobexp ) y la raza (race ) en
una muestra de 20 individuos, información que se
encuentra en el archivo labora1 ubicado en:
http://www.nd.edu/~rwilliam/stats2/statafile
Una vez recuperado el archivo de datos se calculan
algunas estadísticas descriptivas de la variables en
análisis.
12/10/2010
8
12/10/2010 22
use http://www.nd.edu/~rwilliam/stats2/statafiles/re g01.dta,clearsumreg income educ jobexp
Variable | Obs Mean Std. Dev. Min Max-------------+------------------------------------- -------------------
income | 20 24.415 9.788354 5 48.3educ | 20 12.05 4.477723 2 21
jobexp | 20 12.65 5.460625 1 21race | 20 .5 .5129892 0 1
Del listado se puede señalar que el ingreso promediode los individuos en la muestra alcanzo los 24.42dólares; su nivel escolaridad promedio fue de 12 añosal igual que los años de experiencia laboral.
12/10/2010 23
graph matrix income educ jobexp race
income
educ
jobexp
race
0
50
0 50
0
10
20
0 10 20
0
10
20
0 10 20
0
.5
1
0 .5 1
12/10/2010 24
reg income educ jobexp
Source | SS df MS Number of ob s = 20
-------------+------------------------------ F( 2, 17) = 46.33Model | 1538.22521 2 769.112605 Prob > F = 0.0000
Residual | 282.200265 17 16.6000156 R-squared = 0.8450
-------------+------------------------------ Adj R-sq uared = 0.8267
Total | 1820.42548 19 95.8118671 Roo t MSE = 4.0743
--------------------------------------------------- ---------------------------
income | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------
educ | 1.933393 .2099494 9.21 0.000 1. 490438 2.376347
jobexp | .6493654 .1721589 3.77 0.002 .2861417 1.012589_cons | -7.096855 3.626412 -1.96 0.067 -1 4.74792 .5542052
--------------------------------------------------- ---------------------------
estat hettest
Breusch-Pagan / Cook-Weisberg test forheteroskedasticity
Ho: Constant varianceVariables: fitted values of income
chi2(1) = 0.12Prob > chi2 = 0.7238
12/10/2010
9
12/10/2010 25
rvfplot, yline(0)
-10
-50
510
Res
idua
ls
0 10 20 30 40 50Fitted values
12/10/2010 26
rvpplot educ, yline(0) rvpplot jobexp, yline(0)
-10
-50
510
Res
idua
ls
0 5 10 15 20educ
-10
-50
510
Res
idua
ls
0 5 10 15 20jobexp
12/10/2010 27
predict yhatpredict e, residgen e2= e^2 / (e(rss)/e(N))reg e2 yhat
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 1, 18) = 0.18
Model | .249695098 1 .249695098 Pro b > F = 0.6758
Residual | 24.8679862 18 1.38155479 R-squared = 0.0099
-------------+------------------------------ Adj R-sq uared = -0.0451
Total | 25.1176813 19 1.32198323 Roo t MSE = 1.1754
--------------------------------------------------- ---------------------------
e2 | Coef. Std. Err. t P>|t| [95 % Conf. Interval]
-------------+------------------------------------- ---------------------------
yhat | .0127408 .0299691 0.43 0.676 -. 050222 .0757036
_cons | .6889345 .7774684 0.89 0.387 -.944466 2.322335
--------------------------------------------------- ---------------------------
display "Chi Square (1) = " e(mss) / 2Chi Square (1) = .12484755display "Prob > chi2 = " chi2tail(1, e(mss)/ 2)Prob > chi2 = .72383527
12/10/2010
10
12/10/2010 28
Prueba Goldfeld-Quandt
Idea: “Si los errores son homoscedásticos entoncestienen la misma varianza en toda la muestra, razónpor la que la varianza de los residuales de una partede las observaciones de la muestra debe tener igualvarianza a la de cualquier otra parte de lasobservaciones en la muestra”.
El acercamiento consiste en probar la presencia deheteroscedasticidad mediante una prueba de igualdadde varianzas de los residuales mediante la estadísticaF.
Se parte del modelo de regresión siguiente:
ikikiii uxxxy +++++= ββββ ...33221
12/10/2010 29
1. Identificar una variable con la que la varianza de loserrores este relacionada. Con propósito ilustrativo,suponga que es con X1 positivamente.
2. Ordenar en forma ascendente a las observacionessegún los valores de X1.
3. Omitir C observaciones centrales donde C esespecificada a priori, dividiendo a las restantes n-Cobservaciones en dos grupos cada uno con un total de(n-C)/2 observaciones
:0H
Procedimiento
La determinación de C es arbitraria. Sin embargo,suele considerarse como criterios el omitir entre un 20y un 25% de las observaciones totales.
ui homoscedasticos
12/10/2010 30
4. Estimar dos regresiones separadas correspondientesa los dos grupos; la primera considerando las (n-C)/2observaciones y la segunda con las (n-C)/2observaciones. De estas se obtienen la suma decuadrados de los errores respectivas: SCE1 quecorresponde a los valores más pequeños de X1 ySCE2 a la de los valores más grandes de X1 (el grupogrande de la variación), y se calcula el estadístico deprueba F.
donde los grados de libertad son
11
22
//υυ
SCE
SCEF =
221
Cn −== υυ
12/10/2010
11
12/10/2010 31
5. Si ui se distribuye normalmente, la regla de decisiónes:
donde Ft= F(n-C)/2 , (n-C)/2
Rechazar Ho ssi Fc>Ft
Comentarios
- Esta prueba depende fuertemente tanto de la
identificación de la variable X que genera la
heteroscedasticidad como del valor de C.
- Adicionalmente la prueba no puede considerarsituaciones donde la fuente de heteroscedasticidad espor la combinación de varias variables. En este caso,debido a que no existe una sola variable que cause delproblema, la prueba de Goldfeld-Quandt concluiráprobablemente que no existe heteroscedasticidadcuando de hecho si la hay.
12/10/2010 32
Establece como hipótesis nula que la varianza de loserrores es constante (homoscedasticidad).
Para probar esto se estima una regresión auxiliardonde se regresa a los residuales al cuadrado sobre susregresores (originales), el cuadrado de los regresores ylos productos cruzados de los regresores.
La prueba no requiere ningún conocimiento previosobre la fuente de heteroscedasticidad.
La prueba no depende del supuesto de normalidad delos errores.
Seaiiii uxxy +++= 33221 βββ
Prueba de White (1980)
12/10/2010 33
1. Estimar el modelo de regresión y obtener susresiduales.
2. Estimar la regresión auxiliar siguiente y obtener suR2 asociada:
3. Calcular la estadística de prueba dado por elproducto de n y R2 obtenido de la regresión auxiliar,el cual sigue de manera asintótica una distribuciónJi-cuadrada con grados de libertad igual al númerode regresores (sin incluir al término constante) en laregresión auxiliar. Esto es,
4. Si nR2>χ2 la conclusión es que existeheteroscedasticidad.
iiiiiiii xxxxxxu εγγγγγγ ++++++= 23
224
235
22433221
2ˆ
Procedimiento
25
2 χ=nR
12/10/2010
12
12/10/2010 34
Prueba de White en Stata
La prueba de White se puede estimar vía la sintaxisestat imtest, white o simplemente imtest,white , o bien whitetst .
Stata computa la prueba extendida de Whiteconsiderando en la regresión auxiliar a los residualesal cuadrado contra todos los regresores, los productoscruzados y los cuadrados de los distintos regresores.
12/10/2010 35
Ejemplo 2
Se desea establecer la influencia que se sobre el
número de hijos nacidos vivos (ceb ) por mujer
presentan las variables: edad de la madre (age ), edad
al primer nacimiento (agefbrth ) y la escolaridad
(educ ). Para ello se considera la información de 4361
mujeres en los Estados Unidos misma que se encuentra
en el archivo fertil2 ubicado en:
http://www.stata-press.com/data/imeus/fertil2
Una vez recuperado el archivo de datos, lo primero a
resolver es determinar qué variables presentan valores
perdidos (missing values).
12/10/2010 36
Para ello se puede recurrir al archivo mdesc el cualrealiza un conteo del número de valores perdidos paracada una de las variables numéricas (finditmdesc).
Variable Missing Total Missing/Total-------------------------------------------------
age 0 4361 0educ 0 4361 0
ceb 0 4361 0agefbrth 1088 4361 .249484
mdesc
dis 4361- 1088 =3273drop if missing(agefbrth)
use http://www.stata-press.com/data/imeus/fertil2, cl ear
keep age educ ceb agefbrth
12/10/2010
13
12/10/2010 37
sum ceb educ age agefbrth
La edad promedio de las mujeres captadas en lamuestra (con registros validos) fue de 30 años con unaedad al primer nacimiento de 19 años. No obstante,hubo quienes tuvieron a su primer hijo a los 10 años.En promedio el número de hijos nacidos vivos pormujer es de 3.2. La escolaridad promedio fue de 5.4años.
Variable | Obs Mean Std. Dev. Min Max-------------+------------------------------------- -------------------
age | 3273 30.04277 7.984743 15 49educ | 3273 5.406355 4.067566 0 20
ceb | 3273 3.253284 2.253429 1 13agefbrth | 3273 19.0113 3.092333 10 38
12/10/2010 38
Se espera que el número de hijos nacidos vivos (ceb):
- aumente con la edad actual de la madre (age);
- disminuya con la edad al primer nacimiento (agefbrth);
- disminuya con mayores niveles de escolaridad (esc)
12/10/2010 39
graph matrix ceb age agefbrth educ
ceb
age
agefbrth
educ
0
5
10
15
0 5 10 15
0
50
0 50
10
20
30
40
10 20 30 400
10
20
0 10 20
12/10/2010
14
12/10/2010 40
regress ceb age agefbrth educestimates store original
Source | SS df MS Number of ob s = 3273-------------+------------------------------ F( 3, 3269) = 1569.02
Model | 9805.3274 3 3268.44247 Prob > F = 0.0000Residual | 6809.6998 3269 2.08311404 R-squared = 0.5901
-------------+------------------------------ Adj R-sq uared = 0.5898
Total | 16615.0272 3272 5.0779423 Roo t MSE = 1.4433
--------------------------------------------------- ---------------------------
ceb | Coef. Std. Err. t P>|t| [95% Con f. Interval]
-------------+------------------------------------- ---------------------------age | .2108335 .0035151 59.98 0.000 .20 39414 .2177255
agefbrth | -.2372357 .0088494 -26.81 0.000 -.2545867 -.2198847
educ | -.0729918 .0066071 -11.05 0.000 -.0 859462 -.0600374
_cons | 1.824042 .1671298 10.91 0.000 1 .496352 2.151732--------------------------------------------------- ---------------------------
12/10/2010 41
rvfplot
-10
-50
5R
esid
uals
0 2 4 6 8 10Fitted values
12/10/2010 42
rvpplot age
-10
-50
5R
esi
dua
ls
10 20 30 40 50age
rvpplot agefbrth
-10
-50
5R
esi
dua
ls
10 20 30 40agefbrth
12/10/2010
15
12/10/2010 43
predict resid, residgen resid2= resid^2
01
02
03
04
05
0re
sid
2
10 20 30 40agefbrth
010
2030
4050
resi
d2
10 20 30 40 50age
sc resid2 agefbrthsc resid2 age
12/10/2010 44
Prueba Goldfeld-Quandt
sort agefbrthgen m=.replace m=1 in 1/1452replace m=2 in 1820/3273regress ceb age agefbrth educ if m==1scalar scrm1=e(rss)scalar df1=e(df_r)
Source | SS df MS Number of obs = 1452-------------+------------------------------ F( 3, 1448) = 718.38
Model | 4611.97745 3 1537.32582 Pro b > F = 0.0000Residual | 3098.72434 1448 2.140003 R -squared = 0.5981
-------------+------------------------------ Adj R-sq uared = 0.5973Total | 7710.70179 1451 5.3140605 Roo t MSE = 1.4629
--------------------------------------------------- ---------------------------ceb | Coef. Std. Err. t P>|t| [95 % Conf. Interval]
-------------+------------------------------------- ---------------------------age | .2123868 .0053677 39.57 0.000 .20 18575 .2229161
agefbrth | -.1071605 .0297124 -3.61 0.000 -.1654445 -.0488765educ | -.0940836 .0113811 -8.27 0.000 -.1 164087 -.0717585
_cons | -.3348579 .5045349 -0.66 0.507 -1 .324555 .6548397--------------------------------------------------- ------------- --------------
12/10/2010 45
Prueba Goldfeld-Quandt
regress ceb age agefbrth educ if m==2scalar scrm2=e(rss)scalar df2=e(df_r)scalar F= ((scrm2/df2)/(scrm1/df1))display F
Source | SS df MS Number of ob s = 1454-------------+------------------------------ F( 3, 1450) = 676.63
Model | 3939.75191 3 1313.25064 Prob > F = 0.0000Residual | 2814.2646 1450 1.94087214 R-squared = 0.5833
-------------+------------------------------ Adj R-sq uared = 0.5825Total | 6754.01651 1453 4.64832519 Roo t MSE = 1.3932
--------------------------------------------------- ---------------------------ceb | Coef. Std. Err. t P>|t| [95% Con f. Interval]
-------------+------------------------------------- ---------------------------age | .2060849 .0051318 40.16 0.000 .19 60182 .2161515
agefbrth | -.2807764 .0141002 -19.91 0.000 -.3084354 -.2531173educ | -.0602906 .0085651 -7.04 0.000 -.0 770919 -.0434892
_cons | 2.851509 .3012148 9.47 0.000 2 .260645 3.442372--------------------------------------------------- ---------------------------
12/10/2010
16
12/10/2010 46
Prueba Goldfeld-Quandt
describesort agefbrth
dis 3273*.25dis 3273*.25 =368.25dis 367/2 =183.5dis (3273+1)/2 =1637dis 1637-184 =1453dis 1637+184 =1821dis 1821-1453 = 368
drop in 1452/1820
12/10/2010 47
hettest age agefbrth
hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedas ticityHo: Constant varianceVariables: age agefbrth
chi2(2) = 1613.76Prob > chi2 = 0.0000
Breusch-Pagan / Cook-Weisberg test for heteroskedas ticityHo: Constant varianceVariables: fitted values of ceb
chi2(1) = 1633.15Prob > chi2 = 0.0000
12/10/2010 48
imtest, white
White's test for Ho: homoskedasticityagainst Ha: unrestricted heteroskedasticity
chi2(9) = 850.98Prob > chi2 = 0.0000
Cameron & Trivedi's decomposition of IM-test
---------------------------------------------------Source | chi2 df p
---------------------+-----------------------------Heteroskedasticity | 850.98 9 0.0000
Skewness | 56.38 3 0.0000Kurtosis | 69.03 1 0.0000
---------------------+-----------------------------Total | 976.38 13 0.0000
---------------------------------------------------
12/10/2010
17
12/10/2010 49
regress ceb age agefbrth educ,robustestimates store robustos
Linear regression Number of obs = 3273F( 3, 3269) = 837.36Prob > F = 0.0000R-squared = 0.5901Root MSE = 1.4433
--------------------------------------------------- ---------------------------| Robust
ceb | Coef. Std. Err. t P>|t| [95 % Conf. Interval]-------------+------------------------------------- ---------------------------
age | .2108335 .0046423 45.42 0.000 .2 017314 .2199355agefbrth | -.2372357 .00958 -24.76 0.000 -.2560191 -.2184523
educ | -.0729918 .006377 -11.45 0.000 -.0 854952 -.0604885_cons | 1.824042 .1615009 11.29 0.000 1.507389 2.140695
--------------------------------------------------- ---------------------------
12/10/2010 50
estimates table original robustos,b(%9.4f) se(%5.3f) t(%5.2f)
--------------------------------------Variable | original robustos
-------------+------------------------age | 0.2108 0.2108
| 0.004 0.005 | 59.98 45.42
agefbrth | -0.2372 -0.2372 | 0.009 0.010 | -26.81 -24.76
educ | -0.0730 -0.0730 | 0.007 0.006 | -11.05 -11.45
_cons | 1.8240 1.8240 | 0.167 0.162 | 10.91 11.29
--------------------------------------
12/10/2010 51
Soluciones al problema de heteroscedasticidad
Cuando de presenta una estructura de erroresheteroscedastica se puede proceder por alguna delas siguientes rutas:
a) Emplear una transformación de Y deltipo Box-Cox;
b) Aplicar mínimos cuadradosponderados;
c) Corregir los errores estándar porheteroscedasticidad.
12/10/2010
18
12/10/2010 52
Transformaciones Box-Cox
Box y Cox (1964) propusieron realizar latransformación paramétrica Yλ sobre la variable derespuesta Y de manera tal que Yλ cumpliera con lossupuestos del modelo de regresión lineal (corrigeasimetría, no linealidad y heteroscedasticidad).
Las transformaciones consideradas por los autoresforman parte de la familia de las transformacionespotencia y raíz.
Su propuesta original fue
,ln
,)(
1
y
yy λλ
λ −
= si λ≠0
si λ=0
12/10/2010 53
El valor de λ se estima a partir de los datos.
Kutner et. al. (2005) señalan que puede emplearsesimplemente la transformación
iii uxy ++= 21 ββλ
La forma de determinar el valor de λ considera:
i. el método de máxima verosimilitud,el cual además de estimar a λtambién estima β1, β2 y σ2;
ii. un proceso de búsqueda numéricamediante el cual se minimice a laSCE.
12/10/2010 54
Respecto al procedimiento de busca numérica,Kutner et. al (2005: 135) apuntan que cada valor de λlas observaciones deben ser estandarizadas a finde que la SCE no dependa del valor de λ, donde
),(ln
),1(
2
11
i
iyK
yKw
−=
λ si λ≠0
si λ=0
λiy
dondenn
iiyK
/1
12
= ∏=
12
1
1−= λλK
K
…(A)
12/10/2010
19
12/10/2010 55
Considerando los datos de la tabla 3.9 de Kutner et.al.(2005) en la cual se presentan los datos de 25 niñossanos respecto a su edad (X) y su nivel de plasmapoliamina (Y), moléculas que afectan los aspectos deldesarrollo, crecimiento, senescencia y respuesta alestrés, se pide encontrar el valor de λ más adecuadopara transformar a la variable Y.
Ejemplo
Empleando (A) se obtienen para los valores λ= 1, .9, .7,.5, .3, .1, 0, -.1, -.3, -.4, .5. -.6, -.7, -.9 y 1.0 siguientes:
12/10/2010 56
k1 lambda k21.0000 1.0 8.51631.3765 0.9 8.51632.7163 0.7 8.51635.8365 0.5 8.5163
14.9298 0.3 8.516368.7428 0.1 8.5163
- - 0.0 8.5163-105.5061 -0.1 8.5163-53.9767 -0.3 8.5163-50.1526 -0.4 8.5163-49.7059 -0.5 8.5163-51.3159 -0.6 8.5163-54.4917 -0.7 8.5163-65.0484 -0.9 8.5163-72.5278 -1.0 8.5163
12/10/2010 57
Valor de λλλλ 1 0.9 0.7 0.5 0.3 0.1 0 child age y w1 w2 w3 w4 w5 w6 w7
1 0 13.44 12.4400 12.8908 14.0276 15.5606 17.6220 20.3961 22.1274138 2 0 12.84 11.8400 12.3162 13.5008 15.0775 17.1790 19.9899 21.7384729 3 0 11.91 10.9100 11.4203 12.6694 14.3059 16.4629 19.3252 21.0981568 4 0 20.09 19.0900 19.1098 19.4689 20.3240 21.7941 24.0523 25.5508639 5 0 15.60 14.6000 14.9388 15.8688 17.2160 19.1104 21.7345 23.396649 6 1 10.11 9.1100 9.6658 11.0021 12.7215 14.9570 17.8940 19.7027286 7 1 11.38 10.3800 10.9067 12.1868 13.8526 16.0371 18.9253 20.7104856 8 1 10.28 9.2800 9.8327 11.1632 12.8768 15.1069 18.0386 19.8447402 9 1 8.96 7.9600 8.5286 9.8902 11.6341 13.8937 16.8541 18.6743416 10 1 8.59 7.5900 8.1597 9.5235 11.2696 13.5314 16.4939 18.3151955 11 2 9.83 8.8300 9.3901 10.7350 12.4627 14.7063 17.6510 19.4635383 12 2 9.00 8.0000 8.5684 9.9295 11.6731 13.9323 16.8922 18.7122762 13 2 8.65 7.6500 8.2196 9.5832 11.3293 13.5909 16.5532 18.3744741 14 2 7.85 6.8500 7.4171 8.7755 10.5162 12.7725 15.7295 17.5480007 15 2 8.88 7.8800 8.4490 9.8113 11.5560 13.8163 16.7774 18.5979615 16 3 7.94 6.9400 7.5077 8.8675 10.6097 12.8674 15.8258 17.6450846 17 3 6.01 5.0100 5.5381 6.8158 8.4719 10.6394 13.5032 15.2733861 18 3 5.14 4.1400 4.6304 5.8275 7.3958 9.4676 12.2271 13.9416743 19 3 6.90 5.9000 6.4532 7.7833 9.4948 11.7209 14.6468 16.449462 20 3 6.77 5.7700 6.3203 7.6444 9.3497 11.5693 14.4884 16.2874788 21 4 4.86 3.8600 4.3350 5.4990 7.0304 9.0610 11.7748 13.4646355 22 4 5.10 4.1000 4.5883 5.7809 7.3442 9.4105 12.1638 13.8751402 23 4 5.67 4.6700 5.1850 6.4351 8.0613 10.1966 13.0256 14.7774326 24 4 5.75 4.7500 5.2683 6.5253 8.1590 10.3024 13.1402 14.8967526 25 4 6.23 5.2300 5.7655 7.0588 8.7315 10.9167 13.7994 15.5795614
SCE 77.9831 70.3505 57.8369 48.3707 41.3634 36.3689 34.5195
12/10/2010
20
12/10/2010 58
reg w1 age
Source | SS df MS Number of ob s = 25-------------+------------------------------ F( 1, 23) = 70.21
Model | 238.0562 1 238.0562 Prob > F = 0.0000Residual | 77.9830686 23 3.3905682 R-squared = 0.7532
-------------+------------------------------ Adj R-sq uared = 0.7425Total | 316.039268 24 13.1683028 Roo t MSE = 1.8413
reg w2 age
Source | SS df MS Number of ob s = 25-------------+------------------------------ F( 1, 23) = 75.86
Model | 232.034312 1 232.034312 Prob > F = 0.0000Residual | 70.3505047 23 3.0587176 R-squared = 0.7673
-------------+------------------------------ Adj R-sq uared = 0.7572
reg w3 age
Source | SS df MS Number of ob s = 25-------------+------------------------------ F( 1, 23) = 88.19
Model | 221.762335 1 221.762335 Prob > F = 0.0000Residual | 57.8368633 23 2.51464623 R-squared = 0.7931
-------------+------------------------------ Adj R-sq uared = 0.7841Total | 279.599198 24 11.6499666 Roo t MSE = 1.5858
reg w4 age
Source | SS df MS Number of ob s = 25-------------+------------------------------ F( 1, 23) = 101.57
Model | 213.615737 1 213.615737 Prob > F = 0.0000Residual | 48.3707214 23 2.10307484 R-squared = 0.8154
-------------+------------------------------ Adj R-sq uared = 0.8073Total | 261.986458 24 10.9161024 Roo t MSE = 1.4502
12/10/2010 59
Valor de l -0.1 -0.3 -0.4 -0.5 -0.6 -0.7 -0.9 -1 w8 w9 w10 w11 w12 w13 w14 w15 24.1411 29.2204 32.4134 36.1475 40.5212 45.6518 58.7725 67.1314 23.7686 28.8788 32.0863 35.8344 40.2213 45.3646 58.5091 66.8792 23.1518 28.3063 31.5348 35.3030 39.7093 44.8714 58.0513 66.4381 27.3470 32.0329 35.0482 38.6163 42.8346 47.8199 60.6777 68.9176 25.3447 30.3029 33.4400 37.1211 41.4446 46.5275 59.5603 67.8786 21.7913 27.0129 30.2736 34.0733 38.5103 43.7021 56.9395 65.3539 22.7760 27.9533 31.1926 34.9714 39.3880 44.5599 57.7587 66.1545 21.9307 27.1475 30.4058 34.2031 38.6378 43.8274 57.0603 65.4725 20.7742 26.0182 29.2899 33.1003 37.5480 42.7505 56.0086 64.4332 20.4161 25.6622 28.9350 32.7465 37.1952 42.3987 55.6589 64.0845 21.5558 26.7848 30.0491 33.8522 38.2927 43.4879 56.7319 65.1496 20.8120 26.0555 29.3270 33.1373 37.5848 42.7870 56.0448 64.4691 20.4754 25.7213 28.9940 32.8054 37.2541 42.4575 55.7175 64.1431 19.6461 24.8866 28.1565 31.9651 36.4110 41.6116 54.8659 63.2886 20.6982 25.9429 29.2149 33.0257 37.4738 42.6765 55.9353 64.3602 19.7440 24.9859 28.2566 32.0660 36.5126 41.7139 54.9698 63.3933 17.3220 22.4598 25.6764 29.4305 33.8204 38.9636 52.0990 60.4599 15.9322 20.9460 24.0966 27.7816 32.0994 37.1674 50.1421 58.4173 18.5314 23.7388 26.9918 30.7832 35.2116 40.3944 53.6124 62.0165 18.3659 23.5658 26.8149 30.6024 35.0268 40.2055 53.4150 61.8147 15.4291 20.3863 23.5062 27.1589 31.4426 36.4746 49.3714 57.6044 15.8622 20.8685 24.0150 27.6958 32.0091 37.0724 50.0369 58.3066 16.8070 21.9043 25.0995 28.8314 33.1983 38.3175 51.4022 59.7363 16.9312 22.0388 25.2396 28.9771 33.3499 38.4754 51.5732 59.9142 17.6385 22.7979 26.0259 29.7917 34.1937 39.3495 52.5113 60.8861
33.0559 31.1768 30.7182 30.5595 30.6875 31.0902 32.7042 33.9088872
12/10/2010 60
3040
5060
7080
SC
E
-1 -.5 0 .5 1lambda
12/10/2010
21
12/10/2010 61
Stata tiene incluida la rutina para encontrar el valorde y utilizando el método de máxima versosimitud.
λiy
Transformaciones Box-Cox en Stata
boxcox y ageNumber of obs = 25LR chi2(1) = 50.33
Log likelihood = -37.983365 Pr ob > chi2 = 0.000
--------------------------------------------------- ---------------------------y | Coef. Std. Err. z P>|z| [95% Conf . Interval]
-------------+------------------------------------- ---------------------------/theta | -.5049226 .2926884 -1.73 0.085 -1.078581 .068736
--------------------------------------------------- ---------------------------
Estimates of scale-variant parameters----------------------------
| Coef.-------------+--------------Notrans |
age | -.0792865_cons | 1.456585
-------------+--------------/sigma | .0440194
----------------------------
--------------------------------------------------- ------Test Restricted LR statistic P-value
H0: log likelihood chi2 Prob > chi2--------------------------------------------------- ------theta = -1 -39.283475 2.60 0 .107theta = 0 -39.506554 3.05 0 .081theta = 1 -49.693662 23.42 0 .000--------------------------------------------------- ------
12/10/2010 62
Transformación de las variables del modelo
Con el fin de encontrar un estimador con mayorprecisión que el ofrecido por MCO bajoheteroscedasticidad, la idea es encontrar unatransformación adecuada para ui, de manera tal quecumpla con el supuesto de homocedasticidad.
Una posibilidad es multiplicar a ui por xi-1/2, para
entonces
el cual es homoscedastico.
221)(
12/1 σσ ===
i
ii
ii
i xx
uVarxx
uVar
12/10/2010 63
Mínimos Cuadrados Generalizados (MCG)
Si el supuesto de homoscedasticidad no se cumpleentonces se tiene
Bajo heteroscedasticidad se tiene
Ωuu' 2)( σ=Edonde Ω es una matriz simétrica nxn que dependede X pero es diferente de I.
=Σ=Ω
n
u
ω
ωω
σ
...00
.
....
0...0
0...0
2
1
2
12/10/2010
22
12/10/2010 64
Dado que la varianzas dependen de los valores de X(heteroscedastidad condicional), se puede reescribira Σu como:
Se puede encontrar a una matriz P, llamada matriz detransformación, tal que al modificar al vector u deforma
Vuu' 22
1
2
2
22
12
...00
..
....
0...0
0...0
...00
..
....
0...0
0...0
)( σσ
σ
σσ
=
=
=Σ=
nn
u
x
x
x
x
x
x
E
Puu =*
12/10/2010 65
ofrezca una matriz de var-cov del vector de errorestransformado homoscedastica
La matriz de transformación P es de dimensión nxn .
La forma precisa que toma P depende de loselementos de la matriz Σu.
Es posible considerar multiplicar todo el modelo por lamatriz P
I'uuu * 2** )()( σ== EVar
12/10/2010 66
El modelo bajo MCG
Sea
¿Cómo encontrar a P?
Si σσσσi2 fueran conocidas la corrección sería directa, ya
que se puede considerar para encontrar a P
Lo más realista es que σσσσi2 sean desconocidas.
Afortunadamente existen algunos supuestosrazonables para establecer el patrón deheteroscedasticidad los cuales pueden surgir delexamen gráfico.
PuPXβPy +=
**1**ˆ Y'X)X'(Xβ−= son MELI
*** uβXy +=
12/10/2010
23
12/10/2010 67
Patrones de heteroscedasticidad
Uno de los patrones más comunes es que lavarianza del error sea proporcional a Xi
2, esto es
La transformación a considerar es dividir a todas lasobservaciones sobre . Así,2/1
iX
iXuEi
22)( σ=
=
−
−
−
2/1
2/12
2/1
...00
..
....
0...0
0...01
nx
x
x
P
12/10/2010 68
Bajo este patrón, las variables transformadas serán
=
⋅
=
−
−
−
2/11
2/112
2/111
2
1
2/1
2/12
2/1
/
.
.
/
/
.
.
...00
..
....
0...0
0...01
xy
xy
xy
y
y
y
x
x
x
nnn
*y
=
⋅
=
−
−
−
−
−
−
2/12/12/1
2/12
2/12/1
2/12/12/1
1
212
111
2/1
2/12
2/1
11
12122
1111111
/...
....
....
/...
/...
...1
....
....
...1
...1
...00
..
....
0...0
0...0
nknn
k
xxxx
xxxx
xxxx
xx
xx
xx
x
x
x
nknn
k
k
n
*X
12/10/2010 69
El vector de errores transformados
=
2/11
2/112
2/111
/
.
.
/
/
xu
xu
xu
n
*u
P esta dado por
⋅
=
−
−
−
2/1
2/12
2/1
...00
..
....
0...0
0...01
nx
x
x
P
12/10/2010
24
12/10/2010 70
Así,
donde
PuPXβPy +=
**1**ˆ Y'X)X'(Xβ−=
*** uβXy +=
PYP'X'PX)P'(X'β1ˆ −=
1VPP' −
−
−
−
−
=
=
=
1
2
1
12
1
...00
..
....
0...0
0...0
...00
..
....
0...0
0...011
nn x
x
x
x
x
x
12/10/2010 71
Míminos cuadrados ponderados en Stata
Considerando los datos que se muestran acontinuación sobre los gastos en comida e ingresode 40 hogares así como el modelo:
a. Presente el diagrama de dispersióncorrespondiente;
b. Estime el modelo señalado;
c. Identifique si el modelo cumple con elsupuesto de homoscedasticidad;
d. De no cumplir con lo apuntado en (c) corrijamediante MCP:
iii uingresocomida ++= 21 ββ
12/10/2010 72
ID COMIDA INGRESO ID COMIDA INGRESO
1 9.46 25.83 21 17.77 71.98
2 10.56 34.31 22 22.44 72.00
3 14.81 42.50 23 22.87 72.23
4 21.71 46.75 24 26.52 72.23
5 22.79 48.29 25 21.00 73.44
6 18.19 48.77 26 37.52 74.25
7 22.00 49.65 27 21.69 74.77
8 18.12 51.94 28 27.40 76.33
9 23.13 54.33 29 30.69 81.02
10 19.00 54.87 30 19.56 81.85
11 19.46 56.46 31 30.58 82.56
12 17.83 58.83 32 41.12 83.33
13 32.81 59.13 33 15.38 83.40
14 22.13 60.73 34 17.87 91.81
15 23.46 61.12 35 25.54 91.81
16 16.81 63.10 36 39.00 92.96
17 21.35 65.96 37 20.44 95.17
18 14.87 66.40 38 30.10 101.40
19 33.00 70.42 39 20.90 114.13
20 25.19 70.48 40 48.71 115.46
Datos sobre gastos en comida e ingreso de 40 hogares.
12/10/2010
25
12/10/2010 73
Diagrama de dispersión entre los gastos en comida e ingreso
1020
3040
50C
OM
IDA
20 40 60 80 100 120INGRESO
12/10/2010 74
regress comida ingreso
Source | SS df MS Number of ob s = 40-------------+------------------------------ F( 1, 38) = 17.64
Model | 826.635228 1 826.635228 Prob > F = 0.0002Residual | 1780.4125 38 46.8529606 R-squared = 0.3171
-------------+------------------------------ Adj R-sq uared = 0.2991Total | 2607.04773 39 66.8473777 Roo t MSE = 6.8449
--------------------------------------------------- ---------------------------comida | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------ingreso | .2322533 .0552934 4.20 0.000 .1203176 .344189
_cons | 7.383217 4.008356 1.84 0.073 -. 7312761 15.49771--------------------------------------------------- ---------------------------
12/10/2010 75
rvfplot
-20
-10
01
02
0R
esi
dua
ls
15 20 25 30 35Fitted values
12/10/2010
26
12/10/2010 76
rvpplot ingreso
-20
-10
01
02
0R
esi
dua
ls
20 40 60 80 100 120INGRESO
12/10/2010 77
whitetst
hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedastic ityHo: Constant varianceVariables: fitted values of comida
chi2(1) = 11.28Prob > chi2 = 0.0008
White's general test statistic : 14.58151 Chi-sq( 2) P-value = 6.8e-04
12/10/2010 78
regress comida ingreso [aweight=1/ ingreso]
Source | SS df MS Number of ob s = 40
-------------+------------------------------ F( 1, 38) = 27.26Model | 1027.51018 1 1027.51018 Prob > F = 0.0000
Residual | 1432.39609 38 37.6946339 R-squared = 0.4177-------------+------------------------------ Adj R-sq uared = 0.4024
Total | 2459.90627 39 63.0745196 Roo t MSE = 6.1396
--------------------------------------------------- ---------------------------comida | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------ingreso | .2551922 .0488781 5.22 0.000 .1562437 .3541407
_cons | 5.782084 3.256587 1.78 0.084 -. 8105315 12.3747--------------------------------------------------- ---------------------------
12/10/2010
27
12/10/2010 79
Errores estándar corregidos por heteroscedasti-cidad
Si los errores son heteroscedasticoscondicionalmente, es psoible aplicar un enfoquerobusto.
Hubber (1967) y White (1980) propusieron elestimador “sandwich” de la varianza de los errores,el cual corrige la hetersoscedasticidad.
Se ha señalado que bajo heteroscedasticidad
[ ] [ ]11 )(ˆ −−= X)X(X'uu'X'X)(X'β EEVar
[ ] [ ]11ˆ −− Σ= X)X(X'X'X)(X'β uEVar
12/10/2010 80
Ejemplo
Para los datos de gastos en comida e ingreso seobtienen los errores estándar corregidos de acuerdoal estimador de Hubber y White.
En Stata se tiene regress comida ingreso, robust
Linear regression Number of obs = 40F( 1, 38) = 10.73Prob > F = 0.0023R-squared = 0.3171Root MSE = 6.8449
--------------------------------------------------- ---------------------------| Robust
comida | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+------------------------------------- ---------------------------
ingreso | .2322533 .0709056 3.28 0.002 .0887125 .3757942_cons | 7.383217 4.403557 1.68 0.102 -1.531318 16.29775
--------------------------------------------------- ---------------------------
12/10/2010 81
histogram resid, normal
0.1
.2.3
.4D
ensi
ty
-10 -5 0 5Residuals
12/10/2010
28
12/10/2010 82
sum resid, detailscalar nobs=r(N)scalar s=r(skewness)scalar k=r(kurtosis)scalar JB=(nobs/6)*(s^2+((k-3)^2)/4)scalar chi2_95=invchi2(2,.95)scalar pval=1-chi2(2,JB)di JBdi chi2_95di pval
Prueba Jarque_Bera
JB= 657.94501chi2_95= 5.9914645pvalue=0
12/10/2010 83
sktest resid
Prueba SK
Skewness/Kurtosis tests for Normality------- joint ------
Variable | Obs Pr(Skewness) Pr(Kurtosis) adj ch i2(2) Prob>chi2-------------+------------------------------------- --------------------------
resid | 3.3e+03 0.0000 0.0000 . 0 .0000