Post on 12-May-2018
transcript
11/08/2011 1
Varianza del error no constante: heteroscedasticidad
Fortino Vela PeónUniversidad Autónoma Metropolitana
fvela@correo.xoc.uam.mx
Octubre, 2010
México, D. F.
11/08/2011 2
Tipos de residuales
En ocasiones resulta mejor considerar a los residualesescalados.
Son útiles además para identificar puntos atípicos ovalores extremos.
Residuales estandarizados que se definen como
2
ˆˆ
ii
ud
Residuales estudentizados que se definen como
)1(
ˆˆ
2
ii
ii
h
ur
11/08/2011 3
Patrones hipóteticos de los residuos para la iden-tificación de heteroscedasticidad
Los gráficos siguientes muestran un diagrama dedispersión entre y .
Fuente: Tomado de Gujarati y Porter (2010, 377)
Y2u
11/08/2011 4
Los gráficos siguientes muestran un diagrama dedispersión entre y X .
Fuente: Tomado de Gujarati y Porter (2010, 378)
2u
11/08/2011 5
Stata tiene implementado dentro de sus rutinasambos tipos de gráficas para la identificación deheteroscedasticidad en los residuales.
Despues de estimar el modelo de regresión la sintaxisa utilizar es: rvfplot y rvpplot.
rvfplot muestra el diagrama de dispersión entreresiduales y valores ajustados.
Por su parte, rvpplot elabora el diagrama dedispersión entre residuales y cualquiera de las variablespredictoras (X’s), razón por la requiere que se señalecual es la variable a considerar, esto es, por ejemplo:
Pruebas gráficas en Stata
rvpplot x2
11/08/2011 6
Stata permite el calculo de los residualesestandarizados y estudentizados.
Una vez estimado una ecuación de regresión, lasintaxis es la siguiente:
Calculo de residuales en Stata
predict residual, resid
predict rstand, rstand
predict rstud, rstuden
(residuales simples)
(residuales estandarizados)
(residuales estudentizados)
11/08/2011 7
Métodos formales: pruebas de Park, Glesjer y Breusch-Pagan-Godfrey
Las tres pruebas son en esencia muy similares.
Cada una de ellas es una prueba del Multiplicador deLagrange (LM), por lo que siguen el mismoprocedimiento general.
Dado el modelo de regresión:
ikikiii uxxxy ...33221
se realizan los pasos siguientes:
1.- Se estima el modelo de regresión y se obtienen losresiduales:
2.- Se estiman las regresiones auxiliares siguientes yobtienen sus R2.
iii yyu ˆˆ
11/08/2011 8
ipipii ZZu ln...lnˆln 221
2
donde
a) Para la prueba de Park la regresión auxiliar es
n
i
iii nuuu1
222 /ˆ/ˆ~
b) Para la prueba de Glesjer la regresión auxiliar es
ipipii ZZu ...ˆ 221
2
c) Para la prueba de Breusch-Pagan-Godfrey laregresión auxiliar es
ipipii ZZu ...~221
2
11/08/2011 9
En cada regresión auxiliar, las Zi's pueden ser algunoso todos los regresores
22
pnR
3.- A continuación se calcula el estadístico de pruebaLM. Bajo Ho: homoscedasticidad, se puede demostrarque el producto del tamaño de la muestra “n” por la R2
obtenida de las regresiones auxiliares sigueasintoticamente una distribución Ji-cuadrada con unnúmero de grados de libertad igual al número deregresores. Esto es:
Es importante observar que los estadísticos de pruebapropuestos originalmente por Park y Glesjer sonestadísticos de prueba de Wald. Sin embargo, según loprecisado por Engle (1984), puesto que todas estaspruebas son diseñadas para muestras grandes,operacionalmente son equivalentes a la prueba LM.
11/08/2011 10
22
pnR
4.- Una vez que se encuentra el estadístico de pruebase compara a nR2 con el valor crítico de Ji-cuadrada.Así,
Las pruebas Park, Glesjer, y de Breusch-Pagan-Godfrey requieren el conocimiento sobre la fuente deheteroscedasticidad, es decir, la(s) variable(s) Z quepuede ser causa del problema.
En la prueba de Park, el término de error en laregresión auxiliar puede no satisfacer los supuestosdel modelo de regresión lineal clásico y puede serheteroscedástico en sí mismo.
22
pnR si , la conclusión es que hayheteroscedasticidad;por el contrario, si hayhomoscedasticidad.
11/08/2011 11
En la prueba de Glejser, el término del error ui esdiferente a cero, puede tener autocorrelación y es,irónicamente, heteroscedástico.
En la prueba de Breusch-Pagan-Godfrey el términode error es absolutamente sensible al supuesto denormalidad (principalmente en pequeñas muestras).
La hipótesis nula de la prueba Breusch-Pagan/Cook-Weisberg es que la varianza del error es la mismaversus la alternativa de que la varianza del error esuna función multiplicativa de una o más variablesindependientes.
11/08/2011 12
La prueba Breusch-Pagan-Godfrey ha sidoimplementada en Stata. La sintaxis es estat hettest
Las opciones posibles son:
Prueba Breusch-Pagan-Godfrey en Stata
estat hettest varlist especifica las variablesexplicativas consideradas en la prueba (en caso de omisiónse realiza con los valores ajustados de la dependiente,yhat).
estat hettest,normal calcula la prueba suponiendoque los residuales de la regresión se distribuyennormalmente (es la opción por defecto).
estat hettest,iid provoca que se calcule la versiónN*R2 versión del estadístico de prueba, el cuál elimina elsupuesto de normalidad.
estat hettest,fstat provoca que se calcule laversión basada en el estadístico F.
11/08/2011 13
Ejemplo
Verificamos la prueba hettest de forma manual. Paraello se considera la influencia que se sobre el ingreso(income) presentan las variables: escolaridad (educ),la experiencia laboral (jobexp) y la raza (race) enuna muestra de 20 individuos, información que seencuentra en el archivo labora1 ubicado en:
http://www.nd.edu/~rwilliam/stats2/statafile
Una vez recuperado el archivo de datos se calculanalgunas estadísticas descriptivas de la variables enanálisis.
11/08/2011 14
use http://www.nd.edu/~rwilliam/stats2/statafiles/reg01.dta,
clear
sum
reg income educ jobexp
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
income | 20 24.415 9.788354 5 48.3
educ | 20 12.05 4.477723 2 21
jobexp | 20 12.65 5.460625 1 21
race | 20 .5 .5129892 0 1
Del listado se puede señalar que el ingreso promediode los individuos en la muestra alcanzo los 24.42dólares; su nivel escolaridad promedio fue de 12 añosal igual que los años de experiencia laboral.
11/08/2011 15
graph matrix income educ jobexp race
income
educ
jobexp
race
0
50
0 50
0
10
20
0 10 20
0
10
20
0 10 20
0
.5
1
0 .5 1
11/08/2011 16
reg income educ jobexp
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2, 17) = 46.33
Model | 1538.22521 2 769.112605 Prob > F = 0.0000
Residual | 282.200265 17 16.6000156 R-squared = 0.8450
-------------+------------------------------ Adj R-squared = 0.8267
Total | 1820.42548 19 95.8118671 Root MSE = 4.0743
------------------------------------------------------------------------------
income | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
educ | 1.933393 .2099494 9.21 0.000 1.490438 2.376347
jobexp | .6493654 .1721589 3.77 0.002 .2861417 1.012589
_cons | -7.096855 3.626412 -1.96 0.067 -14.74792 .5542052
------------------------------------------------------------------------------
estat hettest
Breusch-Pagan / Cook-Weisberg test for
heteroskedasticity
Ho: Constant variance
Variables: fitted values of income
chi2(1) = 0.12
Prob > chi2 = 0.7238
11/08/2011 18
rvpplot educ, yline(0) rvpplot jobexp, yline(0)
-10
-5
05
10
Re
sid
ua
ls
0 5 10 15 20educ
-10
-5
05
10
Re
sid
ua
ls
0 5 10 15 20jobexp
11/08/2011 19
predict yhat
predict e, resid
gen e2= e^2 / (e(rss)/e(N))
reg e2 yhat
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 1, 18) = 0.18
Model | .249695098 1 .249695098 Prob > F = 0.6758
Residual | 24.8679862 18 1.38155479 R-squared = 0.0099
-------------+------------------------------ Adj R-squared = -0.0451
Total | 25.1176813 19 1.32198323 Root MSE = 1.1754
------------------------------------------------------------------------------
e2 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
yhat | .0127408 .0299691 0.43 0.676 -.050222 .0757036
_cons | .6889345 .7774684 0.89 0.387 -.944466 2.322335
------------------------------------------------------------------------------
display "Chi Square (1) = " e(mss) / 2
Chi Square (1) = .12484755
display "Prob > chi2 = " chi2tail(1, e(mss)/ 2)
Prob > chi2 = .72383527
11/08/2011 20
Prueba de White en Stata
La prueba de White se puede estimar vía la sintaxisestat imtest, white o simplemente imtest,white, o bien whitetst.
Stata computa la prueba extendida de Whiteconsiderando en la regresión auxiliar a los residualesal cuadrado contra todos los regresores, los productoscruzados y los cuadrados de los distintos regresores.
11/08/2011 21
Ejemplo
Se desea establecer la influencia que se sobre elnúmero de hijos nacidos vivos (ceb) por mujerpresentan las variables: edad de la madre (age), edadal primer nacimiento (agefbrth) y la escolaridad(educ). Para ello se considera la información de 4361mujeres en los Estados Unidos misma que se encuentraen el archivo fertil2 ubicado en:
http://www.stata-press.com/data/imeus/fertil2
Una vez recuperado el archivo de datos, lo primero aresolver es determinar qué variables presentan valoresperdidos (missing values).
11/08/2011 22
Para ello se puede recurrir al archivo mdesc el cualrealiza un conteo del número de valores perdidos paracada una de las variables numéricas (finditmdesc).
Variable Missing Total Missing/Total
-------------------------------------------------
age 0 4361 0
educ 0 4361 0
ceb 0 4361 0
agefbrth 1088 4361 .249484
mdesc
dis 4361- 1088 =3273
drop if missing(agefbrth)
use http://www.stata-press.com/data/imeus/fertil2, clear
keep age educ ceb agefbrth
11/08/2011 23
sum ceb educ age agefbrth
La edad promedio de las mujeres captadas en lamuestra (con registros validos) fue de 30 años con unaedad al primer nacimiento de 19 años. No obstante,hubo quienes tuvieron a su primer hijo a los 10 años.En promedio el número de hijos nacidos vivos pormujer es de 3.2. La escolaridad promedio fue de 5.4años.
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
age | 3273 30.04277 7.984743 15 49
educ | 3273 5.406355 4.067566 0 20
ceb | 3273 3.253284 2.253429 1 13
agefbrth | 3273 19.0113 3.092333 10 38
11/08/2011 24
Se espera que el número de hijos nacidos vivos (ceb):
- aumente con la edad actual de la madre (age);
- disminuya con la edad al primer nacimiento (agefbrth);
- disminuya con mayores niveles de escolaridad (esc)
11/08/2011 25
graph matrix ceb age agefbrth educ
ceb
age
agefbrth
educ
0
5
10
15
0 5 10 15
0
50
0 50
10
20
30
40
10 20 30 40
0
10
20
0 10 20
11/08/2011 26
regress ceb age agefbrth educestimates store original
Source | SS df MS Number of obs = 3273
-------------+------------------------------ F( 3, 3269) = 1569.02
Model | 9805.3274 3 3268.44247 Prob > F = 0.0000
Residual | 6809.6998 3269 2.08311404 R-squared = 0.5901
-------------+------------------------------ Adj R-squared = 0.5898
Total | 16615.0272 3272 5.0779423 Root MSE = 1.4433
------------------------------------------------------------------------------
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .2108335 .0035151 59.98 0.000 .2039414 .2177255
agefbrth | -.2372357 .0088494 -26.81 0.000 -.2545867 -.2198847
educ | -.0729918 .0066071 -11.05 0.000 -.0859462 -.0600374
_cons | 1.824042 .1671298 10.91 0.000 1.496352 2.151732
------------------------------------------------------------------------------
11/08/2011 28
hettest age agefbrth
hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: age agefbrth
chi2(2) = 1613.76
Prob > chi2 = 0.0000
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of ceb
chi2(1) = 1633.15
Prob > chi2 = 0.0000
11/08/2011 29
imtest, white
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
chi2(9) = 850.98
Prob > chi2 = 0.0000
Cameron & Trivedi's decomposition of IM-test
---------------------------------------------------
Source | chi2 df p
---------------------+-----------------------------
Heteroskedasticity | 850.98 9 0.0000
Skewness | 56.38 3 0.0000
Kurtosis | 69.03 1 0.0000
---------------------+-----------------------------
Total | 976.38 13 0.0000
---------------------------------------------------
11/08/2011 30
regress ceb age agefbrth educ,robustestimates store robustos
Linear regression Number of obs = 3273F( 3, 3269) = 837.36Prob > F = 0.0000R-squared = 0.5901Root MSE = 1.4433
------------------------------------------------------------------------------| Robust
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------
age | .2108335 .0046423 45.42 0.000 .2017314 .2199355agefbrth | -.2372357 .00958 -24.76 0.000 -.2560191 -.2184523
educ | -.0729918 .006377 -11.45 0.000 -.0854952 -.0604885_cons | 1.824042 .1615009 11.29 0.000 1.507389 2.140695
------------------------------------------------------------------------------
11/08/2011 31
estimates table original robustos,b(%9.4f) se(%5.3f) t(%5.2f)
--------------------------------------
Variable | original robustos
-------------+------------------------
age | 0.2108 0.2108
| 0.004 0.005
| 59.98 45.42
agefbrth | -0.2372 -0.2372
| 0.009 0.010
| -26.81 -24.76
educ | -0.0730 -0.0730
| 0.007 0.006
| -11.05 -11.45
_cons | 1.8240 1.8240
| 0.167 0.162
| 10.91 11.29
--------------------------------------
11/08/2011 32
Soluciones al problema de heteroscedasticidad
Cuando de presenta una estructura de erroresheteroscedastica se puede proceder por alguna delas siguientes rutas:
a) Aplicar mínimos cuadradosponderados;
b) Corregir los errores estándar porheteroscedasticidad.
11/08/2011 33
Diagrama de dispersión entre los gastos en comida e ingreso
10
20
30
40
50
CO
MID
A
20 40 60 80 100 120INGRESO
11/08/2011 34
regress comida ingreso
Source | SS df MS Number of obs = 40
-------------+------------------------------ F( 1, 38) = 17.64
Model | 826.635228 1 826.635228 Prob > F = 0.0002
Residual | 1780.4125 38 46.8529606 R-squared = 0.3171
-------------+------------------------------ Adj R-squared = 0.2991
Total | 2607.04773 39 66.8473777 Root MSE = 6.8449
------------------------------------------------------------------------------
comida | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | .2322533 .0552934 4.20 0.000 .1203176 .344189
_cons | 7.383217 4.008356 1.84 0.073 -.7312761 15.49771
------------------------------------------------------------------------------
11/08/2011 37
whitetst
hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of comida
chi2(1) = 11.28
Prob > chi2 = 0.0008
White's general test statistic : 14.58151 Chi-sq( 2) P-value = 6.8e-04
11/08/2011 38
regress comida ingreso [aweight=1/ ingreso]
Source | SS df MS Number of obs = 40
-------------+------------------------------ F( 1, 38) = 27.26
Model | 1027.51018 1 1027.51018 Prob > F = 0.0000
Residual | 1432.39609 38 37.6946339 R-squared = 0.4177
-------------+------------------------------ Adj R-squared = 0.4024
Total | 2459.90627 39 63.0745196 Root MSE = 6.1396
------------------------------------------------------------------------------
comida | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | .2551922 .0488781 5.22 0.000 .1562437 .3541407
_cons | 5.782084 3.256587 1.78 0.084 -.8105315 12.3747
------------------------------------------------------------------------------
11/08/2011 39
Errores estándar corregidos por heteroscedasti-cidad
Si los errores son heteroscedasticoscondicionalmente, es psoible aplicar un enfoquerobusto.
Hubber (1967) y White (1980) propusieron elestimador “sandwich” de la varianza de los errores,el cual corrige la hetersoscedasticidad.
Se ha señalado que bajo heteroscedasticidad
11 )(ˆ X)X(X'uu'X'X)(X'β EEVar
11ˆ X)X(X'X'X)(X'β uEVar
11/08/2011 40
Ejemplo
Para los datos de gastos en comida e ingreso seobtienen los errores estándar corregidos de acuerdoal estimador de Hubber y White.
En Stata se tiene regress comida ingreso, robust
Linear regression Number of obs = 40
F( 1, 38) = 10.73
Prob > F = 0.0023
R-squared = 0.3171
Root MSE = 6.8449
------------------------------------------------------------------------------
| Robust
comida | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | .2322533 .0709056 3.28 0.002 .0887125 .3757942
_cons | 7.383217 4.403557 1.68 0.102 -1.531318 16.29775
------------------------------------------------------------------------------
11/08/2011 42
sum resid, detail
scalar nobs=r(N)
scalar s=r(skewness)
scalar k=r(kurtosis)
scalar JB=(nobs/6)*(s^2+((k-3)^2)/4)
scalar chi2_95=invchi2(2,.95)
scalar pval=1-chi2(2,JB)
di JB
di chi2_95
di pval
Prueba Jarque_Bera
JB= 657.94501
chi2_95= 5.9914645
pvalue=0