Varianza del error no constante: heteroscedasticidad · Patrones hipóteticos de los residuos para...

transcript

11/08/2011 1

Varianza del error no constante: heteroscedasticidad

Fortino Vela PeónUniversidad Autónoma Metropolitana

fvela@correo.xoc.uam.mx

Octubre, 2010

México, D. F.

11/08/2011 2

Tipos de residuales

En ocasiones resulta mejor considerar a los residualesescalados.

Son útiles además para identificar puntos atípicos ovalores extremos.

Residuales estandarizados que se definen como

Residuales estudentizados que se definen como

11/08/2011 3

Patrones hipóteticos de los residuos para la iden-tificación de heteroscedasticidad

Los gráficos siguientes muestran un diagrama dedispersión entre y .

Fuente: Tomado de Gujarati y Porter (2010, 377)

11/08/2011 4

Los gráficos siguientes muestran un diagrama dedispersión entre y X .

Fuente: Tomado de Gujarati y Porter (2010, 378)

11/08/2011 5

Stata tiene implementado dentro de sus rutinasambos tipos de gráficas para la identificación deheteroscedasticidad en los residuales.

Despues de estimar el modelo de regresión la sintaxisa utilizar es: rvfplot y rvpplot.

rvfplot muestra el diagrama de dispersión entreresiduales y valores ajustados.

Por su parte, rvpplot elabora el diagrama dedispersión entre residuales y cualquiera de las variablespredictoras (X’s), razón por la requiere que se señalecual es la variable a considerar, esto es, por ejemplo:

Pruebas gráficas en Stata

rvpplot x2

11/08/2011 6

Stata permite el calculo de los residualesestandarizados y estudentizados.

Una vez estimado una ecuación de regresión, lasintaxis es la siguiente:

Calculo de residuales en Stata

predict residual, resid

predict rstand, rstand

predict rstud, rstuden

(residuales simples)

(residuales estandarizados)

(residuales estudentizados)

11/08/2011 7

Métodos formales: pruebas de Park, Glesjer y Breusch-Pagan-Godfrey

Las tres pruebas son en esencia muy similares.

Cada una de ellas es una prueba del Multiplicador deLagrange (LM), por lo que siguen el mismoprocedimiento general.

Dado el modelo de regresión:

ikikiii uxxxy ...33221

se realizan los pasos siguientes:

1.- Se estima el modelo de regresión y se obtienen losresiduales:

2.- Se estiman las regresiones auxiliares siguientes yobtienen sus R2.

iii yyu ˆˆ

11/08/2011 8

ipipii ZZu ln...lnˆln 221

a) Para la prueba de Park la regresión auxiliar es

iii nuuu1

222 /ˆ/ˆ~

b) Para la prueba de Glesjer la regresión auxiliar es

ipipii ZZu ...ˆ 221

c) Para la prueba de Breusch-Pagan-Godfrey laregresión auxiliar es

ipipii ZZu ...~221

11/08/2011 9

En cada regresión auxiliar, las Zi's pueden ser algunoso todos los regresores

3.- A continuación se calcula el estadístico de pruebaLM. Bajo Ho: homoscedasticidad, se puede demostrarque el producto del tamaño de la muestra “n” por la R2

obtenida de las regresiones auxiliares sigueasintoticamente una distribución Ji-cuadrada con unnúmero de grados de libertad igual al número deregresores. Esto es:

Es importante observar que los estadísticos de pruebapropuestos originalmente por Park y Glesjer sonestadísticos de prueba de Wald. Sin embargo, según loprecisado por Engle (1984), puesto que todas estaspruebas son diseñadas para muestras grandes,operacionalmente son equivalentes a la prueba LM.

11/08/2011 10

4.- Una vez que se encuentra el estadístico de pruebase compara a nR2 con el valor crítico de Ji-cuadrada.Así,

Las pruebas Park, Glesjer, y de Breusch-Pagan-Godfrey requieren el conocimiento sobre la fuente deheteroscedasticidad, es decir, la(s) variable(s) Z quepuede ser causa del problema.

En la prueba de Park, el término de error en laregresión auxiliar puede no satisfacer los supuestosdel modelo de regresión lineal clásico y puede serheteroscedástico en sí mismo.

pnR si , la conclusión es que hayheteroscedasticidad;por el contrario, si hayhomoscedasticidad.

11/08/2011 11

En la prueba de Glejser, el término del error ui esdiferente a cero, puede tener autocorrelación y es,irónicamente, heteroscedástico.

En la prueba de Breusch-Pagan-Godfrey el términode error es absolutamente sensible al supuesto denormalidad (principalmente en pequeñas muestras).

La hipótesis nula de la prueba Breusch-Pagan/Cook-Weisberg es que la varianza del error es la mismaversus la alternativa de que la varianza del error esuna función multiplicativa de una o más variablesindependientes.

11/08/2011 12

La prueba Breusch-Pagan-Godfrey ha sidoimplementada en Stata. La sintaxis es estat hettest

Las opciones posibles son:

Prueba Breusch-Pagan-Godfrey en Stata

estat hettest varlist especifica las variablesexplicativas consideradas en la prueba (en caso de omisiónse realiza con los valores ajustados de la dependiente,yhat).

estat hettest,normal calcula la prueba suponiendoque los residuales de la regresión se distribuyennormalmente (es la opción por defecto).

estat hettest,iid provoca que se calcule la versiónN*R2 versión del estadístico de prueba, el cuál elimina elsupuesto de normalidad.

estat hettest,fstat provoca que se calcule laversión basada en el estadístico F.

11/08/2011 13

Ejemplo

Verificamos la prueba hettest de forma manual. Paraello se considera la influencia que se sobre el ingreso(income) presentan las variables: escolaridad (educ),la experiencia laboral (jobexp) y la raza (race) enuna muestra de 20 individuos, información que seencuentra en el archivo labora1 ubicado en:

http://www.nd.edu/~rwilliam/stats2/statafile

Una vez recuperado el archivo de datos se calculanalgunas estadísticas descriptivas de la variables enanálisis.

11/08/2011 14

use http://www.nd.edu/~rwilliam/stats2/statafiles/reg01.dta,

reg income educ jobexp

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

income | 20 24.415 9.788354 5 48.3

educ | 20 12.05 4.477723 2 21

jobexp | 20 12.65 5.460625 1 21

race | 20 .5 .5129892 0 1

Del listado se puede señalar que el ingreso promediode los individuos en la muestra alcanzo los 24.42dólares; su nivel escolaridad promedio fue de 12 añosal igual que los años de experiencia laboral.

11/08/2011 15

graph matrix income educ jobexp race

income

jobexp

0 10 20

0 .5 1

11/08/2011 16

reg income educ jobexp

Source | SS df MS Number of obs = 20

-------------+------------------------------ F( 2, 17) = 46.33

Model | 1538.22521 2 769.112605 Prob > F = 0.0000

Residual | 282.200265 17 16.6000156 R-squared = 0.8450

-------------+------------------------------ Adj R-squared = 0.8267

Total | 1820.42548 19 95.8118671 Root MSE = 4.0743

------------------------------------------------------------------------------

income | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

educ | 1.933393 .2099494 9.21 0.000 1.490438 2.376347

jobexp | .6493654 .1721589 3.77 0.002 .2861417 1.012589

_cons | -7.096855 3.626412 -1.96 0.067 -14.74792 .5542052

------------------------------------------------------------------------------

estat hettest

Breusch-Pagan / Cook-Weisberg test for

heteroskedasticity

Ho: Constant variance

Variables: fitted values of income

chi2(1) = 0.12

Prob > chi2 = 0.7238

11/08/2011 17

rvfplot, yline(0)-1

0 10 20 30 40 50Fitted values

11/08/2011 18

rvpplot educ, yline(0) rvpplot jobexp, yline(0)

0 5 10 15 20educ

0 5 10 15 20jobexp

11/08/2011 19

predict yhat

predict e, resid

gen e2= e^2 / (e(rss)/e(N))

reg e2 yhat

-------------+------------------------------ F( 1, 18) = 0.18

Model | .249695098 1 .249695098 Prob > F = 0.6758

-------------+------------------------------ Adj R-squared = -0.0451

Total | 25.1176813 19 1.32198323 Root MSE = 1.1754

------------------------------------------------------------------------------

e2 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

yhat | .0127408 .0299691 0.43 0.676 -.050222 .0757036

_cons | .6889345 .7774684 0.89 0.387 -.944466 2.322335

------------------------------------------------------------------------------

display "Chi Square (1) = " e(mss) / 2

Chi Square (1) = .12484755

display "Prob > chi2 = " chi2tail(1, e(mss)/ 2)

Prob > chi2 = .72383527

11/08/2011 20

Prueba de White en Stata

La prueba de White se puede estimar vía la sintaxisestat imtest, white o simplemente imtest,white, o bien whitetst.

Stata computa la prueba extendida de Whiteconsiderando en la regresión auxiliar a los residualesal cuadrado contra todos los regresores, los productoscruzados y los cuadrados de los distintos regresores.

11/08/2011 21

Ejemplo

Se desea establecer la influencia que se sobre elnúmero de hijos nacidos vivos (ceb) por mujerpresentan las variables: edad de la madre (age), edadal primer nacimiento (agefbrth) y la escolaridad(educ). Para ello se considera la información de 4361mujeres en los Estados Unidos misma que se encuentraen el archivo fertil2 ubicado en:

http://www.stata-press.com/data/imeus/fertil2

Una vez recuperado el archivo de datos, lo primero aresolver es determinar qué variables presentan valoresperdidos (missing values).

11/08/2011 22

Para ello se puede recurrir al archivo mdesc el cualrealiza un conteo del número de valores perdidos paracada una de las variables numéricas (finditmdesc).

Variable Missing Total Missing/Total

-------------------------------------------------

age 0 4361 0

educ 0 4361 0

ceb 0 4361 0

agefbrth 1088 4361 .249484

dis 4361- 1088 =3273

drop if missing(agefbrth)

use http://www.stata-press.com/data/imeus/fertil2, clear

keep age educ ceb agefbrth

11/08/2011 23

sum ceb educ age agefbrth

La edad promedio de las mujeres captadas en lamuestra (con registros validos) fue de 30 años con unaedad al primer nacimiento de 19 años. No obstante,hubo quienes tuvieron a su primer hijo a los 10 años.En promedio el número de hijos nacidos vivos pormujer es de 3.2. La escolaridad promedio fue de 5.4años.

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

age | 3273 30.04277 7.984743 15 49

educ | 3273 5.406355 4.067566 0 20

ceb | 3273 3.253284 2.253429 1 13

agefbrth | 3273 19.0113 3.092333 10 38

11/08/2011 24

Se espera que el número de hijos nacidos vivos (ceb):

- aumente con la edad actual de la madre (age);

- disminuya con la edad al primer nacimiento (agefbrth);

- disminuya con mayores niveles de escolaridad (esc)

11/08/2011 25

graph matrix ceb age agefbrth educ

agefbrth

0 5 10 15

10 20 30 40

0 10 20

11/08/2011 26

regress ceb age agefbrth educestimates store original

-------------+------------------------------ F( 3, 3269) = 1569.02

Model | 9805.3274 3 3268.44247 Prob > F = 0.0000

-------------+------------------------------ Adj R-squared = 0.5898

Total | 16615.0272 3272 5.0779423 Root MSE = 1.4433

------------------------------------------------------------------------------

ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

age | .2108335 .0035151 59.98 0.000 .2039414 .2177255

agefbrth | -.2372357 .0088494 -26.81 0.000 -.2545867 -.2198847

educ | -.0729918 .0066071 -11.05 0.000 -.0859462 -.0600374

_cons | 1.824042 .1671298 10.91 0.000 1.496352 2.151732

------------------------------------------------------------------------------

11/08/2011 27

rvfplot-1

0 2 4 6 8 10Fitted values

11/08/2011 28

hettest age agefbrth

hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Variables: age agefbrth

chi2(2) = 1613.76

Prob > chi2 = 0.0000

Variables: fitted values of ceb

chi2(1) = 1633.15

Prob > chi2 = 0.0000

11/08/2011 29

imtest, white

White's test for Ho: homoskedasticity

against Ha: unrestricted heteroskedasticity

chi2(9) = 850.98

Prob > chi2 = 0.0000

Cameron & Trivedi's decomposition of IM-test

---------------------------------------------------

Source | chi2 df p

---------------------+-----------------------------

Heteroskedasticity | 850.98 9 0.0000

Skewness | 56.38 3 0.0000

Kurtosis | 69.03 1 0.0000

---------------------+-----------------------------

Total | 976.38 13 0.0000

---------------------------------------------------

11/08/2011 30

regress ceb age agefbrth educ,robustestimates store robustos

Linear regression Number of obs = 3273F( 3, 3269) = 837.36Prob > F = 0.0000R-squared = 0.5901Root MSE = 1.4433

------------------------------------------------------------------------------| Robust

ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

age | .2108335 .0046423 45.42 0.000 .2017314 .2199355agefbrth | -.2372357 .00958 -24.76 0.000 -.2560191 -.2184523

educ | -.0729918 .006377 -11.45 0.000 -.0854952 -.0604885_cons | 1.824042 .1615009 11.29 0.000 1.507389 2.140695

------------------------------------------------------------------------------

11/08/2011 31

estimates table original robustos,b(%9.4f) se(%5.3f) t(%5.2f)

--------------------------------------

Variable | original robustos

-------------+------------------------

age | 0.2108 0.2108

| 0.004 0.005

| 59.98 45.42

agefbrth | -0.2372 -0.2372

| 0.009 0.010

| -26.81 -24.76

educ | -0.0730 -0.0730

| 0.007 0.006

| -11.05 -11.45

_cons | 1.8240 1.8240

| 0.167 0.162

| 10.91 11.29

--------------------------------------

11/08/2011 32

Soluciones al problema de heteroscedasticidad

Cuando de presenta una estructura de erroresheteroscedastica se puede proceder por alguna delas siguientes rutas:

a) Aplicar mínimos cuadradosponderados;

b) Corregir los errores estándar porheteroscedasticidad.

11/08/2011 33

Diagrama de dispersión entre los gastos en comida e ingreso

20 40 60 80 100 120INGRESO

11/08/2011 34

regress comida ingreso

-------------+------------------------------ F( 1, 38) = 17.64

Model | 826.635228 1 826.635228 Prob > F = 0.0002

-------------+------------------------------ Adj R-squared = 0.2991

Total | 2607.04773 39 66.8473777 Root MSE = 6.8449

------------------------------------------------------------------------------

comida | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

ingreso | .2322533 .0552934 4.20 0.000 .1203176 .344189

_cons | 7.383217 4.008356 1.84 0.073 -.7312761 15.49771

------------------------------------------------------------------------------

11/08/2011 35

rvfplot-2

15 20 25 30 35Fitted values

11/08/2011 36

rvpplot ingreso-2

20 40 60 80 100 120INGRESO

11/08/2011 37

whitetst

hettest

Variables: fitted values of comida

chi2(1) = 11.28

Prob > chi2 = 0.0008

White's general test statistic : 14.58151 Chi-sq( 2) P-value = 6.8e-04

11/08/2011 38

regress comida ingreso [aweight=1/ ingreso]

-------------+------------------------------ F( 1, 38) = 27.26

Model | 1027.51018 1 1027.51018 Prob > F = 0.0000

-------------+------------------------------ Adj R-squared = 0.4024

Total | 2459.90627 39 63.0745196 Root MSE = 6.1396

------------------------------------------------------------------------------

-------------+----------------------------------------------------------------

ingreso | .2551922 .0488781 5.22 0.000 .1562437 .3541407

_cons | 5.782084 3.256587 1.78 0.084 -.8105315 12.3747

------------------------------------------------------------------------------

11/08/2011 39

Errores estándar corregidos por heteroscedasti-cidad

Si los errores son heteroscedasticoscondicionalmente, es psoible aplicar un enfoquerobusto.

Hubber (1967) y White (1980) propusieron elestimador “sandwich” de la varianza de los errores,el cual corrige la hetersoscedasticidad.

Se ha señalado que bajo heteroscedasticidad

11 )(ˆ X)X(X'uu'X'X)(X'β EEVar

11ˆ X)X(X'X'X)(X'β uEVar

11/08/2011 40

Ejemplo

Para los datos de gastos en comida e ingreso seobtienen los errores estándar corregidos de acuerdoal estimador de Hubber y White.

En Stata se tiene regress comida ingreso, robust

Linear regression Number of obs = 40

F( 1, 38) = 10.73

Prob > F = 0.0023

R-squared = 0.3171

Root MSE = 6.8449

------------------------------------------------------------------------------

| Robust

-------------+----------------------------------------------------------------

ingreso | .2322533 .0709056 3.28 0.002 .0887125 .3757942

_cons | 7.383217 4.403557 1.68 0.102 -1.531318 16.29775

------------------------------------------------------------------------------

11/08/2011 41

histogram resid, normal

-10 -5 0 5Residuals

11/08/2011 42

sum resid, detail

scalar nobs=r(N)

scalar s=r(skewness)

scalar k=r(kurtosis)

scalar JB=(nobs/6)*(s^2+((k-3)^2)/4)

scalar chi2_95=invchi2(2,.95)

scalar pval=1-chi2(2,JB)

di chi2_95

di pval

Prueba Jarque_Bera

JB= 657.94501

chi2_95= 5.9914645

pvalue=0

11/08/2011 43

sktest resid

Prueba SK

Skewness/Kurtosis tests for Normality

------- joint ------

Variable | Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2

-------------+---------------------------------------------------------------

resid | 3.3e+03 0.0000 0.0000 . 0.0000

Varianza del error no constante: heteroscedasticidad · Patrones hipóteticos de los residuos para...

Documents