Departamento de Informática Universidad Técnica Federico Santa María

Departamento de InformáticaUniversidad Técnica Federico Santa María

EconometríaEconometría Capitulo III

Héctor Allende O. 2

Modelo de Regresión General.

La variable de respuesta “y” depende de muchas variables x1, x2,...,xn , aunque

algunas de estas son no observables. El modelo de regresión pretende develar efecto de las variables

explicativasmás importantes y representa las restantes mediante una v.a. la

perturbación.Es decir:

Suponga que en el rango de interés, la función f admite una aproximación

lineal:

En tal caso Ejemplo1. Modelo para predecir el alquiler de viviendas en función de sus

características físicas, su situación, etc., como parte de un estudio para calibrar el efecto de control de alquileres.

nkk xxgxxxfy ,,,,, 121

.1 donde ,,,, 00

21

xxxxxfk

jjjk

.0

k

jjj xy


Se hacen las siguientes hipótesis sobre la distribución de las variables:

-Para cada conjunto fijo de las x, la distribución de y es normal

Las variables yi son independientes entre si. -El no de variables explicativas es menor que el nº de observaciones.-Las x’s son realmente distintas y no existen entre ellas relaciones lineales exactas. Luego

Donde cada coeficiente j mide el efecto marginal sobre la respuesta de un aumento unitario en xj.

i: perturbación aleatoria ; i N[0, 2], i=1,...,n.Var[i]= 2=cte, i=1,...,n. ; E[i i]=0, si ij

k

jjjk xxxyE

01 ,,

.0

0 i

k

jjiji xy

.,, 21 ctexxyVar k


Sea ; j=1,...,n y x0=1; y sea

Bajo el supuesto de normalidad de la variable aleatoria y se sabe que

Derivando con respecto a 0 y a j, se obtiene las siguientes

ecuaciones notación matricial:

Como de hipótesis X’X no es singular se tiene que

2.1 Estimación de Parámetros.

i

k

jjiji xy

0

2

01

)(

k

jjiji

n

i

xyQ

n

iiyfMaxQMin

1

2,,ln

'' XXYX

knn

k

n

xx

xxyyY

1

111

1

1

1X ,,' donde

YXXX ''ˆ 1

Héctor Allende O.

Notación de Yule.El subíndice 1 denota la variable y.El subíndice 2 denota la variable x2.

El subíndice 3 denota la variable x3.

1.23 : intercepto, medida del efecto promedio de y cuando x2=x3=0.12.3 : coeficiente de regresión parcial, mide el cambio en el valormedio de y por

cambio de unidad en x2 cuando x3 =constante.13.2 : coeficiente de regresión parcial, mide el cambio en E[y / x2, x3] con respecto

a x3 cuando x2=constante.

Ejemplo:

Los siguientes datos muestran el indicador global y, el número de automóviles

por mil habitantes (x1) y el número de teléfonos por mil habitantes (x2) en ocho

Regiones del país.

.n1,i ,32.1323.1223.1 iiii uxxy

5

Héctor Allende O.

Región Indicador y

Automóviles x1

Teléfonos x2

I 64 58 111 II 78 84 131 III 83 78 158 IV 88 81 147 V 89 82 121 VI 99 102 165 VII 101 85 174 VII 102 102 169

uXXY 221101 uXY con

16910211748511651021121821147811158781131841111581

X

17678510045311761004535782267211766728

' XX

10528860251704

'YX

Resolviendo la ecuación matricial se obtiene:

XXYX ''

21024,052,005,9'

6


Considere los vectores de Rn ; 1, X1, X2,...,Xk que forman las columnas de la

matriz de diseño X. El objetivo de la estimación es determinar , como CL de X

i.e. está contenido en el subespacio generado por los vectores 1, X1,

X2,...,Xk El criterio de mínimos cuadrados, impone que el norma del vector

sea mínima.

1, X1, X2,...,Xk

Del teorema de proyección se tiene que:

Es decir

2.2 Interpretación geométrica.

ykk XXy 1101ˆ

yye ˆ

yX,,X e k ˆ e ,1 es ˆ 1

0'ˆ'''1 1 eyeXeXe k

ˆ''0ˆ'ˆ'' XXyXXyXyyXeX

y

Yyye ˆ 2 2 2

ˆe y y

y

Héctor Allende O.

Por lo tanto

Vyy

yXXXXXy

eyy

V

ˆ

''ˆˆ

ˆ1

Siendo V la matriz de proyeción (simétrica e idempotente).

Vt = V y V2 = V

Esta matriz juega un rol importante en la etapa de diagnóstico.

yVIVyyyye ˆ

8

Héctor Allende O.

Conclusiones.1. Cualquier coeficiente de regresión estimado ; puede

interpretarse como la pendiente de la recta de regresión de los residuos de una regresión y respecto a todas las otras variables ( parte de y no explicada por el resto de las x) con la contribución diferencial de xi.

2. El coeficiente de regresión ; tiene que interpretarse como el efecto diferencial de la variable xi, eliminando los efectos de las otras variables explicativas.

3. El efecto sobre los coeficientes de regresión de excluír las variables relevantes para explicar y, es distinto cuando las variables excluídas son independientes de las excluídas que cuando no lo son: en el primer caso no afectarán a los coeficientes , pero en el segundo pueden distorsionarlos apreciablemente.

i

i

i

9


2.3.1 Esperanza.Sea:Se puede demostrar que: Luego,

2.3.1 Covarianzas. Sea Se puede demostrar que:

Llamando qij a los elementos de la matriz , se concluye que:

La matriz X’X en general no es diagonal, por lo tanto, su inversa tampoco lo será y los coeficientes no serán independientes al no tener covarianzas nulas.

2.3 Propiedades de los estimadores .

'' 1 XXXC

Cu

.ˆ uCECuEE

Cu 12 ''ˆˆ XXE

j jjj qN 2;


El teorema de Gauss-Markov se considera el fundamento teórico principal del método de mínimos cuadrados en modelos lineales y establece que si las siguientes hipótesis son ciertas:

a) Todos los valores de la variable aleatoria dependiente están generados por el modelo lineal:

b) Las perturbaciones ui son no correlacionadas.c) Todas las perturbaciones tienen la misma varianza.d) Las perturbaciones son independientes de las v.a. x.e) Las variables x se obtienen sin errores de medida.f) Se quieren estimadores insesgados (centrados) que sean

funciones lineales de y.g) Se define como estimador óptimo el insesgado de varianza

mínima.

Entonces: Gauss-Markov aseguran que los estimadores mínimo cuadráticos son “óptimos” en el sentido restringido dado por f) - g), independiente de la distribución de U.

2.4 El Teorema de Gauss-Markov.

UXY


El modelo de regresión múltiple quedará especificado al estimar y la varianza 2 de la perturbación

V es una matriz idempotente, luego (I-V) también lo es.

La expresión es una forma cuadrática de variables aleatorias normales N(0,2) e independientes. Luego,

Como (I-V) proyecta a Y sobre el complemento ortogonal al espacio definido por X, tendrá rango n-k-1. Finalmente, el estimador insesgado para 2, llamado varianza residual es :

2.5 Estimación de la Varianza.

yVIyye ˆ

UVIUeen

''1ˆ 2

ee'12

.2,glVIrang

ee'12

.2

1 kn

1ˆ 1

2

2

kn

eS

n

ii

R

2ˆRS

Héctor Allende O.

2.6 Intervalos de Confianza y Pruebas de Hipótesis.

2.6.1 Intervalos de confianza Si se verifica que y son independientes, entonces Luego, un intervalo de confianza para i de nivel =1-

Pruebas o contrastes.

Se desea contrastar que la vriable aleatoria tiene media . El test se realiza basado en el estadístico: siendo

i2ˆRS

iiR

ii

qSˆ

.,1 glknt

iiRkni qStIC ˆˆ21

i*i

iiR

ii

qSt ˆ

ˆ * .,1 glknt

.ˆ *iiE

13

Héctor Allende O.

Una prueba importante es Bajo H0

Rechazandosé H0 para t0 > c (valor crítico).

2.6.2 Regiones de confianza para conjuntos de coeficientes.Como los coeficientes son dependientes, Los intervalos de confianza individuales pueden dar una imagen errónea de sus valores conjuntos.Sea

Luego, la región de confianza de nivel (1-) se obtiene calculando un valor crítico de la tabla F: .

Entonces, el elipsoide confidencial contendrá aquellos valores tales que:

.0: *0 iH )ˆ

ˆ( 0

iiR

i

qSt .,1 glknt

i

2ˆ1

ˆ''ˆ

RSkXXF

.,1,1 glknkF

cknk FFP 1,1

1ˆˆ''ˆ 2 kSFXX Rc

14

Héctor Allende O.

2.6.3 Contrastes para grupos de coeficientes.Fundamentos: sea

a) Contraste Estadístico: Donde M es la matriz de covarianza de . Si M = 2A con A conocida y 2 desconocida. Entonces

la F habitual es:

b) Contraste para grupos i’s. Estadístico :

Ya que los r coeficientes , siendo

la sub-matriz de asociada a las variables.

MN ,

.,ˆ , ˆ: v/sˆ: 10kHH

ˆ'ˆ 1M .2k

2

1

22

21

ˆˆ'ˆ

ˆˆ'ˆ

RR SkA

gSgkAF

2

1

ˆˆ''ˆ

R

rrrrr

SrXX

F

.1, glknrF

r 21', rr XXN

1' rXX

1' XX

15

Héctor Allende O.

Intervalos de confianza para la varianza.

Un intervalo de confianza de nivel =1- para 2 es:

Para intervalos de confianza de una cola:

212

2

2121

2 ˆ1;ˆ1

glkn

R

glkn

R SknSknIC

21,

2ˆ1;0kn

RSknIC

16

Héctor Allende O.

2.7 Contraste de regresión.

El contraste de regresión para coeficientes individuales. Estadística t(n-k-1)gl.

Usando ANDEVA.

VE(k): Variación explicada por el modelo completo.VE(k-1): Variación explicada por el modelo sin xh. VE = VE(k)-VE(k-1) Si h=0, VE depende solo del error experimental.

Luego, una estadística

,0 :H v/s0: 10 hhH hhRh qSt ˆ

hhh q

17

)1,1(2ˆ

knR

FSVEF

Héctor Allende O.

El contraste de regresión para grupos de coeficientes. Sea el vector de coeficientes que no incluye a la componente

Descomposición de la varianza. Por Pitágoras:

Tabla de ANDEVA.

k1,i ,0algún :H v/s0: 110 ikH *

0 )1;(2

*1***

ˆ

ˆ''ˆ

knkR

FSk

XXF

n

i

n

iiii

n

ii yyyyyy

1 1

22

1

2 ˆˆ

Fuente Suma de Cuadrados

g.l

Varianza

Contraste

VE 2yyi k 2eS

VNE 2iiyy n-k-1 2RS

2

2

ˆˆ

R

e

SS

F

VT 2yyi n-1 2yS

18

Héctor Allende O.

El contraste de regresión establece que la VE es significativamente mayor que VNE. Bajo H0,

2ˆRSk

VEF .1, glknkF

19

2.8 Correlación en Regresión Múltiple. 2.8.1 El coeficiente de determinación.Es una medida descriptiva global del ajuste de un modelo:Al valor R se le denomina coeficiente de correlación múltiple.Observaciones.

1. Desde un punto de vista estricta la correlación se define solo para v.a., al ser X variables fijas el nombre no es totalmente correcto.

2. R2 aumenta cuando k aumenta.3. R2 es muy sensible con respecto a la formulación del modelo y a

la elección de la variable dependiente “y”.

2

22 ˆ

yyyy

VTVER

i

i


2.8.2 El coeficiente de determinación corregido.Para evitar que R2 aumente cuando k aumenta, se define un R2-

corregidocomo:

Donde se verifica: 1) 2) .1. 2.8.3 R2 y el Test de F Regresión.Una forma alternativa para contrastar la hipótesis de que todos los

coeficientede regresión son cero es:

Mientras

Luego, el contraste F de regresión puede escribirse:

11

12

2

nyykne

Ri

i

1111 22

knnRR

222 1ˆˆ RSS yR

kkn

VNEVE

knVNE

kVEF 1

1

VTVNER 21

kkn

RRF knk

11 2

2

1,


2.8.4 Correlación Parcial.Dado un conjunto de variables , el coeficiente de correlación parcial entre dos de ellas, algún xi y xj, es una medida adimensional de su relación lineal, cuando se eliminan de ambas los efectos debidos al resto de las variables.Definición:Consideremos k regresores Entonces el coeficiente de correlación parcial entre x1 y x2 se define como el coeficiente de correlación Lineal de Pearson entre x1 , x2.

Es decir es el coeficiente del modelo

Donde y son los residuos de la regresión múltiple de x1 y x2 con respecto al resto de las variables de control .

pxx ,,1

.,,1 kxx

23423413412 342

ˆ/,covkekkk Seer

kr 3412 uere kkk 3423412341

ke 341 ke 342

kxxx ,,, 43

k

jkjj

k

jkjj

exx

exx

334202

334101

~


Al estar los residuos depurados de los efectos de las restantes variables, el representa la relación entre x1 y x2 que no pueden explicarse por las variables restantes.

El coeficiente de correlación parcial entre la variables de respuesta y un regresor xi (notación: ) se obtiene fácilmente a partir de la estadística “t” ;

Entonces

kr 3412

Ryir iiit ˆ/ˆ

12

22

knt

tri

iRyi

2.9 Regresión con variables ortogonales. Es un caso especial de regresión múltiple donde todas las variables explicativas satisfacen

22

2211

1

~~ˆ

,,'

,0

j

jj

jij

ijijj

kiki

h

ihihjij

xyx

xx

yyxx

xxxxDiagonalXX

j,hxxxx


2.10 Predicción.

2.10.1 Predicción del valor medio.La predicción del valor medio de la respuesta para ciertsos valores concretos de las variables explicativas será:

Intervalo de confianza para mh.

Un intervalo de confianza para mh de nivel =1- es :

khhh xxx ,,,1' 1 'ˆ hh xy

h

hhhhh

hhh

nxxxxyVar

mxyE

ˆ''ˆ

'ˆ2

212

hhRh StyIC ˆˆ 2


2.10.2 Predicción de una observación.La predicción de una observación yh no observada se efectúa mediante mediante la media de la distribución condicionada, dado

Error cuadrático medio de la predicción.

Intervalo de confianza para mh.Un intervalo de confianza para yh de nivel =1- está dado por:

hy hx hh myE ˆ

hhhh yyE 1ˆ 22

hhRh StyIC 1ˆˆ 2

2.11 Diagnósis y validación de los modelos de regresión múltiple. En este sección se describen los problemas principales que surgir al construír un modelo de regresión, sus efectos sobre las propiedades del modelo y como reformular el modelo para adecuarlo a la realidad.

Héctor Allende O.

Hipótesis RealidadLas variables X toman valores distintos en lamuestra.

Multicolinealidad: Las variables X toman valores semejantes en la muestra. Error de especificación,

La distribución de u es normal.

Falta de normalidad: u no es normal.

Homocedasticidad. Hetereocedasticidad.u independientes entre si.

Autocorrelación: u dependientes.

XyE '

.cteuVar

XyE '

.cteuVar

25

Date post:	16-Mar-2016
Category:	Documents
Upload:	ince
View:	50 times
Download:	1 times

Departamento de Informática Universidad Técnica Federico Santa María

Documents