Departamento de InformáticaUniversidad Técnica Federico Santa María
EconometríaEconometría Capitulo III
Héctor Allende O. 2
Modelo de Regresión General.
La variable de respuesta “y” depende de muchas variables x1, x2,...,xn , aunque
algunas de estas son no observables. El modelo de regresión pretende develar efecto de las variables
explicativasmás importantes y representa las restantes mediante una v.a. la
perturbación.Es decir:
Suponga que en el rango de interés, la función f admite una aproximación
lineal:
En tal caso Ejemplo1. Modelo para predecir el alquiler de viviendas en función de sus
características físicas, su situación, etc., como parte de un estudio para calibrar el efecto de control de alquileres.
nkk xxgxxxfy ,,,,, 121
.1 donde ,,,, 00
21
xxxxxfk
jjjk
.0
k
jjj xy
Héctor Allende O. 3
Se hacen las siguientes hipótesis sobre la distribución de las variables:
-Para cada conjunto fijo de las x, la distribución de y es normal
Las variables yi son independientes entre si. -El no de variables explicativas es menor que el nº de observaciones.-Las x’s son realmente distintas y no existen entre ellas relaciones lineales exactas. Luego
Donde cada coeficiente j mide el efecto marginal sobre la respuesta de un aumento unitario en xj.
i: perturbación aleatoria ; i N[0, 2], i=1,...,n.Var[i]= 2=cte, i=1,...,n. ; E[i i]=0, si ij
k
jjjk xxxyE
01 ,,
.0
0 i
k
jjiji xy
.,, 21 ctexxyVar k
Héctor Allende O. 4
Sea ; j=1,...,n y x0=1; y sea
Bajo el supuesto de normalidad de la variable aleatoria y se sabe que
Derivando con respecto a 0 y a j, se obtiene las siguientes
ecuaciones notación matricial:
Como de hipótesis X’X no es singular se tiene que
2.1 Estimación de Parámetros.
i
k
jjiji xy
0
2
01
)(
k
jjiji
n
i
xyQ
n
iiyfMaxQMin
1
2,,ln
'' XXYX
knn
k
n
xx
xxyyY
1
111
1
1
1X ,,' donde
YXXX ''ˆ 1
Héctor Allende O.
Notación de Yule.El subíndice 1 denota la variable y.El subíndice 2 denota la variable x2.
El subíndice 3 denota la variable x3.
1.23 : intercepto, medida del efecto promedio de y cuando x2=x3=0.12.3 : coeficiente de regresión parcial, mide el cambio en el valormedio de y por
cambio de unidad en x2 cuando x3 =constante.13.2 : coeficiente de regresión parcial, mide el cambio en E[y / x2, x3] con respecto
a x3 cuando x2=constante.
Ejemplo:
Los siguientes datos muestran el indicador global y, el número de automóviles
por mil habitantes (x1) y el número de teléfonos por mil habitantes (x2) en ocho
Regiones del país.
.n1,i ,32.1323.1223.1 iiii uxxy
5
Héctor Allende O.
Región Indicador y
Automóviles x1
Teléfonos x2
I 64 58 111 II 78 84 131 III 83 78 158 IV 88 81 147 V 89 82 121 VI 99 102 165 VII 101 85 174 VII 102 102 169
uXXY 221101 uXY con
16910211748511651021121821147811158781131841111581
X
17678510045311761004535782267211766728
' XX
10528860251704
'YX
Resolviendo la ecuación matricial se obtiene:
XXYX ''
21024,052,005,9'
6
Héctor Allende O. 7
Considere los vectores de Rn ; 1, X1, X2,...,Xk que forman las columnas de la
matriz de diseño X. El objetivo de la estimación es determinar , como CL de X
i.e. está contenido en el subespacio generado por los vectores 1, X1,
X2,...,Xk El criterio de mínimos cuadrados, impone que el norma del vector
sea mínima.
1, X1, X2,...,Xk
Del teorema de proyección se tiene que:
Es decir
2.2 Interpretación geométrica.
ykk XXy 1101ˆ
yye ˆ
yX,,X e k ˆ e ,1 es ˆ 1
0'ˆ'''1 1 eyeXeXe k
ˆ''0ˆ'ˆ'' XXyXXyXyyXeX
y
Yyye ˆ 2 2 2
ˆe y y
y
Héctor Allende O.
Por lo tanto
Vyy
yXXXXXy
eyy
V
ˆ
''ˆˆ
ˆ1
Siendo V la matriz de proyeción (simétrica e idempotente).
Vt = V y V2 = V
Esta matriz juega un rol importante en la etapa de diagnóstico.
yVIVyyyye ˆ
8
Héctor Allende O.
Conclusiones.1. Cualquier coeficiente de regresión estimado ; puede
interpretarse como la pendiente de la recta de regresión de los residuos de una regresión y respecto a todas las otras variables ( parte de y no explicada por el resto de las x) con la contribución diferencial de xi.
2. El coeficiente de regresión ; tiene que interpretarse como el efecto diferencial de la variable xi, eliminando los efectos de las otras variables explicativas.
3. El efecto sobre los coeficientes de regresión de excluír las variables relevantes para explicar y, es distinto cuando las variables excluídas son independientes de las excluídas que cuando no lo son: en el primer caso no afectarán a los coeficientes , pero en el segundo pueden distorsionarlos apreciablemente.
i
i
i
9
Héctor Allende O. 10
2.3.1 Esperanza.Sea:Se puede demostrar que: Luego,
2.3.1 Covarianzas. Sea Se puede demostrar que:
Llamando qij a los elementos de la matriz , se concluye que:
La matriz X’X en general no es diagonal, por lo tanto, su inversa tampoco lo será y los coeficientes no serán independientes al no tener covarianzas nulas.
2.3 Propiedades de los estimadores .
'' 1 XXXC
Cu
.ˆ uCECuEE
Cu 12 ''ˆˆ XXE
j jjj qN 2;
Héctor Allende O. 11
El teorema de Gauss-Markov se considera el fundamento teórico principal del método de mínimos cuadrados en modelos lineales y establece que si las siguientes hipótesis son ciertas:
a) Todos los valores de la variable aleatoria dependiente están generados por el modelo lineal:
b) Las perturbaciones ui son no correlacionadas.c) Todas las perturbaciones tienen la misma varianza.d) Las perturbaciones son independientes de las v.a. x.e) Las variables x se obtienen sin errores de medida.f) Se quieren estimadores insesgados (centrados) que sean
funciones lineales de y.g) Se define como estimador óptimo el insesgado de varianza
mínima.
Entonces: Gauss-Markov aseguran que los estimadores mínimo cuadráticos son “óptimos” en el sentido restringido dado por f) - g), independiente de la distribución de U.
2.4 El Teorema de Gauss-Markov.
UXY
Héctor Allende O. 12
El modelo de regresión múltiple quedará especificado al estimar y la varianza 2 de la perturbación
V es una matriz idempotente, luego (I-V) también lo es.
La expresión es una forma cuadrática de variables aleatorias normales N(0,2) e independientes. Luego,
Como (I-V) proyecta a Y sobre el complemento ortogonal al espacio definido por X, tendrá rango n-k-1. Finalmente, el estimador insesgado para 2, llamado varianza residual es :
2.5 Estimación de la Varianza.
yVIyye ˆ
UVIUeen
''1ˆ 2
ee'12
.2,glVIrang
ee'12
.2
1 kn
1ˆ 1
2
2
kn
eS
n
ii
R
2ˆRS
Héctor Allende O.
2.6 Intervalos de Confianza y Pruebas de Hipótesis.
2.6.1 Intervalos de confianza Si se verifica que y son independientes, entonces Luego, un intervalo de confianza para i de nivel =1-
Pruebas o contrastes.
Se desea contrastar que la vriable aleatoria tiene media . El test se realiza basado en el estadístico: siendo
i2ˆRS
iiR
ii
qSˆ
.,1 glknt
iiRkni qStIC ˆˆ21
i*i
iiR
ii
qSt ˆ
ˆ * .,1 glknt
.ˆ *iiE
13
Héctor Allende O.
Una prueba importante es Bajo H0
Rechazandosé H0 para t0 > c (valor crítico).
2.6.2 Regiones de confianza para conjuntos de coeficientes.Como los coeficientes son dependientes, Los intervalos de confianza individuales pueden dar una imagen errónea de sus valores conjuntos.Sea
Luego, la región de confianza de nivel (1-) se obtiene calculando un valor crítico de la tabla F: .
Entonces, el elipsoide confidencial contendrá aquellos valores tales que:
.0: *0 iH )ˆ
ˆ( 0
iiR
i
qSt .,1 glknt
i
2ˆ1
ˆ''ˆ
RSkXXF
.,1,1 glknkF
cknk FFP 1,1
1ˆˆ''ˆ 2 kSFXX Rc
14
Héctor Allende O.
2.6.3 Contrastes para grupos de coeficientes.Fundamentos: sea
a) Contraste Estadístico: Donde M es la matriz de covarianza de . Si M = 2A con A conocida y 2 desconocida. Entonces
la F habitual es:
b) Contraste para grupos i’s. Estadístico :
Ya que los r coeficientes , siendo
la sub-matriz de asociada a las variables.
MN ,
.,ˆ , ˆ: v/sˆ: 10kHH
ˆ'ˆ 1M .2k
2
1
22
21
ˆˆ'ˆ
ˆˆ'ˆ
RR SkA
gSgkAF
2
1
ˆˆ''ˆ
R
rrrrr
SrXX
F
.1, glknrF
r 21', rr XXN
1' rXX
1' XX
15
Héctor Allende O.
Intervalos de confianza para la varianza.
Un intervalo de confianza de nivel =1- para 2 es:
Para intervalos de confianza de una cola:
212
2
2121
2 ˆ1;ˆ1
glkn
R
glkn
R SknSknIC
21,
2ˆ1;0kn
RSknIC
16
Héctor Allende O.
2.7 Contraste de regresión.
El contraste de regresión para coeficientes individuales. Estadística t(n-k-1)gl.
Usando ANDEVA.
VE(k): Variación explicada por el modelo completo.VE(k-1): Variación explicada por el modelo sin xh. VE = VE(k)-VE(k-1) Si h=0, VE depende solo del error experimental.
Luego, una estadística
,0 :H v/s0: 10 hhH hhRh qSt ˆ
hhh q
17
)1,1(2ˆ
knR
FSVEF
Héctor Allende O.
El contraste de regresión para grupos de coeficientes. Sea el vector de coeficientes que no incluye a la componente
Descomposición de la varianza. Por Pitágoras:
Tabla de ANDEVA.
k1,i ,0algún :H v/s0: 110 ikH *
0 )1;(2
*1***
ˆ
ˆ''ˆ
knkR
FSk
XXF
n
i
n
iiii
n
ii yyyyyy
1 1
22
1
2 ˆˆ
Fuente Suma de Cuadrados
g.l
Varianza
Contraste
VE 2yyi k 2eS
VNE 2iiyy n-k-1 2RS
2
2
ˆˆ
R
e
SS
F
VT 2yyi n-1 2yS
18
Héctor Allende O.
El contraste de regresión establece que la VE es significativamente mayor que VNE. Bajo H0,
2ˆRSk
VEF .1, glknkF
19
2.8 Correlación en Regresión Múltiple. 2.8.1 El coeficiente de determinación.Es una medida descriptiva global del ajuste de un modelo:Al valor R se le denomina coeficiente de correlación múltiple.Observaciones.
1. Desde un punto de vista estricta la correlación se define solo para v.a., al ser X variables fijas el nombre no es totalmente correcto.
2. R2 aumenta cuando k aumenta.3. R2 es muy sensible con respecto a la formulación del modelo y a
la elección de la variable dependiente “y”.
2
22 ˆ
yyyy
VTVER
i
i
Héctor Allende O. 20
2.8.2 El coeficiente de determinación corregido.Para evitar que R2 aumente cuando k aumenta, se define un R2-
corregidocomo:
Donde se verifica: 1) 2) .1. 2.8.3 R2 y el Test de F Regresión.Una forma alternativa para contrastar la hipótesis de que todos los
coeficientede regresión son cero es:
Mientras
Luego, el contraste F de regresión puede escribirse:
11
12
2
nyykne
Ri
i
1111 22
knnRR
222 1ˆˆ RSS yR
kkn
VNEVE
knVNE
kVEF 1
1
VTVNER 21
kkn
RRF knk
11 2
2
1,
Héctor Allende O. 21
2.8.4 Correlación Parcial.Dado un conjunto de variables , el coeficiente de correlación parcial entre dos de ellas, algún xi y xj, es una medida adimensional de su relación lineal, cuando se eliminan de ambas los efectos debidos al resto de las variables.Definición:Consideremos k regresores Entonces el coeficiente de correlación parcial entre x1 y x2 se define como el coeficiente de correlación Lineal de Pearson entre x1 , x2.
Es decir es el coeficiente del modelo
Donde y son los residuos de la regresión múltiple de x1 y x2 con respecto al resto de las variables de control .
pxx ,,1
.,,1 kxx
23423413412 342
ˆ/,covkekkk Seer
kr 3412 uere kkk 3423412341
ke 341 ke 342
kxxx ,,, 43
k
jkjj
k
jkjj
exx
exx
334202
334101
~
Héctor Allende O. 22
Al estar los residuos depurados de los efectos de las restantes variables, el representa la relación entre x1 y x2 que no pueden explicarse por las variables restantes.
El coeficiente de correlación parcial entre la variables de respuesta y un regresor xi (notación: ) se obtiene fácilmente a partir de la estadística “t” ;
Entonces
kr 3412
Ryir iiit ˆ/ˆ
12
22
knt
tri
iRyi
2.9 Regresión con variables ortogonales. Es un caso especial de regresión múltiple donde todas las variables explicativas satisfacen
22
2211
1
~~ˆ
,,'
,0
j
jj
jij
ijijj
kiki
h
ihihjij
xyx
xx
yyxx
xxxxDiagonalXX
j,hxxxx
Héctor Allende O. 23
2.10 Predicción.
2.10.1 Predicción del valor medio.La predicción del valor medio de la respuesta para ciertsos valores concretos de las variables explicativas será:
Intervalo de confianza para mh.
Un intervalo de confianza para mh de nivel =1- es :
khhh xxx ,,,1' 1 'ˆ hh xy
h
hhhhh
hhh
nxxxxyVar
mxyE
ˆ''ˆ
'ˆ2
212
hhRh StyIC ˆˆ 2
Héctor Allende O. 24
2.10.2 Predicción de una observación.La predicción de una observación yh no observada se efectúa mediante mediante la media de la distribución condicionada, dado
Error cuadrático medio de la predicción.
Intervalo de confianza para mh.Un intervalo de confianza para yh de nivel =1- está dado por:
hy hx hh myE ˆ
hhhh yyE 1ˆ 22
hhRh StyIC 1ˆˆ 2
2.11 Diagnósis y validación de los modelos de regresión múltiple. En este sección se describen los problemas principales que surgir al construír un modelo de regresión, sus efectos sobre las propiedades del modelo y como reformular el modelo para adecuarlo a la realidad.
Héctor Allende O.
Hipótesis RealidadLas variables X toman valores distintos en lamuestra.
Multicolinealidad: Las variables X toman valores semejantes en la muestra. Error de especificación,
La distribución de u es normal.
Falta de normalidad: u no es normal.
Homocedasticidad. Hetereocedasticidad.u independientes entre si.
Autocorrelación: u dependientes.
XyE '
.cteuVar
XyE '
.cteuVar
25