Post on 22-Jan-2016
transcript
1
Regresión Lineal Múltiple
yi = 0 + 1x1i + 2x2i + . . . kxki + ui
A. EstimaciónJavier Aparicio
División de Estudios Políticos, CIDEjavier.aparicio@cide.edu
Curso de Verano ENCUP
http://publiceconomics.wordpress.com/verano2009Julio 2009
2
Similitudes con regresión simple 0 es el intercepto 1 a k son k parámetros de pendiente u es el término de error o residual El supuesto de media condicional cero se
mantiene: E(u|x1,x2, …,xk) = 0
Igual que antes, minimizamos la suma de residuales cuadrados, de modo que tenemos k+1 condiciones de primer orden (o k+1 parámetros a estimar)
3
Interpretación de la regresión múltiple
ribusceteris pa
xy
xx
xxxy
xxxy
k
kk
kk
ción interpreta una
tiene cada decir, es ,ˆˆ
que implica ,constantes ,..., mantenemos siy
,ˆ...ˆˆˆ
que modo de ,ˆ...ˆˆˆˆ
11
2
2211
22110
4
interpretada como una “derivada parcial”
2201
12111
22110
ˆˆˆˆ :auxiliar
regresión una de residuales losson
son ˆ donde ,ˆˆˆ
entonces ,ˆˆˆˆ
i.e. ,2 donde caso el Considere
xx
rryr
xxy
k
iiii
5
…“derivada parcial”
La ecuación anterior implica que “regresar y en x1 y x2” tiene el mismo estimador para x1 que regresar y en los residuales de una regresión de x1 en x2
Es decir, al relacionar x1 con y, solamente capturamos la información de xi1 que no está relacionada con xi2.
Estimamos el efecto de x1 en y después de controlar o aislar el efecto de x2
6
Estimación simple vs. múltiple
muestra. laen algunan correlació tengan no y bien o
)ivosignificat parcial efectoun tengano (i.e. 0ˆ
:que menos a ˆ~ general,En
ˆˆˆˆ multipleregresión lacon
~~~ simpleregresión la Compare
21
22
11
22110
110
xx
x
xxy
xy
7
Suma de cuadrados: Terminología
SSR SSE SST que implica cual Lo
SSR :cuadrados de Residual Suma la es ˆ
SSE :cuadrados de Explicada Suma la es ˆ
SST :cuadrados de Total Suma la es
:siguiente lodefinir podemos que modo De ˆˆ
:explicado no componenteun y co)(sistemáti explicado
componenteun en n observació cadaseparar Podemos
2
2
2
i
i
i
iii
u
yy
yy
uyy
SST es la suma de “desviaciones al cuadrado” de las observaciones de la muestra: es proporcional, más no igual, a VAR(y).
8
Bondad de ajuste: R2
¿Cómo saber qué tan bueno es el ajuste entre la regresión y los datos de la muestra?
Podemos calcular la proporción de la Suma de cuadrados totales (SST) que es “explicada” por el modelo.
Esto es la llamada R-cuadrada de una regresión: R2 = SSE/SST = 1 – SSR/SST
9
Bondad de ajuste: R2
22
2
2
2
ˆˆ
ˆˆ
:ˆ predichos, valoreslosy , ,observados
valoreslos entren correlació de ecoeficient del
cuadrado el como definirse puede también
yyyy
yyyyR
yy
R
ii
ii
ii
10
R-cuadrada: discusión
R2 nunca decrecerá conforme incluyamos más variables explicativas a la regresión, y por lo general aumentará (así sea marginalmente).
¿Por qué? Incluir variables adicionales aumenta la SSE aunque no sean significativas.
Dado que R2 típicamente aumenta con el número de variables independientes, no es por sí sola un buen criterio para comparar modelos.
11
no sesgadas: supuestos Gauss-Markov1. Modelo poblacional es lineal en sus parámetros:
y = 0 + 1x1 + 2x2 +…+ kxk + u2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la población, de modo que el modelo muestral es: yi = 0 + 1xi1 + 2xi2 +…+ kxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las variables explicativas son exógenas (no endogeneidad).
4. Ninguna variable x es constante ni tiene una correlación lineal exacta con otra (no multicolinealidad).
12
Demasiadas vs. pocas variables ¿Si incluimos variables que “no pertenecen
al modelo poblacional” en nuestra especificación o modelo?
No tiene impacto en el resto de las estimadas: MCO permanece sin sesgo.
¿Si excluimos variables que “sí pertenecen al modelo”?
En general, los estimadores MCO tendrán un sesgo de variable omitida.
13
Sesgo de variable omitida
(*) ~
entonces ,~~~ estimamos
pero ,
:es modelo verdadero"" el que Supongamos
211
111
110
22110
xx
yxx
uxy
uxxy
i
ii
...ie, la estimación del “modelo incorrecto”. Comparémoslo con la del “modelo correcto”
14
Sesgo de variable omitida(continuación)
iiiii
iiii
iiii
uxxxxxxx
uxxxx
uxxy
112112
2
111
2211011
22110
:es (*) denumerador el que modo de
,
:verdadero"" modelo el Retomando
15
211
211211
211
11
211
21121
~
tenemosesperado,alor calcular v al
0,)E( que dado
~
xx
xxxE
u
xx
uxx
xx
xxx
i
ii
i
i
ii
i
ii
Sesgo de variable omitida(continuación)
16
Sesgo de variable omitida(continuación)
sesgo.un tiene
~ i.e.,
~~ que modo de
en de impacto el denota ~
~ donde
~~~
:en deregresión la osConsiderem
1
1211
211
211
21111102
12
E
xx
xx
xxxxx
xx
i
ii
17
Sesgo positivo o negativo en 1
Corr(x1, x2) > 0
1 > 0)
Corr(x1, x2) < 0
1 < 0)
2 > 0 Sesgo positivo(overestimation)
Sesgo negativo
2 < 0 Sesgo negativo(underestimation)
Sesgo positivo
18
Sesgo de variable omitida: resumen Dos casos donde el sesgo es igual a cero:
2 = 0, es decir, x2 no pertenecía al modelo poblacional
x1 y x2 no están correlacionados en la muestra
Si la correlación entre (x2, x1) y entre (x2, y) es del mismo signo, el sesgo es positivo.
Si omites una variable x2 que se mueve en el mismo sentido que x1, y ésta afecta positivamente a y, 1 capturará parte de dicho impacto (sobre- estimada).
Si la correlación entre (x2, x1) y entre (x2, y) es de signo opuesto, el sesgo es negativo.
19
El caso más general: sesgo en todas las i Técnicamente, sólo podemos anticipar el signo de
este sesgo cuando el resto de las variables explicativas incluidas no están correlacionadas entre sí ni con la variable omitida
Si esto no se cumple, el sesgo afecta a todas las i estimadas, dependiendo de las covarianzas entre las variables incluidas y con la variable omitida.
Aún así, resulta útil calcular el sesgo de variable omitida asumiendo que las otras x no están correlacionadas, aún cuando este supuesto no se cumpla.
20
Varianza de los estimadores MCO Ya vimos que la “distribución muestral” de los
estimadores está centrada en torno a los “verdaderos” parámetros (insesgamiento).
¿Qué tan dispersa será la distribución de los estimadores?
Para analizar esto, requerimos el 5º supuesto Gauss-Markov:
Var(u|x1, x2,…, xk) = 2
conocido como homoscedasticidad (homoskedasticity): varianza constante.
21
Varianza de MCO (cont.)
Sea x igual al vector de variables (x1, x2,…xk) Suponer que Var(u|x) = 2 también implica
que Var(y| x) = 2
Los 4 supuestos requeridos para insesgamiento, más el supuesto de homoscedasticidad son los llamados supuestos Gauss-Markov.
22
Varianza de MCO (cont.)
xx
RRxxSST
RSSTVar
j
jjijj
jjj
otras las en todas deregresión una de
la es y
donde ,1
ˆ
:Markov-Gauss supuestos 5 los Dados
222
2
2
Es decir, SSTj captura la varianza de xi, mientras que R2j
captura la correlación entre xj y las otras x del modelo.
23
Componentes de la Varianza de MCO Varianza del error: a mayor 2, mayor varianza de
los estimadores MCO. Varianza muestral: a mayor SSTj, menor varianza
de los estimadores MCO. A mayor tamaño de muestra, mayor SSTj y mayor
precisión de los estimadores. Correlación entre las variables explicativas: a mayor
Rj2, mayor varianza de los estimadores MCO.
Si dos variables x son altamente correlacionadas, sus b serán poco precisas.
Mayor varianza de los estimadores equivale a decir menor precisión o menor eficiencia.
24
Error de especificación y eficiencia de los estimadores MCO
nados)correlacioestén no y que menos (a
ˆ~ :generalen que, modo De
,1
ˆ :correcto"" modelo el para que Mientras
~ donde ,
~~~ :"incorrecto" modelo el Comparemos
21
11
2
2
1
2
1110
xx
VarVar
RSSTVar
SSTVarxy
jjj
Estimar el modelo incorrecto produce una 1 sesgada (por la variable omitida) ¡pero de menor varianza (mayor precisión)!
Un modelo con variables omitidas puede ser engañosamente preciso.
Este es el llamado trade-off entre sesgo y eficiencia.
25
Trade-off entre sesgo y eficiencia La varianza del estimador es menor en el modelo
“incorrecto” pero, a menos que 2 = 0, este modelo será sesgado.
Un modelo con variables omitidas puede ser engañosamente preciso y posiblemente sesgado.
Un modelo con demasiadas variables puede ser engañosamente impreciso: pierdes más grados de libertad y enfrentas mayor multicolinearidad.
Conforme el tamaño de la muestra aumenta, la varianza de cada estimador disminuye, haciendo que las diferencias en eficiencia sean relativamente menos importantes.
26
Estimación de la varianza del error No conocemos la varianza del error, 2, porque no
observamos los errores de la población, ui
Lo que observamos son los residuales (estimados) del modelo muestral:
Pero podemos usar los residuales estimados para construir un estimador de la varianza del error.
kikiii xxyu ˆ...ˆˆˆ 110
27
Varianza del error (cont)
212
22
1ˆˆ thus,
1ˆˆ
jjj
i
RSSTse
dfSSRknu
gl = n – (k + 1), o bien gl = n – k – 1 gl (i.e. grados de libertad) son el (número de
observaciones) – (número de parámetros estimados)
A mayores grados de libertad, mayor precisión de los estimadores.
28
Supuestos Gauss-Markov1. Modelo poblacional es lineal en sus parámetros:
y = 0 + 1x1 + 2x2 +…+ kxk + u2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la población, de modo que el modelo muestral es: yi = 0 + 1xi1 + 2xi2 +…+ kxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las variables explicativas son exógenas (no endogeneidad).
4. Ninguna variable x es constante ni tiene una correlación lineal exacta con otra (no multicolinealidad).
29
Teorema Gauss-Markov
Dados los 5 supuestos Gauss-Markov, puede demostrarse que MCO es “MELI” (BLUE):
Mejor Estimador Lineal Insesgado Best Linear Unbiased Estimator De modo que, si los supuestos G-M se
sostienen, usar MCO es una buena idea. Si, además de estos 5 supuestos,
u ~ N(0, 2) MCO es el mejor estimador (lineal o no lineal) insesgado.