Date post: | 06-Feb-2016 |
Category: |
Documents |
Upload: | domingoferiado |
View: | 216 times |
Download: | 0 times |
1
Introducción a STATA y EconometríaClase 3 – Modelos de regresión
simple y múltiple (Parte A)
INEGI, AguascalientesSeptiembre-Octubre 2005
2
Agenda de la Clase 3• Objetivo: Aprender a realizar y interpretar regresiones
lineales en STATA (Parte 1)
• Que es una regresión y en que consiste el modelo de mínimos cuadrados ordinarios (OLS)
• Asunciones clásicas del modelo OLS• Forma funcional• “Goodness of fit”• Predicción• Dummy• Términos de interacción
3
Regresión lineal (1)• Existe un modelo teórico o podemos “derivar” en
base a experiencia/intuición– Relación entre X y Y
• X: Variable independiente, variable explicativa, variable de control, “regressor”,
• Y: Variable dependiente, variable explicada, variable respuesta, “regressand”
• ε: Error, “disturbace”• β: “slope parameter” • α: “intercept parameter”
• Ceteris paribus: – Investigamos las “determinantes” de interés– Mantener constantes “otras posibles determinantes”
y x
if 0y x
4
Regresión lineal (2)• Asunciones del modelo
– Restricción sobre el comportamiento del error• E(ε)=0 ….no es “restrictiva” si incluimos constante• E(ε|x) =0
– Crucial que no haya correlación– Tener información sobre x no nos dice nada acerca de ε (si fuera el
contrario deberíamos de incluir esta información extra en el modelo)– En el error no pueden quedar “variables” que estén
relacionadas con variables explicativas incluidas en el modelo!
– Supuestos clásicos• Normalidad de los residuos• Homoscedasticidad • No autocorrelacion• No multicollinealidad• Apropiada forma funcional
5
Regresión lineal (3)• Mínimos cuadrados ordinarios
– Encontramos los β de nuestra “ecuación modelo” tal que la sumatoria de los errores al cuadrado sea minimizada
» reg y x
– De esta forma obtenemos los “fitted values”
– Y los residuos
2min ii
i iy x
i i i i iy y y x
6Regresión lineal (4)
7Regresión lineal (5)• Forma funcional
– Podemos incluir non-linealidades en nuestro modelo definiendo apropiadamente las variables independientes
• Transformación logarítmica – Log-nivel: log(y)= α + βx + ε
» %Δy=(100* β)* Δx– Log-Log: log(y)= α + βlog(x) + ε
» β es elasticidad: %Δy= β * %Δy– Nivel-log: y= α + βlog(x) + ε
» Δy= (β/100) * %Δy
• Goodness of fit• Indicador que nos diga “cuan bien” nuestro modelo se ajusta a los datos• “Cuan bien” cambios X nos permite explicar cambios en Y• Cuanto es que dejamos sin explicar, o sea está explicado por el error• SST: suma de los cuadrados de y• SST= SSE + SSR (1)• SSE: variacion de y explicada por x• SSR: variacion de y no explicada por x sino por el error• Dividimos (1) por SST 1 = SSE/SST + SSR/SST
R2= SSE/SST
– Fracción de la variación muestral en y explicada por x (varia entre 0 y 1)
8Regresión lineal (5)
9Regresión lineal (5A)
10Regresión lineal (6)
11Regresión lineal (7)
12
Regresión lineal (8)• Predicción
– Creamos una nueva variable yhat» predict yhat [if e(sample)]
– Podemos calcular los residuos tambien» residuals = yhat - y
• Dummy– Es una variable indicador (categórica) – Siempre es binaria: toma valores discretos normalmente
0 o 1 (!!)– Puede tener impacto sobre intercepto (alfa), sobre la
pendiente (beta) así como sobre ambas» xi: reg …… i.dummy_var » xi: reg …… i.dummy_var*i.var1» xi: reg …… i.dummy_var*var1» xi: reg …… i.dummy_var|var1
– IMPORTANTE: Una de las categorías debe de ser excluida (ver ejemplo sector)
i i i i iy y y x
i iy x
13
Regresión lineal (9)
14Dummy: impacto sobre intercepto
15Dummy: impacto sobre pendiente
16
Regresión lineal (10)• Interacción
– Además de la interacción con dummy podemos modelar la interacción entre regressores
– Hace parte del trabajo de búsqueda de la “especificación” más apropiada
» reg y x z x*z
– Interpretación
y x z x z
y zx
17Interacción entre regresores
% lnhlinc 100 (.171 .002 experience)Δyschooling
18
Preguntas de revisión (1)1. Cual es el aumento promedio (en porcentaje) del ingreso si un
individuo tiene carrera profesional completa? Antes de responder y utilizar STATA discutir que nos esperamos como respuesta
2. Y para los individuos que solo tienen primaria completa?3. Usando los datos GPA2 sobre 4,137 estudiantes universitarios
• Estimamos la regresion: colgpa =f(hrsperc, sat) – donde • colgpa es la nota en la universidad, hrspec es el percentile al momento
de graduación (5 siendo el mas alto) y sat nota final en la secudaria• Que nos esperamos?• Porque hsperc tiene un coeficiente negativo? • Cual es el GPA esperado para un estudiante con hsperc=20 y sat=1050• Dos estudiantes A y B se graduaron en el mismo porcentile, pero
estudiante A obtuvo en el SAT 140 maas que B. Cual es la diferencia esperada en el GPA entre los dos?
• Manteniendo hsperc constate hsperc, cual es la diferencia en SAT que deberia de haber para que la diferencia en colgpa fuera de .50?
19
Preguntas de revisión (2)4. Usando los datos WAGE2 sobre hombres trabajadores
• Estimamos la regresión: educ =f(sibs, meduc, feduc) – donde • educ es anos de escolaridad, meduc indica anos de escolaridad de la madre, feduc
escolaridad del padre, sibs numero de hermanos • Que nos esperamos?• Corremos la regresión. Comentar el coeficiente de sibs • De cuanto tiene que aumentar sibs para que los anos de educación esperados se
reduzcan de 1?• Discutir la interpretación del coeficiente de meduc• Suponer que individuo A no tiene hermanos y ambos sus padres tienen 12 anos de
educación. Otro individuo, B, tampoco tiene hermanos y sus padres tienen ambos 16 anos de educación. Cual es la diferencia esperando de educación entre A y B?
5. Considerar el modelo de Biddle y Hamermesh (1990) para evaluar trade-off entre tiempo pasado durmiendo y trabajando, y las determinantes del tiempo pasado durmiendo:
sleep = f(totwrk, educ, age)• Si existe un trade-off entre dormir y trabajar cual es el signo esperado del parámetro
de totwrk?• Que signos esperamos tenga los parámetros de las otras variables?• Usar los datos sleep75 y estimar la regresión con el precedente modelo• Si un individuo trabaja 5 horas más por semana cuantos minutos menos esperamos
duerma? Consideran que este trade-off es grande?• Discutir el signo y el coeficiente de la variable educ• Diríamos que totwork, educ, y age explican mucho de la variación en sleep? • Cuales otros factores pueden afectar las horas empleadas para el sueno? Creen
que estas estén correlacionadas con totwrk?
20
Preguntas de revisión (3)6. Una de las críticas más importantes al tipo de análisis
que se realizó en el ejercicio 3, es que la variable independiente que mide el nivel de educación ("yschooling") no es del todo aleatoria (la aleatoriedad en las variables independientes es un supuesto OLS). Los críticos aseguran que el nivel de educación está determinado por otras variables como la escolaridad de los padres, la región, el tipo de hogar y hasta el ingreso. ¿Cómo podría probar esta hipótesis sobre el nivel de educación y así contribuir en la discusión? (Plantee un nuevo modelo con el nivel de educación como variable dependiente.)
21
Referencias
• Jeffrey M. Wooldridge: “Introductory Econometrics: A Modern Approach”, 2nd Edition
– Capitulos 1-3