+ All Categories
Home > Documents > CAP2ECON

CAP2ECON

Date post: 06-Dec-2015
Category:
Upload: julio-perez
View: 214 times
Download: 1 times
Share this document with a friend
Description:
econometira papers
32
CAPITULO 2 CAPITULO 2 EL METODO DE ESTIMACIÓN DE MÍNIMOS CUADRADOS EL METODO DE ESTIMACIÓN DE MÍNIMOS CUADRADOS ORDINARIOS: ORDINARIOS: MODELO DE REGRESIÓN BIVARIADO MODELO DE REGRESIÓN BIVARIADO 2.1. 2.1. INTRODUCCIÓN NTRODUCCIÓN Una vez revisados los conceptos básicos en el capítulo 1 estamos listos para iniciar nuestro camino con el fin de entender la forma más utilizada de estimar los parámetros de un modelo lineal: El estimador de mínimos cuadrados ordinarios. Como se mencionó en la sección 1.1.4 el método de Mínimos Cuadrados Ordinarios (MCO) presupone una minimización de la suma de los errores elevados al cuadrado, para de ese modo estimar los parámetros de la regresión. Recordemos que para obtener los parámetros partimos de un problema de predicción condicional donde el mejor predictor de Y condicional en X es una predicción que minimiza la pérdida esperada con respecto de una función de pérdida específica. Esta función depende de criterios arbitrarios, algunos de los cuales han sido descritos en la sección (1.1.3):
Transcript

CAPITULO 2CAPITULO 2EL METODO DE ESTIMACIÓN DE MÍNIMOS CUADRADOSEL METODO DE ESTIMACIÓN DE MÍNIMOS CUADRADOS

ORDINARIOS: ORDINARIOS: MODELO DE REGRESIÓN BIVARIADOMODELO DE REGRESIÓN BIVARIADO

2.1.2.1. IINTRODUCCIÓNNTRODUCCIÓN

Una vez revisados los conceptos básicos en el capítulo 1 estamos listos para iniciar nuestro camino con el fin de entender la forma más utilizada de estimar los parámetros de un modelo lineal: El estimador de mínimos cuadrados ordinarios. Como se mencionó en la sección 1.1.4 el método de Mínimos Cuadrados Ordinarios (MCO) presupone una minimización de la suma de los errores elevados al cuadrado, para de ese modo estimar los parámetros de la regresión. Recordemos que para obtener los parámetros partimos de un problema de predicción condicional donde el mejor predictor de Y condicional en X es una predicción que minimiza la pérdida esperada con respecto de una función de pérdida específica. Esta función depende de criterios arbitrarios, algunos de los cuales han sido descritos en la sección (1.1.3):

En este capítulo, iniciaremos nuestro estudio sobre la estimación de los parámetros tomando en cuenta el modelo de regresión bivariado, modelo de regresión simple o modelo lineal simple. Este modelo puede ser planteado de la siguiente manera:

(2.1)

En este caso, observamos que la variable dependiente sólo es explicada por una variable independiente aparte de la inclusión del intercepto. Debe hacerse una aclaración en este caso porque muchos lectores pensarán que el intercepto podría ser considerado como una variable explicativa adicional. Sin embargo, debemos recordar que el intercepto recoge el efecto promedio de aquellas variables no incluidas en el modelo. Su inclusión no implica que exista

Econometría Moderna MCO: El Modelo de Regresión Bivariado

una relación sistemática entre las variaciones de una variable independiente y la dependiente por lo que su inclusión no es importante como variable explicativa sino para guardar cierta consistencia de los resultados.

El modelo presentado en la expresión anterior es un modelo teórico. Para poder iniciar el proceso de estimación de los parámetros desconocidos debemos plantear nuestro modelo empírico, el cual toma la siguiente forma:

(2.2)

En este caso, estamos reemplazando los parámetros desconocidos por sus estimadores y el término de error es reemplazado por el error empírico (e). En este caso la primera parte de la expresión, expresada por:

(2.3)

será la parte predicha (o explicada) por el modelo. Esto representará nuestro estimado de la media condicional de la distribución de Y.

2.2.2.2. MÉTODOMÉTODO DEDE ESTIMACIÓNESTIMACIÓN DEDE M MÍNIMOSÍNIMOS C CUADRADOSUADRADOS PARAPARA UNUN MODELOMODELO DEDE REGRESIÓNREGRESIÓN LINEALLINEAL SIMPLESIMPLE

Como ya se mencionó, en este modelo la variable endógena sólo se explica mediante una variable exógena fija o no aleatoria. El criterio de mínimos cuadrados ordinarios implica resolver el siguiente problema de minimización:

Min

Con respecto a , siendo :

(2.4)

Así, planteamos el problema de minimización de la forma:

(2.5)

si derivamos con respecto a los parámetros, obtenemos las siguientes ecuaciones de primer orden:

(2.6)

(2.7)

Si desarollamos estas dos expresiones y las simplificamos, obtenemos las siguientes fórmulas:

23

Econometría Moderna MCO: El Modelo de Regresión Bivariado

(2.8)

(2.9)

Estas ecuaciones son llamadas ecuaciones normales de la línea de regresión. Más adelante veremos que cada una de ellas implica que cada regresor es ortogonal al vector de errores mínimocuadráticos. Como vemos es un sistema de ecuaciones donde el número de incógnitas es igual al número de ecuaciones. Si el sistema está exactamente identificado, entonces existe una solución única.

Para resolver este sistema conviene plantearlo en forma matricial para luego resolverlo utilizando para ello el método de Kramer. Si escribimos el sistema en forma matricial podemos expresarlo de la siguiente manera:

(2.10)

Aplicando el método de solución descrito, obtenemos las siguientes soluciones:

(2.11)

Si se trabaja con el denominador y numerador de , y los dividimos entre n, podemos llegar

a las expresiones siguientes, las cuales resultan mucho más comprensibles en términos estadísticos:

(2.12)

24

Econometría Moderna MCO: El Modelo de Regresión Bivariado

(2.13)

=

(2.14)

Nótese que la última ecuación puede simplificarse como:.

(2.15)

Reemplazando las ecuaciones (2.13)y (2.15) en la expresión (2.11) se tiene:

(2.16)

La última ecuación muestra que el estimador de Mínimos Cuadrados se puede expresar en función de los datos muestrales. Donde y expresan las medias muestrales de la variable endógena y exógena, respectivamente. Para simplificar podemos definir las siguientes variables:

Esta notación se utilizará para representar las desviaciones con respecto a los valores medios de X e Y, y también para estimar el modelo en desviaciones en un capítulo posterior. Esta representación resulta una herramienta interesante para demostrar algunas propiedades del estimador de MCO.

Por otro lado, el intercepto de la función de regresión muestral puede representarse

utilizando la primera ecuación normal y dividiendo ésta entre el tamaño muestral (n):

(2.17)

Con esto se demuestra una propiedad importante del estimador mínimo cuadrático: si el modelo tiene un intercepto, la línea de regresión pasa por los valores medios de Y y X.

Las ecuaciones (2.16) y (2.17) son de mucha utilidad dado que nos permiten escribir los

estimadores MCO como una función de estadísticos muestrales, sin necesidad de resolver las

ecuaciones normales. El primer paso consiste en calcular la pendiente de X ( ), para luego

reemplazar dicho valor en la ecuación (2.17). Para ilustrar este método de estimación consideremos el siguiente ejemplo:

Ejemplo

25

Econometría Moderna MCO: El Modelo de Regresión Bivariado

El gerente de ventas de una tienda de electrodomésticos desea conocer la relación existente entre el número de artefactos vendidos y el número de representantes de ventas, para luego hacer algunas predicciones acerca de las ventas del próximo año. Para tal fin el gerente observa las ventas efectuadas en diez días diferentes (ver la Tabla 2.1) Como se anotó en la sección (1.1.2) se debe plantear un modelo de regresión lineal y a su vez especificar el papel que desempeña cada una de las variables en función al estudio que se desea realizar. Por lo tanto, en este caso se define la variable explicativa (X) como el número de representantes de ventas y la variable explicada (Y) como el número de artefactos vendidos.

Tabla 2.1

DÍAS

1 1 3 3 1 7 -42 1 6 6 1 7 -13 1 10 10 1 7 34 2 5 10 4 8 -35 2 10 20 4 8 26 2 12 24 4 8 47 3 5 15 9 9 -48 3 10 30 9 9 19 3 10 30 9 9 110 2 9 18 4 8 1

Totales 20 80 166 46 80 0

Utilizando la tabla anterior y reemplazando los datos correspondientes a las ecuaciones normales halladas anteriormente, se tiene:

Si se despeja de la primera ecuación el intercepto y se reemplaza dicho valor en la segunda se obtienen los siguientes estimadores MCO:

Evidentemente, si utilizamos las ecuaciones obtenidas a través del método de Kramer, también se deben obtener los mismos resultados. La comprobación queda para el lector.

Se puede utilizar el ejemplo anterior para hallar la función de regresión muestral, es decir la regresión de Y con respecto a X. Formalmente:

Si se sustituyen las observaciones muestrales de X en la ecuación anterior, obtenemos la sexta columna de la Tabla 2.1 . Estos valores representan las estimaciones de la variable dependiente obtenidas a través de los parámetros calculados por el método MCO. Comparando estos valores con aquellos observados para la variable dependiente hallamos los errores

26

Econometría Moderna MCO: El Modelo de Regresión Bivariado

correspondientes a cada observación de la muestra. Debido a que el modelo incluye un intercepto o término constante, se verifica que la suma de errores estimados es cero.

Hasta aquí el lector ya debe estar apto para estimar una regresión bajo el método de Mínimos Cuadrados Ordinarios y debe tener claro los siguientes conceptos: regresión, parámetros, línea de regresión, estimadores, estimación, errores estocásticos. En la siguiente sección, se detallarán las propiedades del estimador mínimo cuadrático, las que como se verá, resultan de suma importancia para el análisis de regresión.

Algo importante que debe recalcarse es que todo estimador es una función de los datos y como éstos pueden cambiar en cada muestra tenemos que serán variables aleatorias. Alguien podría decir que si las X están fijas siempre tendremos la misma muestra pero pensando de dicha forma se dejaría de lado la naturaleza aleatoria de Y que, sabemos, depende del vector de errores. Estos errores no son fijos y si tomamos una nueva muestra podrían variar lo que implicaría un nuevo valor de Y para cada realización de la muestra.

Si reemplazamos en nuestro estimador una muestra determinada (valores observados de variables aleatorias) obtendremos los estimados. Por tanto, un estimado es un valor particular de la función de los datos (estimador) cuando utilizamos una muestra en particular. Es importante hacer esta distinción porque las propiedades que se analizarán más adelante se referirán a la variable aleatoria llamada estimador.

2.3.2.3. PPROPIEDADESROPIEDADES DELDEL ESTIMADORESTIMADOR MCO MCO

Básicamente son dos la propiedades muestrales que nos interesan analizar del estimador MCO. Estas son el insesgamiento y la eficiencia. Intuitivamente la primera se refiera a que el centro de la distribución del estimador es igual al parámetro verdadero mientras que la segunda nos asegura que nuestro estimador será el de varianza mínima lo que nos dará una mayor seguridad porque el grado de imprecisión inherente será menor. Estas dos propiedades son aquellas que denominaremos de muestras pequeñas.

2.3.1 Insesgamiento del estimador MCO. Formalmente la propiedad de insesgamiento se puede establecer de la siguiente forma:

Esto quiere decir que el centro de la distribución del estimador de mínimos cuadrados ordinarios coincide con el verdadero valor del parámetro. Si se cumple esta propiedad podemos usar con cierta tranquilidad nuestro estimador porque sabremos que cada estimado que obtengamos provendrá de una distribución cuya media es el verdadero valor del parámetro por lo que el estimado será equivalente, en términos estadísticos al verdadero parámetro1.

Para verificar esta propiedad, recordemos la expresión del estimador MCO:

( )( )

( )

( ; )

( )1 2 2

Y Y X X

X X

Cov X Y

Var X

x y

x

i i

i

i i

i (2.28)

Trabajando con el numerador:

1 Debemos mencionar que ello no implica que nuestro estimado particular sea exactamente igual al verdadero parámetro. De hecho podríamos tener otra muestra y obtener otro estimado. Si el estimador es insesgado, entonces este nuevo estimado también podremos utilizarlo e interpretarlo como equivalente, en términos estadísticos, al verdadero parámetro.

27

Econometría Moderna MCO: El Modelo de Regresión Bivariado

( )( ) ( ) ( )X X Y Y X X Y Y X Xi i i i i

y dado que ya conocemos que ( )X Xi 0 , podemos reexpresar el numerador de la ecuación (2.28), de la forma2 :

x y x Yi i i i (2.29)

Ahora, y por propiedades matemáticas de las sumatorias, se puede expresar la ecuación (2.28) como:

k yi i (2.30)

Siendo:

kx

xi

i

i

2 (2.31)

Así, se dice que el estimador MCO es lineal, ya que es una función lineal de la variable

endógena (Y). Nótese que en la ecuación (2.30), es una combinación lineal ponderada de Y,

donde ki representa las ponderaciones y dado que las X son fijas estas ponderaciones se pueden interpretar como constantes.

Digresión:

Propiedades de ki :

i. Las ki son no estocásticas, debido a que las X tampoco lo son.

ii. ki x

x

x

xi

i

i

i2 2

0

Dado que xi representa la desviación de dicha variable respecto a su media, el numerador es siempre cero. Además, se sabe que la suma de las desviaciones al cuadrado, para cualquier muestra dada, es un valor conocido y diferente de cero.

iii. ki2

x

x x

i

i i

2

2 2 2

1

iv. k x

x

xi i

i

i

2

21

2 Nótese que únicamente el término puede ser igualado a cero.

28

Econometría Moderna MCO: El Modelo de Regresión Bivariado

Las propiedades anteriores son de mucha utilidad para verificar la insesgabilidad y la eficiencia del estimador MCO, como se verá más adelante.

Antes de revisar estas propiedades, conviene recordar que uno de los supuestos del modelo de regresión lineal afirma que las observaciones de X son fijas, es decir, no varían si se utiliza otra muestra de igual tamaño. En cambio, no se debe olvidar que las observaciones de Y sí serían diferentes de repetir el proceso de muestreo, debido a que incluye un componente aleatorio cuyas realizaciones variarían al cambiar de muestra. Estos conceptos se utilizarán repetidamente en la demostración de las propiedades.

Con esto en mente, pasemos ahora a verificar las propiedades del estimador MCO. En primer

lugar, sustituyamos en (2.29) la ecuación del modelo teórico de regresión (1.17) para luego, y con la ayuda de las propiedades enunciadas en la digresión, demostrar la insesgabilidad de los estimadores

Resulta fácil comprobar que en la ecuación (2.30) resulta indiferente multiplicar las ponderaciones por yi o por Yi, para ello se debe reemplazar (2.29) en (2.28) . Así tenemos que:

( ) 1 0 1 k Y k Xi i i i i

k k X ki i i i i 0 1

0 1

0 10 1

k k X k

k

i i i i i

i i( ) ( ) (2.31)

En la ecuación (2.31) se han utilizado la segunda y cuarta propiedad de ki . Ahora, y dado que un estimador insesgado es aquél cuya esperanza matemática es idéntica al verdadero valor del parámetro que se desea estimar, se tomará esperanzas a la ecuación anterior.

E E E k k Ei i i i( ) ( ) ( ) 1 1 1 1 0ki ( )

E( ) 1 1 (2.33)

Por consiguiente, se comprueba que es un estimador insesgado de . Ahora y para

verificar el insesgamiento del estimador del intercepto ( ), dividamos la ecuación (1.17) entre el tamaño muestral (n) para calcular la esperanza de la expresion resultante:

Y X 0 1 (2.34)

E Y E X E X( ) ( ) ( ) 0 1 0 1 (2.35)

Reemplazando las expresiones (2.33) y (2.35) en la ecuación de la línea de regresión muestral3(2.17) se obtiene:

0 1 Y X

E E Y E X( ) ( ) ( ) 0 1

3 En adelante, de no indicar lo contrario, nos referiremos a la línea de regresión muestral o estimada, esto es, .

29

Econometría Moderna MCO: El Modelo de Regresión Bivariado

E X E X( ) ( ) ( ) 0 0 1 1

0 1 1X X

E( ) 0 0 (2.36)

De esta manera queda comprobado que los estimadores mínimo cuadráticos de los verdaderos parámetros, 0 y 1 , son insesgados.

2.3.2. Varianzas y covarianzas de los estimadores de MCO

Nótese en las ecuaciones de los estimadores MCO (2.17) y (2.28), que la naturaleza aleatoria de los mismos proviene de la variable endógena Y, la cuál es estocástica debido a la inclusión del término de error en el modelo. Por consiguiente, los estimadores son una variable aleatoria que provienen de una distribución de probabilidad cuya esperanza matemática es el verdadero valor del parámetro lo que implica que es el valor con la mayor probabilidad de ocurrencia. Adicionalmente a lo anterior, es preciso disponer también de medidas de dispersión de los estimadores, de modo que se pueda juzgar el grado en que se aproximan al verdadero valor del parámetro que se pretende estimar . De ese modo, y para efecto de contrastar si los regresores cumplen con ciertas condiciones teóricas mediante el análisis de inferencia estadística, se hallará la expresión analítica de la varianza de cada uno de los estimadores y una medida de dependencia entre ellos, es decir la covarianza. Así, y partiendo de la expresión

(2.32) tenemos:

1 1 ki i 1 1 ki i (2.37)

Ahora, recordemos que la varianza puede expresarse en los siguientes términos:

Var E E( ) ( ) 1 1 12

(2.38)

y dado que el estimador MCO es insesgado, tenemos que:

Var E( ) 1 1 12

(2.39)

Sustituyendo la expresión (2.37) en (2.39), queda:

Var E ki i( ) 12

E k k kn n( ... )1 1 2 22

E k k k k k k kn n n n n n( ... ... )12

12

22

22 2 2

1 2 1 2 1 12 2

(2.40)

La expresión anterior puede simplificarse si consideramos los supuestos de homocedasticidad y no autocorrelación. Así tenemos que:

30

Econometría Moderna MCO: El Modelo de Regresión Bivariado

y, reemplazando las ecuaciones precedentes, se obtiene:

Var k

x

x X Xi

i

i i

( )( )

12 2 2

2

2 22

2

1

(2.41)

Nótese en la expresión anterior que la varianza de depende directamente de la varianza del

término de error y mantiene una relación indirecta con las observaciones de la muestra tomada. En tal sentido, y dada , cuanto mayor sea la variabilidad de los valores de X, menor será la

varianza del estimador y de este modo la estimación de será más precisa. Por otro lado, y dada las observaciones de X, cuanto mayor sea la varianza de mayor será la del estimador. Por lo tanto, para garantizar una mayor precisión en la estimación debemos buscar que las variables explicativas presenten mucha variabilidad.

Por otro lado, para hallar la varianza del estimador del intercepto ( ) debemos partir de la

ecuación de la línea de regresión (2.18) y reemplazar la especificación para la media de la variable endógena (2.34) para obtener:

( ) 0 10 1 X X

( ) 0 10 1 X (2.42)

Ahora, y dado que: 1 1 ki i

la ecuación (2.42) se puede escribir como:

0 0 ki i X

( ) 0 0 ki i X (2.43)

Utilicemos ahora un procedimiento similar al propuesto para la varianza del estimador de la pendiente:

Var E E ki i X( ) 0 0 02 2

Var E ki i X X ki i( ) ( ) 02 2 2 2

(2.44)

Dado que el valor esperado afecta únicamente a las variables aleatorias, la expresión anterior, puede representarse como:

Var X E k k EX

nE k k k kn n n n n n n( ) ( ... ) ( ) ( ... ... ) 0

212

12 2 2 2

1 12 2

1 1 2 12

31

Econometría Moderna MCO: El Modelo de Regresión Bivariado

Por la demostración de la varianza de ( )1 , sabemos que:

E k kn n( ... )12

12 2 2 2

2

1

( )X Xi

y además, por las propiedades de ki y por el supuesto de no autocorrelación entre los errores, se tiene que:

E k k k k k k En n n n n i i i j( ... ..... ) ( ) ( ) ( )1 12 2

1 1 2 12 2 0 0 0

Ahora, y a partir del tercer y cuarto supuesto del modelo de regresión lineal sabemos que:

E En n

nnn n n( ) ( ... ... ) ( )

22 1

222 2

1 2 1 22

21 1

Dadas las expresiones anteriores, la varianza del estimador del intercepto se reduce a:

Var XX X n

XX X ni i

( )( ) ( )

02 2

2

22 2

2

1 1 1

(2.45)

Conociendo la especificación para la varianza de cada uno de los estimadores involucrados, pasemos ahora a analizar su covarianza. Como sabemos, la definición de covarianza viene dada por:

Cov E E E( , ) ( ) ( ) 0 1 0 0 1 1 (2.46)

dada la propiedad de insegabilidad, la ecuación anterior puede escribirse como:

Cov E( , ) ( ) ( ) 0 1 0 0 1 1 (2.47)

Ahora, recuérdese que :

0 1 Y X

y tomando esperanzas:

4 (2.48)

Restando las dos expresiones anteriores tenemos:

( ) 0 10 1 X (2.49)

y sustituyendo la última expresión en (2.47), resulta:

4 Recuérdese que Y X 0 1 , donde = 0 dado que i 0 . En este caso, la presencia de un

término independiente resulta también indispensable. Recuérdese que el componente aleatorio de un modelo de

regresión lineal es ortogonal al componente determinístico y, en este sentido, se verifica que: 0 0i . Así,

E Y Y( ) .

32

Econometría Moderna MCO: El Modelo de Regresión Bivariado

Cov E X( , ) ( ) 0 1 12

1

XE( ) 12

1 (2.50)

Considerando las definiciones propuestas en (2.39) y (2.41), la covarianza entre los estimadores MCO vendría dado por:

Cov XVar( , ) ( ) 0 1 1

(2.51)

Resumiendo las expresiones obtenidas para la varianza y la covarianza de los estimadores MCO, se tiene:

Varx X Xi i

( )( )

1

2

2

2

2

VarX

X X ni

( )( )

02

2

2

1

Cov XX Xi

( , )( )

0 1

2

2

Nótese que las formulas anteriores pueden ser estimadas a partir de los datos muestrales excepto por el elemento ( ). Por ello, es preciso estimar mediante el método de Mínimos Cuadrados Ordinarios el valor de la varianza del modelo, pues como se recordará, la naturaleza aleatoria de la variable endógena proviene del término de error, por lo que la varianza de Y resulta igual a la varianza de .

2.3.3. La eficiencia del Estimador MCO: El Teorema de Gauss Markov

El cálculo de las varianzas y covarianzas de los estimadores MCO del modelo lineal simple es indispensable para conocer el grado de dispersión que presenta nuestro estimador. Sin embargo, si deseamos tener una mayor confiabilidad en nuestro estimador deberíamos tener alguna certeza que dicha varianza es la menor posible5. Eso es lo que analiza el Teorema de Gauss-Markov.

El teorema en palabras simples establece lo siguiente: Los estimadores obtenidos por el método de Mínimos Cuadrados Ordinarios resultan los mejores estimadores lineales e insesgados (MELI) pues poseen la mínima varianza entre todas las clases de estimadores lineales e insesgados.

Para verificar esta propiedad, recordemos que el estimador MCO puede escribirse como:

( ) 1 0 1 k Y k Xi i i i i

5 En resumen lo que se busca es determinar si el estimador MCO es eficiente.

33

Econometría Moderna MCO: El Modelo de Regresión Bivariado

Ahora, y con el objetivo de demostrar que este estimador es el de mínima varianza, definamos un estimador lineal alternativo de la forma. En este caso el procedimiento que vamos a utilizar implica analizar otro estimador arbitrario y si comprobamos que el estimador MCO tiene menor varianza, podremos generalizar nuestro resultado al resto de estimadores lineales e insesgados. Teniendo esto en perspectiva definamos otro estimador de la siguiente forma:

~1 v Yi i (2.55)

De este modo, vi representa las nuevas ponderaciones, las que no necesariamente presentan las mismas propiedades de ki . Teniendo esto presente, pasemos a comprobar si este nuevo estimador cumple con la propiedad de insesgamiento:

E E v Y v E Yi i i i(~

) ( )1 v E Xi i i( ) 0 1

0 1v v Xi i i

Así, para que el nuevo estimador sea insesgado se debe cumplir que:

vi 0 (2.56)

v Xi i 1 (2.57)

Nótese que las dos expresiones precedentes son iguales a las propiedades de ki, enunciadas anteriormente. Ahora, reemplazando la ecuación (2.55) en la fórmula de la varianza del estimador, se tiene:

Como se recordará la varianza de la variable endógena es igual a la del error ( ) de modo

que la expresión anterior queda como:

(2.58)

Con el fin de escribir la expresión anterior en términos más conocidos, hagamos el siguiente artificio:

34

Econometría Moderna MCO: El Modelo de Regresión Bivariado

El segundo término de la expresión anterior es igual a cero, por lo siguiente:

Este resultado se obtiene debido a que el estimador es insesgado y por tanto se cumplen

las condiciones (2.56) y (2.57). Resumiendo, la varianza de se expresa como:

Si analizamos la expresión anterior, notaremos que el segundo sumando es constante e igual

a la varianza de (obtenida en la sección anterior). De este modo, la varianza mínima se

obtendrá reduciendo al máximo el primer término de dicha expresión. Esto se logra definiendo:

La expresión anterior nos indica que la varianza de es mayor a la de , ya que la única

forma de obtener un estimador de mínima varianza es utilizando las ponderaciones ki. Así, el estimador MCO posee la mínima varianza entre todos los demás estimadores lineales e

insesgados existentes. Esta propiedad también puede verificarse para utilizando un

procedimiento similar.

Un gráfico nos puede ayudar a analizar lo que el teorema de Gauss-Markov significa. Un

supuesto útil para este fin será que tanto el estimador MCO ( ), como el estimador alternativo

( ) poseen una distribución conocida que para este caso será un distribución normal.

35

Econometría Moderna MCO: El Modelo de Regresión Bivariado

Figura 2.3

En la figura 2.1, las distribuciones muestrales de ambos estimadores están superpuestas con el fin de escoger el mejor predictor o estimador. Ambas distribuciones están centradas en el verdadero valor evidenciando la insesgabilidad de ambos estimadores. El mejor estimador será aquel que posea mayor probabilidad de acercarse a , lo que se cumple cuando la distribución de probabilidad del estimador está menos dispersa alrededor del valor de su media, es decir cuando presenta una menor varianza. Dado lo anterior, resulta sencillo verificar que el estimador obtenido por el método MCO (aquel cuya distribución se presenta con una línea continua) es el mejor estimador lineal insesgado ya que posee la mínima varianza, y así su distribución presenta una mayor probabilidad asociada a su valor medio.

Un hecho que debe destacarse es que para que se verifique el teorema de Gauss-Markov es necesario que se cumplan del segundo al quinto supuesto de los mencionados en el capítulo 16. Estos, como ya mencionamos llevan el nombre de condiciones de Gauss-Markov. Si algunos de dichos supuestos falla, ya no es válido el teorema por lo que el estimador MCO ya no será el de mínima varianza y deberá buscarse la forma de transformar los datos o incluir ciertas condiciones para que se restablezcan estas condiciones a fin de poder seguir utilizando nuestro estimador MCO.

2.4 O2.4 OTROSTROS R RESULTADOSESULTADOS REFERIDOSREFERIDOS ALAL ESTIMADORESTIMADOR MCO MCO

1. La línea de regresión muestral a través del estimador MCO atraviesa los puntos que representan las medias muestrales de X e Y.

Gráficamente:

Y FRM:

X

Figura 2.1

Esta propiedad se obtiene a partir de dividir la línea de regresión entre el número de

observaciones (n):

6 Estos en esencia nos dicen que la esperanza matemática de los errores es igual a cero, que no existe ni autocorrelación ni heterocedasticidad y que los regresores fijos no están correlacionados con el término de error.

36

Econometría Moderna MCO: El Modelo de Regresión Bivariado

(2.18)

el término de error desaparece debido a que el promedio de los mismos es cero y por tanto

su sumatoria también lo será.

2. En promedio, el valor estimado de la variable endógena es igual a la media del valor observado de dicha variable.

Este resultado se puede comprobar fácilmente, partiendo de la ecuación de la función de regresión muestral y haciendo algunas operaciones algebraicas, tal como se detalla a continuación:

(2.19)

Si se reemplaza la ecuación (2.18) en (2.19), se tiene:

(2.20)

Tomando sumatorias a la ecuación (2.20), se obtiene:

(2.21)

Se puede comprobar fácilmente que la suma de las desviaciones de una variable, (llámese dependiente o independiente), con respecto a su media muestral es siempre igual a cero, de modo que:

(2.22)

Así podemos reexpresar la ecuación (2.21) de la forma:

(2.23)

y, dividiendo entre el tamaño muestral:

(2.24)

El procedimiento anterior nos permite afirmar que el modelo estimado es representativo. Es decir que, en promedio, las estimaciones de la variable endógena (realizadas sobre la base de datos muestrales), representan a sus contrapartes poblacionales.

3. La media de los errores estimados es nula.

Recuérdese que el proceso de minimización que nos permitió estimar los coeficientes de regresión generó dos ecuaciones (llamadas ecuaciones normales). La primera de ellas (2.6) es la representación de esta propiedad7:

7 De hecho, la presencia de un intercepto o término independiente resulta crucial para la validez de esta propiedad, tal como se verificará posteriormente. Nótese, además, que la comprobación de esta propiedad está basada en la ecuación normal del intercepto.

37

Econometría Moderna MCO: El Modelo de Regresión Bivariado

Por otro lado, y si trabajamos con las expresiones anteriores, tenemos que:

(2.25)

debido a la igualdad propuesta en (2.24)8.

4. El error estimado no está correlacionado con el valor estimado o predicho de la variable endógena.

Lo anterior, garantiza que el método de MCO cumple con el supuesto de ortogonalidad entre la parte explicada del modelo de regesión lineal simple y la parte no explicada. Formalmente:

i iY e 0 (2.26)

Para demostrar esta propiedad basta reemplazar la función de la línea de regresión muestral (1.18) en la expresión anterior:

(2.27)

Nótese que en (2.27) los coeficientes de regresión (el intercepto y la pendiente) están multiplicados por la primera y segunda ecuación normal, respectivamente. Como resultado del proceso de minimización se tiene que dichas ecuaciones son idénticas a cero, por lo que queda demostrado que la parte predicha o estimada del modelo no guarda relación alguna con la parte no explicada o estocástica.

2.5 E2.5 ESTIMACIÓNSTIMACIÓN MCO MCO DEDE

Hasta el momento hemos estimado únicamente los parámetros del modelo propuesto pero aún nos queda la estimación de una última magnitud: la varianza del error. Nótese que hasta el momento cuando obtuvimos la varianza de los estimadores el término ésta quedó expresado

8 En este caso la presencia de un término independiente también resulta indispensable ya que, de otra forma, no sería posible realizar la sustitución propuesta en (2.20).

38

Econometría Moderna MCO: El Modelo de Regresión Bivariado

en términos teóricos. Para poder estimar la varianza de los parámetros y la propia varianza de la variable dependiente necesitamos un estimador de esta magnitud.

Una de las formas más utilizadas para la estimación de la varianza del error parte del modelo teórico y de su representación en promedios muestrales:

Y Xi i i 0 1Y X 0 1

a partir de las cuales obtenemos:

Y Y X Xi i i 1( ) ( )

y xi i i 1 (2.52)

Recuérdese que el residuo o error estimado puede expresarse como:

e Y Xi i i 0 1

Y Y X X Y Y X Xi i i i i i( ) ( ) ( ) 1 1 1

e y xi i i 1

De este modo, reemplazando (2.52) en la última ecuación se obtiene:

Así, elevando al cuadrado y sumando a ambos lados, resulta:

e x xi i i i i2

1 12 2

1 122 ( ) ( ) ( ) ( )

y, tomando valores esperados se tiene:

E e E x E x Ei i i i i( ) ( ) ( ) ( ) ( )21 1

2 21 1

22 (2.53)

Analizando la expresión anterior, el primer sumando se reduce a , por ser un componente

de la varianza del estimador de 1 . Mientras que el segundo sumando se obtiene mediante el procedimiento siguiente:

E x E k xi i j jj

n

i ij

n

( ) ( ) ( ) 1 11 1

Nótese que, E j i ( ) 0 , excepto cuando (i = j ). De esta manera, el término anterior

resulta:

k x Ex

xi i i i

i

i ( ) 2

2

22

Por último, trabajando con el tercer sumando se tiene:

39

Econometría Moderna MCO: El Modelo de Regresión Bivariado

( ) i i i 2 2 22

i ii

i in n n2 2

2

2 22 1

y tomando esperanzas:

E ni( ) 2

De esta manera, y reemplazando las expresiones anteriores en (2.53) concluimos que:

(2.54)

Por consiguiente, y dado que el estimador MCO de 2 debe cumplir con la propiedad de insesgamiento, se tiene que:

E Ee

n nE e

nn

ii( ) ( ) 2

22 2 2

2

1

2

1

22

Por consiguiente, el estimador MCO de la varianza del error para el modelo lineal simple viene dado por la siguiente expresión:

(2.55)

2.62.6 MMEDIDASEDIDAS DEDE B BONDADONDAD DEDE A AJUSTEJUSTE

Por lo revisado hasta el momento, sabemos que el criterio de Mínimos Cuadrados Ordinarios garantiza que la línea de regresión obtenida es la que proporciona la menor suma de cuadrados de residuos de todas las que se podrían obtener si se trazan a través de los valores observados de X e Y. Sin embargo, en algunos casos el ajuste puede ser muy bueno o perfecto cuando todas las observaciones caen sobre la línea de regresión, mientras que en otros pueden no obtenerse tan buenos resultados. Así, se hace necesario considerar la bondad de ajuste de la línea de regresión dado el conjunto de observaciones. En otras palabras, se desea verificar qué tan bueno es el ajuste de la línea de regresión a los datos, o cuán cerca están las predicciones del modelo con respecto a las observaciones reales. De hecho, al construir un modelo estamos suponiendo una estructura que gobierna el comportamiento de la variable dependiente. Así, la bondad de ajuste nos permite conocer el grado en que esta estructura recoge el comportamiento de la variable endógena, dadas las observaciones muestrales. La medida propuesta para tal fin se denomina coeficiente de determinación, conocido también como r- cuadrado (r2 o R2 en el caso de una regresión lineal simple o en el de una regresión múltiple, respectivamente).

2.6.1. ¿Cómo se calcula el coeficiente de determinación?

Para el cálculo del r2 se debe partir del modelo de regresión empírico, el cuál puede escribirse de dos formas:

Y X ei i i 0 1

40

Econometría Moderna MCO: El Modelo de Regresión Bivariado

Y Y ei i i

Como se sabe, se puede expresar el modelo en desviaciones restando a la primera ecuación la expresión de la línea de regresión, del modo siguiente:

( ) ( )Y Y X X ei i i 1

y y ei i i

En la expresión anterior, resulta indiferente escribir ei o , pues recuérdese que por la primera ecuación normal. Luego, elevando dicha expresión al cuadrado y tomando sumatorias, se tiene:

y y e y ei i i i i2 2 2 2

Por la cuarta propiedad del estimador MCO, se sabe que el tercer sumando de la ecuación anterior es igual a cero, de modo que:

y y ei i i2 2 2 (2.59)

Podemos expresar la ecuación anterior de modo tal que resulte más conocida en términos estadísticos9:

( ) ( )Y Y Y Y ei i i 2 2 2 (2.60)

Cada una de las expresiones anteriores están relacionadas con sus respectivas varianzas. Según ello, podemos descomponer la varianza de la variable endógena en dos partes: una explicada por el modelo a través de la regresión lineal estimada y otra que el modelo no es capaz de explicar debido a su naturaleza estocástica. Pasemos ahora a definir los componentes de la expresión (2.59):

yi2 , suma total de cuadrados de la variable explicada(STC)

yi2 , suma explicada de cudrados (SEC)

ei2 , suma residual de cuadrados (SRC)

Ahora, y dado que se busca medir el grado en que nuestro modelo recoge el comportamiento de la variable endógena, nuestra medida de bondad de ajuste (r2 ) vendría dada por el cociente entre la SEC (variación de Y explicada por el modelo) y la STC (variación registrada para la variable explicada):

(2.61)

9 Una condición necesaria para que se cumpla (2.60) es que el modelo incorpore un intercepto. De otro modo no se podrá afirmar que ya que no habría una ecuación normal asociada a este término.

41

Econometría Moderna MCO: El Modelo de Regresión Bivariado

Algunas expresiones también útiles para calcular el r2 obtenidas mediante reemplazos de algunas ecuaciones precedentes son las siguientes:

rx

y

x

y

Var X

Var Y

i

i

i

i

2 12 2

2 12

2

2 12

( )

( )

r

x y

x y

i i

i i

2

2

2 2

Así, el coeficiente de determinación se interpreta como la proporción de la variación total de Y que la regresión es capaz de explicar. En otras palabras, el r2 mide la efectividad que poseen las variables independientes X para explicar la variación que la variable dependiente experimenta a lo largo de la muestra. Por lo tanto, cuando r2 es muy cercano a 1 se dice que el modelo de regresión es capaz de explicar un alto porcentaje de las variaciones que registra la variable explicada. Por lo tanto, el ajuste de la línea de regresión obtenida por MCO es bastante bueno, en el sentido que los valores estimados de Y son casi idénticos a los observados y que los residuos son muy pequeños.

Existen algunos casos en los que el coeficiente de determinación no es una medida confiable, por ello se debe tener cuidado al interpretarlo. Por ejemplo, si el número de observaciones es reducido, quizá algún residuo alto puede hacer que el r2 sea insignificante y por tanto se concluya que la regresión es mala, aunque en realidad el ajuste sea bueno. Otro caso es cuando las observaciones de X e Y provienen de muestras de series temporales con tendencia similar. En tal situación, sucede que el coeficiente de determinación es cercano a uno, pues las variaciones que experimenta la variable dependiente son muy similares a las de la variable independiente, y en consecuencia: . Basta con eliminar la tendencia para que el

resultado sea diferente, obteniéndose un coeficiente de determinación menor. En este caso, la regresión recibe el nombre de espúrea o ficticia, pues el modelo estimado en realidad no recoge la existencia de una relación de la variable dependiente y los regresores. Esto ocurre cuando las series de tiempo involucradas presentan ciertas características que distorsionan la distribución del error sobre la base de la cual se construyen las pruebas de inferencia.

La descomposición de la variación de Y, sobre la base de la cual se construye el r2, puede ilustrarse de la siguiente manera:

Y Yi

= Debido al residuo

Total=

= Debido a la regresión

42

Econometría Moderna MCO: El Modelo de Regresión Bivariado

XFigura 2.2

La variación de la variable endógena es la suma de dos componentes

La figura 2.2 ilustra lo que hemos derivado de manera matemática. La línea continua sobre el eje horizontal refleja el valor promedio de la variable dependiente Y. El término Yi refleja una observación de la misma variable. La distancia vertical entre este punto y la línea del promedio nos muestra la desviación total de Yi con respecto a su media (lo que equivale a la suma total de cuadrados si tomamos en cuenta a todas las observaciones). Como vemos esta distancia vertical la podemos descomponer en dos partes. La primera de ellas está relacionada con el segmento que parte de la línea de regresión estimada y va hasta la línea del promedio . Esta es la desviación explicada por la regresión. El segmento restante representa aquella parte que no es explicada por la regresión y por tanto se relaciona con el residuo ( ).

2.6.2 Propiedades del coeficiente de determinación

1. Es un número no negativo. Para demostrarlo basta recordar que éste simboliza el cociente entre dos sumas de cuadrados. Sin embargo, se debe advertir que en los casos en los que no se especifique un intercepto en el modelo, el r2 podría resultar negativo y por tanto no debería tomarse en consideración10. Por ello, es preciso hallar el coeficiente de determinación ajustado o corregido, el cuál se estudiará en el siguiente capítulo.

2. Puede tomar valores entre cero y uno, (0 r 2 1) ¿Qué pasaría si r 2 fuese cero? No existiría ninguna relación entre la variable endógena y la explicativa y, por tanto, el

estimador de la pendiente de la variable explicativa ( ) sería igual a cero y se obtendría

una la línea de regresión horizontal al eje X.

3. No tiene unidades de medida. Recuérdese que es una proporción, siendo, por tanto, un número puro.

2.7 A 2.7 A MODOMODO DEDE C CONCLUSIÓNONCLUSIÓN::

En este capítulo hemos obtenido el estimador MCO para el modelo lineal simple. Este modelo considera sólo una variable explicativa aparte del intercepto. El estimador MCO cumple con una serie de propiedades deseables como el insesgamiento y la eficiencia lo que asegura que es el mejor estimador lineal insesgado en el sentido que los estimados obtenidos tendrán la menor incertidumbre asociados a ellos.

Dentro del largo camino que aún nos queda por recorrer en la exploración de las aplicaciones del estimador MCO, este ha sido un paso importante porque nos ha permitido comprender la lógica a partir del cual se deriva el estimador. Hasta aquí la herramienta más utilizada han sido las sumatorias. Sin embargo, un enfoque más completo se basa principalmente en el análisis matricial que es el que empezaremos a utilizar en los capítulos siguientes. Para ello se recomienda que el lector haga un repaso de las principales propiedades de matrices y vectores así como la interpretación de las distintas operaciones con los mismos.

10 Recuérdese que sólo sí se incluye un intercepto se cumple que STC = SEC + SRC.

43