Anlisis de Regresin y Correlacin
Regresin y correlacin lineal_______________________________________________________________________________________________
139
Regresin Lineal Simple Y Correlacin
El objetivo de este manual es analizar el grado de la relacin existente entre variables
utilizando modelos matemticos y representaciones grficas. As pues, para representar la
relacin entre dos o ms variables desarrollaremos una ecuacin que permitir estimar una
variable en funcin de la otra.
Por ejemplo, en qu medida, un aumento de los gastos en publicidad hace aumentar las
ventas de un determinado producto?, Cmo representamos que la bajada de temperaturas
implica un aumento del consumo de la calefaccin?,...
A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que
llamaremos anlisis de correlacin. Para representar esta relacin utilizaremos una
representacin grfica llamada diagrama de dispersin y, finalmente, estudiaremos un
modelo matemtico para estimar el valor de una variable basndonos en el valor de otra, en
lo que llamaremos anlisis de regresin.
Objetivos
Aprender a calcular la correlacin entre dos variables
Saber dibujar un diagrama de dispersin
Representar la recta que define la relacin lineal entre dos variables
Saber estimar la recta de regresin por el mtodo de mnimos cuadrados e
interpretar su ajuste.
Realizar inferencia sobre los parmetros de la recta de regresin
Construir e interpretar intervalos de confianza e intervalos de prediccin para la
variable dependiente
Realizar una prueba de hiptesis para determinar si el coeficiente de correlacin es
distinto de cero.
Regresin y correlacin lineal_______________________________________________________________________________________________
140
DEFINICIN: Consideremos una variable dependiente Y con una sola variable independiente
X. Representemos una muestra aleatoria de tamao n de (X, Y) por el conjunto de
observaciones formadas por pares de variables: {(Xi, Yi) / i = 1,2,,n}
A travs de esta muestra, se desea estudiar la relacin existente entre las dos variables X e Y.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin Simple.
Y es una funcin de X Y = f(X)
Como Y depende de X,
Y: Es la variable dependiente, y
X: Es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable independiente.
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama REGRESANDO VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESORA y se le utiliza para EXPLICAR a Y.
Regresin y correlacin lineal_______________________________________________________________________________________________
141
Variable dependiente Variable independiente
Variable explicada variable explicativa Predicha Predictora
Regresada Regresora
Respuesta Estmulo
Endgena Exgena
Resultado Covariante
Variable controlada Variable control
Regresin lineal: Consideraciones sobre los datos
Datos. Las variables dependientes e independientes deben ser cuantitativas. Las variables categricas, como la religin, estudios principales o el lugar de residencia, han de decodificarse como variables binarias (dummy) o como otros tipos de variables de contraste. Los supuestos para el modelo de regresin lineal simple son: a) Igualdad de varianzas (homoscedasticidad).
Para cada valor xi de la variable independiente X, la distribucin de la variable aleatoria dependiente Yi tiene media
, y varianza 2
. Se supone que cada una de estas
varianzas son iguales a la varianza comn 2, denominado varianza de la regresin. Es decir las distribuciones de Yi tienen medias diferentes, pero tienen la misma varianza 2.
b) Independencia Se supone que las Yi son variables aleatorias estadsticamente independientes.
c) Linealidad. Se supone que la relacin de Y con X es lineal, es decir todas las medias
deben estar
en una lnea recta denominada lnea de regresin poblacional, cuya ecuacin es: (Y/Xi) =
= + Funcin de regresin Poblacional.
En la ecuacin de regresin Poblacional los coeficientes de regresin son parmetros que se estiman a partir de los datos de la muestra.
Interpretacin de los parmetros de un modelo de regresin lineal.
El valor de es la ordenada en el origen e indica el valor de Y cuando X = 0. El valor de es la pendiente de la ecuacin de regresin poblacional e indica el cambio promedio en Y correspondiente a un incremento unitario en X. El signo de , indica el tipo de tendencia (positivo o negativo) de Y con respecto a X.
Regresin y correlacin lineal_______________________________________________________________________________________________
142
d) Normalidad. Se supone que cada variable aleatoria dependiente Yi tiene distribucin normal con media
y varianza 2. En consecuencia la distribucin de cada variable es normal
con media 0 y varianza 2.
1. Diagrama de dispersin: grfica que describe la relacin entre las dos variables de inters. Variable dependiente: la variable que se pronostica o estima.
Variable independiente: la variable que proporciona la base para la estimacin. Es la
variable predictora.
2. Modelo de regresin lineal simple Propsito: determinar la ecuacin de regresin; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X). El modelo es:
= 0 + 1 +
3. Estimacin de los parmetros del modelo de regresin Procedimiento: seleccionar una muestra de la poblacin y enumerar los datos por pares para cada observacin; dibujar un diagrama de dispersin para visualizar la relacin;
determinar los estimadores de los parmetros 10 , y del modelo de regresin. La
ecuacin de regresin estimada es:
= 0 + 1
Donde:
Regresin y correlacin lineal_______________________________________________________________________________________________
143
Y Es el valor promedio pronosticado de Y para cualquier valor de X.
0: Es el estimador de ,0 es la intercepcin en Y, o el valor estimado de Y cuando X = 0
1: Es el estimador de ,1 es la pendiente de la recta, o cambio promedio en Y por
cada cambio de una unidad en X
ESTIMACIN DE LOS PARMETROS
Y
DE LA ECUACIN DE REGRESIN POBLACIONAL, A
TRAVS DEL MTODO DE MNIMOS CUADRADOS ORDINARIOS:
Xdecuadradosdesuma
XYproductosdeSuma
XSC
XYSP
n
xx
n
yxxy
b
.
.
)( 22
1
n
xb
n
yb
10
4. Pruebas de significacin del modelo
Anlisis de varianza. Prueba global de significacin del modelo (Prueba F) Descomposicin de la suma de cuadrados del total El anlisis de varianza es un mtodo que utiliza la estadstica F para probar la significacin de la ecuacin de regresin muestral o la existencia de regresin en la poblacin. Es una prueba F de alternativa bilateral. La hiptesis nula y alternativa para esta prueba es respectivamente:
Hiptesis y nivel de significacin:
insignificacdeNivel
YeXentrelinealregresinExisteH
YeXentrelinealregresinexisteNoH
i
i
:
)(0:
)(0:
1
0
( )2
=1
= ( )2
=1
+ ( )2
=1
SCT = SCE + SCR Grficamente.
Regresin y correlacin lineal_______________________________________________________________________________________________
144
CLCULO DE LA SUMAS DE CUADRADOS
SCRSCTSCE
n
xxSCR
n
yxxySCR
n
yySCT
2
22
11
2
2
)(()(
)(
CUADRO ANVA o ANOVA
Fuente de variacin
Suma de cuadrados
Grados de libertad
Cuadrados medios
F calculado (Fc)
Debido a la regresin Debido al error
SCR
SCE
P-1
n-P
CMR=SCR/1
CME=SCE/(n-2)
CMR/CME
Total SCT n-1
Decisin y conclusin: ),1(0Re pnpc FSiFchazarH
Error estndar de la estimacin
El error estndar de la estimacin mide la dispersin de los valores observados alrededor de la recta de regresin. Frmulas usadas para calcular el error estndar:
22
)( 1022
.
n
xybyby
n
YYS xy CME
n
SCES xy
2.
Regresin y correlacin lineal_______________________________________________________________________________________________
145
PRECISION DE LOS ERRORES ESTANDAR DE LOS ESTIMADORES DE j
nSCX
CMExs
nSCX
CMExbVar
SCX
CMEs
SCX
CMEbVar
b
b
)()()(
)(
22
0
1
1
1
INTERVALO DE CONFIANZA PARA LOS ESTIMADORES DE j
11
00
;211;21
;200;20
bnbn
bnbn
stbstb
stbstb
Prueba individual de significacin de los estimadores de j del modelo (Prueba t-student)
PARA 0
derechaunilateralpruebattsi
izquierdaunilateralpruebattsi
bilateralpruebattsiHchazarDecisn
ts
btpruebadeaEstadistic
insignificacdeNivel
H
HHiptesis
nc
nc
nc
n
b
c
;2
;2
;20
;2
0
01
00
Re:
:
:
0:
0:
0
PARA 1
derechaunilateralpruebattsi
izquierdaunilateralpruebattsi
bilateralpruebattsiHchazarDecisn
ts
btpruebadeaEstadistic
insignificacdeNivel
H
HHiptesis
nc
nc
nc
n
b
c
;2
;2
;20
;21
11
10
Re:
:
:
0:
0:
1
Regresin y correlacin lineal_______________________________________________________________________________________________
146
5. Anlisis de correlacin
Anlisis de correlacin: se usa un grupo de tcnicas estadsticas para medir la fuerza de la relacin
(correlacin) entre dos variables.
Coeficiente de correlacin, r: El coeficiente de correlacin (r) es una medida de la intensidad de la relacin entre dos variables. Requiere datos con escala de intervalo o de razn (variables). Puede tomar valores entre -1.00 y 1.00. Valores de -1.00 o 1.00 indican correlacin fuerte y perfecta. Valores cercanos a 0.0 indican correlacin dbil. Valores negativos indican una relacin inversa y valores positivos indican una relacin directa.
Correlacin negativa perfecta Correlacin positiva perfecta
Correlacin cero Correlacin positiva fuerte
Frmula para r
SCT
SCE
SCT
SCRr
n
yy
n
xx
n
yxxy
r
1
))(
)()(
(
2
2
2
2
Regresin y correlacin lineal_______________________________________________________________________________________________
147
Coeficiente de determinacin
El coeficiente de determinacin, r2 es la proporcin de la variacin total en la variable dependiente Y que est explicada por o se debe a la variacin en la variable independiente X.
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y toma valores de 0 a 1.
Ms sobre el coeficiente de determinacin
Prueba individual de significacin del coeficiente de correlacin (Prueba t-student)
derechaunilateralpruebattsi
izquierdaunilateralpruebattsi
bilateralpruebattsiHchazarDecisn
tr
nrtpruebadeaEstadistic
insignificacdeNivel
H
HHiptesis
nc
nc
nc
nc
;2
;2
;20
;22
1
0
Re:
1
2:
:
0:
0:
6. Prediccin.
El intervalo de confianza (de prediccin) de 100(1-)% para la media de Y dado un valor de X est definido por:
SCX
XX
nCMEtyY
SCX
XX
nCMEty
nn
2
21;2
2
21;2
)(1(
)(1(
El intervalo de prediccin (de prediccin) de 100(1-)% para un valor individual de Y dado un valor de X se define por:
Regresin y correlacin lineal_______________________________________________________________________________________________
148
SCX
XX
nCMEtyY
SCX
XX
nCMEty
nn
2
21;2
2
21;2
)(11(
)(11(
Variables cualitativas y regresiones escalonadas. Las variables cualitativas son no numricas y tambin se llaman variables ficticias. Para una variable cualitativa, slo existen dos condiciones posibles. La regresin escalonada conduce a la ecuacin de regresin ms eficiente. Slo las variables independientes con coeficientes de regresin significativos entran en el anlisis, las variables se introducen en el orden en que hacen que R2 aumente ms rpido
Anlisis de residuos. Un residuo (o residual) es la diferencia entre el valor real de Y y el valor pronosticado Y (Y estimado). Los residuos deben tener una distribucin normal aproximada. Los histogramas y los diagramas de tallo y hoja sirven para verificar estos requisitos. Una grfica de residuos y los valores de Y correspondientes se usan para mostrar que no hay tendencias ni patrones en los residuos.
Ejemplo: El representante de alumnos de la Universidad, est preocupado por el costo de los libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la librera. Decide estudiar la relacin entre el nmero de pginas del libro y el costo.
Libro N de pginas Costo ($)
1 500 28
2 700 25
3 800 33
4 600 24
5 400 23
6 500 27
7 600 21
8 800 31
i) Desarrollar una ecuacin de regresin para la informacin dada en el EJEMPLO de coeficiente de regresin que puede usarse para estimar el precio de venta basado en el nmero de pginas. Por el mtodo de mnimos cuadrados:
Regresin y correlacin lineal_______________________________________________________________________________________________
149
b = .01714
a = 16.00175
Y = 16.00175 + .01714X
ii) Realice la prueba de significacin global e individual del modelo estimado. iii) r =0.614 (verifique) iv) Pruebe la hiptesis de que no existe correlacin en la poblacin. Use .02 de nivel de
significancia. H0: La correlacin en la poblacin es cero. H1: La correlacin en la poblacin es distinta de cero.
El estadstico de prueba es calculado por
,con (n - 2) grados de libertad
t = 1.9055,
Se rechaza H0 si t > 3.143 o si t< -3.143, gl = 6, =0.02. No se rechaza H0
v) Use la informacin del primer ejemplo: calcule el error estndar de la estimacin:
a) desarrolle un intervalo de confianza de 95% para los libros de 650 pginas: [24.03, 30.25]. Verifique
b) desarrolle un intervalo de prediccin de 95% para un libro de 650 pginas: [18.09, 36.19] Verifique
Regresin y correlacin lineal_______________________________________________________________________________________________
150
EJERCICIOS RESUELTOS (Regresin Lineal, Correlacin, ANVA)
Ejemplo.
Tabla 01: Datos hipotticos sobre el gasto de consumo familiar semanal (Y) y el ingreso familiar semanal (X)
Obs. 1 2 3 4 5 6 7 8 9 10
Y ($) 70 65 90 95 110 115 120 140 155 150
X ($) 80 100 120 140 160 180 200 220 240 260
Solucin.
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.98084737 Coeficiente de determinacin R^2 0.96206156 R^2 ajustado 0.95731926
Error tpico 6.49300323
Observaciones 10
ANLISIS DE VARIANZA
Fuente de Grados de Suma de Cuadrados F Valor crtico de
y = 0.5091x + 24.455R = 0.9621
0
20
40
60
80
100
120
140
160
180
0 50 100 150 200 250 300
Regresin y correlacin lineal_______________________________________________________________________________________________
151
variacin libertad cuadrados Medios F
Regresin 1 8552.7272
7 8552.72727
202.867925
5.7527E-07
Residuos 8 337.27272
7 42.1590909
Total 9 8890
Modelo de regresin lineal
Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin 24.4545455 6.4138173 3.81279109 0.00514217
Variable X 1 0.50909091 0.03574281 14.2431712 5.7527E-07
Anlisis de los residuales Observacin Pronstico para Y Residuos
1 65.1818182 4.81818182 2 75.3636364 -10.3636364
3 85.5454545 4.45454545 4 95.7272727 -0.72727273
5 105.909091 4.09090909 6 116.090909 -1.09090909
7 126.272727 -6.27272727
8 136.454545 3.54545455
9 146.636364 8.36363636
10 156.818182 -6.81818182
1. Se efectu un experimento para evaluar el efecto el zinc en el peso de las cacatas.
En el experimento, a 7 grupos de cacatas adultas se les dio diferentes dosis de zinc y sus prdidas de peso tras la primera semana fueron registradas. Los datos de los pesos medios por grupo al final de la semana estn expresados como porcentajes sobre los pesos iniciales.
X(Ingesta
de zinc)
Y(Peso
medio %) X2 Y2 XY
1 0 100 0 10000 0
2 2 92 4 8464 184
3 4 95 16 9025 380
4 8 90 64 8100 720
5 12 98 144 9604 1176
6 16 85 256 7225 1360
Regresin y correlacin lineal_______________________________________________________________________________________________
152
7 30 67 900 4489 2010
SUMA 72 627 1384 56907 5830
REGRESIN LINEAL:
7
721384
7
627725830
22
2
1
n
XX
n
YXXY
7-0.96225571
7
7296225577.0
7
62710
n
X
n
Y
99.46891650
Ecuacin
XYXY 0.96225577-99.468916510
Comportamiento:
CORRELACIN:
7
62756907
7
721384
7
627725830
222
2
2
2
n
YY
n
XX
n
YXXY
5-0.8938290
Coeficiente de determinacin:
0.798930370.89382905- 222
Regresin y correlacin lineal_______________________________________________________________________________________________
153
Nota : El 80% de Y depende de X
ANLISIS DE VARIANZA:
745.7142867
62756907
22
2 n
YYSCTOTAL
7-619.142857
7213847-0.9622557
22
2
1
n
XXSC
REGRESIN
126.571429619.142857-745.714286 REGRESIONTOTALERROR SCSCSC
Hiptesis
H0 : No existe regresin lineal entre x e y
Ha : Si existe regresin lineal entre x e y
Cuadro ANVA:
F.V. S.C. G.L. C.M. F.C. Sig.
Regresin 619.14 1 619.14 24.4582
**
Error 126.57 5 25.31
TOTAL 745.714
2 6
124.28
Ft = F(1,619) 0.05 = 3.84
Decisin:
Como Fc > Ft entonces se rechaza H0.
Conclusin:
Existe suficiente evidencia estadstica de que existe regresin lineal entre x e y.
2. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una especie de lagarto. Los lagartos fueron colocados en un recinto cerrado de modo que la temperatura dentro del recinto pudo ser controlada. Los resultados obtenidos son los siguientes:
X(Temperatura-
C) Y(Latidos/minuto) X2 Y2 XY
1 22 20.8 484 432.64 457.6
2 22 22.3 484 497.29 490.6
Regresin y correlacin lineal_______________________________________________________________________________________________
154
3 24 24.1 576 580.81 578.4
4 24 25.6 576 655.36 614.4
5 26 25.7 676 660.49 668.2
6 26 27.2 676 739.84 707.2
7 28 27.3 784 745.29 764.4
8 28 28.8 784 829.44 806.4
9 30 29.4 900 864.36 882
10 30 31.9 900 1017.61 957
11 32 32.4 1024 1049.76 1036.8
12 32 33.8 1024 1142.44 1081.6
13 34 32.8 1156 1075.84 1115.2
14 34 34.1 1156 1162.81 1159.4
15 36 32.4 1296 1049.76 1166.4
16 36 37.9 1296 1436.41 1364.4
17 38 38 1444 1444 1444
18 38 36.5 1444 1332.25 1387
19 40 39 1600 1521 1560
20 40 41 1600 1681 1640
SUMA 620 621 19880 19918.4 19881
REGRESIN LINEAL:
20
62019880
20
62162019881
22
2
1
n
XX
n
YXXY
0.954545451
Regresin y correlacin lineal_______________________________________________________________________________________________
155
20
6200.95454545
20
62110
n
X
n
Y
1.459090910
Ecuacin
XYXY 0.954545451.4590909110
Comportamiento:
CORRELACIN:
20
62119918.4
20
62019880
20
62162019881
222
2
2
2
n
YY
n
XX
n
YXXY
0.97212152
Coeficiente de determinacin:
0.945020250.97212152 222
Nota : El 95% de Y depende de X
ANLISIS DE VARIANZA:
636.3520
62119918.4
22
2 n
YYSCTOTAL
63020
620198800.95454545
22
2
1
n
XXSC
REGRESIN
6.35630-636.35 REGRESIONTOTALERROR SCSCSC
Hiptesis
Regresin y correlacin lineal_______________________________________________________________________________________________
156
H0 : No existe regresin lineal entre x e y Ha : Si existe regresin lineal entre x e y
Cuadro ANVA:
F.V. S.C. G.L. C.M. F.C. Sig.
Regresin 630 1 630 1785.8268 **
Error 6.35 18 0.3528
TOTAL 636.35 19
Ft = F(1,630) 0.05 = 3.84 Decisin:
Como Fc > Ft entonces se rechaza H0. Conclusin:
Existe suficiente evidencia estadstica de que existe regresin lineal entre x e y.
REGRESION LINEAL MULTIPLE
En los trabajos de Investigacin es necesario emplear tcnicas estadsticas que permitan
interpretar los resultados y de estas forma poder llegar a conclusiones valederas que
permitan al investigador aceptar o rechazar Hiptesis planteadas inicialmente e inclusive
formular nuevas hiptesis, una de esas tcnicas de gran utilidad es el anlisis de regresin
que permite estudiar la asociacin entre dos o ms variables.
REGRESIN: Consiste en determinar una relacin funcional entre las variables con el fin de
que se pueda predecir el valor de una variable (dependiente) en base a otra(s) variables
(independientes).
CORRELACIN: Consiste en determinar la variacin conjunta de las variables, su grado de
relacin y su sentido (positivo o negativo).
Los modelos para un anlisis de regresin mltiple son similares a los de regresin lineal
simple, excepto que contienen ms trminos y pueden servir para proponer relaciones ms
complejas que una lnea recta en lugar de usar un modelo de lnea recta E(y) =0 + 1 X ,
para modelar el componente determinstico podramos emplear el modelo cuadrtico E(y)
=0 + 1X + 2X2 , Tambin conocido como modelo de segundo orden se representa
Regresin y correlacin lineal_______________________________________________________________________________________________
157
grficamente como una parbola en contraste con los modelos de lnea recta o modelos de
primer orden.
Si por aadidura pensamos incluir en el modelo otra variable una grfica de E(y) como
funcin de X1, X2 describe una superficie de respuesta en el plano (X1,X2) y el modelo de
primer orden es: E(y) =0 + 1 X1 + 1X2 (describe una superficie plana) sin embargo en la
mayor parte de las aplicaciones de la vida real esperaramos una curvatura en la superficie de
respuesta y utilizaramos un modelo de tercer orden:
3
25
2
142132211 0 E(y) XXXXXX para modelar la relacin.
Estos modelos e denominan modelos lineales generales porque E(y) es funcin lineal de
los PARMETROS desconocidos 0, 1, 2...
El modelo X
yE 10)( no es un modelo lineal porque E(y) no es funcin lineal de los
parmetros 0 + 1 Podemos incluir variables cuantitativas y cualitativas en el modelo, stas variables son denominadas ficticias, dicotomas o de ndice. Ejemplo: Si E(y): Tiempo medio para ejecutar un trabajo X : Da de la semana en que se ejecuta en trabajo
X1= 1 Si la observacin se hace en domingo 0 Si no es as. X2= 1 Si la observacin se hace en lunes 0 Si no es as. X3= 1 Si la observacin se hace en martes 0 Si no es as. X4= 1 Si la observacin se hace en mircoles 0 Si no es as. X5= 1 Si la observacin se hace en jueves 0 Si no es as. X6= 1 Si la observacin se hace en viernes 0 Si no es as.
Podemos escribir el modelo:
665544332211 0 E(y) XXXXXX
Las variables ficticias introducen al parmetro apropiado ( de que puede ser positivo o negativo) dependiendo del da de la semana. As: En domingo X1= 1, X2 = X3, ...., = X6 = 0 y el valor medio de Y es:
Regresin y correlacin lineal_______________________________________________________________________________________________
158
E(y) =0 + 1(1) E(y) =0 + 1 En lunes E(y) =0 + 2 En martes E(y) =0 + 3 En mircoles E(y) =0 + 4 En jueves E(y) =0 + 5 En viernes E(y) =0 + 6 En sbado se asigna 0 a todas las variables ficticias y el valor medio de Y es: E(y) =0 Se recomienda seleccionar el modelo de regresin apropiado para una situacin en particular. Ningn mtodo estadstico puede compensar una mala seleccin del modelo. Propondremos un anlisis ms profundo al respecto en una prxima sesin. En el presente su pondremos que se ha seleccionado un modelo razonable para la situacin y nos concentraremos en el procedimiento de ajuste del modelo a un conjunto de datos y en los mtodos asociados de inferencia estadstica. Despus de haber seleccionado una porcin determinstica de un modelo de regresin, esto es para E(y) agregamos un componente a fin de compensar el error aleatorio, de modo que se tiene:
Y = E(y) +
Componente
aleatorio
Componente Deterministico
El componente aleatorio debe obedecer los supuestos del modelo de regresin lineal:
Tenga distribucin normal con media 0 y varianza 2. Esto implica que la media de Y equivale al componente deterministico
kk XX ... E(y) 11 0
Para todos los valores de las variables independientes X1, X2, X3,..., Xk la varianza de es constante.
La distribucin de probabilidad de es normal.
Los errores aleatorios asociados a cualquier par de Y son independientes (en sentido probabilstico).
DESCRIPCIN DE LOS DATOS Y DEL MODELO: Los datos consisten de n observaciones sobre una variable independiente o respuesta Y y
de K variables independientes:
Regresin y correlacin lineal_______________________________________________________________________________________________
159
X1, X2, X3, ..., Xk. Si kn y Xij es la ij-sima observacin o nivel de la variable Xj , donde
i=1,2,3,...,n; j=1,2,3,..,k.
Las observaciones usualmente son presentadas de la siguiente manera:
Observaciones Y X1 X2 X3 ... Xk
1 Y1 X11 X12 X13 ... X1K
2 Y2 X21 X22 X23 ... X2K
3 Y3 X31 X32 X33 ... X3K
. . . . . ... .
. . . . . ... .
. . . . . ... .
n Yn Xn1 Xn2 Xn3 Xnk
Las relaciones entre la variable Y con las variables X1, X2, X3, ..., Xk, donde cada observacin (Xi1 Xi2 Xi3 ... Xik , Y) satisface el modelo lineal general de regresin siguiente:
iikkiii XXXX ...Y 332211 0i
Cada modelo describe un hiperplano en el espacio k-dimensional formado por {Xi }
Donde:
Yi: Variable dependiente ( respuesta)
X1, X2, X3, ..., Xk: variables independientes. Podran en realidad representar los
cuadrados cubos productos cruzados u otras funciones
(sen, log. Etc.) de las variables de prediccin. Lo esencial
es que se pueden medir sin error cuando se observe un
valor de Y y que no intervengan parmetros
desconocidos.
j: Parmetros de la regresin . constantes
desconocidas. Expresan el incremento en la variable
respuesta Y que se corresponde a una unidad de
incremento en Xj cuando otras variables Xi ji se
mantienen constantes.
i: Vector aleatorio de errores supuestos.
Regresin y correlacin lineal_______________________________________________________________________________________________
160
Los coeficientes j : 0,k son estimados por el mtodo de mnimos cuadrados, as:
El modelo:
iikkiii XXXX ...Y 332211 0i
Despejando i y elevando al cuadrado ambos miembros:
(i)2=2
332211 0i ))...((Y ikkiii XXXX
Aplicando el operador de sumatoria en ambos miembros de la igualdad:
2332211 0i
11
2 ))...((Y ikkiii
n
i
n
ii XXXX
Derivando parcialmente con respecto a j e igualando a cero buscamos
minimizar la suma de los cuadrados del error aleatorio:
SSEYi
n
i
n
ii
2i
11
2 )(Y
Obtenindose un sistema de ecuaciones lineales simultaneas llamadas
ecuaciones normales de mnimos cuadrados del modelo:
00
SSE
01
SSE
02
SSE
.
.
.
0
k
SSE
Regresin y correlacin lineal_______________________________________________________________________________________________
161
Examinemos la primera ecuacin:
Si tomamos la primera derivada parcial de SSE con respecto a 0
obtenemos:
Introduciendo el operador SUMATORIA e Igualando a cero, queda:
0)...(Y 332211 0i ikkiii XXXXn
Osea: (despejando e intercambiado miembros):
iikkiii YXXXXn ...332211 0
Esta es una ecuacin lineal en los parmetros. Las ecuaciones de
mnimos cuadrados restantes todas lineales en los parmetros son:
iiikikiiii YXXXXXXX 1121221110 ...
iiikikiiii YXXXXXXX 2222212120 ...
.
.
.
iikikkiikiikik YXXXXXXX 2
22110 ...
Luego el sistema es:
iikkiii YXXXXn ...332211 0
iiikikiiii YXXXXXXX 1121221110 ...
)1))(...((Y2 332211 0i10
ikkiii
n
i
XXXXSSE
Regresin y correlacin lineal_______________________________________________________________________________________________
162
iiikikiiii YXXXXXXX 2222212120 ...
.
.
.
iikikkiikiikik YXXXXXXX 2
22110 ...
El sistema tiene p = k +1 ecuaciones e incgnitas
Como puede verse, escribir k+1 ecuaciones lineales de mnimos cuadrados
ya cuesta trabajo, resolverlos simultneamente a mano es todava ms
difcil. Una forma fcil de expresar las ecuaciones y resolverlos es
mediante el lgebra de Matrices y obtener frmulas para las
estimaciones de los coeficientes de regresin lineal de mnimos cuadrados,
SSE, estadsticas de prueba, intervalos de confianza y de prediccin.
ECUACIONES DE MINIMOS CUADRADOS Y SU RESOLUCION: ENFOQUE MATRICIAL.
Es preciso acomodar los datos en matrices siguiendo un patrn especfico:
Supondremos que el modelo es:
Y = o + 1X1 + 2X2 + 3 X3 ++k Xk + Donde:
X1 X2 X3 Xk: Variables de prediccin
: error aleatorio p = k +1: nmero de parmetros del modelo
k: Nmero de variables de prediccin
Supongamos que se tiene una muestra de tamao n ( kn ) que se
denota as:
Valor Variables explicatorias Error
de aleatorio
Datos Y X1 X2 X3... Xk
1 Y1 X11 X12 X13...X1K 1
2 Y2 X21 X22 X23...X2K 2
Regresin y correlacin lineal_______________________________________________________________________________________________
163
3 Y3 X31 X32 X33...X3K 3
. . . . . ....
. . . . . ....
. . . . . ....
n Yn Xn1 Xn2 Xn3 Xnk k
En notacin matricial:
En forma desarrollada puede verse as:
1
3
2
1
1
2
1
0
npn3n2n1
3p333231
2p232221
1p131211
1n
3
2
1
.
.
.
.
.
..
X X X X 1
. . . . . .
. . . . . .
. . . . . .
X ... X X X 1
X ... X X X 1
X ... X X X 1
Y
.
.
.
Y
Y
Y
nxnpxknxp
nx
Ynx1 = Xnxp . px1 + nx1 Matriz de error
Matriz de parmetros coeficientes De regresin
k: nde variables Xs
p= k +1 n de parmetros
Matriz de datos xs Matriz de los datos Ys
OBSERVACIONES: La primera columna de X es una columna de unos, es decir estamos
insertando un valor de X, especficamente X0 como coeficiente de o donde X0 es una variable que siempre toma valores iguales a 1.
Regresin y correlacin lineal_______________________________________________________________________________________________
164
Hay una columna en la matriz X para cada parmetro Un punto de datos en particular se identifica mediante filas
especficas de las matrices Y y X. Ejemplo: el Valor de Y para el punto de datos 3, osea y3 est en la tercera fila de la matriz Y y sus
valores correspondientes de X1 X2 X3 Xk aparecen en la tercera fila de la matriz X.
Con sta notacin el modelo lineal general se pude expresar en la forma de matriz como: Y = X +
La matriz contiene a los parmetros o, 1, 2, 3,,p de modo que resolver el sistema nos dar como resultado, las estimaciones
de mnimos cuadrados de cada uno de ellos, denotados por:
'
3210 )( y el modelo de estimacin es
YydondeXy ,
Ahora bien:
ESTIMACIN DE LOS PARMETROS
Utilizamos las matrices de datos Y y X, sus transpuestas y la matriz
'3210 )( , podemos escribir las ecuaciones de mnimos
cuadrados, as:
* El modelo: Xy Despejando
Xy
Elevando al cuadrado en ambos miembros , en notacin matricial es
multiplicar por la izquierda en cada miembro por su transpuesta
correspondiente:
)()'(' XyXy
))'(')((' XyXy
)'()'()(''' XXyXXyyy
yXXy )'()('
)'()(')(''' XXXyXyyy
Se obtiene:
Regresin y correlacin lineal_______________________________________________________________________________________________
165
'')('2'' XXXyyy
Derivando con respecto a para minimizar ' que es la suma de cuadrados del error:
'2'2
'XXyX
Igualando a cero:
0'2'2 XXyX
Obtenemos:
yXXX ''
Para despejar multiplicamos en ambos miembros de la igualdad
por (XX)-1 que es la inversa de la matriz XX:
(XX)-1 XX = (XX)-1Xy
Por tanto:
PARA EL CLCULO, A PARTIR DE:
= (XX)1XY
Regresin y correlacin lineal_______________________________________________________________________________________________
166
1
3
2
1
1
2
1
0
npn3n2n1
3p333231
2p232221
1p131211
1n
3
2
1
.
.
.
.
.
..
X X X X 1
. . . . . .
. . . . . .
. . . . . .
X ... X X X 1
X ... X X X 1
X ... X X X 1
Y
.
.
.
Y
Y
Y
nxnpxknxp
nx
SE ESCRIBE:
nxppxn
XX
nkn3n2n1
3k333231
2k232221
1k131211
nk3k 2k1k
n333 13
n2322212
n1312111
X X X X 1
. . . . . .
. . . . . .
. . . . . .
X ... X X X 1
X ... X X X 1
X ... X X X 1
X X X X
.
X X X X
X X X X
X X X X
1 1 1 1
'23
El producto resulta:
pxpikiXX
XX
ikiniki32iki1ik
iki32i3i3i2i3i1i3
iki2i3i22i2i2i1i2
iki1i3i1i2i12i1i1
iki3i2i1
XX XX XX X
XX X XX XX X
X X ... X X X XX X
X X ... X X X X X X
X ... X X X n
'
Regresin y correlacin lineal_______________________________________________________________________________________________
167
XX: Es una matriz no singular, es matriz cuadrada. El clculo de su
inversa se realiza mediante:
(XX)-1 = (1/|XX|)adjunta(XX)
1
33
22
11
1
1n
3
2
1
nk3k 2k1k
n333 13
n2322212
n1312111
Y
.
.
.
Y
Y
Y
X X X X
.
X X X X
X X X X
X X X X
1 1 1 1
'23
pxnik
i
i
i
i
nxpxnYX
YX
YX
YX
Y
YX
Luego el vector de parmetros es:
K
YXXX
2
1
0
1 ')'(
Y el modelo de regresin estimado es:
,1,1;1
0
XY
kjniXY ij
k
jji
CARACTERSTICAS DE LOS ESTIMADORES DE MINIMOS
CUADRADOS
a. ESPERANZA MATEMTICA DE
E( ) =
Demostracin:
Regresin y correlacin lineal_______________________________________________________________________________________________
168
E( )= )(')'()')'( 11 XXXXEYXXXE
E( )= )')'(')'(( 11 XXXXXXXE
E( )= )(')'()( 1 EXXXE
E( ) =
b. VARIANZA Y COVARIANZA DE
Var-cov( )= 12 )'( XX
Demostracin:
Var-cov( )=E( -E( ))( -E( ))
Var-cov( )=E( - )( - )
Observe que:
')'(
')'(
')'(')'(
)(')'(
')'(
1
1
11
1
1
XXX
XXX
XXXXXXX
XXXX
XYdondeYXXX
Var-cov( )=E[( ')'( 1 XXX )( ')'( 1 XXX )]
Var-cov( )=E[ 11 )'('')'( XXXXXX ]
Var-cov( )= 11 )'()'(')'( XXXEXXX
Observe: nIE2)'( (Demostracin para el lector)
Var-cov( )= 121 )'(')'( XXXIXXX n
Var-cov( )= 121 )'(')'( XXIXXXX n
Regresin y correlacin lineal_______________________________________________________________________________________________
169
Var-cov( )= 12 )'( XX
c. Los errores estndar y la covarianza de los estimadores j se
determinan mediante los elementos de la matriz (XX)-1 cuya
notacin es:
ij
pxpkkkkkk
k
k
k
c
ccccc
ccccc
ccccc
ccccc
XX
3210
223222120
113121110
003020100
1)'(
Los elementos de la diagonal proporcionan los valores que se necesitan
para calcular los errores estndar de los estimadores. De modo que:
Var-cov( j )= jjc2
Luego: Los errores estndar de los estimadores de j son:
aleatorioerrordeldesviacilaesDondecSE jjj ,)(
Los elementos que estn fuera de la diagonal proporcionan valores
necesarios para calcular las covarianzas de los parmetros, digamos
j , jiDondei
cov( ji )= jiij cc22
Estas covarianzas son necesarias para determinar la varianza de la
ecuacin de prediccin, o cualquier otra funcin lineal de parmetros.
Desempean un papel el el establecimiento de un intervalo dre confianza
para E(y) y un intervalo de prediccin para Y
Regresin y correlacin lineal_______________________________________________________________________________________________
170
ESTIMADOR DE 2 . VARIANZA DE EN EL MODELO DE REGRESIN
MLTIPLE
Las varianzas de los estimadores de los parmetros y de Y dependen del
valor de 2 (varianza del error aleatorio ) que aparece en el modelo y
casi nunca se se le conoce por adelantado, debemos usar los datos de la
muestra para estimar su valor
pn
SSE
pn
YXYY
'''2
COMPONENTES DE LA SUMA DE CUADRADOS DEL TOTAL DE Y
SCT = SCR + SCE
Suma de cuadrados del total de Y.
2' YnYYSCT
Suma de cuadrados de la regresin
2' YnYXSCR
Suma de cuadrados del error (residual)
YXYYSCT ''
Varianza explicada SCR/n Varianza no explicada SCE/n-p
PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL MLTIPLE
a. Prueba para la significacin de la regresin
Regresin y correlacin lineal_______________________________________________________________________________________________
171
Hiptesis
H0: 1= 2= 3==K=0
H1: Por lo menos uno de los parmetros es distinto de cero
Anlisis de varianza (ANVA o ANOVA)
Fuente de variacin
Suma de cuadrados
Grados de libertad
Cuadrados medios
F calculado (Fc)
Debido a la regresin Debido al error
SCR
SCE
P-1
n-P
CMR=SCR/1
CME=SCE/(n-2)
CMR/CME
Total SCT n-1
Donde: n es tamao de la muestral o nmero de datos
k nmero de variables independiente
p nmero de parmetros
Rechazar H0 Si Fc es mayor que F(k, n-p)
El rechazo de H0 implica que al menos una de las variables de regresin
tienen una contribucin significativa en el modelo.
b. PRUEBAS SOBRE LOS COEFICIENTES INDIVIDUALES DE
REGRESIN
Estas pruebas son tiles para determinar el valor potencial de cada una de
las variables de regresin del modelo, as el modelo puede ser mas eficaz
con la inclusin de variables adicionales o quiz con la eliminacin de una
o ms regresoras presentes en el modelo
Hiptesis
H0 : j =0
H1 : j 0
ESTADSTICA DE PRUEBA
Regresin y correlacin lineal_______________________________________________________________________________________________
172
jj
j
O
cT
2
DECISIN:
Rechazar H0 si |To|> tn-p para un % de significacin
CONCLUSIN
Si no se rechaza la hiptesis H0 indica que el regresor Xj puede
eliminarse del modelo
MEDIDAS DE ADECUACION DEL MODELO
a. Coeficiente de determinacin mltiple
Es una medida de la magnitud de la reduccin en la variabilidad de Y,
obtenida mediante el empleo de variables de regresin X1 X2 X3 Xk.
10,1 22 RSCT
SSE
SCT
SSRR
R2 grande no necesariamente implica que el modelo de regresin sea
bueno, pues la adicin de una variable al modelo siempre aumenta R2 sin
importar si la variable es o no estadsticamente significativa.
RR 2 Es el coeficiente de correlacin mltiple entre Y y el conjunto
de variables de regresin X1 X2 X3 Xk
R es una mediad de asociacin lineal que existe entre Y y X1 X2 X3 Xk.
Cuando k=1 tenemos el coeficiente de correlacin simple entre Y y X
Ejercicio resuelto:
El consumo de un producto x de la empresa Agraroindustrial Naranjillo Ltda. de la
ciudad de Tingo Mara, se ha venido observando que a travs del tiempo ha tenido
una demanda permanente que se muestra en el siguiente cuadro :
Regresin y correlacin lineal_______________________________________________________________________________________________
173
AO
CONSUMO/VENTAS
PRECIO
INGRESO FAMILIAR
2002 45 7 2
2003 50 8 3
2004 60 9 4
2005 55 9 3
2006 64 11 5
2007 68 10 5
2008 70 12 6
2009 72 11 5
2010 75 15 7
2011 80 14 6
Se pide hallar lo siguiente:
Realice la regresin y estime los parmetros ( )
Identifique otras variables independientes que puedan estar influenciando en
Y
Analizar los efectos de las variables independencias de las dependientes
Determine y analice el coeficiente de determinacin (R2)
Determine y analice el coeficiente de determinacin ajustado (2)
El anlisis de varianza (ANVA)
Prueba de relevancia global
Determine la varianza de la variable aleatoria ()
Determine la Var-Cov de los parmetros
Determine la prueba de relevancia individual
Pronostico para 2 aos
Solucin:
Para determinar cada uno de los incisos primero identificamos las variables
correspondientes:
Regresin y correlacin lineal_______________________________________________________________________________________________
174
CONSUMO/VENTAS= F (PRECIO, INGRESO FAMILIAR)
Como se trata de un estudio a travs del tiempo y se utilizan datos histricos, se
utiliza el siguiente modelo econmico.
= 0 + 11 + 22 +
Dado que:
= variable dependiente (Consumo/Ventas)
1=Variable independiente 1 (precio)
2 = Variable independiente 2 (Ingreso familiar)
Otras variables independientes () - Nivel de ahorro de las familias
- Edad, sexo
- Precio de los bienes sustitutos
- Supuesto de insaciabilidad
- Precio de los bienes complementarios
Reemplazando en la frmula:
AO
CONSUMO/ VENTAS
Yt
PRECIO
X1t
INGRESO FAMILIAR
X2t Yt2 X1t2 X1t*X2t X2t2 X1t*Yt X2t*Yt
2002 45 7 2 2025 49 14 4 315 90
2003 50 8 3 2500 64 24 9 400 150
2004 60 9 4 3600 81 36 16 540 240
2005 55 9 3 3025 81 27 9 495 165
2006 64 11 5 4096 121 55 25 704 320
2007 68 10 5 4624 100 50 25 680 340
2008 70 12 6 4900 144 72 36 840 420
2009 72 11 5 5184 121 55 25 792 360
2010 75 15 7 5625 225 105 49 1125 525
2011 80 14 6 6400 196 84 36 1120 480
TOTAL 639 106 46 41979 1182 522 234 7011 3090
Regresin y correlacin lineal_______________________________________________________________________________________________
175
(
012
) =
(
1
=1
2
=1
1
=1
12
=1
12
=1
2
=1
21
=1
22
=1 )
(
=1
1
=1
2
=1 )
(
012
) = (10 106 46106 1182 52246 522 234
)(63970113090
)
A B
Hallamos la inversa de A-1:
Det(A)= (10) (1182 522522 234
) (106)(106 52246 234
) + (46)(106 118246 522
)
Det(A)= 1248
Cof(A):
A11= (1)2 (1182 522522 234
) = 4104
A12 = (1)3 = (106 52246 234
) = 792
A13 =(1)4 = (106 118246 522
) = 960
A21 = (1)3 = (106 46522 234
) = 792
A22 =(1)4 = (10 4646 234
) = 224
A23 =(1)5 = (10 10646 522
) = 344
A31 =(1)4 = (106 461182 522
) = 960
A32 =(1)5 = (10 46106 522
) = 344
A33 =(1)6 = (10 106106 1182
) = 584
Adjunta(A)
Regresin y correlacin lineal_______________________________________________________________________________________________
176
Adj(A) = (4104 792 960792 224 344960 344 584
)
Reemplazamos los valores:
(
012
) =1
Det() ()
(
012
) =1
1248(
4104 792 960792 224 344960 344 584
)(63970113090
)
(
012
) =
(
(4104)(639) (792)(7011) + (960)(3090)
1248(792)(639) + (224)(7011) (344)(3090)
1248(960)(639) (344)(7011) + (584)(3090)
1248 )
(
012
) = (28.961.134.98
)
Reemplazamos los datos en el modelo econmico:
Yt = 0 + 1X1t + 2X2t
Yt = 28.96 + 1.13X1t + 4.98X2t
Efectos:
Yt
1= 1.13
Un incremento del 1% en el precio (X1t) genera una disminucin en el
consumo/ventas (Yt) del 13%
Regresin y correlacin lineal_______________________________________________________________________________________________
177
Yt
2= 4.98
Un incremento del 1% en el ingreso familiar (2) genera un efecto de un incremento
en el consumo/ventas (Yt) del 98%
Coeficiente de determinacin (R2)
2 =
=
Y nY2
2
2 =
(
012
) (
12
) () (
)2
2 () (
)2
2 =
(28.961.134.98
)(63970113090
) (10) ( 63910
)2
41979 (10) ( 63910
)2
2 = 0.88908228 88.91 %
Interpretacin: El 88.91 % de la fluctuacin de las ventas viene siendo explicado por
el precio(1) y el ingreso familiar (2), durante los aos comprendidos entre 2002 al
2011.
Coeficiente de determinacin ajustado ()
2 = 1 (
) (
1
)
2 = 1 [ Y
2] [
1
]
Regresin y correlacin lineal_______________________________________________________________________________________________
178
2 = 1
[ 41979 (
28.961.134.98
)(63970113090
)
41979 (10) (63910
)2
]
[10 1
10 3]
2 = 1 0.1426085
2 = 0.8573915 85.74 %
Interpretacin:
Los precios y el ingreso familiar tienen mucha influencia en el consumo del producto
X, por lo tanto no es necesario incorporar otra variable independiente en el modelo
Anlisis de Varianza (ANVA)
FUENTE DE
VARIACION
GRADOS DE
LIBERTAD
SUMA DE
CUADRADOS
CUADRADO
MEDIO
COCIENTE
F
DEBIDO A LA
REGRESION (E)
k-1=3-1=2
SCE =1019.69 = 509.84 = 36.07
DEBIDO AL
ERROR DELA
MUESTRA (R)
n-k=10-3=7
SCR = 127.21
=14.13
.
TOTAL(T) n-1=10-1=9 SCT = 1146.90 .
= Y nY2
= (28.961.134.98
) (63970113090
) (10) (639
10)2
= 1019.69
= 2
= 41979 (10) (639
10)2
Regresin y correlacin lineal_______________________________________________________________________________________________
179
= 1146.90
=
= 1146.90 1019.69
= 127.21
=
1=
1019.69
31
= 509.84
=
=
127.21
101
= 14.13
=
=
509.84
14.13
= 36.07
Prueba de relevancia global:
1) Planteamiento de hiptesis
: 0 = 1 = 2
: 0 1 2
2) Nivel de significancia
= 5 % 0.05
3) Punto critico
gl1 = k-1 3-1=2
gl2 =n-k 10-3= 7
Fgl1;gl2; F2;7;0.05 = 4.7374
4) Calculo del estadstico
Regresin y correlacin lineal_______________________________________________________________________________________________
180
Fc = 36.07 (ver en el cuadro de ANVA)
5) Conclusiones
Fc >F2;7;0.05 (36.07 > 4.74).Entonces RHo, es decir el precio y el ingreso familiar
explican el comportamiento del consumo/ventas del producto X de la empresa
Agraria Industrial Naranjillo ltda .
Determinar la varianza de la Variable aleatoria ()
2 =
2 =
Y
2 =
2 (
012
)(
12
)
2 =
41979 (28.961.134.98
)(63970113090
)
10 3
2 = 18.17
Determine la var-cov de los parmetros:
() = 2 (Y)
() = 2
(
1
=1
2
=1
1
=1
12
=1
12
=1
2
=1
21
=1
22
=1 )
1
() = (
(0) (
0,
1) (
0,
1)
(1,
0) (
1) (
1,
2)
(1,
0) (
2,
1) (
2)
)
() = 18.17(10 106 46106 1182 52246 522 234
)
1
Regresin y correlacin lineal_______________________________________________________________________________________________
181
() =18.17
1248(
4104 792 960792 224 344960 344 584
)
(
(0) (0, 1) (0, 1)
(1, 0) (1) (1, 2)
(1, 0) (2, 1) (2)
) = (59.76 11.53 13.98
11.53 3.26 5.0113.98 5.01 8.50
)
Determine la prueba de relevancia individual:
Para : 1) Planteamiento de hiptesis
1 = 0 (El efecto del precio no explica significativamente en las ventas) 1 0 (El efecto del precio explica significativamente en las ventas)
2) Nivel de significancia
= 5 % 0.05
3) Punto critico gl = n-k 10-3 = 7
tgl;/2 t7;0.025 = 2.3646
4) Calculo del estadstico
=1 1
(1)
=1.13
3.26 0.6282
= 0.6282
5) Conclusiones
tc < t7;0.025 ( 0.6282 < 2.36 ).Entonces AHo, es decir el efecto del precio no explica significativamente el comportamiento del consumo/ventas del producto X de la empresa Agraroindustrial Naranjillo Ltda.
Para :
Regresin y correlacin lineal_______________________________________________________________________________________________
182
1) Planteamiento de hiptesis
2 = 0 (El efecto del ingreso familiar no explica significativamente en el C/Vtas) 2 0 (El efecto del ingreso familiar explica significativamente en el C/Vtas)
2) Nivel de significancia
= 5 % 0.05
3) Punto critico
gl = n-k 10-3 = 7
tgl;/2 t7;0.025 = 2.3646
4) Calculo del estadstico
=2 2
(2)
=4.98
8.50= 1.7079
5) Conclusiones
tc
Regresin y correlacin lineal_______________________________________________________________________________________________
183
Y2013 = 28.96 + 1.13X1t + 4.98X2t Y2013 = 28.96 + 1.13(16) + 4.98(8)
Y2013 = 86.96 = 87
REGRESIN LINEAL EN SPSS.
El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la
relacin entre variables cuantitativas. Tanto en el caso de dos variables (regresin simple)
como en el de ms de dos variables (regresin mltiple), el anlisis regresin lineal puede
utilizarse para explorar y cuantificar la relacin entre una variable llamada dependiente
o criterio(Y) y una o ms variables llamadas independientes o predictoras (X1, X2, ,
Xp), as como para desarrollar una ecuacin lineal con fines predictivos.
Para llevar a cabo un anlisis de regresin lineal en el SPSS 15.0 seleccionamos:
Analizar
Regresin y correlacin lineal_______________________________________________________________________________________________
184
Regresin Lineal
Apareciendo el cuadro de dilogo de la figura 01:
Figura 01
Cuadro de dilogo regresin.
En Dependiente se traslada la variable cuyos valores se desea predecir o resumir.
Bloque 1 de 1. Este recuadro nos sirve para introducir las variables independientes, nos
permite hacer varios anlisis de regresin a la vez, alternando los botones anterior y
siguiente, y adems no deja elegir el mtodo de introduccin de las variables
independientes.
Independientes se trasladan las variables utilizadas para predecir el valor de la
variable dependiente. Tambin se denominan variables predictoras o variables
explicativas. Para poder ejecutar este procedimiento, la lista debe contener al menos una
variable.
Mtodo: Permite seleccionar el mtodo por el cual se introducen las variables
independientes en el anlisis. Nos vale para elegir la mejor ecuacin de
Regresin y correlacin lineal_______________________________________________________________________________________________
185
regresin. Permite construir una variedad de modelos de regresin a partir del
mismo conjunto de variables:
Introducir (Entry): Procedimiento para la seleccin de variables en el
que todas las variables un bloque se introducen en un solo paso. Es el
mtodo por defecto.
Pasos sucesivos (Stepwise): En cada paso se introduce la variable
independiente que no se encuentre ya en la ecuacin y que tenga
la probabilidad para F ms pequea, si esa probabilidad es
suficientemente pequea. Las variables ya introducidas en la
ecuacin de regresin se eliminan de ella si su probabilidad para F
llega a ser suficientemente grande. El mtodo termina cuando ya no
hay ms variables candidatas a ser incluidas o eliminadas.
Eliminar (Remove): Procedimiento para la seleccin de variables en el
que las variables de un bloque se eliminan en un solo paso.
Hacia atrs (Backward): Procedimiento de seleccin de variables en
el que se introducen todas las variables en la ecuacin y despus se
van excluyendo una tras otra. Aquella variable que tenga la menor
correlacin parcial con la variable dependiente ser la primera en
ser considerada para su exclusin. Si satisface el criterio de eliminacin,
ser eliminada. Tras haber excluido la primera variable, se pondr a
prueba aquella variable, de las que queden en la ecuacin, que
presente una correlacin parcial ms pequea. El procedimiento
termina cuando ya no quedan en la ecuacin variables que satisfagan el
criterio de exclusin.
Hacia delante (Forward): Procedimiento de seleccin de variables
en el que stas son introducidas secuencialmente en el modelo. La
primera variable que se considerar para ser introducida en la
Regresin y correlacin lineal_______________________________________________________________________________________________
186
ecuacin ser aqulla que tenga mayor correlacin, positiva o negativa,
con la variable dependiente. Dicha variable ser introducida en la
ecuacin slo si satisface el criterio de entrada. Si ha entrado la
primera variable, se considerar como prxima candidata la variable
independiente que no est en la ecuacin y cuya correlacin parcial
sea la mayor. El procedimiento termina cuando ya no quedan variables
que satisfagan el criterio de entrada.
En Variable de seleccin se traslada una variable que limite el anlisis a un subconjunto de
casos que tengan un valor particular para esta variable. Con Regla podemos definir el
subconjunto de casos que se emplearn para estimar el modelo de regresin.
En Etiquetas de caso designamos una variable para identificar los puntos de los grficos.
Para cada punto de un diagrama de dispersin podemos utilizar la herramienta de seleccin
de puntos y mostrar el valor de la variable de etiquetas de casos correspondiente al caso
seleccionado.
Ponderacin MCP: Permite obtener un modelo de mnimos cuadrados ponderados. Los
puntos de los datos se ponderan por los inversos de sus varianzas. Esto significa que las
observaciones con varianzas grandes tienen menor impacto en el anlisis que las
observaciones asociadas a varianzas pequeas.
2.1.- Estadsticos
Con el botn Estadsticos accedemos al cuadro de dilogo que muestra la figura 2 que
nos nos vale para solicitar resultados estadsticos opcionales, incluyendo los coeficientes
de regresin, descriptivos, estadsticos de ajuste del modelo, la prueba de Durbin-Watson y
diagnsticos de la colinealidad.
Figura 55.
Cuadro de dilogo estadisticos
Regresin y correlacin lineal_______________________________________________________________________________________________
187
Coeficientes de regresin. En este recuadro podemos obtener tanto las
estimaciones de los coeficientes de regresin, la bondad del ajuste del modelo elegido,
los intervalos de confianza de cada coeficiente as como la matriz de covarianzas. Podemos
elegir una o ms de las opciones:
Estimaciones: Nos muestra coeficientes de regresin y medidas relacionadas. Los
coeficientes no estandarizados (no tipificados) son los coeficientes de regresin
parcial que definen la ecuacin de regresin en puntuaciones directas. Los
coeficientes estandarizados () son los coeficientes que definen la ecuacin de
regresin en puntuaciones tpicas. Estos coeficientes estandarizados ayudan a
valorar la importancia relativa de cada variable independiente dentro de la
ecuacin. Muestra las pruebas de significacin de cada coeficiente, el
estadstico de contrate (t) as como su nivel crtico (Sig.). Una significacin
pequea nos permite afirmar que el coeficiente es significativo.
Intervalos de confianza: nos muestra intervalos de confianza al 95% para los
coeficientes de regresin.
Matriz de covarianzas: nos muestra la matriz de varianza-covarianza de los
coeficientes de regresin, las varianzas en la diagonal y las covarianzas por
debajo y por encima de la diagonal.
Ajuste del modelo. Muestra el coeficiente de correlacin mltiple (R mltiple), y su
Regresin y correlacin lineal_______________________________________________________________________________________________
188
cuadrado (R2, coeficiente de determinacin, que expresa la proporcin de varianza de la
variable dependiente que est explicada por la variable o variables independientes), la R
cuadrado corregida y el error tpico de la estimacin (desviacin tpica de los residuos).
Tambin, una tabla de ANOVA muestra las sumas de cuadrados, los grados de libertad, las
medias cuadrticas, el valor del estadstico F y el nivel crtico (Sig.) de la F.
Cambio en R cuadrado. Nos muestra el cambio en el estadstico R cuadrado que se produce
al aadir o eliminar una variable independiente. Si el cambio en R cuadrado asociado a una
variable es grande, significa que esa variable es un buen predictor de la variable dependiente.
Descriptivos. Muestra las medias de las variables, las desviaciones tpicas y la matriz de
correlaciones con las probabilidades unilaterales.
Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial y
parcial. Los valores del coeficiente de correlacin van de -1 a 1. El signo del coeficiente indica
la direccin de
la relacin y su valor absoluto indica la fuerza de la relacin. Los valores mayores indican
que la relacin es ms estrecha.
Diagnsticos de colinealidad. Muestra las tolerancias para las variables individuales y una
variedad de estadsticos para diagnosticar los problemas de colinealidad. La colinealidad (o
multicolinealidad) es una situacin no deseable en la que una de las variables
independientes es una funcin lineal de otras variables independientes.
Residuos. Este recuadro nos permite seleccionar una de las opciones:
Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados
serialmente. ste estadstico oscila entre 0 y 4 y toma el valor 2 cuando los residuos
son completamente independientes. Los valores mayores de 2 indican
autocorrelacin positiva y los menores de 2 autocorrelacin negativa.
Diagnsticos por caso: Genera diagnsticos por casos, para todos los casos que
cumplan el criterio de seleccin (los valores atpicos por encima de n desviaciones
tpicas).
Regresin y correlacin lineal_______________________________________________________________________________________________
189
2.2.- Grficos
Con el botn Grficos obtenemos el cuadro de dilogo de la figura 3
Figura 56.
Cuadro de dilogo grficos.
En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos
estandarizados (ZPRED), los residuos estandarizados (ZRESID), los residuos eliminando la
puntuacin del sujeto (DRESID) y los valores predichos ajustados (SDRESID).
Dispersin 1 de 1. Nos muestra los diagramas de dispersin que queramos de la lista de la
izquierda, para cada par de variables, alternando anterior y siguiente.
Grficos de residuos tipificados. En este recuadro podemos elegir uno de los grficos:
Histograma: Crea un histograma de los residuos tipificados con una curva normal
superpuesta.
Grfico de probabilidad normal: Muestra un grfico de probabilidad normal de
los residuos tipificados. Se usa para comprobar la normalidad. Si la variable se
distribuye normalmente, los puntos representados forman una lnea recta
diagonal.
Generar todos los grficos parciales. Genera todos los diagramas de
dispersin de la variable dependiente con cada una de las variables
independientes.
Regresin y correlacin lineal_______________________________________________________________________________________________
190
2.3.- Guardar
El botn Guardar nos permite guardar los valores pronosticados, los residuos y
medidas relacionadas como nuevas variables que se aaden al archivo de datos de trabajo.
En los resultados una tabla muestra el nombre de cada nueva variable y su contenido.
2.4.- Opciones
El botn Opcionesnos permite controlar los criterios por los que se eligen las
variables para su inclusin o exclusin del modelo de regresin, suprimir el
trmino constante y controlar la manipulacin de los valores perdidos.
Aplicacin.
Vamos a realizar un anlisis de regresin lineal simple para estudiar la posible relacin
entre
Las ventas de un determinado producto (variable dependiente) y los gastos en publicidad
(variable independiente) en una muestra de 15 productos. La figura muestra la matriz de
datos q se va a analizar.
Editor de datos SPSS vista de variables.
Editor de datos spss.
Regresin y correlacin lineal_______________________________________________________________________________________________
191
Descripcin del procedimiento para implementar un anlisis de regresin
lineal
Para realizar un anlisis de regresin lineal con SPSS seleccionamos en el men
analizar la opcin de regresin lineal como muestra la figura 59.
Men analizar regresin lineal.
Regresin y correlacin lineal_______________________________________________________________________________________________
192
Figura 2. Secuencia de mens para implementar un anlisis de regresin
lineal con SPSS.
La secuencia mostrada en la Figura 2 nos permite acceder al cuadro de dilogo Regresin
lineal como se muestra en la Figura 3. En dicho cuadro disponemos de de las variables que
hemos incluido en el archivo de datos. En nuestro caso: ventas y gastos en publicidad.
Como mnimo, para que se pueda ejecutar el anlisis, tenemos que seleccionar dos
variables y trasladarlas respectivamente al cuadro de dependiente e independientes.
Ventas ser la variable dependiente y gastos en publicidad la variable independiente. Slo
con estas especificaciones podemos, al pulsar el botn Aceptar, obtener informacin
acerca de la bondad de ajuste del modelo, de la validacin y de la ecuacin de regresin
estimada as como de la significacin de los parmetros.
Figura 60.
Cuadro de dilogo regresin lineal.
Regresin y correlacin lineal_______________________________________________________________________________________________
193
Figura 3. Cuadro de dilogo de regresin lineal.
Los resultados que nos proporciona SPSS, con las opciones por defecto del
cuadro de regresin lineal, son las tablas etiquetadas como Variables
introducidas/eliminadas(b), Resumen del modelo(b), Anova y Coeficientes
que aparecen a continuacin. De cada tabla describiremos los valores incluidos
en las mismas, su significado y cmo se han calculado.
Regresin y correlacin lineal_______________________________________________________________________________________________
194
Regresin y correlacin lineal_______________________________________________________________________________________________
195
Los grficos Histograma y grfico P-P normal de regresin nos permiten
valorar el alejamiento del supuesto de normalidad. Comparando la curva
Regresin Residuo tipificado
210-1-2-3
Fre
cuen
cia
8
6
4
2
0
Histograma
Variable dependiente: VENTAS
Media =-6,94E-16
Desviacin tpica =0,964
N =15
Prob acum observada
1,00,80,60,40,20,0
Pro
b a
cu
m e
sp
era
da
1,0
0,8
0,6
0,4
0,2
0,0
Grfico P-P normal de regresin Residuo tipificado
Variable dependiente: VENTAS
Regresin y correlacin lineal_______________________________________________________________________________________________
196
normal con la distribucin emprica en el histograma y evaluando el
alejamiento de los puntos representados en el segundo grfico con respecto a
la diagonal. Podemos concluir que no existen grandes desviaciones de la
curva normal. No obstante, para ser ms precisos se puede utilizar la prueba
de Kolmogorov del men de pruebas no paramtricas para evaluar este
supuesto.
Ejercicios propuestos.
1) El gerente de personal de la empresa agroindustrial Naranjillo estudia la relacin entre los
gastos y los salarios de su personal obrero. Una muestra aleatoria de 10 obreros revel los
siguientes datos en dlares por semana:
Gastos 25 20 32 37 40 40 45 30 55 60
Salarios 28 25 35 40 45 50 50 35 70 80
a) Trace el diagrama de dispersin e indicar si existe cierta dependencia lineal entre las
variables.
b) Halle la ecuacin de la recta de regresin estimada Y = f(x)
c) Interprete y/o de su comentario sobre el valor de la pendiente.
d) Estime el gasto que correspondera a un salario semanal de 90 dlares.
e) Pruebe la significacin de la pendiente de la regresin muestral con nivel de confianza
del 95%
f) Utilice el mtodo de anlisis de varianza para probar la significacin de la ecuacin de
regresin muestral, al nivel de significancia del 5%.
g) Calcule el coeficiente de correlacin (r) y el coeficiente de determinacin r2, e
interprete los resultados.
2) Se obtuvieron los siguientes datos para determinar la relacin entre cantidad de fertilizantes
y produccin de papa por hectrea.
Sacos de fertilizantes por hectrea. 3 4 5 6 7 8 9 10 11 12
Rendimiento en kg. 45 48 52 55 60 65 68 70 74 76
Regresin y correlacin lineal_______________________________________________________________________________________________
197
a) Encuentre la ecuacin de regresin de la cosecha sobre el fertilizante, por el mtodo
de mnimos cuadrados ordinarios.
b) Estime la cosecha si se aplican 12 sacos de fertilizantes. Cunto es el error estndar?
c) Determine el coeficiente de determinacin. De su comentario sobre este valor.
d) Calcule el grado de asociacin entre ambas variables.
3) Como analista de Coca - Cola, su trabajo es utilizar los datos proporcionados aqu para
saber si los cambios en los precios son efectivos para promover las ventas. Estos datos se
tomaron en los mercados de prueba seleccionados en toda la regin para el precio de cada
botella y las respectivas ventas realizadas. Las ventas estn dadas en miles de soles.
Precio en soles 2.10
3.52
2.10
2.55
3.50
2 3.50
2.99
2.99
2.25
Ventas de Coca-Cola en miles de soles.
35 25 21 19 23 31
24 31 20 19
a) Graficar el diagrama de dispersin e indicar si existe cierta dependencia lineal entre las
variables.
b) Existe correlacin?, Explique.
c) La correlacin es positiva o negativa?
4) A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y a unidades producidas (Y).
Determine la recta de regresin de y sobre x, el coeficiente de correlacin e interprete.
5) Los contadores con frecuencia estiman los gastos generales basndose en el nivel de produccin. En la tabla que sigue se da la informacin recabada sobre gastos generales y las unidades producidas en 10 plantas y se desea estimar una ecuacin de regresin para estimar gastos generales futuros.
Gastos generales ($) 300 1000 1100 1200 600 800 900 500 400 200
Unidades producidas 15 45 55 75 30 40 45 20 18 10
a) Determine la ecuacin de regresin y haga un anlisis de los coeficientes de regresin.
b) Proporcionan los datos suficiente evidencia para indicar que las unidades producidas aportan informacin para predecir los gastos generales?.
c) Realice un anlisis de bondad de ajuste de la ecuacin de regresin lineal. d) Qu puede usted concluir acerca de la correlacin poblacional entre gastos
generales y unidades producidas? . 6) El gerente de ventas de una cadena de tiendas obtuvo informacin (ver tabla que sigue) de
los pedidos por internet y del nmero de ventas realizadas por esa modalidad. Como parte de su presentacin en la prxima reunin de vendedores al gerente le gustara dar informacin especfica sobre la relacin ente el nmero de ventas realizadas.
Tienda 1 2 3 4 5 6 7 8 9 10
Nmero de pedidos 50 56 60 68 65 50 79 35 42 15
Horas (X) 23 30 33 35 40 45
Produccin (Y) 9 12 15 17 20 23
Regresin y correlacin lineal_______________________________________________________________________________________________
198
Nmero de ventas 45 55 50 65 60 40 75 30 38 12
a) Use el mtodo de mnimos cuadrados para expresar la relacin entre estas dos variables.
b) Haga un anlisis de los coeficientes de regresin. c) Proporcionan los datos suficiente evidencia para indicar que las unidades producidas
aportan informacin para predecir los gastos generales?. e) Realice un anlisis de bondad de ajuste de la ecuacin de regresin lineal. d) Qu puede usted concluir acerca de la correlacin poblacional entre gastos
generales y unidades producidas? 7) Las cantidades de un compuesto qumico (y) que se disuelven en 100 ml de agua a diferentes
temperaturas (x), se registraron en la tabla que sigue.
X (C) Y (Gramos )
0 15 30 45 60 75
10 15 27 33 46 50
8 12 23 30 40 52
10 14 25 32 43 53
9 16 24 35 42 54
11 18 26 34 45 55
a) Encuentre la ecuacin de regresin. b) Estime la varianza de la regresin poblacional. c) Calcule el error estndar de la pendiente.
8) El gerente de recursos humanos de la empresa DAMPER S.A que tiene ms de 800 empleados realiza un estudio de los salarios de los empleados utilizando una muestra aleatoria, de cada empleado recab: X1: Edad X2: Aos de servicio X3: Genero: Hombre =1, Mujer = 0 Y: Salario Mensual en dlares. Los datos obtenidos son los siguientes:
a) Determine la ecuacin de regresin muestral utilizando la variable salario como variable dependiente.
Empleado X1 X2 X3 Y
1 2 3 4 5 6 7 8 9
10 11 12
20 20 21 23 24 25 26 26 26 26 3
31
0.5 1 1 3 5 6 7 7 7 8 9
10
1 0 0 1 1 1 1 1 0 0 1 1
50 80 90
100 120 150 160 180 190 195 200 250
Empleado X1 X2 X3 Y
13 14 15 16 17 18 19 20 21 22 23 24
35 36 37 38 39 40 48 50 52 56 62 64
12 15 16 16 17 18 19 23 24 26 30 32
1 0 1 1 1 0 1 0 0 1 1 1
280 300 320 350 390 420 480 430 490 510 550 590
Regresin y correlacin lineal_______________________________________________________________________________________________
199
b) Determine el valor del coeficiente de determinacin mltiple e interprete. c) Desarrolle una prueba de hiptesis global para determinar si alguno de los
coeficientes de regresin es diferente de cero. d) Desarrolle una prueba de hiptesis individual utilizando el mtodo de intervalos de
confianza para determinar si se puede eliminar alguna de las variables independientes.
e) Halle la matriz de correlacin de orden cero (o simple de Pearson). Qu variables independientes tiene correlacin significativa con la variable dependiente?. Segn este criterio, Qu variables independientes se debera eliminar del modelo de regresin?
f) Analice la multicolinealidad.
9) El gerente de procesamientos de datos de la compaa cisco estudia el uso de la computadora en el departamento de sistemas de la compaa. En una muestra aleatoria de 60 trabajos del mes pasado se registro el tiempo de procesamiento (en segundos) para cada trabajo, con los siguientes resultados: Al nivel de significacin del 5%, pruebe la hiptesis de que la distribucin los tiempos de procesamiento es normal.
10) Al realizar la regresin de Y en X basado en una muestra aleatoria de 10 pares de datos (Xi, Yi), se tiene que la varianza de los Yi es igual a 16.5 y que la suma de cuadrados debido a la regresin es 155. Qu porcentaje de la varianza de los Yi es explicada por la regresin?
11) El gerente de personal de una empresa textil en gamarra utiliz a 30 operarios en un estudio para determinar la relacin entre las siguientes variables: Y: Comportamiento hacia el trabajo (prueba calificada de 0 a 20) X1: horas semanales de trabajo X2: Servicios en el hogar: Telfono, TV Cable, Internet (0=uno de los tres, 1=dos de los tres, 2=los tres). X3: Nmero de prendas que confecciona por semana. X4: aos de experiencia.
Y X1 X2 X3 X4
14 14 15 15 16 16 16 16 17 17 17 18 18 19 20
70 70 72 72 73 74 74 75 75 76 77 78 78 79 80
1 1 1 0 0 0 1 0 0 1 0 1 1 1 2
38 39 39 40 41 42 43 44 44 45 45 46 47 48 49
8.0 8.4 8.6 8.9 9.0 9.0 9.1 9.2 9.8
10.0 10.2 10.8 11.0 11.5 11.6
Y X1 X2 X3 X4
5 5 6 6 8 9 9
10 10 10 10 10 11 12 13
50 53 55 58 61 62 62 63 63 65 65 69 68 69 69
0 0 0 1 1 0 2 0 1 2 0 1 0 1 1
30 31 31 32 32 33 34 35 35 36 36 36 37 37 38
0.6 1.0 1.5 1.8 2.0 2.4 2.8 3.0 3.5 4.0 4.6 5.0 5.8 6.0 6.7
Regresin y correlacin lineal_______________________________________________________________________________________________
200
a) Halle la ecuacin de regresin muestral b) Determine el valor del coeficiente de determinacin mltiple e interprete. c) Desarrolle una prueba de hiptesis global para determinar si alguno de los
coeficientes de regresin poblacional es diferente de cero. d) Calcule el coeficiente de correlacin mltiple. Es significativo este coeficiente al nivel
de significacin 0.01? e) Halle la matriz de correlaciones de orden cero (o simple de Pearson). Qu variables
independientes tiene correlacin significativa con la variable dependiente?. Segn este criterio, Qu variables se debera eliminar del modelo de regresin?
12) Se realiz un estudio estadstico para determinar un modelo de regresin lineal simple con el fin de predecir el monto de las ventas semanales de un producto en funcin de la demanda. De una muestra de montos de ventas (Y en cientos de soles) y demandas semanales X (en unidades del producto) resultaron las siguientes estadsticas:
= 50, = 300, = 4.487, = 175, (, ) = 765.6
a) Obtenga el modelo de regresin planteado. b) Cunto fue la demanda en una semana donde el monto de venta lleg a 1060.536?.
13) Al estudiar la relacin entre costos (X) y las utilidades (Y) en dlares de ciertos productos usando una muestra se obtuvo la siguiente informacin:
= 5, = 4, = 100, = 50, = 26 + 0.76 a) Qu porcentaje de la variabilidad de las utilidades es explicada por la ecuacin de regresin
dada?