Post on 03-Jun-2018
transcript
8/12/2019 Actividad3 Sanchez Campoy CM
1/33
AAccttiivviiddaadd33TTeemmaa33
TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY
PROFESORES: RAMN GUTIRREZ SNCHEZMARIA DOLORES RUIZ MEDINA
CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER ESTADSTICA APLICADA -
8/12/2019 Actividad3 Sanchez Campoy CM
2/33
A1. CUESTIONES TERICAS
Resolver tres actividades tericas.
1.- Deducir la expresin de los estimadores mnimo-cuadrticos de losparmetros del modelo de regresin lineal simple.
Definimos las siguientes variables:
X: variable de regresin o explicativa, continua y controlable por elexperimentador. En el diseo del experimento se determinan sus valores.
Y: variable respuesta, para la que se supone una relacin lineal entre Y y lavariable explicativa X.
El modelo que define la observacin de la variable respuesta Y viene dado por:
0 1Y a a X = + +
representando , la componente de error aleatoria, se supone que es una variable
aleatoria con media cero y varianza2
y que el conjunto de componentes aleatoriasde error no estn correlacionadas.
Tomando n pares de datos 1 1( , ),..., ( , )n nx y x y , presentamos la siguiente
demostracin:
El proceso para la obtencin por mnimos cuadrados de los estimadores 0a y 1a tienepor objetivo minimizar la suma de los cuadrados de los residuos, que denotamos por
L . Partiendo de dicha funcin su expresin viene dada por:
( )22
0 1
1 1
n n
i i i
i i
L y a a x= =
= =
Para minimizar L , derivamos parcialmente respecto de 0 1ya a :
( )0 110
2n
i i
i
Ly a a x
a =
=
( )0 111
2n
i i i
i
Ly a a x x
a =
=
Los estimadores mnimo-cuadrticos se obtienen igualando las anteriores derivadas a
cero:
( )0 11
2 0n
i i
i
y a a x=
=
( )0 11
2 0n
i i i
i
y a a x x=
=
Operando se tiene:
8/12/2019 Actividad3 Sanchez Campoy CM
3/33
0 1
1 1
n n
i i
i i
y na a x= =
= +
2
0 11 1 1
n n n
i i i ii i iy x a x a x= = =
= +
Para resolver este sistema de ecuaciones, realizamos los siguientes pasos:
Dividimos la primera ecuacin por n: 0 1Y a a X = +
Despejando: 0 1a Y a X =
Sustituyendo 0a en la segunda ecuacin:
( ) 21 11 1 1
n n n
i i i i
i i i
y x Y a X x a x
= = =
= +
2
1
1 1 1 1
n n n n
i i i i i
i i i i
y x Y x a x X x= = = =
=
(*)
Por otra parte:
( )1 1
( )( )n n
i i i i i i
i i
y Y x X y x X y Y x Y X= =
= + =
1 1 1
n n n
i i i i
i i i
y x X y Y x nY X= = =
= + =
1 1 1 1
n n n n
i i i i i i
i i i i
y x n X Y Y x nY X y x Y x= = = =
= + =
( )2 2
2 2 2
1 1 1 1
( ) 2 2n n n n
i i i i i
i i i i
x X x X x X x X x n X= = = =
= + = + =
2 2
1 1 1 1 1
2n n n n n
i i i i i
i i i i i
x X x X x x X x= = = = =
= + =
Teniendo en cuenta estas igualdades obtenidas y sustituyndolas en la ecuacin (*),tenemos que:
2
1
1 1
( )( ) ( )n n
i i i
i i
y Y x X a x X= =
=
De donde deducimos que el estimador de 1a viene dado por el cociente:
11
2
1
( )( )
( )
n
i i
i XY
n
XXi
i
y Y x XS
aS
x X
=
=
= =
8/12/2019 Actividad3 Sanchez Campoy CM
4/33
Siendo:
1 1
( )( )n n
XY i i i i
i i
S y Y x X y x n X Y = =
= =
22 2
1 1
( )n n
XX i i
i i
S x X x n X = =
= =
Basta sustituir 1a en la expresin despejada de la primera ecuacin para obtener:
0 1a Y a X =
Luego, hemos deducido que los estimadores 0a y 1a son:
1
0 1
XY
XX
S
a S
a Y a X
=
=
2.- Deducir la expresin
1E YY XYSS S a S =
de la suma de cuadrados de los residuos.
Tenemos las siguientes notaciones:
0 1Y a a X = +
ESS : Suma de cuadrados de los residuos:
2
1
n
E i
i
SS =
=
( )2 2
2
1 1
n n
YY i i
i i
S y Y y nY = =
= =
( )2 22
1 1
n n
XX i i
i i
S x X x n X = =
= =
1 1
( )( )n n
XY i i i i
i i
S y Y x X y x n X Y = =
= =
Para poder llegar a la expresin deseada, comenzamos con la siguiente igualdad:
ii i
y y = +
Restamos Y a ambos lados: ii iy Y y Y = +
8/12/2019 Actividad3 Sanchez Campoy CM
5/33
Si elevamos al cuadrado ambos miembros se obtiene que:
( ) ( )22
ii iy Y y Y = +
Es decir: ( ) ( ) ( ) 22 2
2i ii i iy Y y Y y Y = + +
Sumando ambos miembros de la expresin de i =1 hasta n, se tiene
( ) ( ) ( ) 22 2
1 1 1 1
2n n n n
i ii i i
i i i i
y Y y Y y Y = = = =
= + +
Ahora bien, el ltimo trmino de la expresin anterior es cero, hacemos la
demostracin en el siguiente marco:
Luego:
( )
( )
22 2
1 1 1
n n n
i
i ii i i
y Y y Y = = =
= +
( ) 1 1 1
n n n
i i ii i
i i i
y Y y Y = = =
= y sabemos que:
La suma de los residuos mnimo-cuadrticos es igual a cero:
0 1
1 1 1 1 1 1
( ) ( )n n n n n n
i i i i ii i
i i i i i i
y y y y y a a x= = = = = =
= = = + =
( ) 0 1 1 11 1 1 1
n n n n
i i i i
i i i i
y na a x y n Y a X a x= = = =
= = =
1 11 1 1 1 0
n n n n
i i i ii i i i
y y a x a x= = = =
= = La suma de los productos cruzados entre los valores ajustados y los residuos es
igual a 0:
( ) 0 1 0 11 1 1 1
0n n n n
i i i ii ii
i i i i
y a a x a a x = = = =
= + = + =
Puesto que:
es una variable aleatoria con media cero luego:
1
0n
i
i
n
=
= =
( )0 11 1
0n n
ii i i i
i i
x y a a x x= =
= = por la segunda ecuacin del
sistemas de ecuaciones obtenido en la estimacin por mnimos
cuadrados.
8/12/2019 Actividad3 Sanchez Campoy CM
6/33
Por tanto, hemos llegado a que:
YY EY YS S SS = +
Como
0 1Y a a X = +
, equivale a un cambio de escala y origen de la variable X, por laspropiedades de la varianza ante estos cambios, se tiene que:
( )
( )2 2
21 1
1
n n
ii
i i
y Y x X
an n
= =
=
( ) ( )2 22
1
1 1
n n
ii
i i
y Y a x X= =
=
Luego:
2
1 1 1 1 1XY
XX XX XX XYY YXX
SS a S a a S a S a S
S= = = =
As llegamos a la igualdad deseada:
1YY XY E S a S SS = +
1E YY XYSS S a S =
3.- Explicar brevemente la interpretacin de los valores del coeficiente dedeterminacin.
El coeficiente de determinacin se define como la proporcin de la varianza total
explicada por la regresin. Su expresin viene dada por:
( )
( )
2
2 1
2
1
n
i
i R
n
YYi
i
y YSS
RS
y Y
=
=
= =
De forma equivalente, y en aplicacin de la igualdad:
( ) ( ) 22 2
1 1 1
n n n
ii i
i i i
y Y y Y = = =
= +
obtenida en el apartado anterior de esta actividad, podemos expresar el coeficiente dedeterminacin como, como uno menos la proporcin no explicada por la regresin, es
decir:
( )
2
2 1
2
1
1 1
n
i
i E
n
YYi
i
SSR
Sy Y
=
=
= =
El criterio mnimo-cuadrtico equivale a maximizar2
R .
Dicho coeficiente toma valores en el intervalo (0 , 1) y se interpreta como la proporcinde variabilidad de los datos explicada por el modelo de regresin. Por este motivo, se
8/12/2019 Actividad3 Sanchez Campoy CM
7/33
suele utilizar, como un indicador de la adecuacin del modelo de regresin (medida
relativa del grado de asociacin lineal entre X e Y), mide la correlacin entre el valor
observado y el valor predicho o ajustado con la regresin.
2
0 1R
Si2 1R = ( ) ( )
22
1 1
n n
i i
i i
y Y y Y= =
= y 2
1
0n
i
i
=
=
Lo que implica un ajuste perfecto, Y depende funcionalmente de X, la varianza
de los residuos se hace cero y la varianza de los valores observados y la
variable respuesta coincide.
Si2 1R <
( )2
1
0n
i
i
y Y=
y 2
1
0n
i
i
=
Se tiene que:
( ) ( )
( )
2 22
1 1
222
1 1
(1 )
n n
ii
i i
n n
i i
i i
y Y R y Y
R y Y
= =
= =
=
=
Un valor de2
R cercano a 0 implica baja capacidad explicativa de la recta, porotro lado, un valor prximo a 1, equivale a alta capacidad explicativa de la recta.
Si2 0R = ( )
22
1 1
n n
i i
i i
y Y= =
= y ( )2
1
0n
i
i
y Y=
=
El modelo no explica nada de Y a partir de X.
En resumen:
El coeficiente de determinacin toma valores entre 0 y 1, tomando el valor 0
cuando el modelo no explica nada de Y a partir de X, es decir el ajuste es el
peor posible, y tomando el valor 1 cuando todos los residuos son nulos, es
decir el ajuste es perfecto. Para valores intermedios, segn estn ms
prximos a 0 o 1, nos indicarn un peor omejor ajuste respectivamente, por
poner datos numricos algunos autores, consideran un buen ajuste para
valores de2
R mayores de 0.75, es decir cuando al menos el 75% de la
varianza total quede explicada por la regresin.
Para terminar damos otras frmulas para el coeficiente de determinacin:
22 ' 2
1 1R XY
YY YY XX
SS SR a a r
S S S= = = =
8/12/2019 Actividad3 Sanchez Campoy CM
8/33
A2. TRABAJO
Elaborar un resumen sobre los contrastes de ajuste en el modelo de regresinlineal. Indicando algunos casos particulares interesantes para el anlisis de la
adecuacin del modelo
Los estimadores 0a y 1a dependen de la muestra seleccionada, por lo tanto son
variables aleatorias y presentarn una distribucin de probabilidad. Estas
distribuciones de probabilidad de los estimadores pueden utilizarse para construir
intervalos de confianza o contrastes sobre los parmetros del modelo de regresin.
Suponiendo que los residuos se distribuyen normalmente, realizamos un resumen de
los contrastes de ajuste sobre el modelo de regresin lineal simple:
1.- Ajuste de la pendiente de la recta, contrastes para el parmetro a1:
En trminos generales planteamos los siguientes contrastes para a1:
Unilateral a la izquierda(contraste de una cola):
0 1
1 1
:
:
H a a
H a a
=
8/12/2019 Actividad3 Sanchez Campoy CM
9/33
- El estadstico pivotepara este contraste es:
1
0
E
XX
a at
MSS
= donde:
1
2
YY XY E
S a SMS
n
=
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 1 , 2nt t >
siendo 1 , 2nt el percentil de la distribucin t-Student con n-2 grados de
libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Hosi : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )2 0nP t t >
Bilateral (contraste de dos colas):
0 1
1 1
:
:
H a a
H a a
=
- El estadstico pivotepara este contraste es:
1
0
E
XX
a at
MSS
= donde:
1
2YY XY
E
S a SMS
n
=
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 /2, 2nt t >
siendo /2, 2nt el percentil 1 / 2 de la distribucin t-Student con n-2 grados
de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Hosi : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )2 02 nP t t >
Caso especialSe puede considerar el contraste de ausencia de una relacin lineal entre X e Y; o bien,
la ausencia de una relacin causal entre dichas variables, en trminos del primer
contraste de ajuste sobre la pendiente. Es decir,
8/12/2019 Actividad3 Sanchez Campoy CM
10/33
0 1
1 1
: 0
: 0
H a
H a
=
- El estadstico pivotepara este contraste es:
1
0
E
XX
at
MSS
=
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 /2, 2nt t >
es decir, 0 /2, 2nt t >
0 /2, 2nt t <
siendo /2, 2nt el percentil 1 / 2 de la distribucin t-Student con n-2 grados
de libertad.
Por lo tanto, si el estadstico de prueba cae en la regin crtica, se rechaza la hiptesis
nula y se dice que el estadstico hallado es estadsticamente significativo con un nivel
de confianza del 100(1-)%.
Ajuste de la pendiente de la recta, contrastes para el parmetro a0:
En trminos generales planteamos los siguientes contrastes para a0:
Unilateral a la izquierda(contraste de una cola):
0 0
1 0
:
:
H a a
H a a
=
8/12/2019 Actividad3 Sanchez Campoy CM
11/33
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )2 0nP t t <
Unilateral a la derecha(contraste de una cola):
0 0
1 0
:
:
H a a
H a a
=
>
- El estadstico pivotepara este contraste es:
0
02
1E
XX
a at
XMS
n S
=
+
donde:
1
2
YY XY
E
S a SMS
n
=
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 1 , 2nt t >
siendo 1 , 2nt el percentil de la distribucin t-Student con n-2 grados de
libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Hosi : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )2 0nP t t >
Bilateral (contraste de dos colas):
0 0
1 0
:
:
H a a
H a a
=
- El estadstico pivotepara este contraste es:
0
0 2
1E
XX
a at
XMS
n S
=
+
donde:
1
2
YY XY
E
S a SMS
n
=
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 /2, 2nt t >
siendo /2, 2nt el percentil 1 / 2 de la distribucin t-Student con n-2 grados
de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
8/12/2019 Actividad3 Sanchez Campoy CM
12/33
Rechazamos Hosi : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )2 02 nP t t >
A3. ANLISIS DE DATOS
Para realizar los ejercicios voy a utilizar el software SPSS.
Llamamos a las variables DOSIS (Variable Independiente) y NIVELTOX (Variable
Dependiente) que vienen recogidas en archivo ejercicio1.sav de la carpeta de datos.
Empezamos el problema mediante la presentacin del diagrama de dispersin entre
ambas variables, y la representacin de la recta de regresin aproximada. Losdiagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con
observar el grado en el que la nube de puntos se ajusta a una lnea recta.
8/12/2019 Actividad3 Sanchez Campoy CM
13/33
El grfico muestra una posible adecuacin del modelo lineal y la tendencia creciente
del mismo.
Para obtener la recta de regresin mnima cuadrtica de NIVELTOX sobre DOSIS ,
representada en la nube de puntos,
0 1Y a a X = +
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad
de NIVELTOX, es explicada por la relacin lineal con DOSIS.
El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La ltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 2,772.
En cuadro siguiente se tiene la tabla ANOVA:
8/12/2019 Actividad3 Sanchez Campoy CM
14/33
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en
la Variabilidad debida a la Regresin (353,44) y la Variabilidad Residual (138,36), es
decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se construye a partir de
esta descomposicin y proporciona el valor del estadstico Fque permite contrastar la
hiptesis nula de que la pendiente de la recta de regresin es igual a cero contra laalternativa de que la pendiente es distinta de cero, es decir:
0 1
1 1
: 0
: 0
H a
H a
=
donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se
define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el
Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la
prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, escero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal simple:
El modelo presenta los siguientes parmetros: como ordenada en el
origen, 0 0.82a = y la pendiente 1 0.752a = .
8/12/2019 Actividad3 Sanchez Campoy CM
15/33
Por tanto, la ecuacin de la recta estimada o ajustada es: 0.82 0.752y x= + . As
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de
la significacin de cada uno de estos parmetros:
0 0
1 0
: 0
: 0
H a
H a
=
0 1
1 1
: 0
: 0
H a
H a
=
El primero de estos contrastes carece de inters en la mayora de los casos ya que
raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de
significado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 6.781 tiene un p-valorasociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,
al 95%. El intervalo para 0a es (-6.222, 4.582), puesto que el cero pertenece al
intervalo, se aceptara la hiptesis nula y concluir que si la DOSIS es cero el
NIVELTOX tambin lo es, por tanto al nivel de confianza del 95% el parmetro 0a
podra considerarse igual a cero.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:
8/12/2019 Actividad3 Sanchez Campoy CM
16/33
El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Sedistingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
8/12/2019 Actividad3 Sanchez Campoy CM
17/33
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del
p-valor asociado (0.797). Por lo tanto no se puede rechazar la hiptesis de normalidad
de los residuos.
HomocedasticidadComprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los
residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de
la variable NIVELTOX , si observamos que el grfico muestra forma de embudo... Si
por el contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar
la hiptesis de igualdad de varianzas.
No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del
modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el
modelo propuesto no describe adecuadamente los datos.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...
8/12/2019 Actividad3 Sanchez Campoy CM
18/33
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.399 prximo a 2 lo que indica la incorrelacin de los residuos.
8/12/2019 Actividad3 Sanchez Campoy CM
19/33
Empezamos el problema mediante la presentacin del diagrama de dispersin entre
ambas variables, y la representacin de la recta de regresin aproximada. Los
diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta conobservar el grado en el que la nube de puntos se ajusta a una lnea recta.
El grfico muestra una posible adecuacin del modelo lineal y la tendencia creciente
del mismo.
Para obtener la recta de regresin mnima cuadrtica de Y sobre X , representada en
la nube de puntos,
0 1Y a a X = +
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.915 que nos indica que el 91.5% de la variabilidadde Y, es explicada por la relacin lineal con X.
8/12/2019 Actividad3 Sanchez Campoy CM
20/33
El valor R (0.957) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La penltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 3.254.
En cuadro siguiente se tiene la tabla ANOVA:
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (3871.879)
en la Variabilidad debida a la Regresin (3543.657) y la Variabilidad Residual
(328.222), es decir, en Variabilidad explicada por el modelo de regresin y la
Variabilidad no explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se
construye a partir de esta descomposicin y proporciona el valor del estadstico F que
permite contrastar la hiptesis nula de que la pendiente de la recta de regresin es
igual a cero contra la alternativa de que la pendiente es distinta de cero, es decir:
0 1
1 1
: 0
: 0
H a
H a
=
donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 334.693, que se
define como el cociente entre el Cuadrado medio debido a la regresin (3543.657) y el
Cuadrado medio residual (10.588), por tanto cuanto mayor sea su valor, mejor ser la
prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal simple:
8/12/2019 Actividad3 Sanchez Campoy CM
21/33
El modelo presenta los siguientes parmetros: como ordenada en el
origen, 0 3.549a = y la pendiente 1 0.926a = .
Por tanto, la ecuacin de la recta estimada o ajustada es: 3.549 0.926y x= + . As
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de
la significacin de cada uno de estos parmetros:
0 0
1 0
: 0
: 0
H a
H a
=
0 1
1 1
: 0
: 0
H a
H a
=
El primero de estos contrastes carece de inters en la mayora de los casos ya que
raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de
significado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativaequivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 18.295 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,
al 95%. El intervalo para 0a es (-0.078, 7.177), puesto que el cero pertenece al
intervalo, se aceptara la hiptesis nula y concluir que si la variable X es cero la
variable Y tambin lo es, por tanto al nivel de confianza del 95% el parmetro 0a
podra considerarse igual a cero.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.
8/12/2019 Actividad3 Sanchez Campoy CM
22/33
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:
El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:
8/12/2019 Actividad3 Sanchez Campoy CM
23/33
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.706) y el valor del
p-valor asociado (0.701). Por lo tanto no se puede rechazar la hiptesis de normalidadde los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los
residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de
la variable Y, si observamos que el grfico muestra forma de embudo... Si por el
contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar la
hiptesis de igualdad de varianzas.
No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del
modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el
modelo propuesto no describe adecuadamente los datos.
8/12/2019 Actividad3 Sanchez Campoy CM
24/33
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.395 prximo a 2 lo que indica la incorrelacin de los residuos.
Estudiar posibles datos atpicos, afectan al ajuste realizado? Afectan a algunade las hiptesis del modelo?
En la nube de puntos podemos ver de forma grfica si existen o no datos atpicos o
anmalos que puedan influir en el estudio regresin lineal, para nuestro caso
observamos datos separados de la recta de regresin generada, aunque no seobserva datos con gran relevancia. Para hacer un estudio de si hay o no datos atpicos
podemos analizar los residuos.
Los residuos son muy importantes en el anlisis de regresin. En primer lugar, nos
informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es elerror tpico de los residuos, mejores son los pronsticos, o lo que es lo mismo, mejor
8/12/2019 Actividad3 Sanchez Campoy CM
25/33
se ajusta la recta de regresin a la nube de puntos. En segundo lugar, el anlisis de
las caractersticas de los casos con residuos grandes (grandes en valor absoluto)
puede ayudarnos a detectar casos atpicos y, consecuentemente, a perfeccionar la
ecuacin de regresin a travs de un estudio detallado de los mismos. El SPSS nos
ofrece la opcin "Diagnsticos por caso" del cuadro de dilogo Regresin lineal:Estadsticos, ofrece un listado de todos los residuos o, alternativamente (y esto es ms
interesante), un listado de los residuos que se alejan de cero (el valor esperado de los
residuos) en ms de un determinado nmero de desviaciones tpicas. Es fcil, por
tanto, identificar los casos que poseen residuos grandes.
Hemos elegido el valor de 2, puesto que no hay residuos que se alejen ms de 3, que
es el valor que viene por defecto. El resultado que proporciona el SPSS es de dos
valores atpicos encontrados:
Los datos atpicos pueden afectar al modelo estimado de regresin, as como a las
hiptesis de normalidad y homocedasticidad cuando estos sean relevantes por lo que
merecen un estudio en profundidad, cuando se tienen identificados los datos atpicos
podemos:
Eliminar los puntos si realmente no presentan ningn inters.
Crear una variable ficticia que trate de medir el efecto del punto sobre el
modelo y que lo caracterice como punto especial proveniente de otra poblacin.
Es admisible que la variabilidad de los residuos aumente o disminuya con lapropia variable explicativa?
Puesto que siempre se cumple la igualdad:
E YY
Y Y
SS S S =
y la variable Y depende de la variable X, es lgico que la variabilidad de los residuosaumente o disminuya con la propia variable explicativa.
8/12/2019 Actividad3 Sanchez Campoy CM
26/33
Llamamos a las variables PRECIO (Variable Independiente) y DEMANDA (Variable
Dependiente) que vienen recogidas en archivo ejercicio3.sav de la carpeta de datos.
Empezamos el problema mediante la presentacin del diagrama de dispersin entre
ambas variables, y la representacin de la recta de regresin aproximada. Los
diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con
observar el grado en el que la nube de puntos se ajusta a una lnea recta.
El grfico muestra una posible adecuacin del modelo lineal y la tendencia decreciente
del mismo.
8/12/2019 Actividad3 Sanchez Campoy CM
27/33
Para obtener la recta de regresin mnima cuadrtica de Y sobre X , representada en
la nube de puntos,
0 1Y a a X = +
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,obtenemos los siguientes resultados:
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de Rcuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.758 que nos indica que el 75.8% de la variabilidad
de DEMANDA, es explicada por la relacin lineal con PRECIO.
El valor R (0.871) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La penltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 47,528.
En cuadro siguiente se tiene la tabla ANOVA:
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (84145.636)
en la Variabilidad debida a la Regresin (63815.23) y la Variabilidad Residual(20330.406), es decir, en Variabilidad explicada por el modelo de regresin y la
Variabilidad no explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se
construye a partir de esta descomposicin y proporciona el valor del estadstico F que
permite contrastar la hiptesis nula de que la pendiente de la recta de regresin es
igual a cero contra la alternativa de que la pendiente es distinta de cero, es decir:
0 1
1 1
: 0
: 0
H a
H a
=
donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.
8/12/2019 Actividad3 Sanchez Campoy CM
28/33
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 28.25, que se
define como el cociente entre el Cuadrado medio debido a la regresin (63815.23) y el
Cuadrado medio residual (2258.934), por tanto cuanto mayor sea su valor, mejor ser
la prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce arechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal simple:
El modelo presenta los siguientes parmetros: como ordenada en el
origen, 0 497.156a = y la pendiente 1 24.419a = .
Por tanto, la ecuacin de la recta estimada o ajustada es: 497.156 24.419y x= . As
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de
la significacin de cada uno de estos parmetros:
0 0
1 0
: 0
: 0
H a
H a
=
0 1
1 1
: 0
: 0
H a
H a
=
El primero de estos contrastes carece de inters en la mayora de los casos ya que
raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece designificado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 8.17 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
8/12/2019 Actividad3 Sanchez Campoy CM
29/33
En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,
al 95%. El intervalo para 0a es (359.499 , 634.813), puesto que el cero no pertenece al
intervalo, se rechazara la hiptesis nula.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q..., obtenemos lo
siguiente:
El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:
8/12/2019 Actividad3 Sanchez Campoy CM
30/33
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de quelos residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.438) y el valor del
p-valor asociado (0.991). Por lo tanto no se puede rechazar la hiptesis de normalidad
de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de lahiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los
residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de
la variable Y, si observamos que el grfico muestra forma de embudo... Si por el
contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar la
hiptesis de igualdad de varianzas.
8/12/2019 Actividad3 Sanchez Campoy CM
31/33
No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin delmodelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el
modelo propuesto no describe adecuadamente los datos.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si suvalor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 0.771 prximo a 0 lo que indica la correlacin de los residuos.
Par solucionar la falta independencia al existir una correlacin entre los residuos,
podemos plantear una transformacin de los valores o el aadir ms datos al problema.
DATOS ATPICOS
En la nube de puntos podemos ver de forma grfica si existen o no datos atpicos quepuedan influir en el estudio regresin lineal, para nuestro caso observamos datos
separados de la recta de regresin generada, que de entrada nos hace una idea de
que puedan existir datos anmalos. Para hacer un estudio de si hay o no datos
atpicos podemos analizar los residuos.
8/12/2019 Actividad3 Sanchez Campoy CM
32/33
Los residuos son muy importantes en el anlisis de regresin. En primer lugar, nos
informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es el
error tpico de los residuos, mejores son los pronsticos, o lo que es lo mismo, mejor
se ajusta la recta de regresin a la nube de puntos. En segundo lugar, el anlisis de
las caractersticas de los casos con residuos grandes (grandes en valor absoluto)
puede ayudarnos a detectar casos atpicos y, consecuentemente, a perfeccionar la
ecuacin de regresin a travs de un estudio detallado de los mismos. El SPSS nos
ofrece la opcin "Diagnsticos por caso" del cuadro de dilogo Regresin lineal:
Estadsticos, ofrece un listado de todos los residuos o, alternativamente (y esto es ms
interesante), un listado de los residuos que se alejan de cero (el valor esperado de los
residuos) en ms de un determinado nmero de desviaciones tpicas. Es fcil, por
tanto, identificar los casos que poseen residuos grandes.
Hemos elegido el valor de 1.5, puesto que no hay residuos que se alejen ms de 2. El
resultado que proporciona el SPSS es de un valor atpico encontrado:
Los datos atpicos pueden afectar al modelo estimado de regresin, as como a las
hiptesis de normalidad y homocedasticidad cuando estos sean relevantes por lo que
merecen un estudio en profundidad, cuando se tienen identificados los datos atpicos
podemos:Eliminar los puntos si realmente no presentan ningn inters.
8/12/2019 Actividad3 Sanchez Campoy CM
33/33
Crear una variable ficticia que trate de medir el efecto del punto sobre el
modelo y que lo caracterice como punto especial proveniente de otra poblacin.
EL RESTO DE EJERCICIOS SON DE REGRESIN LINEAL MLTIPLE YVIENEN REPETIDOS EN LA ACTIVIDAD 4 Y HE DECIDIDO HACERLOS ENESA ACTIVIDAD.