8/10/2019 Actividad4 Sanchez Campoy CM
1/28
AAccttiivviiddaadd44TTeemmaa44
TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY
PROFESORES: RAMN GUTIRREZ SNCHEZMARIA DOLORES RUIZ MEDINA
CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER ESTADSTICA APLICADA -
8/10/2019 Actividad4 Sanchez Campoy CM
2/28
A1. CUESTIONES TERICAS
Resolver tres actividades tericas.
1.- Verificar, en el modelo de regresin lineal mltiple, que la forma matricial delas ecuaciones normales es idntica a la forma escalar.
Para el modelo de regresin lineal mltiple:
La forma matricial de las ecuaciones normales viene dada por:
Y X=
Siendo:
1
n
y
Y
y
=
;
111 1
11
1 ( ) ( )
1 ( ) ( )
kk
kn kn
x x x x
X
x x x x
=
;
'
0
1
k
=
Y la forma escalar de las ecuaciones normales es:
'
0
1
n
j
j
n y=
=
1
k
l il iy
l
S S=
= 1,...i k=
Siendo:
1
( )( )
n
r srs rj sj
j
S x x x x=
=
1
( )n
iiy j ij
j
S y x x=
=
Para verificar que son idnticas basta multiplicar por la traspuesta de X a ambos lados
de la ecuacin en forma matricial, desarrollar y hacer los productos hasta obtener una
igualdad de matrices de tamao (k+1)x1 donde encontramos las k+1 ecuaciones vistas
en la forma escalar:
- Multiplicamos por la traspuesta de X:
' 'X Y X X=
'
011 11 1
1 1 1 111 1 11 1 1
11
1 1
1 1 1 11 ( ) ( )
( ) ( ) ( ) ( )
1 ( ) ( )( ) ( ) ( ) ( )
kk
n n
kn n knk k k k k kn k kn
k
y x x x xx x x x x x x x
y x x x xx x x x x x x x
=
8/10/2019 Actividad4 Sanchez Campoy CM
3/28
- Realizamos los productos matriciales:
11
1 1 1
21 1 1 11 1 1 1
1 1 1 1
211
1 1 1 1
( ) ( )
( ) ( ) ( ) ( )( )
( ) ( ) ( )( ) ( )
n n n
kj j kj
j j j
n n n n
kj j j j j kj
j j j j
n n n n
k k k k j kj kj j kj kj
j j j j
y n x x x x
y x x x x x x x x x x
y x x x x x x x x x x
= = =
= = = =
= = = =
=
'
0
1
k
Puesto que,1
( ) 0n
iij
j
x x=
= y las definiciones dadas de rsS y de iyS , la igualdad
anterior queda de la forma:
'
01
11 1 11
1
0 0
0
0
n
j
j
k
y
k kkkky
y n
S SS
S SS
=
=
Es decir:
'
0
11
11
1
n
kjj
l l
ly
k
ky l kl
l
n
y S
S
S S
=
=
=
=
Por la propiedad de igualdad de dos matrices, se cumple la igualdad trmino a trmino,
con lo cual se tendra la forma escalar de las ecuaciones normales:
'
0
1
n
j
jn y
=
=
1
k
l il iy
l
S S=
= 1,...i k=
8/10/2019 Actividad4 Sanchez Campoy CM
4/28
2.- Deducir, en el modelo de regresin lineal mltiple, a partir de la expresinderivada del estimador mnimo-cuadrtico del vector de parmetros, el vectormedia y matriz de covarianza de dicho estimador.
Sabemos que la expresin derivada del estimador mnimo-cuadrtico del vector deparmetros es:
1( ') 'XX X y =
Haciendo operaciones en dicha expresin:
[ ]1 1 1 1( ') ' ( ') ' ( ') ' ( ') 'XX X X XX X X XX X XX X = + = + = +
El vector media y la matriz de covarianza de dicho estimador, se calculan como sigue:
VECTOR MEDIA:
. Tomando esperanza y teniendo en cuenta que [ ] 0E = , se tiene que:
[ ]1( ') 'E XX X E = + = E =
MATRIZ DE COVARIANZAS:
La matriz de covarianza se obtiene de la forma siguiente:
( ) ( ) ( ) ( )' '
Cov E E E E = = =
( )( ) ( ) ( )' '
1 1 1 1( ') ' ( ') ' ( ') ' ( ') 'E XX X XX X E XX X XX X = + + = =
[ ]1 1 1 1( ') ' ' ( ' ) ( ') ' ' ( ' )E XX X X X X XX X E X X X = = =
1 2 1 2 1 1 2 1( ') ' ( ' ) ( ') ' ( ' ) ( ')XX X X X X XX X X X X XX = = =
Luego:
2 1( ')Cov XX =
3.- Derivar las identidades dadas sobre la suma de cuadrados de la regresin yla suma de cuadrados del error para el clculo del estadstico F.
Sabemos que la suma total de los cuadrados yyS , se descompone en la suma de
cuadrados de regresin y la suma de cuadrados del error:
yy R ES SS SS = +
Haciendo operaciones en la frmula de ESS y teniendo en cuenta la igualdad anterior
podemos llegar a las expresiones buscadas:
8/10/2019 Actividad4 Sanchez Campoy CM
5/28
8/10/2019 Actividad4 Sanchez Campoy CM
6/28
1.- CONTRASTE DE HIPTESIS UTILIZANDO EL ESTADSTICO t
CONTRASTES DE UN SOLO PARMETRO
El contraste individualmente de cada variable explicativa contribuye significativamente
al ajuste del modelo de regresin. Dentro de ste mbito se puede abordar tambin el
problema de inclusin de nuevas variables explicativas que, en caso de ser necesarias,
aumentarn la suma de cuadrados de la regresin y disminuirn las suma de
cuadrados del error.
Consideremos la hiptesis:
0: 0iH =
Puesto que i mide el efecto parcial de ix sobre y, despus de controlar para todas
las otras variables independientes, 0H significa que, una vez que 1 1 1,..., , ,...,i i kx x x x +
han sido tenidos en cuenta, ix no tiene efectos sobre y. Por tal, esta hiptesis nula
pertenece a los denominados contrastes de significatividad.
- El estadstico pivotepara este contraste es:
0
i
E ii
tMS C
= donde:
1
1
k
iyy iy
iE
S S
MSn k
=
=
siendo iiC el elemento i de la diagonal de la matriz1
( ' )X X
con
111 1
11
1 ( ) ( )
1 ( ) ( )
kk
kn kn
x x x x
X
x x x x
=
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-k-1
grados de libertad.
Con respecto a la hiptesis alternativa hay tres posibilidades:
Unilateral de una cola derecha:
0
1
: 0 ( 0)
: 0
i i
i
H
H
=
>
Es un contraste de significacin positiva, la regla de decisin es:
La hiptesis nula se rechaza cuando: 0 , 1n kt t
siendo , 1n kt el percentil 1 de la distribucin t-Student con n-k-1
grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Hosi : p-valor < Calculndose el p-valor en este caso de la forma siguiente:
8/10/2019 Actividad4 Sanchez Campoy CM
7/28
8/10/2019 Actividad4 Sanchez Campoy CM
8/28
La hiptesis nula se rechaza cuando 0 /2, 1n kt t
siendo/2 , 1n k
t el percentil 1 / 2 de la distribucin t-Student con n-k-1
grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Hosi : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
( ) ( ){ 1 0 1 02* ,1n k n k p valor Max P t t P t t =
Por lo tanto, rechazamos H0 en favor de H1 cuando 0 /2, 1n kt t como
puede verse en la figura siguiente:
Cuando no se especifica una hiptesis alternativa, por lo general, se considera que el
contraste de hiptesis es de dos colas. Si se rechaza la H0a favor de H1 para un
dado, se suele decir quei
x es estadsticamente significativa para el nivel .
Un caso general en el que el parmetro en la H0toma un valor especfico cualquiera:0
0: iH =
- El estadstico pivotepara este contraste es:
0
0
i
E ii
tMS C
= donde:
1
1
k
iyy iy
iE
S S
MSn k
=
=
siendo iiC el elemento i de la diagonal de la matriz1
( ' )X X
Al igual que antes, 0t mide la cantidad de desviaciones estndar est
i distanciadade 0 valor que toma el parmetro en la hiptesis nula, los contraste son los mismos
que antes para el nuevo valor 0 con las mismas regiones de rechazo.
2.- CONTRASTE DE RESTRICCIONES LINEALES MLTIPLES UTILIZANDO ELESTADSTICO F.
Hasta ahora, slo hemos considerado hiptesis que implican una sola restriccin. Con
frecuencia, deseamos contrastar hiptesis mltiples sobre los parmetros1,..., k
En las restricciones lineales mltiples podemos distinguir tres tipos: las restricciones
de exclusin, la significatividad del modelo y otras restricciones lineales.
Restricciones de exclusin
8/10/2019 Actividad4 Sanchez Campoy CM
9/28
Para el modelo no restringido siguiente:
1 1 k ky x x = + + +
Supongamos que hay q restricciones de exclusin a contrastar. Entonces, H0postula
que q variables tienen coeficientes cero. Si se asume que son las ltimas q variables,
la H0se expresa como:
0 1: 0k q kH = = =
El modelo restringido se obtiene mediante la imposicin de q restricciones de la H0en
el modelo no restringido:
1 1 k q k qy x x
= + + +
La H1se expresa como:
1 0: no es ciertaH H
- El estadstico pivotepara este contraste es:
0 ( ) // ( 1)
R NR
NR
SSR SSR qFSSR n k
=
donde:
SSRNR: suma de cuadrados de residuos en el modelo no restringido.
SSRR : suma de cuadrados de residuos en el modelo restringido.
Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de q y n-k-1
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 , , 1q n kF F >
siendo , , 1q n kF el percentil 1- de la distribucin F-snedecor con q y n-k-1
grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Hosi : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( ), 1 0q n kP F F >
Por lo tanto, rechazamos H0 en favor de H1 cuando 0 , , 1q n kF F > como
puede verse en la figura siguiente:
8/10/2019 Actividad4 Sanchez Campoy CM
10/28
Significacin global del modelo
Contrastar la significacin del modelo, o significacin global del modelo, es un caso
particular de los contrastes de restricciones de exclusin. Se podra pensar que este
contraste la H0debera ser la siguiente:
0 1: 0kH = = =
La H1se expresa como:
1 0: no es ciertaH H
- El estadstico pivotepara este contraste es:
0
/
/ ( 1)
R
E
SS kF
SS n k =
donde:
1
k
iE yy iy
i
SS S S =
=
1
k
iR iy
i
SS S=
=
Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de k y n-k-1
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 , , 1k n kF F >
siendo , , 1k n kF el percentil 1- de la distribucin F-snedecor con k y n-k-1
grados de libertad.Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Hosi : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( ), 1 0k n kP F F >
Significacin global del modelo
Podemos obtener el caso en el que un contraste con t y otro con F sean el mismo. El
estadstico F puede utilizarse para contrastar una sola restriccin, en este caso,
podemos elegir entre el estadstico F o el estadstico t para hacer un contraste de dos
colas. Las conclusiones sern exactamente las mismas.
La relacin entre una F con grados de libertad 1 y n-k-1 y una t es:2
1, 1 1n k n k F t
3.- APLICACIONESEN EL DISEO DE EXPERIMENTOS.
Los modelos de diseo de experimentos son modelos estadsticos clsicos cuyo
objetivo es averiguar si unos determinados factores influyen en una variable de inters
y, si existe influencia de algn factor, cuantificar dicha influencia.
Unos ejemplos donde habra que utilizar estos modelos son los siguientes:
8/10/2019 Actividad4 Sanchez Campoy CM
11/28
8/10/2019 Actividad4 Sanchez Campoy CM
12/28
ejercicio anterior vamos a ampliar el estudio mediante el contraste de la influencia de
la actividad renal, as como un estudio de regresin mltiple con las dos variables
independientes definidas.
Presentamos el diagrama de dispersin entre las variables ACTVRENAL y NIVELTOX,
y la representacin de la recta de regresin aproximada.Los diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con
observar el grado en el que la nube de puntos se ajusta a una lnea recta.
El grfico muestra una posible adecuacin del modelo lineal, no muy buena y la
tendencia creciente del mismo.
La recta de regresin mnima cuadrtica de NIVELTOX sobre ACTRENAL,
representada en la nube de puntos
0 1Y a a X = +
La podemos estimar utilizando la opcin Analizar/Regresin/Lineales... que
proporciona el SPSS, obtenemos los siguientes resultados:
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
8/10/2019 Actividad4 Sanchez Campoy CM
13/28
R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad
de NIVELTOX, es explicada por la relacin lineal con ACTRENAL.
El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La ltima columna nos muestra el Error tpico de la estimacin (razcuadrada de la varianza residual) con un valor igual a 2,772.
En cuadro siguiente se tiene la tabla ANOVA:
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en
la Variabilidad debida a la Regresin (353,44) y la Variabilidad Residual (138,36), es
decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se construye a partir de
esta descomposicin y proporciona el valor del estadstico Fque permite contrastar lahiptesis nula de que la pendiente de la recta de regresin es igual a cero contra la
alternativa de que la pendiente es distinta de cero, es decir:
0 1
1 1
: 0: 0
H aH a
=
donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se
define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el
Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la
prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal simple:
8/10/2019 Actividad4 Sanchez Campoy CM
14/28
El modelo presenta los siguientes parmetros: como ordenada en el origen, 0 6.7a = y
la pendiente 1 15.04a = .
Por tanto, la ecuacin de la recta estimada o ajustada es: 6.7 15.04y x= + . As mismo,
en esta tabla se presentan los resultados de los dos contrastes individuales de la
significacin de cada uno de estos parmetros:
0 0
1 0
: 0
: 0
H a
H a
=
0 1
1 1
: 0
: 0
H a
H a
=
El primero de estos contrastes carece de inters en la mayora de los casos ya que
raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de
significado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 6.781 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,
al 95%. El intervalo para 0a es (3.51, 9.89), puesto que el cero no pertenece al
intervalo, se rechaza la hiptesis nula.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grfico
8/10/2019 Actividad4 Sanchez Campoy CM
15/28
seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:
El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del
8/10/2019 Actividad4 Sanchez Campoy CM
16/28
p-valor asociado (0.797). Por lo tanto no se puede rechazar la hiptesis de normalidad
de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, si observamos que el grfico muestra forma de
embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no
podemos rechazar la hiptesis de igualdad de varianzas.
No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
8/10/2019 Actividad4 Sanchez Campoy CM
17/28
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.399 prximo a 2 lo que indica la incorrelacin de los residuos.
REGRESIN LINEAL MLTIPLEEl anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en el
plano, sino un hiperplano en un espacio multidimensional, si realizamos el diagrama
de dispersin se obtiene:
Para obtener el plano de regresin mnima cuadrtica de Z sobre X e Y, representada
en la nube de puntos,
0 1 2Z a a X a Y= + +
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
Podemos observar que en el estudio de Regresin en el SPSS se ha excluido la
variable ACTRENAL, considerando slo para el modelo la variable DOSIS como
variable independiente, tal y como muestran los cuadros siguientes:
El cuadro de coeficientes queda de la forma:
8/10/2019 Actividad4 Sanchez Campoy CM
18/28
8/10/2019 Actividad4 Sanchez Campoy CM
19/28
REGRESIN LINEAL MLTIPLE
En el anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en
el plano, sino un hiperplano en un espacio multidimensional.
Para obtener el plano de regresin mnima cuadrtica de Y (variable dependiente)sobre X1, X2, X3, X4, X5(variables independientes)
0 1 1 2 2 3 3 4 4 5 5Y a a X a X a X a X a X = + + + + + +
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.832 que nos indica que las cinco variables
independientes incluidas en el anlisis explican un 83.2% de la varianza de la variable
dependiente. Adems, el error tpico de los residuos es 0.05674
El valor R (0.8912) representa el valor absoluto del Coeficiente de Correlacin, es
decir es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre lasvariables.
En cuadro siguiente se tiene la tabla ANOVA:
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (0.345) en
la Variabilidad debida a la Regresin (0.287) y la Variabilidad Residual (0.058), es
decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada.
El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y,
por tanto, nos permite decidir si existe relacin lineal significativa entre la variable de-
pendiente y el conjunto de variables independientes tomadas juntas. El valor del nivel
crtico Sig. = 0,000 indica que s existe relacin lineal significativa. Podemos afirmar,
por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen
ajuste a la nube de puntos.
8/10/2019 Actividad4 Sanchez Campoy CM
20/28
8/10/2019 Actividad4 Sanchez Campoy CM
21/28
Los Coeficientes de regresin estandarizados (Beta) estn basados en las
puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la
cantidad de cambio, en puntuaciones tpicas, que se producir en la variable
dependiente por cada cambio de una unidad en la correspondiente variable inde-
pendiente (manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia relativa de
cada variable independiente en la ecuacin de regresin. En general, una variable
tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor
absoluto) es su coeficiente de regresin estandarizado.
Observando los coeficientes Beta vemos que la variable X2, es la ms importante,
seguida de X3. Las pruebas t y sus niveles crticos recogidos en el cuadro de
coeficientes, t y Sig., sirven para contrastar la hiptesis nula de que un coeficiente de
regresin vale cero en la poblacin. Niveles crticos (Sig.) muy pequeos
(generalmente menores que 0,05) indican que debemos rechazar esa hiptesis nula.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas), linealidad,
independencia y no co-linealidad) estos supuestos resultan necesarios para validar la
inferencia respecto a los parmetros. Utilizaremos el anlisis de los residuos para
realizar los contrastes a posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:
8/10/2019 Actividad4 Sanchez Campoy CM
22/28
El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo confirmamos de forma analstica mediante el contraste deKolmogorov-Smirnov:
Al salir un p-valor 0.963, mayor de 0.05, podemos aceptar la hiptesis de normalidad
de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamenterepresentando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, si observamos que el grfico muestra forma de
embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no
podemos rechazar la hiptesis de igualdad de varianzas.
8/10/2019 Actividad4 Sanchez Campoy CM
23/28
No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Independencia de los residuosLa hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.288 prximo a 2 lo que indica la incorrelacin de los residuos.
REGRESIN LINEAL MLTIPLE
Los datos de este ejercicio vienen recogidos en el archivo ejercicio5.sav del fichero zip
enviado.
8/10/2019 Actividad4 Sanchez Campoy CM
24/28
En el anlisis de regresin mltiple, la ecuacin de regresin define un hiperplano en
un espacio multidimensional.
Para obtener el plano de regresin mnima cuadrtica de Y (variable dependiente)
sobre X1, X2, X3, X4, X5, X6, X7(variables independientes)
0 1 1 2 2 3 3 4 4 5 5 6 6 7 7Y a a X a X a X a X a X a X a X = + + + + + + +
Una vez cargados los datos en el SPSS, para obtener el modelo lineal deseado,
utilizamos la opcin Analizar/Regresin/Lineales..., consiguiendo los siguientes
resultados:
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.775 que nos indica que las siete variables
independientes incluidas en el anlisis explican un 77.5% de la varianza de la variable
dependiente.
El valor R (0.88) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre lasvariables.
En cuadro siguiente se tiene la tabla ANOVA:
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (7999) en
la Variabilidad debida a la Regresin (6198,766) y la Variabilidad Residual (1800.234),
es decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada.
El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y,
por tanto, nos permite decidir si existe relacin lineal significativa entre la variable de-
pendiente y el conjunto de variables independientes tomadas juntas. El valor del nivel
crtico Sig. = 0,000 indica que s existe relacin lineal significativa. Podemos afirmar,
por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen
ajuste a la nube de puntos.
8/10/2019 Actividad4 Sanchez Campoy CM
25/28
"Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal mltiple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal mltiple:
En la tabla obtenida, se observa los p-valores que corresponden a cada variable y que
nos proporcionan informacin de la significatividad de cada variable independiente,
para p-valores mayores de 0.05 se consideraran variables no significativas para el
modelo, existen varias variables a las que les sucede este caso, vamos a ir eliminando
una a una (empezando por la de mayor p-valor) hasta quedarnos con un modelo con
p-valores menores a 0.05, obtenemos as un modelo en que las variables
independientes consideradas son X3, X5y X6:
El modelo presenta los siguientes parmetros: 3 3.376a = , 5 7.621a = y 6 1.406a = .
Por tanto, la ecuacin de la recta estimada o ajustada es:
3 5 66.52 3.376 7.621 1.406y x x x= + + +
La interpretacin de estos coeficientes, por ejemplo, el correspondiente a la variable X3,
que vale 3.376, indica que, si el resto de variables se mantienen constantes, a un
aumento de una unidad en X3, le corresponde, en promedio, un aumento de 3.376 en
el valor de Y. Estos coeficientes reciben el nombre de coeficientes de regresin parcial.
Los Coeficientes de regresin estandarizados (Beta) estn basados en las
puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la
8/10/2019 Actividad4 Sanchez Campoy CM
26/28
cantidad de cambio, en puntuaciones tpicas, que se producir en la variable
dependiente por cada cambio de una unidad en la correspondiente variable inde-
pendiente (manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia relativa decada variable independiente en la ecuacin de regresin. En general, una variable
tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor
absoluto) es su coeficiente de regresin estandarizado.
Observando los coeficientes Beta vemos que la variable X5, es la ms importante,
seguida de X3.
La tabla, tambin nos proporciona los intervalos de confianza al 95% de dichos
coeficientes, es decir, sus valores extremos con una probabilidad de 0,95.
VALIDACIN Y DIAGNOSIS DEL MODELOEn este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas), linealidad,
independencia y no co-linealidad) estos supuestos resultan necesarios para validar la
inferencia respecto a los parmetros. Utilizaremos el anlisis de los residuos para
realizar los contrastes a posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:
8/10/2019 Actividad4 Sanchez Campoy CM
27/28
El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo confirmamos de forma analstica mediante el contraste deKolmogorov-Smirnov:
Al salir un p-valor 0.56, mayor de 0.05, podemos aceptar la hiptesis de normalidad de
los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamenterepresentando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, si observamos que el grfico muestra forma de
embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no
podemos rechazar la hiptesis de igualdad de varianzas.
8/10/2019 Actividad4 Sanchez Campoy CM
28/28
No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Independencia de los residuosLa hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 1.897 prximo a 2 lo que indica la incorrelacin de los residuos.