Actividad3 Sanchez Campoy CM

transcript

8/12/2019 Actividad3 Sanchez Campoy CM

1/33

AAccttiivviiddaadd33TTeemmaa33

TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY

PROFESORES: RAMN GUTIRREZ SNCHEZMARIA DOLORES RUIZ MEDINA

CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.APLICACIONES EN BIOCIENCIAS E INGENIERA

- MASTER ESTADSTICA APLICADA -


2/33

A1. CUESTIONES TERICAS

Resolver tres actividades tericas.

1.- Deducir la expresin de los estimadores mnimo-cuadrticos de losparmetros del modelo de regresin lineal simple.

Definimos las siguientes variables:

X: variable de regresin o explicativa, continua y controlable por elexperimentador. En el diseo del experimento se determinan sus valores.

Y: variable respuesta, para la que se supone una relacin lineal entre Y y lavariable explicativa X.

El modelo que define la observacin de la variable respuesta Y viene dado por:

0 1Y a a X = + +

representando , la componente de error aleatoria, se supone que es una variable

aleatoria con media cero y varianza2

y que el conjunto de componentes aleatoriasde error no estn correlacionadas.

Tomando n pares de datos 1 1( , ),..., ( , )n nx y x y , presentamos la siguiente

demostracin:

El proceso para la obtencin por mnimos cuadrados de los estimadores 0a y 1a tienepor objetivo minimizar la suma de los cuadrados de los residuos, que denotamos por

L . Partiendo de dicha funcin su expresin viene dada por:

( )22

0 1

1 1

n n

i i i

i i

L y a a x= =

= =

Para minimizar L , derivamos parcialmente respecto de 0 1ya a :

( )0 110

2n

i i

i

Ly a a x

a =

=

( )0 111

2n

i i i

i

Ly a a x x

a =

=

Los estimadores mnimo-cuadrticos se obtienen igualando las anteriores derivadas a

cero:

( )0 11

2 0n

i i

i

y a a x=

=

( )0 11

2 0n

i i i

i

y a a x x=

=

Operando se tiene:


3/33

0 1

1 1

n n

i i

i i

y na a x= =

= +

2

0 11 1 1

n n n

i i i ii i iy x a x a x= = =

= +

Para resolver este sistema de ecuaciones, realizamos los siguientes pasos:

Dividimos la primera ecuacin por n: 0 1Y a a X = +

Despejando: 0 1a Y a X =

Sustituyendo 0a en la segunda ecuacin:

( ) 21 11 1 1

n n n

i i i i

i i i

y x Y a X x a x

= = =

= +

2

1

1 1 1 1

n n n n

i i i i i

i i i i

y x Y x a x X x= = = =

=

(*)

Por otra parte:

( )1 1

( )( )n n

i i i i i i

i i

y Y x X y x X y Y x Y X= =

= + =

1 1 1

n n n

i i i i

i i i

y x X y Y x nY X= = =

= + =

1 1 1 1

n n n n

i i i i i i

i i i i

y x n X Y Y x nY X y x Y x= = = =

= + =

( )2 2

2 2 2

1 1 1 1

( ) 2 2n n n n

i i i i i

i i i i

x X x X x X x X x n X= = = =

= + = + =

2 2

1 1 1 1 1

2n n n n n

i i i i i

i i i i i

x X x X x x X x= = = = =

= + =

Teniendo en cuenta estas igualdades obtenidas y sustituyndolas en la ecuacin (*),tenemos que:

2

1

1 1

( )( ) ( )n n

i i i

i i

y Y x X a x X= =

=

De donde deducimos que el estimador de 1a viene dado por el cociente:

11

2

1

( )( )

( )

n

i i

i XY

n

XXi

i

y Y x XS

aS

x X

=

=

= =


4/33

Siendo:

1 1

( )( )n n

XY i i i i

i i

S y Y x X y x n X Y = =

= =

22 2

1 1

( )n n

XX i i

i i

S x X x n X = =

= =

Basta sustituir 1a en la expresin despejada de la primera ecuacin para obtener:

0 1a Y a X =

Luego, hemos deducido que los estimadores 0a y 1a son:

1

0 1

XY

XX

S

a S

a Y a X

=

=

2.- Deducir la expresin

1E YY XYSS S a S =

de la suma de cuadrados de los residuos.

Tenemos las siguientes notaciones:

0 1Y a a X = +

ESS : Suma de cuadrados de los residuos:

2

1

n

E i

i

SS =

=

( )2 2

2

1 1

n n

YY i i

i i

S y Y y nY = =

= =

( )2 22

1 1

n n

XX i i

i i

S x X x n X = =

= =

1 1

( )( )n n

XY i i i i

i i

S y Y x X y x n X Y = =

= =

Para poder llegar a la expresin deseada, comenzamos con la siguiente igualdad:

ii i

y y = +

Restamos Y a ambos lados: ii iy Y y Y = +


5/33

Si elevamos al cuadrado ambos miembros se obtiene que:

( ) ( )22

ii iy Y y Y = +

Es decir: ( ) ( ) ( ) 22 2

2i ii i iy Y y Y y Y = + +

Sumando ambos miembros de la expresin de i =1 hasta n, se tiene

( ) ( ) ( ) 22 2

1 1 1 1

2n n n n

i ii i i

i i i i

y Y y Y y Y = = = =

= + +

Ahora bien, el ltimo trmino de la expresin anterior es cero, hacemos la

demostracin en el siguiente marco:

Luego:

( )

( )

22 2

1 1 1

n n n

i

i ii i i

y Y y Y = = =

= +

( ) 1 1 1

n n n

i i ii i

i i i

y Y y Y = = =

= y sabemos que:

La suma de los residuos mnimo-cuadrticos es igual a cero:

0 1

1 1 1 1 1 1

( ) ( )n n n n n n

i i i i ii i

i i i i i i

y y y y y a a x= = = = = =

= = = + =

( ) 0 1 1 11 1 1 1

n n n n

i i i i

i i i i

y na a x y n Y a X a x= = = =

= = =

1 11 1 1 1 0

n n n n

i i i ii i i i

y y a x a x= = = =

= = La suma de los productos cruzados entre los valores ajustados y los residuos es

igual a 0:

( ) 0 1 0 11 1 1 1

0n n n n

i i i ii ii

i i i i

y a a x a a x = = = =

= + = + =

Puesto que:

es una variable aleatoria con media cero luego:

1

0n

i

i

n

=

= =

( )0 11 1

0n n

ii i i i

i i

x y a a x x= =

= = por la segunda ecuacin del

sistemas de ecuaciones obtenido en la estimacin por mnimos

cuadrados.


6/33

Por tanto, hemos llegado a que:

YY EY YS S SS = +

Como

0 1Y a a X = +

, equivale a un cambio de escala y origen de la variable X, por laspropiedades de la varianza ante estos cambios, se tiene que:

( )

( )2 2

21 1

1

n n

ii

i i

y Y x X

an n

= =

=

( ) ( )2 22

1

1 1

n n

ii

i i

y Y a x X= =

=

Luego:

2

1 1 1 1 1XY

XX XX XX XYY YXX

SS a S a a S a S a S

S= = = =

As llegamos a la igualdad deseada:

1YY XY E S a S SS = +

1E YY XYSS S a S =

3.- Explicar brevemente la interpretacin de los valores del coeficiente dedeterminacin.

El coeficiente de determinacin se define como la proporcin de la varianza total

explicada por la regresin. Su expresin viene dada por:

( )

( )

2

2 1

2

1

n

i

i R

n

YYi

i

y YSS

RS

y Y

=

=

= =

De forma equivalente, y en aplicacin de la igualdad:

( ) ( ) 22 2

1 1 1

n n n

ii i

i i i

y Y y Y = = =

= +

obtenida en el apartado anterior de esta actividad, podemos expresar el coeficiente dedeterminacin como, como uno menos la proporcin no explicada por la regresin, es

decir:

( )

2

2 1

2

1

1 1

n

i

i E

n

YYi

i

SSR

Sy Y

=

=

= =

El criterio mnimo-cuadrtico equivale a maximizar2

R .

Dicho coeficiente toma valores en el intervalo (0 , 1) y se interpreta como la proporcinde variabilidad de los datos explicada por el modelo de regresin. Por este motivo, se


7/33

suele utilizar, como un indicador de la adecuacin del modelo de regresin (medida

relativa del grado de asociacin lineal entre X e Y), mide la correlacin entre el valor

observado y el valor predicho o ajustado con la regresin.

2

0 1R

Si2 1R = ( ) ( )

22

1 1

n n

i i

i i

y Y y Y= =

= y 2

1

0n

i

i

=

=

Lo que implica un ajuste perfecto, Y depende funcionalmente de X, la varianza

de los residuos se hace cero y la varianza de los valores observados y la

variable respuesta coincide.

Si2 1R <

( )2

1

0n

i

i

y Y=

y 2

1

0n

i

i

=

Se tiene que:

( ) ( )

( )

2 22

1 1

222

1 1

(1 )

n n

ii

i i

n n

i i

i i

y Y R y Y

R y Y

= =

= =

=

=

Un valor de2

R cercano a 0 implica baja capacidad explicativa de la recta, porotro lado, un valor prximo a 1, equivale a alta capacidad explicativa de la recta.

Si2 0R = ( )

22

1 1

n n

i i

i i

y Y= =

= y ( )2

1

0n

i

i

y Y=

=

El modelo no explica nada de Y a partir de X.

En resumen:

El coeficiente de determinacin toma valores entre 0 y 1, tomando el valor 0

cuando el modelo no explica nada de Y a partir de X, es decir el ajuste es el

peor posible, y tomando el valor 1 cuando todos los residuos son nulos, es

decir el ajuste es perfecto. Para valores intermedios, segn estn ms

prximos a 0 o 1, nos indicarn un peor omejor ajuste respectivamente, por

poner datos numricos algunos autores, consideran un buen ajuste para

valores de2

R mayores de 0.75, es decir cuando al menos el 75% de la

varianza total quede explicada por la regresin.

Para terminar damos otras frmulas para el coeficiente de determinacin:

22 ' 2

1 1R XY

YY YY XX

SS SR a a r

S S S= = = =


8/33

A2. TRABAJO

Elaborar un resumen sobre los contrastes de ajuste en el modelo de regresinlineal. Indicando algunos casos particulares interesantes para el anlisis de la

adecuacin del modelo

Los estimadores 0a y 1a dependen de la muestra seleccionada, por lo tanto son

variables aleatorias y presentarn una distribucin de probabilidad. Estas

distribuciones de probabilidad de los estimadores pueden utilizarse para construir

intervalos de confianza o contrastes sobre los parmetros del modelo de regresin.

Suponiendo que los residuos se distribuyen normalmente, realizamos un resumen de

los contrastes de ajuste sobre el modelo de regresin lineal simple:

1.- Ajuste de la pendiente de la recta, contrastes para el parmetro a1:

En trminos generales planteamos los siguientes contrastes para a1:

Unilateral a la izquierda(contraste de una cola):

0 1

1 1

:

:

H a a

H a a

=


9/33

- El estadstico pivotepara este contraste es:

1

0

E

XX

a at

MSS

= donde:

1

2

YY XY E

S a SMS

n

=

Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2

grados de libertad.

- La hiptesis nula se rechaza cuando:

0 1 , 2nt t >

siendo 1 , 2nt el percentil de la distribucin t-Student con n-2 grados de

libertad.

Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:

Rechazamos Hosi : p-valor <

Calculndose el p-valor en este caso de la forma siguiente:

p-valor = ( )2 0nP t t >

Bilateral (contraste de dos colas):

0 1

1 1

:

:

H a a

H a a

=


1

0

E

XX

a at

MSS

= donde:

1

2YY XY

E

S a SMS

n

=


grados de libertad.


0 /2, 2nt t >

siendo /2, 2nt el percentil 1 / 2 de la distribucin t-Student con n-2 grados

de libertad.




p-valor = ( )2 02 nP t t >

Caso especialSe puede considerar el contraste de ausencia de una relacin lineal entre X e Y; o bien,

la ausencia de una relacin causal entre dichas variables, en trminos del primer

contraste de ajuste sobre la pendiente. Es decir,


10/33

0 1

1 1

: 0

: 0

H a

H a

=


1

0

E

XX

at

MSS

=


grados de libertad.


0 /2, 2nt t >

es decir, 0 /2, 2nt t >

0 /2, 2nt t <


de libertad.

Por lo tanto, si el estadstico de prueba cae en la regin crtica, se rechaza la hiptesis

nula y se dice que el estadstico hallado es estadsticamente significativo con un nivel

de confianza del 100(1-)%.

Ajuste de la pendiente de la recta, contrastes para el parmetro a0:

En trminos generales planteamos los siguientes contrastes para a0:

Unilateral a la izquierda(contraste de una cola):

0 0

1 0

:

:

H a a

H a a

=


11/33


p-valor = ( )2 0nP t t <

Unilateral a la derecha(contraste de una cola):

0 0

1 0

:

:

H a a

H a a

=

>


0

02

1E

XX

a at

XMS

n S

=

+

donde:

1

2

YY XY

E

S a SMS

n

=


grados de libertad.


0 1 , 2nt t >

siendo 1 , 2nt el percentil de la distribucin t-Student con n-2 grados de

libertad.




p-valor = ( )2 0nP t t >

Bilateral (contraste de dos colas):

0 0

1 0

:

:

H a a

H a a

=


0

0 2

1E

XX

a at

XMS

n S

=

+

donde:

1

2

YY XY

E

S a SMS

n

=


grados de libertad.


0 /2, 2nt t >


de libertad.



12/33



p-valor = ( )2 02 nP t t >

A3. ANLISIS DE DATOS

Para realizar los ejercicios voy a utilizar el software SPSS.

Llamamos a las variables DOSIS (Variable Independiente) y NIVELTOX (Variable

Dependiente) que vienen recogidas en archivo ejercicio1.sav de la carpeta de datos.

Empezamos el problema mediante la presentacin del diagrama de dispersin entre

ambas variables, y la representacin de la recta de regresin aproximada. Losdiagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de

relacin existente entre dos variables, adems, tambin puede utilizarse como una

forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con

observar el grado en el que la nube de puntos se ajusta a una lnea recta.


13/33

El grfico muestra una posible adecuacin del modelo lineal y la tendencia creciente

del mismo.

Para obtener la recta de regresin mnima cuadrtica de NIVELTOX sobre DOSIS ,

representada en la nube de puntos,

0 1Y a a X = +

Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,

obtenemos los siguientes resultados:

En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de

regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del

ajuste de la recta de regresin a la nube de puntos, valores pequeos de R

cuadrado indican que el modelo no se ajusta bien a los datos.R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad

de NIVELTOX, es explicada por la relacin lineal con DOSIS.

El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir

es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las

variables. La ltima columna nos muestra el Error tpico de la estimacin (raz

cuadrada de la varianza residual) con un valor igual a 2,772.

En cuadro siguiente se tiene la tabla ANOVA:


14/33

En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en

la Variabilidad debida a la Regresin (353,44) y la Variabilidad Residual (138,36), es

decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no

explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se construye a partir de

esta descomposicin y proporciona el valor del estadstico Fque permite contrastar la

hiptesis nula de que la pendiente de la recta de regresin es igual a cero contra laalternativa de que la pendiente es distinta de cero, es decir:

0 1

1 1

: 0

: 0

H a

H a

=

donde H0se conoce, en general, como hiptesis de no linealidad entre X e Y.

La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se

define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el

Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la

prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, escero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a

rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las

variables del problema.

"Esto indica que es vlido el modelo de regresin considerado, eneste caso el modelo lineal simple."

La siguiente tabla muestra las estimaciones de los parmetros del modelo de

regresin lineal simple:

El modelo presenta los siguientes parmetros: como ordenada en el

origen, 0 0.82a = y la pendiente 1 0.752a = .


15/33

Por tanto, la ecuacin de la recta estimada o ajustada es: 0.82 0.752y x= + . As

mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de

la significacin de cada uno de estos parmetros:

0 0

1 0

: 0

: 0

H a

H a

=

0 1

1 1

: 0

: 0

H a

H a

=

El primero de estos contrastes carece de inters en la mayora de los casos ya que

raramente el punto de corte de la recta de regresin con el eje de ordenadas

(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de

significado casi siempre.

El segundo contraste, el contraste de la pendiente de la recta, es una alternativa

equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El

estadstico de contraste que aparece en la columna t vale 6.781 tiene un p-valorasociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05

que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin

lineal significativa entre Y y X.

En la ltima columna de la tabla se muestran los intervalos de confianza para 0a y 1a ,

al 95%. El intervalo para 0a es (-6.222, 4.582), puesto que el cero pertenece al

intervalo, se aceptara la hiptesis nula y concluir que si la DOSIS es cero el

NIVELTOX tambin lo es, por tanto al nivel de confianza del 95% el parmetro 0a

podra considerarse igual a cero.

VALIDACIN Y DIAGNOSIS DEL MODELO

En este apartado vamos a comprobar que se verifican los supuestos del modelo de

regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)

estos supuestos resultan necesarios para validar la inferencia respecto a los

parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a

posteriori de dichas hiptesis del modelo.

Normalidad

Podemos comprobarla de forma grfica o analticamente, grficamente podemos

estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo

siguiente:


16/33

El Grfico representa las funciones de distribucin terica y emprica de los residuos

tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican

alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la

hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de

Kolmogorov-Smirnov:

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que

los residuos surgieran de una distribucin normal y los valores observados. Sedistingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la


17/33

mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del

p-valor asociado (0.797). Por lo tanto no se puede rechazar la hiptesis de normalidad

de los residuos.

HomocedasticidadComprobamos la hiptesis de homogeneidad de las varianzas grficamente

representando los residuos tipificados frente a los tiempos de incubacin estimados

tipificados. El anlisis de este grfico puede revelar una posible violacin de la

hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los

residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de

la variable NIVELTOX , si observamos que el grfico muestra forma de embudo... Si

por el contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar

la hiptesis de igualdad de varianzas.

No apreciamos tendencia clara en este grfico, los residuos no presentan estructura

definida respecto de los valores predichos por el modelo por lo que no debemos

rechazar la hiptesis de homocedasticidad.

Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del

modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si

observamos trayectorias de comportamiento no aleatorio esto es indicio de que el

modelo propuesto no describe adecuadamente los datos.

Independencia de los residuos

La hiptesis de independencia de los residuos la realizaremos mediante el contraste

de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...


18/33

SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-

valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de

Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a

cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos

estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su

valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

valor 2.399 prximo a 2 lo que indica la incorrelacin de los residuos.


19/33


ambas variables, y la representacin de la recta de regresin aproximada. Los

diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de


forma de cuantificar el grado de relacin lineal existente entre dos variables, basta conobservar el grado en el que la nube de puntos se ajusta a una lnea recta.

El grfico muestra una posible adecuacin del modelo lineal y la tendencia creciente

del mismo.

Para obtener la recta de regresin mnima cuadrtica de Y sobre X , representada en

la nube de puntos,

0 1Y a a X = +

Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,

obtenemos los siguientes resultados:



ajuste de la recta de regresin a la nube de puntos, valores pequeos de R

cuadrado indican que el modelo no se ajusta bien a los datos.

R cuadrado toma un valor de 0.915 que nos indica que el 91.5% de la variabilidadde Y, es explicada por la relacin lineal con X.


20/33



variables. La penltima columna nos muestra el Error tpico de la estimacin (raz

cuadrada de la varianza residual) con un valor igual a 3.254.


En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (3871.879)

en la Variabilidad debida a la Regresin (3543.657) y la Variabilidad Residual

(328.222), es decir, en Variabilidad explicada por el modelo de regresin y la

Variabilidad no explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se

construye a partir de esta descomposicin y proporciona el valor del estadstico F que

permite contrastar la hiptesis nula de que la pendiente de la recta de regresin es

igual a cero contra la alternativa de que la pendiente es distinta de cero, es decir:

0 1

1 1

: 0

: 0

H a

H a

=




Cuadrado medio residual (10.588), por tanto cuanto mayor sea su valor, mejor ser la

prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es

cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a

rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las






21/33



Por tanto, la ecuacin de la recta estimada o ajustada es: 3.549 0.926y x= + . As



0 0

1 0

: 0

: 0

H a

H a

=

0 1

1 1

: 0

: 0

H a

H a

=



(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de

significado casi siempre.

El segundo contraste, el contraste de la pendiente de la recta, es una alternativaequivalente al contraste que acabamos de comentar en la Tabla ANOVA. El

estadstico de contraste que aparece en la columna t vale 18.295 tiene un p-valor

asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05




al 95%. El intervalo para 0a es (-0.078, 7.177), puesto que el cero pertenece al

intervalo, se aceptara la hiptesis nula y concluir que si la variable X es cero la

variable Y tambin lo es, por tanto al nivel de confianza del 95% el parmetro 0a

podra considerarse igual a cero.








22/33

Normalidad


estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo

siguiente:



alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,

estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la


Kolmogorov-Smirnov:


23/33

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que

los residuos surgieran de una distribucin normal y los valores observados. Se

distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la


p-valor asociado (0.701). Por lo tanto no se puede rechazar la hiptesis de normalidadde los residuos.

Homocedasticidad

Comprobamos la hiptesis de homogeneidad de las varianzas grficamente


tipificados. El anlisis de este grfico puede revelar una posible violacin de la

hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los


la variable Y, si observamos que el grfico muestra forma de embudo... Si por el

contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar la

hiptesis de igualdad de varianzas.




Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del

modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si




24/33








estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su

valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

valor 2.395 prximo a 2 lo que indica la incorrelacin de los residuos.

Estudiar posibles datos atpicos, afectan al ajuste realizado? Afectan a algunade las hiptesis del modelo?

En la nube de puntos podemos ver de forma grfica si existen o no datos atpicos o

anmalos que puedan influir en el estudio regresin lineal, para nuestro caso

observamos datos separados de la recta de regresin generada, aunque no seobserva datos con gran relevancia. Para hacer un estudio de si hay o no datos atpicos

podemos analizar los residuos.

Los residuos son muy importantes en el anlisis de regresin. En primer lugar, nos

informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es elerror tpico de los residuos, mejores son los pronsticos, o lo que es lo mismo, mejor


25/33

se ajusta la recta de regresin a la nube de puntos. En segundo lugar, el anlisis de

las caractersticas de los casos con residuos grandes (grandes en valor absoluto)

puede ayudarnos a detectar casos atpicos y, consecuentemente, a perfeccionar la

ecuacin de regresin a travs de un estudio detallado de los mismos. El SPSS nos

ofrece la opcin "Diagnsticos por caso" del cuadro de dilogo Regresin lineal:Estadsticos, ofrece un listado de todos los residuos o, alternativamente (y esto es ms

interesante), un listado de los residuos que se alejan de cero (el valor esperado de los

residuos) en ms de un determinado nmero de desviaciones tpicas. Es fcil, por

tanto, identificar los casos que poseen residuos grandes.

Hemos elegido el valor de 2, puesto que no hay residuos que se alejen ms de 3, que

es el valor que viene por defecto. El resultado que proporciona el SPSS es de dos

valores atpicos encontrados:

Los datos atpicos pueden afectar al modelo estimado de regresin, as como a las

hiptesis de normalidad y homocedasticidad cuando estos sean relevantes por lo que

merecen un estudio en profundidad, cuando se tienen identificados los datos atpicos

podemos:

Eliminar los puntos si realmente no presentan ningn inters.

Crear una variable ficticia que trate de medir el efecto del punto sobre el

modelo y que lo caracterice como punto especial proveniente de otra poblacin.

Es admisible que la variabilidad de los residuos aumente o disminuya con lapropia variable explicativa?

Puesto que siempre se cumple la igualdad:

E YY

Y Y

SS S S =

y la variable Y depende de la variable X, es lgico que la variabilidad de los residuosaumente o disminuya con la propia variable explicativa.


26/33

Llamamos a las variables PRECIO (Variable Independiente) y DEMANDA (Variable

Dependiente) que vienen recogidas en archivo ejercicio3.sav de la carpeta de datos.


ambas variables, y la representacin de la recta de regresin aproximada. Los

diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de


forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con

observar el grado en el que la nube de puntos se ajusta a una lnea recta.

El grfico muestra una posible adecuacin del modelo lineal y la tendencia decreciente

del mismo.


27/33

Para obtener la recta de regresin mnima cuadrtica de Y sobre X , representada en

la nube de puntos,

0 1Y a a X = +

Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,obtenemos los siguientes resultados:



ajuste de la recta de regresin a la nube de puntos, valores pequeos de Rcuadrado indican que el modelo no se ajusta bien a los datos.

R cuadrado toma un valor de 0.758 que nos indica que el 75.8% de la variabilidad

de DEMANDA, es explicada por la relacin lineal con PRECIO.



variables. La penltima columna nos muestra el Error tpico de la estimacin (raz

cuadrada de la varianza residual) con un valor igual a 47,528.


En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (84145.636)

en la Variabilidad debida a la Regresin (63815.23) y la Variabilidad Residual(20330.406), es decir, en Variabilidad explicada por el modelo de regresin y la

Variabilidad no explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se

construye a partir de esta descomposicin y proporciona el valor del estadstico F que

permite contrastar la hiptesis nula de que la pendiente de la recta de regresin es

igual a cero contra la alternativa de que la pendiente es distinta de cero, es decir:

0 1

1 1

: 0

: 0

H a

H a

=



28/33



Cuadrado medio residual (2258.934), por tanto cuanto mayor sea su valor, mejor ser

la prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es

cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce arechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las







Por tanto, la ecuacin de la recta estimada o ajustada es: 497.156 24.419y x= . As



0 0

1 0

: 0

: 0

H a

H a

=

0 1

1 1

: 0

: 0

H a

H a

=



(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece designificado casi siempre.

El segundo contraste, el contraste de la pendiente de la recta, es una alternativa

equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El

estadstico de contraste que aparece en la columna t vale 8.17 tiene un p-valor

asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05




29/33


al 95%. El intervalo para 0a es (359.499 , 634.813), puesto que el cero no pertenece al

intervalo, se rechazara la hiptesis nula.







Normalidad


estudiar el grfico probabilstico normal, Para obtener dicho grficoseleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q..., obtenemos lo

siguiente:



alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,

estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la


Kolmogorov-Smirnov:


30/33

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de quelos residuos surgieran de una distribucin normal y los valores observados. Se

distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la


p-valor asociado (0.991). Por lo tanto no se puede rechazar la hiptesis de normalidad

de los residuos.

Homocedasticidad

Comprobamos la hiptesis de homogeneidad de las varianzas grficamente


tipificados. El anlisis de este grfico puede revelar una posible violacin de lahiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los


la variable Y, si observamos que el grfico muestra forma de embudo... Si por el

contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar la

hiptesis de igualdad de varianzas.


31/33




Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin delmodelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si










estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si suvalor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el

valor 0.771 prximo a 0 lo que indica la correlacin de los residuos.

Par solucionar la falta independencia al existir una correlacin entre los residuos,

podemos plantear una transformacin de los valores o el aadir ms datos al problema.

DATOS ATPICOS

En la nube de puntos podemos ver de forma grfica si existen o no datos atpicos quepuedan influir en el estudio regresin lineal, para nuestro caso observamos datos

separados de la recta de regresin generada, que de entrada nos hace una idea de

que puedan existir datos anmalos. Para hacer un estudio de si hay o no datos

atpicos podemos analizar los residuos.


32/33

Los residuos son muy importantes en el anlisis de regresin. En primer lugar, nos

informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es el

error tpico de los residuos, mejores son los pronsticos, o lo que es lo mismo, mejor

se ajusta la recta de regresin a la nube de puntos. En segundo lugar, el anlisis de

las caractersticas de los casos con residuos grandes (grandes en valor absoluto)

puede ayudarnos a detectar casos atpicos y, consecuentemente, a perfeccionar la

ecuacin de regresin a travs de un estudio detallado de los mismos. El SPSS nos

ofrece la opcin "Diagnsticos por caso" del cuadro de dilogo Regresin lineal:

Estadsticos, ofrece un listado de todos los residuos o, alternativamente (y esto es ms

interesante), un listado de los residuos que se alejan de cero (el valor esperado de los

residuos) en ms de un determinado nmero de desviaciones tpicas. Es fcil, por

tanto, identificar los casos que poseen residuos grandes.

Hemos elegido el valor de 1.5, puesto que no hay residuos que se alejen ms de 2. El

resultado que proporciona el SPSS es de un valor atpico encontrado:

Los datos atpicos pueden afectar al modelo estimado de regresin, as como a las

hiptesis de normalidad y homocedasticidad cuando estos sean relevantes por lo que

merecen un estudio en profundidad, cuando se tienen identificados los datos atpicos

podemos:Eliminar los puntos si realmente no presentan ningn inters.


33/33

Crear una variable ficticia que trate de medir el efecto del punto sobre el

modelo y que lo caracterice como punto especial proveniente de otra poblacin.

EL RESTO DE EJERCICIOS SON DE REGRESIN LINEAL MLTIPLE YVIENEN REPETIDOS EN LA ACTIVIDAD 4 Y HE DECIDIDO HACERLOS ENESA ACTIVIDAD.

Actividad3 Sanchez Campoy CM

Documents