+ All Categories
Home > Documents > regresion lineal simple

regresion lineal simple

Date post: 21-Jul-2015
Category:
Upload: jano-aranis
View: 827 times
Download: 5 times
Share this document with a friend
54
Ignacio Cascos Depto. Estadística, Universidad Carlos III 1 Regresión lineal simple Tema 1
Transcript

Ignacio Cascos Depto. Estadística, Universidad Carlos III 1

Regresión lineal simple

Tema 1

Ignacio Cascos Depto. Estadística, Universidad Carlos III 2

Descripción breve del tema1. Introducción

2. El modelo de regresión simple

3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros

Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores

Coeficientes de regresión, varianza residual

6. Inferencia y predicción

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 3

Objetivos

Construcción de modelos de regresión

Métodos de estimación para dichos modelos

Inferencia acerca de los parámetros

Aprendizaje de utilización de gráficos para

detectar el tipo de relación entre dos variables

Cuantificación del grado de relación lineal

Ignacio Cascos Depto. Estadística, Universidad Carlos III 4

Descripción breve del tema1. Introducción

2. El modelo de regresión simple

3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros

Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores

Coeficientes de regresión, varianza residual

6. Inferencia y predicción

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 5

Introducción

Estudio conjunto de dos variables

Relación entre las variables

Regresión lineal

Historia del concepto de regresión lineal

uxy 10

Ignacio Cascos Depto. Estadística, Universidad Carlos III 6

Descripción breve del tema1. Introducción

2. El modelo de regresión simple

3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros

Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores

Coeficientes de regresión, varianza residual

6. Inferencia y predicción

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 7

Ejemplo:

Pureza del oxígeno en un proceso de destilación

Ignacio Cascos Depto. Estadística, Universidad Carlos III 8

Ejemplo:

Pureza del oxígeno en un proceso de destilación

Ignacio Cascos Depto. Estadística, Universidad Carlos III 9

El modelo de regresión simple

n pares de la forma (xi,yi)

Objetivo: valores aproximados de Y a partir de X

X: variable independiente o explicativa

Y: variable dependiente o respuesta (a explicar)

pendiente

intercepto

regresión de escoeficient y

1

0

10

10 iii uxy

Ignacio Cascos Depto. Estadística, Universidad Carlos III 10

El modelo de regresión simple

Ignacio Cascos Depto. Estadística, Universidad Carlos III 11

Descripción breve del tema1. Introducción

2. El modelo de regresión simple

3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros

Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores

Coeficientes de regresión, varianza residual

6. Inferencia y predicción

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 12

Linealidad: datos con aspecto recto

Plot of Y1 vs X1

0 40 80 120 160 200

X1

0

200

400

600

800

Y1

Plot of Y2 vs X2

0 40 80 120 160 200 240

X2

0

100

200

300

400

500

600

Y2

Ignacio Cascos Depto. Estadística, Universidad Carlos III 13

Homogeneidad

El valor promedio del error es cero,

0][ iuE

Ignacio Cascos Depto. Estadística, Universidad Carlos III 14

Homocedasticidad:Var[ui]=

2 Varianza de errores constante

Ignacio Cascos Depto. Estadística, Universidad Carlos III 15

Independencia: Observaciones independientes, en particular E[uiuj]=

Ignacio Cascos Depto. Estadística, Universidad Carlos III 16

Normalidad: ui~N(0, 2)

Ignacio Cascos Depto. Estadística, Universidad Carlos III 17

Descripción breve del tema1. Introducción

2. El modelo de regresión simple

3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros

Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores

Coeficientes de regresión, varianza residual

6. Inferencia y predicción

7. Tansformaciones

Ignacio Cascos Depto. Estadística, Universidad Carlos III 18

Método de Mínimos Cuadrados

Valor observado

Dato (y)

Recta de

regresión

estimada

Valor observado

Dato (y)

Recta de

regresión

estimada

Ignacio Cascos Depto. Estadística, Universidad Carlos III 19

Mínimos Cuadrados (Gauss, 1809)

Objetivo: Buscar los valores de y que

mejor se ajustan a nuestros datos.

Ecuación:

Residuo:

Minimizar:

iiiii xyyye 10ˆˆˆ

n

i

ie1

2

ii xy 10ˆˆˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 20

Mínimos Cuadrados (Gauss, 1809)

Resultado:

xS

Sy

X

YX

2

,

xxyy ii 1ˆˆ

2

,

X

YX

S

S

Ignacio Cascos Depto. Estadística, Universidad Carlos III 21

Ajuste regresión simple:

Datos pureza oxígeno

Ignacio Cascos Depto. Estadística, Universidad Carlos III 22

Ajuste regresión simple:

Datos pureza oxígeno

xy

xyS

S

SS

yxn

x

xy

xyx

95142874

287419619514169295146810

17710

177106810

20

1021

2

..ˆ

..).(.ˆˆ ..

. .

92.16 1.196

Ignacio Cascos Depto. Estadística, Universidad Carlos III 23

Ajuste regresión simple:

Datos pureza oxígeno

xy 95142874 ..ˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 24

Ajuste regresión simple:

Datos pureza oxígeno

Ignacio Cascos Depto. Estadística, Universidad Carlos III 25

Ajuste regresión simple:

Datos pureza oxígeno

Ignacio Cascos Depto. Estadística, Universidad Carlos III 26

Método de Máxima Verosimilitud

Mismo resultado.

Estimación de la varianza:

INSESGADO 2

ˆ Residual Varianza

insesgado no EMV ˆ

2

2

2

2

n

eS

n

e

i

R

i

Ignacio Cascos Depto. Estadística, Universidad Carlos III 27

Ajuste regresión simple:

Datos pureza oxígeno

2

RS

Ignacio Cascos Depto. Estadística, Universidad Carlos III 28

Descripción breve del tema1. Introducción

2. El modelo de regresión simple

3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros

Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores

Coeficientes de regresión, varianza residual

6. Inferencia y predicción

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 29

Props. de los coeficientes de regresiónNormalidad

iii

x

i ywynS

xx21

)(ˆ Combinación lineal de normales

),(~ 2

0 iii xNy

Estimador centrado

121 i

x

i yEnS

xxE

)(ˆ

Varianza del estimador

2

22

21

x

i

x

i

nSyVar

nS

xxVar

)(ˆ

2

2

11

xnSN ,~ˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 30

Props. de los coeficientes de regresiónNormalidad

ii ywxn

xy1

10ˆˆ Combinación lineal de normales

),(~ 2

0 iii xNy

Estimador centrado

00

1ii yEwx

nE ˆ

Varianza del estimador

2

222

0 11

x

iiS

x

nyVarwx

nVar ˆ

2

22

00 1xS

x

nN ,~ˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 31

Descripción breve del tema1. Introducción

2. El modelo de regresión simple

3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros

Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores

Coeficientes de regresión, varianza residual

6. Inferencia y predicción

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 32

Inferencia respecto a los parámetros IC

2

ˆ ˆEn general, si ~ , ( ) un I.C. para :

ˆ ˆ ( )

N Var

z Var

2 2

0

1

ˆˆ ( / 2, 2) 1 /

ˆˆ ( / 2, 2)

Rx

R

x

St n x S

n

St n

S n

2

1 1 2

2 2

0 0 2

ˆ ~ ,

ˆ ~ , 1

x

x

NnS

xN

n S

2ˆDesconocida RS

Ignacio Cascos Depto. Estadística, Universidad Carlos III 33

Inferencia respecto a los parámetros

Contraste de Hipótesis

0 0 1 0

02 2

0 1 1 1

1

: 0 : 0

ˆ ˆ 1 /

: 0 : 0

ˆ

ˆ

R x

x

R

H H

nt

S x S

H H

S nt

S

( / 2, 2)t n

Ignacio Cascos Depto. Estadística, Universidad Carlos III 34

Ajuste regresión simple:pureza oxígeno

0 1ˆ ˆ y

significativos

Ignacio Cascos Depto. Estadística, Universidad Carlos III 35

Descomposición de la variabilidad

La variabilidad del modelo satisface: VT =VE+VNE

Contraste de regresión

n

i

i

n

i

ii

n

i

i

n

i

i

eyy

yy

yy

1

2

1

2

1

2

1

2

)ˆ(Explicada No adVariabilidVNE

)ˆ(Explicada adVariabilidVE

)(T otal adVariabilidVT

2,11 ~2VNE

VE entonces 0, Si nF

n

Ignacio Cascos Depto. Estadística, Universidad Carlos III 36

Ajuste regresión simple:pureza oxígeno

VE

Ignacio Cascos Depto. Estadística, Universidad Carlos III 37

Ajuste regresión simple:pureza oxígeno

VNE

Ignacio Cascos Depto. Estadística, Universidad Carlos III 38

Coeficiente de determinación

22

2

,

2

1

2

1

2

1

2

2

)ˆ(

)(

)ˆ(

VT

VE

YX

YX

Y

n

i

i

n

i

i

n

i

i

SS

S

nS

yy

yy

yy

R

Ignacio Cascos Depto. Estadística, Universidad Carlos III 39

Predicción

Dos tipos de predicción:

Predecir un valor promedio de y para cierto valor de x.

Predecir futuros valores de la variable respuesta.

La predicción es la misma (a partir de la recta de

regresión) pero la precisión de los estimadores es

diferente.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 40

Predicción (promedio)

2

2

02

1

2

00

010

)(1

)ˆ()()()ˆ(

)(ˆˆ

XnS

xx

n

VarxxyVaryVar

xxyy

2

2

02/,20

)(1ˆˆX

RnnS

xx

nSty

Intervalo de confianza para la media estimada

Estimación de la media de la distribución condicionada de y para x=x0:

Ignacio Cascos Depto. Estadística, Universidad Carlos III 41

Ajuste regresión simple:pureza oxígeno

,x y

La anchura del intervalo

aumenta cuando aumenta

hx x

Ignacio Cascos Depto. Estadística, Universidad Carlos III 42

Predicción para futuros valores

2

2

02/,20

)(11ˆˆ

X

RnnS

xx

nSty

Intervalo de predicción

Ignacio Cascos Depto. Estadística, Universidad Carlos III 43

Ajuste regresión simple:pureza oxígeno

Ignacio Cascos Depto. Estadística, Universidad Carlos III 44

Descripción breve del tema1. Introducción

2. El modelo de regresión simple

3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros

Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores

Coeficientes de regresión, varianza residual

6. Inferencia y predicción

7. Diagnosis

Ignacio Cascos Depto. Estadística, Universidad Carlos III 45

Diagnosis

Una vez ajustado el modelo, hay que comprobar

si se cumplen las hipótesis iniciales.

Gráficos de residuos frente a valores

previstos.

Si las hipótesis iniciales se satisfacen, este

gráfico no debe tener estructura alguna.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 46

Ajuste regresión simple:

Datos pureza oxígeno

Ignacio Cascos Depto. Estadística, Universidad Carlos III 47

Relaciones no lineales

Gráficos de residuos

Ignacio Cascos Depto. Estadística, Universidad Carlos III 48

Linealidad

Soluciones a la falta de linealidad:

Transformar las variables para intentar

conseguir linealidad.

Introducir variable adicionales.

Detectar la presencia de datos atípicos o

ausencia de otras variables importantes para

explicar la variable respuesta.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 49

Homocedasticidad

.

y

Cuando la varianza de las perturbaciones es muy diferente para

unos valores de la variable explicativa que para otros tenemos

heterocedasticidad

e

Ignacio Cascos Depto. Estadística, Universidad Carlos III 50

Homocedasticidad

Soluciones a la heterocedasticidad:

Si la variabilidad de la respuesta aumenta con

x según la ecuación Var(y|x) = g(x), dividimos

la ecuación de regresión (y) entre g(x).

Transformar la variable respuesta y puede que

también x.

Si lo anterior no funciona, cambiar el método

de estimación.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 51

Normalidad

La falta de normalidad invalida resultados inferenciales.

Comprobación mediante histogramas o gráficos

probabilísticos.

En un gráfico probabilístico comparamos los

residuos ordenados con los cuantiles de la

distribución Normal estándar.

Si la distribución de los residuos es normal, el

gráfico ha de mostrar aproximadamente una recta.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 52

Normalidad

Ignacio Cascos Depto. Estadística, Universidad Carlos III 53

Independencia y Datos influyentes

Independencia

Conviene hacer una gráfica de residuos frente

a tiempo (residuos incorrelados).

Datos influyentes

Analizar la presencia de datos influyentes.

Los atípicos son datos muy grandes o muy

pequeños. Estudiar su posible eliminación.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 54

Transformaciones

Forma funcional que

relaciona y con x

Transformación apropiada

Exponencial: y = aexp{bx}

Potencia: y = axb

Recíproca: y = a+b/x

Hiperbólica: y = x/(a+bx)

y’ = lny

y’ = lny , x’ = lnx

x’ = 1/x

y’ = 1/y , x’ = 1/x


Recommended