Regresion Linea - [Download XLSX]

este es un ejemplo que les servira de guia .exitos

solucion modelos de regresion.Lic. Larios Ramirez Oscar

datos DAP(X) ALTURA(Y) ssx ssy x^21 15.6 17.4 2.05 0.75 1.5375 4.2025 0.5625 243.362 14.8 18.4 1.25 1.75 2.1875 1.5625 3.0625 219.043 15.5 16.5 1.95 -0.15 -0.2925 3.8025 0.0225 240.254 12.5 15.2 -1.05 -1.45 1.5225 1.1025 2.1025 156.255 14.2 19.9 0.65 3.25 2.1125 0.4225 10.5625 201.646 15.7 22.1 2.15 5.45 11.7175 4.6225 29.7025 246.497 12.3 14.8 -1.25 -1.85 2.3125 1.5625 3.4225 151.298 14.2 17.3 0.65 0.65 0.4225 0.4225 0.4225 201.649 8.8 10.3 -4.75 -6.35 30.1625 22.5625 40.3225 77.44

10 11.9 14.6 -1.65 -2.05 3.3825 2.7225 4.2025 141.61SUMA 135.5 166.5 -7.105E-15 1.243E-14 55.065 42.985 94.385 1879.01PROM. 13.55 16.65n 10

1º cálculo de la covarianza interpretacioncovarianza 6.118 este valor nos indica que el DAP y la altura estan

n-1 correlacionados , de forma directaa medida que aumenta el DAP aumenta la altura

2º calculo del cofeciente de correlación de Pearson"r" se encuantra entre -1 y 1-1<r<1

interpretacionr= 0.8645013741689 este valor es cercano a uno, lo que indica que el

DAP y la altura estan relacionados de manera directaa medida que aumenta el DAP aumentara la altura

3º Ajuste de la recta de regresion

el modelo esta dado por: y=b0 + b1xel modelo estimado será: ŷ = B0 + B1 x

calculo de los parametros por metodo de minimos cuadradosB1= ∑(x-ẋ)(y-ẏ) 1.281 interpretación:

ssx el valor de B1= 1.281 siginifica que para cadacentimetro adicional de DAP, la altura del

B0= ẏ - B1*ẋ - 0.708 arbol se incrementara en 1.28

Bo, si el incremento del DAPes de ceroŷ =-0.708 + 1.281xi centimetros, se estima que la altura prome-

dio del arbol sera de -0.708en este caso no tiene sentido

este modelo de regresion nos puede servir para predecir, suponga que tiene un arbolun DAP = 11 cm, entonces se estima que 13.46 mt.

(x-ẋ) (y-ẏ) (x-ẋ)(y-ẏ)

∑(x-ẋ)(y-ẏ)

√ssx*ssy

suma de cuadrados muestrales de y

suma de cuadrados muestrales de x

(x-ẋ)^2

V.I menos su promedio(x-ẋ)

G8

Javi: suma de cuadrados muestrales de x

H8

Javi: suma cuadrados muestrales de y

B44

Javi: suma de cuadrados muestrales de x

Ademas se tiene el porcentaje de la variabilidad total que explica el modelo es de r^2= 0.865^2= 0.748: aproximadamente el75% de la variabilidad de la altura de los árbolesesta explicada por la variabilidad en la longitud en cm del DAP. Y el otro 25% se debe a factores no controlados

datos DAP(X) ALTURA(Y) (y-ŷ) (y-ŷ)^21 15.6 17.4 19.38 - 1.98 3.9394 2 14.8 18.4 18.35 0.05 0.00207943 15.5 16.5 19.26 - 2.76 7.5955364 12.5 15.2 15.39 - 0.19 0.0368645 14.2 19.9 17.58 2.32 5.37497866 15.7 22.1 19.51 2.59 6.6894657 12.3 14.8 15.13 - 0.33 0.11182348 14.2 17.3 17.58 - 0.28 0.07929869 8.8 10.3 10.63 - 0.33 0.106537

10 11.9 14.6 14.62 - 0.02 0.0003686- 0.94 23.936

suma de los errores e ^2= 23.94

varianza residual= 23.936 error estándar residual = 1.73 una vez que tenemos el modelo de regresion lineal, procedemos a realizar las pruebas de hipotesis1. prueba de hipotesis para probar si la correlacion es significativa a) planteamos las hipotesis b) determinar nivel de significancia

Ho ῤ = 0 α= 0.05H1 ῤ ≠ 0

Ho El DAP y la altura de los arboles no estan correlacionadasH1 El DAP y la altura de los arboles estan psitivamente correlacionadas

c) Determinar el estadistico de prueba

d) determinar la region de rechazo calculo en excel2.306 2.306 DISTR.T.INV(0.05;8)

zona de rechazo zona de rechazo

-2.306 2.306

e) cálculo del estadistico de prueba

tc = 4.8647651826

f) conclusioncomo tc > 2.306, entonces existe suficiente evidencia estadistica para afirmar que el DAP y la Alturaestan siginificativamenet correlacionadas.

CALCULO DE LOS INTERVALOS DE CONFIANZA Y DE PREDICCION

ŷ =-0.708 + 1.2881xi

sse=∑(y-ŷ)^2

tc= (r √n-2)/√(1-r^2) como la muestra es menor que 30 se utilizara la distribucion t (1-α/2, n-2) gl

t(0.975, 8)

modelo lineal de pronostico

Valor real - Valor pronosticado

r = coeficiente correlación

Consiste en establecer dos puntos para el estimador , dentro del cual debe estar contenido elparametro o valor estadistico de la poblacion con cierto grado de confianza o de seguridad a) en el primer caso cuando la variable independiente (x) toma un valor que debe estar dentro del recorrido de la variable poblacional , y se desea estimar la variable dependiente ( y), la formula es la siguiente:

suponiendo que se quieren establecer los limtes de confianza al 95%, cuando el la variable DAP (en centimetros) toma un valor de 11xi 11ŷ = 13.4611t(n-2, 0.975) 2.306 ŷ =-0.708 + 1.2881xin 10

1879.01 li∑xi= 135.5 ls

6.50 e-estándar € 1.73

con los siguientes datos calculamos el intervalo de predicción(11-13.55)^2= 6.5025

1879.01-(135.5^2/10)= 42.985

Li= 9.00 Ls= 17.92

contraste de hipotesis para B0 y B1contraste para B1para estos estudios podemos estar interesados en demostrar si realmente existe una relacion entre las variables X e Y. para resolver esta cuestion tendremos que plantearnos un contraste de hipotesisa)Ho B1=0 no existe relacion entre las variablesH1 existe una relacion creciente o decreciente

b) estadistico de contrastetc = b1/SE(b1)donde: b1= B1= 1.2881

SE(b1)= 0.263831

una vez calculados estos valores se contrastara la hipotesis

c) nivel de significanciaα=0.05d) determinar region de rechazo

zona de rechazo zona de rechazo

∑(x-ẋ)^2

B1≠ 0

raiz cuadrada de la varianza residual

reemplazar x=11 en el modelo de regresión modelo de regresión

valor en la tabla T

VI. elevada al cuadrado

diferencia del valor x - el promedio de VI elevado al cuadrado

se obtiene del modelo de regresión

-2.306 2.306

e) calculo del estaditico de prueba:

tc = b1/SE(b1) 4.88 se rechaza la Ho, existe evidencia estadisticade que el tamaño del arbol aumenta en sulongitud

TABLA ANOVA EN REGRESION

hipotesisH0 el DAP de los arboles explica una parte la altura de los arbolesH1

suma de cuadrados grado libert MS F p-valorregresion SS(regres) 70.449 1 70.45 23.55 0.00127suma errores SS(resid) 23.936 n-2=8 2.992

TOTAL SSx 42.985 n-1=9

SS(regres)= SSy-SS(resid) 94.385-23.936= 70.449

70.449/1

23.936/8

70.449/2.992

137.37

0.864501374168923

Resumen

Estadísticas de la regresiónCoeficiente de correlación múltiple 0.86450137Coeficiente de determinación R^2 0.74736263R^2 ajustado 0.71578295Error típico 1.72645513Observaciones 10

ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadradosF Valor crítico de F

suma de cuadrados muestrales de y

Regresión 1 70.5398214 70.5398214 23.6659403 0.00124823Residuos 8 23.8451786 2.98064732Total 9 94.385

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -0.707933 3.6096191 -0.19612402 0.8494034 -9.03172956 7.61586356DAP(X) 1.28102827 0.26332787 4.86476518 0.00124823 0.6737931 1.88826343

Análisis de los residuales

Observación Pronóstico ALTURA(Y)ResiduosResiduos estándares1 19.2761079 -1.87610794 -1.152600462 18.2512853 0.14871467 0.091363933 19.1480051 -2.64800512 -1.626821064 15.3049203 -0.10492032 -0.064458565 17.4826684 2.41733163 1.485105136 19.4042108 2.69578923 1.656177577 15.0487147 -0.24871467 -0.152799658 17.4826684 -0.18266837 -0.112223639 10.5651157 -0.26511574 -0.16287577

10 14.5363034 0.06369664 0.03913249

modelo de regresión

agro2012

Inferior 95.0%Superior 95.0%

-9.03172956 7.615863560.6737931 1.88826343

problema 13. las cantidades de un compuesto quimico Y y que se disuelve en 100gr de agua adiferentes temperaturas (X). Los datos se registraron:

solucion: alli tienen tres formas de solucion

procedimiento 1.y x desarrollo matricial

10 1 0 matriz transpuesta15 1 15 1 127 1 30 0 1533 1 4546 1 60 X'*X = 30 112550 1 75 1125 61875

8 1 012 1 15 X'*Y = 89223 1 30 4501530 1 4540 1 60 (X'*Y)*(X'*X) -1= 7.7047619047652 1 75 0.5874285714310 1 014 1 15 Bo 7.7047619047625 1 30 B1 0.5874285714332 1 45 modelo de regry=7.7047+0.587428*x43 1 6053 1 75

9 1 016 1 1524 1 3035 1 4542 1 6054 1 7511 1 018 1 1526 1 3034 1 4545 1 6055 1 75

1566.077+7.621*x1+8.584*x2procedimiento 2

x y (x- x [) (y- y [) (x- x [)(y- y [) SSx0 10 - 37.50 - 19.73 740.00 1,406.25

15 15 - 22.50 - 14.73 331.50 506.25 30 27 - 7.50 - 2.73 20.50 56.25 45 33 7.50 3.27 24.50 56.25 60 46 22.50 16.27 366.00 506.25

75 50 37.50 20.27 760.00 1,406.25 0 8 - 37.50 - 21.73 815.00 1,406.25

15 12 - 22.50 - 17.73 399.00 506.25 30 23 - 7.50 - 6.73 50.50 56.25 45 30 7.50 0.27 2.00 56.25 60 40 22.50 10.27 231.00 506.25 75 52 37.50 22.27 835.00 1,406.25

0 10 - 37.50 - 19.73 740.00 1,406.25 15 14 - 22.50 - 15.73 354.00 506.25 30 25 - 7.50 - 4.73 35.50 56.25 45 32 7.50 2.27 17.00 56.25 60 43 22.50 13.27 298.50 506.25 75 53 37.50 23.27 872.50 1,406.25

0 9 - 37.50 - 20.73 777.50 1,406.25 15 16 - 22.50 - 13.73 309.00 506.25 30 24 - 7.50 - 5.73 43.00 56.25 45 35 7.50 5.27 39.50 56.25 60 42 22.50 12.27 276.00 506.25 75 54 37.50 24.27 910.00 1,406.25

0 11 - 37.50 - 18.73 702.50 1,406.25 15 18 - 22.50 - 11.73 264.00 506.25 30 26 - 7.50 - 3.73 28.00 56.25 45 34 7.50 4.27 32.00 56.25 60 45 22.50 15.27 343.50 506.25 75 55 37.50 25.27 947.50 1,406.25

promedio 37.5 29.7333333333sumas 1125 892 0 0 11565 19687.5n 30

cov= covarianza 398.793 interpretacionn-1 este valor nos indica que el temperatura ycompuesto químico estan

correlacionados , de forma directa

r= 0.99040606 interpretacion

este valor es cercano a uno, lo que indica que eltemperatura y el compuesto quimico estan relacionados de manera dire

3º Ajuste de la recta de regresion a medida que aumenta el DAP aumentara la altura

el modelo esta dado por: y=b0 + b1xel modelo estimado será: ŷ = B0 + B1 x

calculo de los parametros por metodo de minimos cuadradosB1= ∑(x-ẋ)(y-ẏ) 0.587 interpretación:

ssx el valor de B1= 0.587 siginifica que para cadagrado de temperatura adicional , la cantidaddisuelta del compuesto quimico incrementa en 0.587

B0= ẏ - B1*ẋ 7.705 Bo, si el incremento dela temperatura es de cero

∑(x-ẋ)(y-ẏ)

√ssx*ssy

D91

Javi: suma de cuadrados muestrales de x

grados, se estima que la cantidad de compuesto quimico disuelta promepromedio sera de 7.705

r^2= 0.9904^2= 0.9809: aproximadamente el 98% de la variabilidad del compuesto quimicoesta explicada por la variabilidad enen la temperatura. Y el otro 2% se debe a factores no controlados

modelo de regresion y=7.7047+0.587428*x

y y-estimado e=(y-ŷ) (y-ŷ)^210 7.70 2.30 5.27 15 16.52 - 1.52 2.30 27 25.33 1.67 2.80 33 34.14 - 1.14 1.30 46 42.95 3.05 9.30 50 51.76 - 1.76 3.10

8 7.70 0.30 0.09 12 16.52 - 4.52 20.40 23 25.33 - 2.33 5.42 30 34.14 - 4.14 17.13 40 42.95 - 2.95 8.71 52 51.76 0.24 0.06 10 7.70 2.30 5.27 14 16.52 - 2.52 6.33 25 25.33 - 0.33 0.11 32 34.14 - 2.14 4.58 43 42.95 0.05 0.00 53 51.76 1.24 1.53

9 7.70 1.30 1.68 16 16.52 - 0.52 0.27 24 25.33 - 1.33 1.76 35 34.14 0.86 0.74 42 42.95 - 0.95 0.90 54 51.76 2.24 5.01 11 7.70 3.30 10.86 18 16.52 1.48 2.20 26 25.33 0.67 0.45 34 34.14 - 0.14 0.02 45 42.95 2.05 4.20 55 51.76 3.24 10.49

132.26

suma de los errores e ^2= 132.26

varianza residual= 23.845 error estándar residual =

una vez que tenemos el modelo de regresion lineal, procedemos a realizar las pruebas de hipotesis1. prueba de hipotesis para probar si la correlacion es significativa a) planteamos las hipotesis b) determinar nivel de significancia

sse=∑(y-ŷ)^2

Ho ῤ = 0 α= 0.05H1 ῤ ≠ 0

Ho El DAP y la altura de los arboles no estan correlacionadasH1 El DAP y la altura de los arboles estan psitivamente correlacionadas

c) Determinar el estadistico de prueba

d) determinar la region de rechazo calculo en excel2.048 2.048 DISTR.T.INV(0.05;28)

zona de rechazo zona de rechazo

-2.048 2.048

e) cálculo del estadistico de prueba

tc = 37.924767444

f) conclusioncomo tc > 2.048, entonces existe suficiente evidencia estadistica para afirmar que las temperaturas yel compuesto quimicoestan siginificativamenet correlacionadas.

CALCULO DE LOS INTERVALOS DE CONFIANZA Y DE PREDICCIONConsiste en establecer dos puntos para el estimador , dentro del cual debe estar contenido elparametro o valor estadistico de la poblacion con cierto grado de confianza o de seguridad a) en el primer caso cuando la variable independiente (x) toma un valor que debe estar dentro del recorrido de la variable poblacional , y se desea estimar la variable dependiente ( y), la formula es la siguiente:

suponiendo que se quieren establecer los limtes de confianza al 95%, cuando el la variable DAP (en centimetros) toma un valor de 11xi 50ŷ = 37.08 t(n-2, 0.975) 2.048 ŷ =7.7047 + 0.58741xin 30

61875 li

tc= (r √n-2)/√(1-r^2) como la muestra es menor que 30 se utilizara la distribucion t (1-α/2, n-2) gl

t(0.975, 28)

r = coeficiente correlación

raiz cuadrada de la varianza residual

reemplazar x=50 en el modelo de regresión

valor en la tabla T

VI. elevada al cuadrado

∑xi= 1125 ls 19,687.50

e-estándar € 2.17

con los siguientes datos calculamos el intervalo de predicción

1879.01-(135.5^2/10)=

Li= 32.39 Ls= 41.76

contraste de hipotesis para B0 y B1contraste para B1para estos estudios podemos estar interesados en demostrar si realmente existe una relacion entre las variables X e Y. para resolver esta cuestion tendremos que plantearnos un contraste de hipotesisa)Ho B1=0 no existe relacion entre las variablesH1 existe una relacion creciente o decreciente

b) estadistico de contrastetc = b1/SE(b1)donde: b1= B1= 0.587

SE(b1)= 0.0154893124

una vez calculados estos valores se contrastara la hipotesis

c) nivel de significanciaα=0.05d) determinar region de rechazo

zona de rechazo zona de rechazo

-2.048 2.048

e) calculo del estaditico de prueba:

tc = b1/SE(b1) 37.92 se rechaza la Ho, existe evidencia estadisticade que el el compuesto quimico aumentara con la temperatura

TABLA ANOVA EN REGRESION

hipotesisH0 el DAP de los arboles explica una parte la altura de los arboles

∑(x-ẋ)^2

B1≠ 0

VI. elevada al cuadrado

diferencia del valor x - el promedio de VI elevado al cuadrado

se obtiene del modelo de regresión

H1

suma de cuadrados grado libertad MS F p-valorregresion SS(regres) 6,793.611 1 6,793.61 1,438.29 0.000000 suma erroresSS(resid) 132.255 n-2=28 4.723

TOTAL SSx 6,925.867 n-1=29

SS(regres)= SSy-SS(resid) 6,793.611

70.449/1

23.936/8

70.449/2.992

procedimiento 1.desarrollo matricial

matriz transpuesta1 1 1 1 1 1 1

30 45 60 75 0 15 30

(X'*X) -1= 0.1047619048 -0.00190476-0.001904762 5.07937E-05

y=7.7047+0.587428*x

procedimeintos 3analisis con excel

SSy x^2 389.40 0 Resumen 217.07 225 7.47 900 Estadísticas de la regresión 10.67 2025 Coeficiente d 0.99040606 264.60 3600 Coeficiente d 0.98090416

410.74 5625 R^2 ajustado 0.98022217 472.34 0 Error típico 2.17333876 314.47 225 Observacione 30 45.34 900 0.07 2025 ANÁLISIS DE VARIANZA 105.40 3600 Grados de libertadSuma de cuadrados 495.80 5625 Regresión 1 6793.61143 389.40 0 Residuos 28 132.255238 247.54 225 Total 29 6925.86667 22.40 900 5.14 2025 Coeficientes Error típico 176.00 3600 Intercepción 7.7047619 0.70344333 541.34 5625 x 0.58742857 0.01548931 429.87 0 188.60 225 32.87 900 27.74 2025 Análisis de los residuales 150.47 3600 588.87 5625 Observación Pronóstico y Residuos 350.94 0 1 7.7047619 2.2952381 137.67 225 2 16.5161905 -1.51619048 13.94 900 3 25.327619 1.67238095 18.20 2025 4 34.1390476 -1.13904762 233.07 3600 5 42.9504762 3.04952381 638.40 5625 6 51.7619048 -1.76190476

7 7.7047619 0.2952381 6,925.87 61875 8 16.5161905 -4.51619048

9 25.327619 -2.3276190510 34.1390476 -4.13904762

este valor nos indica que el temperatura ycompuesto químico estan 11 42.9504762 -2.95047619correlacionados , de forma directa 12 51.7619048 0.23809524

13 7.7047619 2.295238114 16.5161905 -2.51619048

este valor es cercano a uno, lo que indica que el 15 25.327619 -0.32761905temperatura y el compuesto quimico estan relacionados de manera dire 16 34.1390476 -2.13904762a medida que aumenta el DAP aumentara la altura 17 42.9504762 0.04952381

18 51.7619048 1.2380952419 7.7047619 1.2952381

0.98090416 20 16.5161905 -0.5161904821 25.327619 -1.3276190522 34.1390476 0.8609523823 42.9504762 -0.95047619

el valor de B1= 0.587 siginifica que para cada 24 51.7619048 2.23809524grado de temperatura adicional , la cantidad 25 7.7047619 3.2952381disuelta del compuesto quimico incrementa en 0.587 26 16.5161905 1.48380952

27 25.327619 0.67238095Bo, si el incremento dela temperatura es de cero 28 34.1390476 -0.13904762

grados, se estima que la cantidad de compuesto quimico disuelta prome 29 42.9504762 2.04952381promedio sera de 7.705 30 51.7619048 3.23809524

2.17

como tc > 2.048, entonces existe suficiente evidencia estadistica para afirmar que las temperaturas yel compuesto quimico

ŷ =7.7047 + 0.58741xi

(11-13.55)^2 156.251879.01-(135.5^2/10)= 19687.5

de que el el compuesto quimico aumentara con la temperatura

diferencia del valor x - el promedio de VI elevado al cuadrado

se obtiene del modelo de regresión

70.449/2.992

matriz transpuesta1 1 1 1 1 1 1

45 60 75 0 15 30 45

Promedio de los cuadrados F Valor crítico de F6793.61142857143 1438.28799 1.2928E-254.72340136054422

Estadístico t Probabilidad Inferior 95% Superior 95%Inferior 95.0%Superior 95.0%10.9529247595756 1.24348E-11 6.26382358 9.14570023 6.26382358 9.1457002337.9247674444162 1.2928E-25 0.55570015 0.61915699 0.55570015 0.61915699

Residuos estándares1.0747817950063

-0.7099803392738740.783119017440275

-0.5333771895549931.42798809444406

-0.8250399671210180.138249940436493-2.11477812112858-1.08994469169934

-1.9381749714097-1.381607469265360.111491887448788

1.0747817950063-1.17824626655878

-0.153412837129531-1.0016431168399

0.02319031258934880.5797578147336910.606515867721396

-0.241714411988971-0.6216787644144330.403154665014813

-0.4450756146955541.04802374201859

1.54304772229120.6948174425808350.314853090155372-0.06511126227009

0.9597221671591541.5162896693035

matriz transpuesta1 1 1 1 1 1 1 1

60 75 0 15 30 45 60 75

matriz transpuesta1 1 1 1 1 10 15 30 45 60 75

datos ALTURA(y) DAP(x) ssx ssy1 17.4 15.6 0.75 2.05 1.53752 18.4 14.8 1.75 1.25 2.18753 16.5 15.5 -0.15 1.95 -0.29254 15.2 12.5 -1.45 -1.05 1.52255 19.9 14.2 3.25 0.65 2.11256 22.1 15.7 5.45 2.15 11.71757 14.8 12.3 -1.85 -1.25 2.31258 17.3 14.2 0.65 0.65 0.42259 10.3 8.8 -6.35 -4.75 30.1625

10 14.6 11.9 -2.05 -1.65 3.3825SUMA 166.5 135.5promedio 16.65 13.55

ALTURA(y) DAP(x)17.4 15.618.4 14.816.5 15.515.2 12.519.9 14.222.1 15.714.8 12.317.3 14.210.3 8.814.6 11.9

(x-ẋ) (y-ẏ) (x-ẋ)(y-ẏ)

G1

Javi: suma de cuadrados muestrales de x (x-X)^2

H1

Javi: suma cuadrados muestrales de y

x^2

Download - Regresion Linea