este es un ejemplo que les servira de guia .exitos
solucion modelos de regresion.Lic. Larios Ramirez Oscar
datos DAP(X) ALTURA(Y) ssx ssy x^21 15.6 17.4 2.05 0.75 1.5375 4.2025 0.5625 243.362 14.8 18.4 1.25 1.75 2.1875 1.5625 3.0625 219.043 15.5 16.5 1.95 -0.15 -0.2925 3.8025 0.0225 240.254 12.5 15.2 -1.05 -1.45 1.5225 1.1025 2.1025 156.255 14.2 19.9 0.65 3.25 2.1125 0.4225 10.5625 201.646 15.7 22.1 2.15 5.45 11.7175 4.6225 29.7025 246.497 12.3 14.8 -1.25 -1.85 2.3125 1.5625 3.4225 151.298 14.2 17.3 0.65 0.65 0.4225 0.4225 0.4225 201.649 8.8 10.3 -4.75 -6.35 30.1625 22.5625 40.3225 77.44
10 11.9 14.6 -1.65 -2.05 3.3825 2.7225 4.2025 141.61SUMA 135.5 166.5 -7.105E-15 1.243E-14 55.065 42.985 94.385 1879.01PROM. 13.55 16.65n 10
1º cálculo de la covarianza interpretacioncovarianza 6.118 este valor nos indica que el DAP y la altura estan
n-1 correlacionados , de forma directaa medida que aumenta el DAP aumenta la altura
2º calculo del cofeciente de correlación de Pearson"r" se encuantra entre -1 y 1-1<r<1
interpretacionr= 0.8645013741689 este valor es cercano a uno, lo que indica que el
DAP y la altura estan relacionados de manera directaa medida que aumenta el DAP aumentara la altura
3º Ajuste de la recta de regresion
el modelo esta dado por: y=b0 + b1xel modelo estimado será: ŷ = B0 + B1 x
calculo de los parametros por metodo de minimos cuadradosB1= ∑(x-ẋ)(y-ẏ) 1.281 interpretación:
ssx el valor de B1= 1.281 siginifica que para cadacentimetro adicional de DAP, la altura del
B0= ẏ - B1*ẋ - 0.708 arbol se incrementara en 1.28
Bo, si el incremento del DAPes de ceroŷ =-0.708 + 1.281xi centimetros, se estima que la altura prome-
dio del arbol sera de -0.708en este caso no tiene sentido
este modelo de regresion nos puede servir para predecir, suponga que tiene un arbolun DAP = 11 cm, entonces se estima que 13.46 mt.
(x-ẋ) (y-ẏ) (x-ẋ)(y-ẏ)
∑(x-ẋ)(y-ẏ)
∑(x-ẋ)(y-ẏ)
√ssx*ssy
suma de cuadrados muestrales de y
suma de cuadrados muestrales de x
(x-ẋ)^2
V.I menos su promedio(x-ẋ)
Ademas se tiene el porcentaje de la variabilidad total que explica el modelo es de r^2= 0.865^2= 0.748: aproximadamente el75% de la variabilidad de la altura de los árbolesesta explicada por la variabilidad en la longitud en cm del DAP. Y el otro 25% se debe a factores no controlados
datos DAP(X) ALTURA(Y) (y-ŷ) (y-ŷ)^21 15.6 17.4 19.38 - 1.98 3.9394 2 14.8 18.4 18.35 0.05 0.00207943 15.5 16.5 19.26 - 2.76 7.5955364 12.5 15.2 15.39 - 0.19 0.0368645 14.2 19.9 17.58 2.32 5.37497866 15.7 22.1 19.51 2.59 6.6894657 12.3 14.8 15.13 - 0.33 0.11182348 14.2 17.3 17.58 - 0.28 0.07929869 8.8 10.3 10.63 - 0.33 0.106537
10 11.9 14.6 14.62 - 0.02 0.0003686- 0.94 23.936
suma de los errores e ^2= 23.94
varianza residual= 23.936 error estándar residual = 1.73 una vez que tenemos el modelo de regresion lineal, procedemos a realizar las pruebas de hipotesis1. prueba de hipotesis para probar si la correlacion es significativa a) planteamos las hipotesis b) determinar nivel de significancia
Ho ῤ = 0 α= 0.05H1 ῤ ≠ 0
Ho El DAP y la altura de los arboles no estan correlacionadasH1 El DAP y la altura de los arboles estan psitivamente correlacionadas
c) Determinar el estadistico de prueba
d) determinar la region de rechazo calculo en excel2.306 2.306 DISTR.T.INV(0.05;8)
zona de rechazo zona de rechazo
-2.306 2.306
e) cálculo del estadistico de prueba
tc = 4.8647651826
f) conclusioncomo tc > 2.306, entonces existe suficiente evidencia estadistica para afirmar que el DAP y la Alturaestan siginificativamenet correlacionadas.
CALCULO DE LOS INTERVALOS DE CONFIANZA Y DE PREDICCION
ŷ =-0.708 + 1.2881xi
sse=∑(y-ŷ)^2
tc= (r √n-2)/√(1-r^2) como la muestra es menor que 30 se utilizara la distribucion t (1-α/2, n-2) gl
t(0.975, 8)
modelo lineal de pronostico
Valor real - Valor pronosticado
r = coeficiente correlación
Consiste en establecer dos puntos para el estimador , dentro del cual debe estar contenido elparametro o valor estadistico de la poblacion con cierto grado de confianza o de seguridad a) en el primer caso cuando la variable independiente (x) toma un valor que debe estar dentro del recorrido de la variable poblacional , y se desea estimar la variable dependiente ( y), la formula es la siguiente:
suponiendo que se quieren establecer los limtes de confianza al 95%, cuando el la variable DAP (en centimetros) toma un valor de 11xi 11ŷ = 13.4611t(n-2, 0.975) 2.306 ŷ =-0.708 + 1.2881xin 10
1879.01 li∑xi= 135.5 ls
6.50 e-estándar € 1.73
con los siguientes datos calculamos el intervalo de predicción(11-13.55)^2= 6.5025
1879.01-(135.5^2/10)= 42.985
Li= 9.00 Ls= 17.92
contraste de hipotesis para B0 y B1contraste para B1para estos estudios podemos estar interesados en demostrar si realmente existe una relacion entre las variables X e Y. para resolver esta cuestion tendremos que plantearnos un contraste de hipotesisa)Ho B1=0 no existe relacion entre las variablesH1 existe una relacion creciente o decreciente
b) estadistico de contrastetc = b1/SE(b1)donde: b1= B1= 1.2881
SE(b1)= 0.263831
una vez calculados estos valores se contrastara la hipotesis
c) nivel de significanciaα=0.05d) determinar region de rechazo
zona de rechazo zona de rechazo
∑(x-ẋ)^2
B1≠ 0
raiz cuadrada de la varianza residual
reemplazar x=11 en el modelo de regresión modelo de regresión
valor en la tabla T
VI. elevada al cuadrado
diferencia del valor x - el promedio de VI elevado al cuadrado
se obtiene del modelo de regresión
-2.306 2.306
e) calculo del estaditico de prueba:
tc = b1/SE(b1) 4.88 se rechaza la Ho, existe evidencia estadisticade que el tamaño del arbol aumenta en sulongitud
TABLA ANOVA EN REGRESION
hipotesisH0 el DAP de los arboles explica una parte la altura de los arbolesH1
suma de cuadrados grado libert MS F p-valorregresion SS(regres) 70.449 1 70.45 23.55 0.00127suma errores SS(resid) 23.936 n-2=8 2.992
TOTAL SSx 42.985 n-1=9
SS(regres)= SSy-SS(resid) 94.385-23.936= 70.449
70.449/1
23.936/8
70.449/2.992
137.37
0.864501374168923
Resumen
Estadísticas de la regresiónCoeficiente de correlación múltiple 0.86450137Coeficiente de determinación R^2 0.74736263R^2 ajustado 0.71578295Error típico 1.72645513Observaciones 10
ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadradosF Valor crítico de F
suma de cuadrados muestrales de y
Regresión 1 70.5398214 70.5398214 23.6659403 0.00124823Residuos 8 23.8451786 2.98064732Total 9 94.385
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción -0.707933 3.6096191 -0.19612402 0.8494034 -9.03172956 7.61586356DAP(X) 1.28102827 0.26332787 4.86476518 0.00124823 0.6737931 1.88826343
Análisis de los residuales
Observación Pronóstico ALTURA(Y)ResiduosResiduos estándares1 19.2761079 -1.87610794 -1.152600462 18.2512853 0.14871467 0.091363933 19.1480051 -2.64800512 -1.626821064 15.3049203 -0.10492032 -0.064458565 17.4826684 2.41733163 1.485105136 19.4042108 2.69578923 1.656177577 15.0487147 -0.24871467 -0.152799658 17.4826684 -0.18266837 -0.112223639 10.5651157 -0.26511574 -0.16287577
10 14.5363034 0.06369664 0.03913249
modelo de regresión
agro2012
Inferior 95.0%Superior 95.0%
-9.03172956 7.615863560.6737931 1.88826343
problema 13. las cantidades de un compuesto quimico Y y que se disuelve en 100gr de agua adiferentes temperaturas (X). Los datos se registraron:
solucion: alli tienen tres formas de solucion
procedimiento 1.y x desarrollo matricial
10 1 0 matriz transpuesta15 1 15 1 127 1 30 0 1533 1 4546 1 60 X'*X = 30 112550 1 75 1125 61875
8 1 012 1 15 X'*Y = 89223 1 30 4501530 1 4540 1 60 (X'*Y)*(X'*X) -1= 7.7047619047652 1 75 0.5874285714310 1 014 1 15 Bo 7.7047619047625 1 30 B1 0.5874285714332 1 45 modelo de regry=7.7047+0.587428*x43 1 6053 1 75
9 1 016 1 1524 1 3035 1 4542 1 6054 1 7511 1 018 1 1526 1 3034 1 4545 1 6055 1 75
1566.077+7.621*x1+8.584*x2procedimiento 2
x y (x- x [) (y- y [) (x- x [)(y- y [) SSx0 10 - 37.50 - 19.73 740.00 1,406.25
15 15 - 22.50 - 14.73 331.50 506.25 30 27 - 7.50 - 2.73 20.50 56.25 45 33 7.50 3.27 24.50 56.25 60 46 22.50 16.27 366.00 506.25
75 50 37.50 20.27 760.00 1,406.25 0 8 - 37.50 - 21.73 815.00 1,406.25
15 12 - 22.50 - 17.73 399.00 506.25 30 23 - 7.50 - 6.73 50.50 56.25 45 30 7.50 0.27 2.00 56.25 60 40 22.50 10.27 231.00 506.25 75 52 37.50 22.27 835.00 1,406.25
0 10 - 37.50 - 19.73 740.00 1,406.25 15 14 - 22.50 - 15.73 354.00 506.25 30 25 - 7.50 - 4.73 35.50 56.25 45 32 7.50 2.27 17.00 56.25 60 43 22.50 13.27 298.50 506.25 75 53 37.50 23.27 872.50 1,406.25
0 9 - 37.50 - 20.73 777.50 1,406.25 15 16 - 22.50 - 13.73 309.00 506.25 30 24 - 7.50 - 5.73 43.00 56.25 45 35 7.50 5.27 39.50 56.25 60 42 22.50 12.27 276.00 506.25 75 54 37.50 24.27 910.00 1,406.25
0 11 - 37.50 - 18.73 702.50 1,406.25 15 18 - 22.50 - 11.73 264.00 506.25 30 26 - 7.50 - 3.73 28.00 56.25 45 34 7.50 4.27 32.00 56.25 60 45 22.50 15.27 343.50 506.25 75 55 37.50 25.27 947.50 1,406.25
promedio 37.5 29.7333333333sumas 1125 892 0 0 11565 19687.5n 30
cov= covarianza 398.793 interpretacionn-1 este valor nos indica que el temperatura ycompuesto químico estan
correlacionados , de forma directa
r= 0.99040606 interpretacion
este valor es cercano a uno, lo que indica que eltemperatura y el compuesto quimico estan relacionados de manera dire
3º Ajuste de la recta de regresion a medida que aumenta el DAP aumentara la altura
el modelo esta dado por: y=b0 + b1xel modelo estimado será: ŷ = B0 + B1 x
calculo de los parametros por metodo de minimos cuadradosB1= ∑(x-ẋ)(y-ẏ) 0.587 interpretación:
ssx el valor de B1= 0.587 siginifica que para cadagrado de temperatura adicional , la cantidaddisuelta del compuesto quimico incrementa en 0.587
B0= ẏ - B1*ẋ 7.705 Bo, si el incremento dela temperatura es de cero
∑(x-ẋ)(y-ẏ)
∑(x-ẋ)(y-ẏ)
√ssx*ssy
grados, se estima que la cantidad de compuesto quimico disuelta promepromedio sera de 7.705
r^2= 0.9904^2= 0.9809: aproximadamente el 98% de la variabilidad del compuesto quimicoesta explicada por la variabilidad enen la temperatura. Y el otro 2% se debe a factores no controlados
modelo de regresion y=7.7047+0.587428*x
y y-estimado e=(y-ŷ) (y-ŷ)^210 7.70 2.30 5.27 15 16.52 - 1.52 2.30 27 25.33 1.67 2.80 33 34.14 - 1.14 1.30 46 42.95 3.05 9.30 50 51.76 - 1.76 3.10
8 7.70 0.30 0.09 12 16.52 - 4.52 20.40 23 25.33 - 2.33 5.42 30 34.14 - 4.14 17.13 40 42.95 - 2.95 8.71 52 51.76 0.24 0.06 10 7.70 2.30 5.27 14 16.52 - 2.52 6.33 25 25.33 - 0.33 0.11 32 34.14 - 2.14 4.58 43 42.95 0.05 0.00 53 51.76 1.24 1.53
9 7.70 1.30 1.68 16 16.52 - 0.52 0.27 24 25.33 - 1.33 1.76 35 34.14 0.86 0.74 42 42.95 - 0.95 0.90 54 51.76 2.24 5.01 11 7.70 3.30 10.86 18 16.52 1.48 2.20 26 25.33 0.67 0.45 34 34.14 - 0.14 0.02 45 42.95 2.05 4.20 55 51.76 3.24 10.49
132.26
suma de los errores e ^2= 132.26
varianza residual= 23.845 error estándar residual =
una vez que tenemos el modelo de regresion lineal, procedemos a realizar las pruebas de hipotesis1. prueba de hipotesis para probar si la correlacion es significativa a) planteamos las hipotesis b) determinar nivel de significancia
sse=∑(y-ŷ)^2
Ho ῤ = 0 α= 0.05H1 ῤ ≠ 0
Ho El DAP y la altura de los arboles no estan correlacionadasH1 El DAP y la altura de los arboles estan psitivamente correlacionadas
c) Determinar el estadistico de prueba
d) determinar la region de rechazo calculo en excel2.048 2.048 DISTR.T.INV(0.05;28)
zona de rechazo zona de rechazo
-2.048 2.048
e) cálculo del estadistico de prueba
tc = 37.924767444
f) conclusioncomo tc > 2.048, entonces existe suficiente evidencia estadistica para afirmar que las temperaturas yel compuesto quimicoestan siginificativamenet correlacionadas.
CALCULO DE LOS INTERVALOS DE CONFIANZA Y DE PREDICCIONConsiste en establecer dos puntos para el estimador , dentro del cual debe estar contenido elparametro o valor estadistico de la poblacion con cierto grado de confianza o de seguridad a) en el primer caso cuando la variable independiente (x) toma un valor que debe estar dentro del recorrido de la variable poblacional , y se desea estimar la variable dependiente ( y), la formula es la siguiente:
suponiendo que se quieren establecer los limtes de confianza al 95%, cuando el la variable DAP (en centimetros) toma un valor de 11xi 50ŷ = 37.08 t(n-2, 0.975) 2.048 ŷ =7.7047 + 0.58741xin 30
61875 li
tc= (r √n-2)/√(1-r^2) como la muestra es menor que 30 se utilizara la distribucion t (1-α/2, n-2) gl
t(0.975, 28)
r = coeficiente correlación
raiz cuadrada de la varianza residual
reemplazar x=50 en el modelo de regresión
valor en la tabla T
VI. elevada al cuadrado
∑xi= 1125 ls 19,687.50
e-estándar € 2.17
con los siguientes datos calculamos el intervalo de predicción
1879.01-(135.5^2/10)=
Li= 32.39 Ls= 41.76
contraste de hipotesis para B0 y B1contraste para B1para estos estudios podemos estar interesados en demostrar si realmente existe una relacion entre las variables X e Y. para resolver esta cuestion tendremos que plantearnos un contraste de hipotesisa)Ho B1=0 no existe relacion entre las variablesH1 existe una relacion creciente o decreciente
b) estadistico de contrastetc = b1/SE(b1)donde: b1= B1= 0.587
SE(b1)= 0.0154893124
una vez calculados estos valores se contrastara la hipotesis
c) nivel de significanciaα=0.05d) determinar region de rechazo
zona de rechazo zona de rechazo
-2.048 2.048
e) calculo del estaditico de prueba:
tc = b1/SE(b1) 37.92 se rechaza la Ho, existe evidencia estadisticade que el el compuesto quimico aumentara con la temperatura
TABLA ANOVA EN REGRESION
hipotesisH0 el DAP de los arboles explica una parte la altura de los arboles
∑(x-ẋ)^2
B1≠ 0
VI. elevada al cuadrado
diferencia del valor x - el promedio de VI elevado al cuadrado
se obtiene del modelo de regresión
H1
suma de cuadrados grado libertad MS F p-valorregresion SS(regres) 6,793.611 1 6,793.61 1,438.29 0.000000 suma erroresSS(resid) 132.255 n-2=28 4.723
TOTAL SSx 6,925.867 n-1=29
SS(regres)= SSy-SS(resid) 6,793.611
70.449/1
23.936/8
70.449/2.992
procedimiento 1.desarrollo matricial
matriz transpuesta1 1 1 1 1 1 1
30 45 60 75 0 15 30
(X'*X) -1= 0.1047619048 -0.00190476-0.001904762 5.07937E-05
y=7.7047+0.587428*x
procedimeintos 3analisis con excel
SSy x^2 389.40 0 Resumen 217.07 225 7.47 900 Estadísticas de la regresión 10.67 2025 Coeficiente d 0.99040606 264.60 3600 Coeficiente d 0.98090416
410.74 5625 R^2 ajustado 0.98022217 472.34 0 Error típico 2.17333876 314.47 225 Observacione 30 45.34 900 0.07 2025 ANÁLISIS DE VARIANZA 105.40 3600 Grados de libertadSuma de cuadrados 495.80 5625 Regresión 1 6793.61143 389.40 0 Residuos 28 132.255238 247.54 225 Total 29 6925.86667 22.40 900 5.14 2025 Coeficientes Error típico 176.00 3600 Intercepción 7.7047619 0.70344333 541.34 5625 x 0.58742857 0.01548931 429.87 0 188.60 225 32.87 900 27.74 2025 Análisis de los residuales 150.47 3600 588.87 5625 Observación Pronóstico y Residuos 350.94 0 1 7.7047619 2.2952381 137.67 225 2 16.5161905 -1.51619048 13.94 900 3 25.327619 1.67238095 18.20 2025 4 34.1390476 -1.13904762 233.07 3600 5 42.9504762 3.04952381 638.40 5625 6 51.7619048 -1.76190476
7 7.7047619 0.2952381 6,925.87 61875 8 16.5161905 -4.51619048
9 25.327619 -2.3276190510 34.1390476 -4.13904762
este valor nos indica que el temperatura ycompuesto químico estan 11 42.9504762 -2.95047619correlacionados , de forma directa 12 51.7619048 0.23809524
13 7.7047619 2.295238114 16.5161905 -2.51619048
este valor es cercano a uno, lo que indica que el 15 25.327619 -0.32761905temperatura y el compuesto quimico estan relacionados de manera dire 16 34.1390476 -2.13904762a medida que aumenta el DAP aumentara la altura 17 42.9504762 0.04952381
18 51.7619048 1.2380952419 7.7047619 1.2952381
0.98090416 20 16.5161905 -0.5161904821 25.327619 -1.3276190522 34.1390476 0.8609523823 42.9504762 -0.95047619
el valor de B1= 0.587 siginifica que para cada 24 51.7619048 2.23809524grado de temperatura adicional , la cantidad 25 7.7047619 3.2952381disuelta del compuesto quimico incrementa en 0.587 26 16.5161905 1.48380952
27 25.327619 0.67238095Bo, si el incremento dela temperatura es de cero 28 34.1390476 -0.13904762
grados, se estima que la cantidad de compuesto quimico disuelta prome 29 42.9504762 2.04952381promedio sera de 7.705 30 51.7619048 3.23809524
2.17
como tc > 2.048, entonces existe suficiente evidencia estadistica para afirmar que las temperaturas yel compuesto quimico
ŷ =7.7047 + 0.58741xi
(11-13.55)^2 156.251879.01-(135.5^2/10)= 19687.5
de que el el compuesto quimico aumentara con la temperatura
diferencia del valor x - el promedio de VI elevado al cuadrado
se obtiene del modelo de regresión
70.449/2.992
matriz transpuesta1 1 1 1 1 1 1
45 60 75 0 15 30 45
Promedio de los cuadrados F Valor crítico de F6793.61142857143 1438.28799 1.2928E-254.72340136054422
Estadístico t Probabilidad Inferior 95% Superior 95%Inferior 95.0%Superior 95.0%10.9529247595756 1.24348E-11 6.26382358 9.14570023 6.26382358 9.1457002337.9247674444162 1.2928E-25 0.55570015 0.61915699 0.55570015 0.61915699
Residuos estándares1.0747817950063
-0.7099803392738740.783119017440275
-0.5333771895549931.42798809444406
-0.8250399671210180.138249940436493-2.11477812112858-1.08994469169934
-1.9381749714097-1.381607469265360.111491887448788
1.0747817950063-1.17824626655878
-0.153412837129531-1.0016431168399
0.02319031258934880.5797578147336910.606515867721396
-0.241714411988971-0.6216787644144330.403154665014813
-0.4450756146955541.04802374201859
1.54304772229120.6948174425808350.314853090155372-0.06511126227009
0.9597221671591541.5162896693035
matriz transpuesta1 1 1 1 1 1 1 1
60 75 0 15 30 45 60 75
matriz transpuesta1 1 1 1 1 10 15 30 45 60 75
datos ALTURA(y) DAP(x) ssx ssy1 17.4 15.6 0.75 2.05 1.53752 18.4 14.8 1.75 1.25 2.18753 16.5 15.5 -0.15 1.95 -0.29254 15.2 12.5 -1.45 -1.05 1.52255 19.9 14.2 3.25 0.65 2.11256 22.1 15.7 5.45 2.15 11.71757 14.8 12.3 -1.85 -1.25 2.31258 17.3 14.2 0.65 0.65 0.42259 10.3 8.8 -6.35 -4.75 30.1625
10 14.6 11.9 -2.05 -1.65 3.3825SUMA 166.5 135.5promedio 16.65 13.55
ALTURA(y) DAP(x)17.4 15.618.4 14.816.5 15.515.2 12.519.9 14.222.1 15.714.8 12.317.3 14.210.3 8.814.6 11.9
(x-ẋ) (y-ẏ) (x-ẋ)(y-ẏ)
x^2