4.1 Terminología de la regresión.
Regresión lineal simple.
El termino “regresión” fue acuñado por Sir Francis Galton (1822 – 1911), primo de Charles Darwin.
Galton estudiaba la eugénica, término también introducido por sí mismo para definir el estudio de
la mejora de la raza humana a partir de las características hereditarias.
Galton estudio la altura de los hijos con relación a la altura de sus padres, y probó que la altura de
hijos altos “regresaba” hacia la media de la altura de la población a lo largo de sucesivas
generaciones. En otras palabras, hijos de padres muy bajos tendían a ser en promedio más altos
que sus padres. En la actualidad, el término de regresión se utiliza siempre que se busca predecir
una variable en función de otra, y no implica que se esté estudiando si se está produciendo una
regresión a la media. Anteriormente a Galton se debe mencionar a Legendre (1752 – 1833), quien
introdujo el método de los mínimos cuadrados utilizándolos para definir la longitud de 1 metro
como una diez millonésima parte del arco meridional. Con posterioridad a Galton, las propiedades
de las técnicas de regresión fueron estudiadas por Edgeworth, Pearson y Yule.
La técnica de regresión lineal simple está indicada cuando se pretende explicar una variable
respuesta cuantitativa en función de una variable explicativa cuantitativa también llamada variable
independiente, variable regresora o variable predictora. Por ejemplo, se podría intentar explicar el
peso en función de la altura. El modelo intentaría aproximar la variable respuesta mediante una
función lineal de la variable explicativa.
Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:
1. El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la
variable explicada, y esta relación es lineal). Es decir se asume que:
, siendo el termino independiente (constante o
“intercept”), el coeficiente b de regresión de la variable explicativa (pendiente o
“slope”) y es una variable aleatoria que se llama error residual.
2. La variable explicativa se ha medido sin error.
3. El valor esperado de del modelo es cero.
4. La varianza de (y por lo tanto de la variable respuesta) es constante.
5. Los son independientes entre si.
6. Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o sobre el
modelo, también es necesario que la distribución de sea normal.
Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediantes el estudio de
los residuos (valores observados – valores predichos): normalidad, tendencias, etc. Cuando no se
cumplen los criterios de aplicación es necesario realizar transformaciones a las variables, o bien
para obtener una relación lineal o bien para homogeneizar la varianza.
Regresión lineal simple. Tiene como objeto estudiar como los cambios en una variable aleatoria,
en el caso de existir una relación funcional entre ambas variables que puede ser establecida por
una expresión lineal, es decir, su representación gráfica es una línea recta. Cuando la relación
lineal concierne el valor medio o esperado de la variable aleatoria, estamos ante un modelo de
regresión lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx
y, según lo establecido, se tendrá:
( ) Donde a y son los coeficientes de regresión.
De manera equivalente, otra formulación del modelo de regresión lineal simple seria: si Xi es un
valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces:
( ) es el error o desviación aleatoria de
Definición valor medio. Constante que representa el centro de gravedad de la ley de probabilidad
de una variable aleatoria y que, en casos de notable simetría en la función de densidad, puede
interpretarse que dicha constante nos señala la zona donde se sitúan los valores de máxima
probabilidad de la variable aleatoria.
El valor medio o valor esperado de una variable aleatoria X se define como:
Siempre que dicho valor exista, donde f es la función de densidad de la variable.
Regresión lineal simple.
Método estadístico que estudia la relación lineal entre dos variables.
¿Existe una relación lineal entre las variables?
¿Cuán fuerte es esta relación lineal entre las variables?
¿Qué predicciones se pueden hacer basados en esta relación lineal entre las variables?
Relación lineal.
:
Pendiente de la línea.
Por cada unidad que aumenta la , la cambia unidades.
:
Intercepto en .
Valor de cuando .
Modelo
– variable independiente (imput).
– variable dependiente (output o respuesta).
– error relativo.
– intercepto en Y.
– pendiente.
4.2 Estimación de Parámetros.
Suposiciones.
Los errores aleatorios ( ).
Son independientes.
Tiene una media igual a 0.
Tienen la misma varianza .
Tienen una distribución Normal (requerido para la prueba F).
Por los tanto, para cada valor de X, existe una población de Y’s.
Independientes unas de otras.
Con una distribución Normal con media ⁄ ( ) .
Una misma varianza .
Estimación de regresión estimada.
Intercepto en Y ( ).
Pendiente ( ).
Valor estimado de Y
Valor observado en Y.
Residuo ( ) (o error).
Método de mínimo cuadrados.
Es un procedimiento para obtener la ecuación de la línea que mejor se ajusta a los datos de la
muestra. Para obtener la ecuación de la línea hay que determinar y .
La línea de mejor ajuste es aquella que minimiza la suma e cuadrados de los residuos (distancia
entre el valor observado, , y el valor estimado, .
∑( ) ∑
Los valores de y obtenidos mediante este método son:
∑ (∑ )(∑ )
∑ (∑ )
Ejemplo:
¿Existe alguna relación entre los gastos de una familia y sus ingresos? Para estudiar esta relación
se escogieron 10 familias y se obtuvo sus gastos anuales (en miles) y sus ingresos anuales (en
miles).
( )( )
( )
( )
Ingresos (en miles)
Gastos (en miles)
$30 $40
35 44
28 36
42 56
32 41
50 63
45 55
36 48
48 58
40 50
4.3 Prueba de hipótesis en la
regresión lineal simple.
Prueba de hipótesis.
¿Es estadísticamente significativa la relación lineal obtenida? ¿Hay realmente una relación lineal
entre las dos variables?
Si entonces ( ) (una constante) y no dependería de X, o sea, no habría relación
entre X y Y.
Para llevar a cabo la prueba de hipótesis utilizamos la tabla de ANOVA.
Tenemos tres fuentes de variación:
ANOVA
Fuente de Variación.
gl SS MS F F(critica o P – valué.
Regresión. Error.
1 n – 2.
(SSR)
(SSE)
(MSR)
( )
(MSE)
(de la tabla De F con 1, n – 2 grados de libertad y nivel de significancia
)
TOTAL n – 1. ∑
(∑ )
(SST)
Ejemplo (seguimos con el ejemplo anterior)
( )( )
( ) ⁄
ANOVA
Fuente. gl SS MS F F (crit) Regresión. 1 680.88 680.88 247.40 5.32 Error. 8 22.02 275 Total. 9 702.90
Como F > F (critica) se rechaza . La relación entre los ingresos y los gastos es significativa a un
nivel de significancia de .05.