Date post: | 11-Jul-2015 |
Category: |
Documents |
Upload: | acs-nightmares |
View: | 73 times |
Download: | 4 times |
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 1/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
TEMA 4:TEMA 4:
MODELO DE REGRESIMODELO DE REGRESIÓÓN LINEAL MN LINEAL MÚÚLTIPLELTIPLE
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
REGRESIREGRESI ÓÓN MN MÚÚLTIPLELTIPLE
Cuando la respuesta depende de varias variables explicativas
cuantitativascuantitativas
La regresión múltiple es mejor que la simple porque semejora la prediccimejora la prediccióónn de la variable respuesta
Cuando la respuesta depende de más de una variable, la
regresión simple las considera una a una y se pueden
producir fácilmente sesgos en la estimación de los efectos
que tienen cada una de ellas en la respuesta
Las ideas de la regresión simple se extienden casi
automáticamente a la regresión múltiple
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 2/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
ModeloModelo
ikiki22i110i uxxxy +β++β+β+β= L
Requisitos adicionales de la regresiRequisitos adicionales de la regresióón mn múúltipleltiple
Hay al menos tantos datos como parHay al menos tantos datos como paráámetros desconocidosmetros desconocidos
“ “ n es igual o mayor que k+2n es igual o mayor que k+2” ”
Ninguna de las variables explicativas es combinaciNinguna de las variables explicativas es combinacióón linealn lineal
exacta de las restantesexacta de las restantes ((colinearidadcolinearidad))
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
InterpretaciInterpretacióón de los parn de los paráámetros:metros:
Representa el valor medio de la respuesta (y) cuandotodas las variable explicativas (x) valen cero
Representa el incremento de la respuesta media (y)cuando la variable explicativa (xi) aumenta en unaunidad y e l res to d e las va r iab les exp l i cat i v as pe rmanecen cons tan tes
ikiki22i110i uxxxy +β++β+β+β= L
0β
iβk,...,1i =
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 3/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
La nube de puntos estLa nube de puntos estáá enenun espacio de dimensiun espacio de dimensióónnk+1, que es dif k+1, que es dif í í cil de vercil de vercuando k es mayor que 2cuando k es mayor que 2
Los datosLos datos
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
+
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
nk knnn
k
k
n u
u
u
x x x
x x x
x x x
y
y
y
MM
L
MOMMM
L
L
M
2
1
1
0
21
22212
12111
2
1
1
1
1
β
β
β
)I,0(NU
UXβY2σ→
+=
NotaciNotacióón matricialn matricial
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
EstimaciEstimacióón de los parn de los paráámetrosmetros
Los cLos cáálculos son complicadoslculos son complicados
y los hacen los ordenadoresy los hacen los ordenadores
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 4/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Coeficientesa
71,578 1,183 60,525 ,000
-,108 ,005 -,716 -21,539 ,000
-4,227 ,417 -,337 -10,131 ,000
(Constante)
fluorocitosina
radiacion
Modelo1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig.
Variable dependiente: supervivenciaa.
EstimaciEstimacióón de losn de loscoeficientescoeficientes
Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )
En cada cultivo se prueba a administrar diferentes concentracionesde fluorocitosina (5FC) y distintos niveles de radiación
Se miden los porcentajes de supervivencia de las líneas celularesde cáncer, siendo el tratamiento más efectivo el que da unporcentaje menor
adiaciónr 227,4sinafluorocito108,0578,71y −−=
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Intervalos de confianza de los coeficientesIntervalos de confianza de los coeficientes
Error típico
LosLos qqii+1,i+1+1,i+1 estestáán en lan en ladiagonal principal de ladiagonal principal de la
matrizmatriz ((XX’ ’ XX))--11
k,...,1i =
Los cLos cáálculos son complicadoslculos son complicadosy los hacen los ordenadoresy los hacen los ordenadores
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 5/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Coeficientesa
71,578 1,183 60,525 ,000
-,108 ,005 -,716 -21,539 ,000
-4,227 ,417 -,337 -10,131 ,000
(Constante)
fluorocitosina
radiacion
Modelo1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig.
Variable dependiente: supervivenciaa.
Errores tErrores tí í picospicos
Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )
En cada cultivo se prueba a administrar diferentes concentracionesde fluorocitosina (5FC) y distintos niveles de radiación
Se miden los porcentajes de supervivencia de las líneas celularesde cáncer, siendo el tratamiento más efectivo el que da unporcentaje menor
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Rechazaremos HRechazaremos H00, al nivel de significaci, al nivel de significacióónn αα, si el cero, si el cerono estno estáá en el intervalo de confianza paraen el intervalo de confianza para ββii
Para no tener que fijarPara no tener que fijar αα, miramos el p, miramos el p--valor de unvalor de uncontraste de lacontraste de la tt para cada parpara cada paráámetrometro ββii
Contrastes de los coeficientesContrastes de los coeficientes
)iXdeelinealmentdependerespuesta(la
)iXdeelinealmentdependenorespuesta(la
0:H
0:H
i1
i0
≠β
=β
Los cLos c
áá
lculos son complicadoslculos son complicados
y los hacen los ordenadoresy los hacen los ordenadores
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 6/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Coeficientesa
71,578 1,183 60,525 ,000
-,108 ,005 -,716 -21,539 ,000
-4,227 ,417 -,337 -10,131 ,000
(Constante)
fluorocitosina
radiacion
Modelo1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig.
Variable dependiente: supervivenciaa.
p p --valoresvalores
Influyen tanto la concentraciInfluyen tanto la concentracióón den de fluorocitosinafluorocitosina como lacomo laradiaciradiacióón. La supervivencia de las cn. La supervivencia de las céélulas cancerlulas cancerí í genasgenasdisminuye al aumentar ladisminuye al aumentar la fluorocitosinafluorocitosina y la radiaciy la radiacióónn
Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )
En cada cultivo se prueba a administrar diferentes concentracionesde fluorocitosina (5FC) y distintos niveles de radiación
Se miden los porcentajes de supervivencia de las líneas celularesde cáncer, siendo el tratamiento más efectivo el que da unporcentaje menor
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Contraste de la regresiContraste de la regresióónn
El modelo de regresión lineal NONO sirve para explicar la respuesta
El modelo de regresión lineal SISI sirve para explicar la respuesta
Tabla ANOVATabla ANOVA
Rechazaremos H0 , al nivel α, si : Los cLos cáálculos sonlculos soncomplicados y loscomplicados y loshacen los ordenadoreshacen los ordenadores
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 7/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Coeficientesa
71,578 1,183 60,525 ,000
-,108 ,005 -,716 -21,539 ,000
-4,227 ,417 -,337 -10,131 ,000
(Constante)
fluorocitosina
radiacion
Modelo
1
B Error típ.
Coeficientes no
estandarizadosBeta
Coeficientes
estandarizad
ost Sig.
Variable dependiente: supervivenciaa.
Hay evidencia estadHay evidencia estad í í stica de que el modelo sirve parastica de que el modelo sirve paraexplicar la respuesta, al menos alguna variable influyeexplicar la respuesta, al menos alguna variable influye
Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )
Las dosLas dosinfluyeninfluyen
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Casos posiblesCasos posibles
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 8/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Coeficiente de determinaciCoeficiente de determinacióónn –– RR22
¿Cómo evaluamos la fuerza del ajuste de un modelo deregresión?
ElEl COEFICIENTE DE DETERMINACICOEFICIENTE DE DETERMINACIÓÓNN es la proporcies la proporcióón den devariabilidad explicada por la regresivariabilidad explicada por la regresióónn
RR22 = SCE / SCT= SCE / SCT
INCONVENIENTE DE RINCONVENIENTE DE R22:: Siempre aumenta cuandoSiempre aumenta cuandointroducimos nuevas variables, aunque no sirvanintroducimos nuevas variables, aunque no sirvanpara explicar la respuestapara explicar la respuesta
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Coeficiente de determinaciCoeficiente de determinacióón CORREGIDO Rn CORREGIDO R22
Se corrige R2 por los grados de libertad
Lo usaremosLo usaremos úúnicamente para comparar modelosnicamente para comparar modeloscon distinto ncon distinto núúmero de variablesmero de variables
ElEl COEFICIENTE DE DETERMINACICOEFICIENTE DE DETERMINACIÓÓN CORREGIDON CORREGIDO eses
)1n/(SCT)1kn/(SCR1R2
− −−−=
(siempre es m(siempre es máás peques pequeñño que Ro que R22 y puede ser negativo)y puede ser negativo)
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 9/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
EstimaciEstimacióón de la media de Yn de la media de Y
¿ Cuál es la respuesta media para valores fijos de las x ?
Como no conocemos la media, proponemos la respuesta media que
hemos estimado con el modelo – la ecuación de regresión
Los cLos cáálculos sonlculos soncomplicados y loscomplicados y los
hacen los ordenadoreshacen los ordenadores
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
PredicciPrediccióón de Yn de Y
¿ Qué respuesta predecimos para un nuevo valor de las x ?
La mejor propuesta es la media de las y. Como no conocemos lamedia, proponemos la respuesta media que hemos estimado con elmodelo – la ecuación de regresión
Los cLos cáálculos sonlculos soncomplicados y loscomplicados y loshacen los ordenadoreshacen los ordenadores
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 10/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
El intervalo de predicción es siempre mayor que el de
estimación de la media. Para predecir, primero se
propone la media y luego se estima ésta. La estimación
de la media sólo tiene esta última incertidumbre
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
DiagnDiagnóóstico del modelo de regresistico del modelo de regresióónn
En regresión múltiple hemos desarrollado
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 11/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Cuando las variables explicativas están muy correlacionadas
El caso extremo es cuando una variable es combinación linealexacta de otras
Intuitivamente, el problema que se presenta es que cadaIntuitivamente, el problema que se presenta es que cadavariable que incluimos en el modelo supone un parvariable que incluimos en el modelo supone un paráámetrometronuevo a estimar y necesitamos mnuevo a estimar y necesitamos máás informacis informacióón. Si los datosn. Si los datosno aportan casi nada nuevo esno aportan casi nada nuevo es ddí í ficilficil estimar los parestimar los paráámetrosmetros
Presenta algunos inconvenientes que pueden ser importantes:– Gran varianza de los estimadores β– Cambio importante en las estimaciones al eliminar o incluir
regresores en el modelo– Cambio de los contrastes al eliminar o incluir regresores en el
modelo
–– Contradicciones entre el contraste F y los contrastes individualContradicciones entre el contraste F y los contrastes individualeses
MulticolinealidadMulticolinealidad
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Eliminar regresores para reducir el número de parámetros
Sustituir las variables muy correlacionadas por unacombinación de ellas que resuma la información quecontienen (análisis de componentes principales)
MulticolinealidadMulticolinealidad -- SolucionesSoluciones
Una señal de alarma es cuando los test para los coeficientessalen NO SIGNIFICATIVOS y el contraste de la regresión saleSIGNIFICATIVO
Valores altos en la matriz de correlaciones
Relaciones lineales fuertes en la matriz de gráficos dedispersión (matrix-plot)
MulticolinealidadMulticolinealidad -- IdentificaciIdentificacióónn
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 12/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Ejemplo:Ejemplo: Producción de residuos peligrosos en una industriadel sector de artes gráficas
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
DiagnDiagnóóstico de las hipstico de las hipóótesis del modelotesis del modelo
Tienen que estarentre -2 y 2, en
una nube depuntos sin forma
Si las hipótesis del modelo son ciertas, entonces los residuosson aproximadamente
Podemos utilizar contrastes y gráficos para ver si hay EVIDENCIA CLARAEVIDENCIA CLARA encontra de alguna de las hipótesis
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 13/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )
Aceptamos laAceptamos lanormalidadnormalidad
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )
No aceptamos la linealidad y laNo aceptamos la linealidad y la homocedasticidadhomocedasticidad
5/11/2018 Regresion Multiple - slidepdf.com
http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 14/14
Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa
Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )
La influencia de laLa influencia de la fluorocitosinafluorocitosina no es lineal, hay queno es lineal, hay quetransformar la variabletransformar la variable