METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Regresión Polinomial y Regresión Logística
M.L. Gámiz Pérez
Departamento Estadística e Inv. OperativaUniversidad de Granada
30 de octubre de 2013
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 1
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
ContenidoRegresión Polinomial
Introducción y ejemplosAproximaciones alternativas
Regresión LogísticaIntroducciónEstimación de los parámetros del modeloEvaluación del modelo
Contraste de regresiónEstudio de la bondad del ajusteTests de significación de los coeficientesCapacidad predictiva del modelo
Regresión Logística MúltipleAnálisis de residuosRegresión Logística Multinomial
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 2
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
IntroducciónI Polinomio de segundo orden:
Y = β0 + β1X + β2X 2 + ε (1)Y = β0 + β1X1 + β2X2 + β11X 2
1 + β22X 22 + β12X1X2 + ε (2)
I Se usan cuando la respuesta es curvilíneaI Y = f (X ) para f compleja → desarrollo en serie de Taylor
I Modelo de orden k en 1 variable
Y = β0 + β1X + . . .+ βkX k + ε
I Si Xj = X j , para j = 1, . . . , k : Modelo de regresión linealmúltiple
I Orden del modelo: Principio de PARSIMONIA
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 3
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
IntroducciónI Polinomio de segundo orden:
Y = β0 + β1X + β2X 2 + ε (1)Y = β0 + β1X1 + β2X2 + β11X 2
1 + β22X 22 + β12X1X2 + ε (2)
I Se usan cuando la respuesta es curvilíneaI Y = f (X ) para f compleja → desarrollo en serie de TaylorI Modelo de orden k en 1 variable
Y = β0 + β1X + . . .+ βkX k + ε
I Si Xj = X j , para j = 1, . . . , k : Modelo de regresión linealmúltiple
I Orden del modelo: Principio de PARSIMONIA
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 4
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
IntroducciónI Polinomio de segundo orden:
Y = β0 + β1X + β2X 2 + ε (1)Y = β0 + β1X1 + β2X2 + β11X 2
1 + β22X 22 + β12X1X2 + ε (2)
I Se usan cuando la respuesta es curvilíneaI Y = f (X ) para f compleja → desarrollo en serie de TaylorI Modelo de orden k en 1 variable
Y = β0 + β1X + . . .+ βkX k + ε
I Si Xj = X j , para j = 1, . . . , k : Modelo de regresión linealmúltiple
I Orden del modelo: Principio de PARSIMONIAMÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 5
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Principios básicosI Interpretación:
I β0: Promedio de Y cuando X = 0I β1: Parámetro de efecto linealI β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos deselección de variables (adelante/atrás). Se debe restringir apolinomios de orden 1 o 2.
I Extrapolación !!I Mal acondicionamiento: A medida que aumenta el orden del
polinomio la matriz X′X se vuelve mal acondicionada.I Multicolinealidad !!I Jerarquía:
Y = β0 + β1X + β2X 2 + β3X 3 + ε SIY = β0 + β1X + β3X 3 + ε NO
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 6
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Principios básicosI Interpretación:
I β0: Promedio de Y cuando X = 0I β1: Parámetro de efecto linealI β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos deselección de variables (adelante/atrás). Se debe restringir apolinomios de orden 1 o 2.
I Extrapolación !!I Mal acondicionamiento: A medida que aumenta el orden del
polinomio la matriz X′X se vuelve mal acondicionada.I Multicolinealidad !!I Jerarquía:
Y = β0 + β1X + β2X 2 + β3X 3 + ε SIY = β0 + β1X + β3X 3 + ε NO
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 7
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Principios básicosI Interpretación:
I β0: Promedio de Y cuando X = 0I β1: Parámetro de efecto linealI β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos deselección de variables (adelante/atrás). Se debe restringir apolinomios de orden 1 o 2.
I Extrapolación !!
I Mal acondicionamiento: A medida que aumenta el orden delpolinomio la matriz X′X se vuelve mal acondicionada.
I Multicolinealidad !!I Jerarquía:
Y = β0 + β1X + β2X 2 + β3X 3 + ε SIY = β0 + β1X + β3X 3 + ε NO
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 8
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Principios básicosI Interpretación:
I β0: Promedio de Y cuando X = 0I β1: Parámetro de efecto linealI β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos deselección de variables (adelante/atrás). Se debe restringir apolinomios de orden 1 o 2.
I Extrapolación !!I Mal acondicionamiento: A medida que aumenta el orden del
polinomio la matriz X′X se vuelve mal acondicionada.
I Multicolinealidad !!I Jerarquía:
Y = β0 + β1X + β2X 2 + β3X 3 + ε SIY = β0 + β1X + β3X 3 + ε NO
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 9
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Principios básicosI Interpretación:
I β0: Promedio de Y cuando X = 0I β1: Parámetro de efecto linealI β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos deselección de variables (adelante/atrás). Se debe restringir apolinomios de orden 1 o 2.
I Extrapolación !!I Mal acondicionamiento: A medida que aumenta el orden del
polinomio la matriz X′X se vuelve mal acondicionada.I Multicolinealidad !!
I Jerarquía:
Y = β0 + β1X + β2X 2 + β3X 3 + ε SIY = β0 + β1X + β3X 3 + ε NO
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 10
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Principios básicosI Interpretación:
I β0: Promedio de Y cuando X = 0I β1: Parámetro de efecto linealI β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos deselección de variables (adelante/atrás). Se debe restringir apolinomios de orden 1 o 2.
I Extrapolación !!I Mal acondicionamiento: A medida que aumenta el orden del
polinomio la matriz X′X se vuelve mal acondicionada.I Multicolinealidad !!I Jerarquía:
Y = β0 + β1X + β2X 2 + β3X 3 + ε SIY = β0 + β1X + β3X 3 + ε NO
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 11
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
ExtensionesAnálisis de regresión usando funciones base...
I Regresion trigonométrica
Y =d∑
j=0
βjX j +λ∑
k=1
[γk cos(kX ) + δk sin(kX )] + ε
con d = 2 y λ a determinar.
I Regresión por splinesModelo lineal con un nodo (x0)
Y = β0 + β1aX + β1b(X − x0)+ + ε
con
(X − x0)+ =
{1 si X > x00 en otro caso
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 12
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
ExtensionesAnálisis de regresión usando funciones base...
I Regresion trigonométrica
Y =d∑
j=0
βjX j +λ∑
k=1
[γk cos(kX ) + δk sin(kX )] + ε
con d = 2 y λ a determinar.I Regresión por splines
Modelo lineal con un nodo (x0)
Y = β0 + β1aX + β1b(X − x0)+ + ε
con
(X − x0)+ =
{1 si X > x00 en otro caso
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 13
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I Se pretende caracterizar la relación entre una variable respuestaY y un conjunto de variables independientes X1,X2, . . . ,Xp
Y = f (X1,X2, . . . ,Xp)
I Hipótesis del modelo de regresión lineal: Normalidad y varianzaconstante
I Estrategias:I mínimos cuadrados ponderadosI transformación de los datos
I Modelo Lineal Generalizado: La variable respuestapertenece a la familia exponencial : Normal, Poisson,Binomial, Exponencial, Gamma, etc.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 14
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I Se pretende caracterizar la relación entre una variable respuestaY y un conjunto de variables independientes X1,X2, . . . ,Xp
Y = f (X1,X2, . . . ,Xp)
I Hipótesis del modelo de regresión lineal: Normalidad y varianzaconstante
I Estrategias:I mínimos cuadrados ponderadosI transformación de los datos
I Modelo Lineal Generalizado: La variable respuestapertenece a la familia exponencial : Normal, Poisson,Binomial, Exponencial, Gamma, etc.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 15
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I Se pretende caracterizar la relación entre una variable respuestaY y un conjunto de variables independientes X1,X2, . . . ,Xp
Y = f (X1,X2, . . . ,Xp)
I Hipótesis del modelo de regresión lineal: Normalidad y varianzaconstante
I Estrategias:I mínimos cuadrados ponderadosI transformación de los datos
I Modelo Lineal Generalizado: La variable respuestapertenece a la familia exponencial : Normal, Poisson,Binomial, Exponencial, Gamma, etc.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 16
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I Se pretende caracterizar la relación entre una variable respuestaY y un conjunto de variables independientes X1,X2, . . . ,Xp
Y = f (X1,X2, . . . ,Xp)
I Hipótesis del modelo de regresión lineal: Normalidad y varianzaconstante
I Estrategias:I mínimos cuadrados ponderadosI transformación de los datos
I Modelo Lineal Generalizado: La variable respuestapertenece a la familia exponencial : Normal, Poisson,Binomial, Exponencial, Gamma, etc.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 17
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simpleI La variable respuesta representa la ocurrencia o no de un
suceso, por ejemplo:I que un estudiante apruebe o no un examen;I que un transplante de corazón sea aceptado o no;I que una empresa llegue a estar en problemas financieros o no;I que un paciente de un hospital sobreviva o no antes de que le
den de alta;I que un cliente devuelva un crédito bancario o no.
I Se considera la siguiente codificación de Y :
Y =
{1, el suceso tiene lugar0, el suceso no tiene lugar
I Se considera un solo regresor o variable explicativa XI Hipótesis: P(Y = 1|X = x) es monótona (creciente o
decreciente) en x .
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 18
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simpleI La variable respuesta representa la ocurrencia o no de un
suceso, por ejemplo:I que un estudiante apruebe o no un examen;I que un transplante de corazón sea aceptado o no;I que una empresa llegue a estar en problemas financieros o no;I que un paciente de un hospital sobreviva o no antes de que le
den de alta;I que un cliente devuelva un crédito bancario o no.
I Se considera la siguiente codificación de Y :
Y =
{1, el suceso tiene lugar0, el suceso no tiene lugar
I Se considera un solo regresor o variable explicativa XI Hipótesis: P(Y = 1|X = x) es monótona (creciente o
decreciente) en x .
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 19
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simpleI La variable respuesta representa la ocurrencia o no de un
suceso, por ejemplo:I que un estudiante apruebe o no un examen;I que un transplante de corazón sea aceptado o no;I que una empresa llegue a estar en problemas financieros o no;I que un paciente de un hospital sobreviva o no antes de que le
den de alta;I que un cliente devuelva un crédito bancario o no.
I Se considera la siguiente codificación de Y :
Y =
{1, el suceso tiene lugar0, el suceso no tiene lugar
I Se considera un solo regresor o variable explicativa XI Hipótesis: P(Y = 1|X = x) es monótona (creciente o
decreciente) en x .MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 20
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo lineal no es aplicableI Supongamos el siguiente modelo
Y = β0 + β1X + ε,
donde ε representa el error, con ε→ N(0, σ):
E (Y |X = x) = β0 + β1x
I Si Y es binaria, entonces para un individuo i : Yi = 1 ó Yi = 0y...
εi =
{1− β0 − β1Xi , si Yi = 1−β0 − β1Xi , si Yi = 0
,
I Además...
Var(εi ) = Var(Yi ) = E (Yi − E (Yi ))2 = (1− E (Yi ))E (Yi ).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 21
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El modelo lineal no es aplicableI Supongamos el siguiente modelo
Y = β0 + β1X + ε,
donde ε representa el error, con ε→ N(0, σ):
E (Y |X = x) = β0 + β1x
I Si Y es binaria, entonces para un individuo i : Yi = 1 ó Yi = 0y...
εi =
{1− β0 − β1Xi , si Yi = 1−β0 − β1Xi , si Yi = 0
,
I Además...
Var(εi ) = Var(Yi ) = E (Yi − E (Yi ))2 = (1− E (Yi ))E (Yi ).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 22
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi |Xi ) = π(Xi ) = πi
I Queremos evaluar la probabilidad de desarrollar unaenfermedad cardiaca en un determinado intervalo de tiempoπi , para un sujeto con un determinado nivel de colesterol Xi .Es lógico esperar
I πi → 1 a medida que Xi ↗∞, yI πi → 0 a medida que Xi ↘ 0.I Con datos binarios, E (Y |X = x) ∈ [0, 1].
I El cambio en E (Y |x) por unidad de cambio en x se vahaciendo progresivamente menor a medida que la mediacondicional se aproxima a 0 y 1.
I Se podría esperar una curva como en la figura siguiente...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 23
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi |Xi ) = π(Xi ) = πi
I Queremos evaluar la probabilidad de desarrollar unaenfermedad cardiaca en un determinado intervalo de tiempoπi , para un sujeto con un determinado nivel de colesterol Xi .Es lógico esperar
I πi → 1 a medida que Xi ↗∞, yI πi → 0 a medida que Xi ↘ 0.I Con datos binarios, E (Y |X = x) ∈ [0, 1].
I El cambio en E (Y |x) por unidad de cambio en x se vahaciendo progresivamente menor a medida que la mediacondicional se aproxima a 0 y 1.
I Se podría esperar una curva como en la figura siguiente...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 24
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi |Xi ) = π(Xi ) = πi
I Queremos evaluar la probabilidad de desarrollar unaenfermedad cardiaca en un determinado intervalo de tiempoπi , para un sujeto con un determinado nivel de colesterol Xi .Es lógico esperar
I πi → 1 a medida que Xi ↗∞, yI πi → 0 a medida que Xi ↘ 0.I Con datos binarios, E (Y |X = x) ∈ [0, 1].
I El cambio en E (Y |x) por unidad de cambio en x se vahaciendo progresivamente menor a medida que la mediacondicional se aproxima a 0 y 1.
I Se podría esperar una curva como en la figura siguiente...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 25
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Función Logística
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 26
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Función de distribución logística
π(x) =exp(β0 + β1x)
1 + exp(β0 + β1x)
I Propiedades:I Flexibilidad;I Interpretación práctica;I Transformación logit: g(x) = ln π(x)
1−π(x) = β0 + β1x
I Otras funciones: Modelo Probit
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 27
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Función de distribución logística
π(x) =exp(β0 + β1x)
1 + exp(β0 + β1x)
I Propiedades:I Flexibilidad;I Interpretación práctica;I Transformación logit: g(x) = ln π(x)
1−π(x) = β0 + β1x
I Otras funciones: Modelo Probit
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 28
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I Y{X=x}→ Binomial (1, π(x))
π(x) =exp(β0 + β1x)
1 + exp(β0 + β1x)
I Es un método predictivo y explicativo:I Finalidades:
1. Cuantificar la importancia de la relación existente entre lavariable X y la variable Y .
2. Clasificar individuos dentro de las categorías(presente/ausente) de la variable Y en función de laprobabilidad que tengan de pertenecer a cada una de ellas enpresencia de determinada información (X ).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 29
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I Y{X=x}→ Binomial (1, π(x))
π(x) =exp(β0 + β1x)
1 + exp(β0 + β1x)
I Es un método predictivo y explicativo:I Finalidades:
1. Cuantificar la importancia de la relación existente entre lavariable X y la variable Y .
2. Clasificar individuos dentro de las categorías(presente/ausente) de la variable Y en función de laprobabilidad que tengan de pertenecer a cada una de ellas enpresencia de determinada información (X ).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 30
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I Y{X=x}→ Binomial (1, π(x))
π(x) =exp(β0 + β1x)
1 + exp(β0 + β1x)
I Es un método predictivo y explicativo:I Finalidades:
1. Cuantificar la importancia de la relación existente entre lavariable X y la variable Y .
2. Clasificar individuos dentro de las categorías(presente/ausente) de la variable Y en función de laprobabilidad que tengan de pertenecer a cada una de ellas enpresencia de determinada información (X ).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 31
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I Y{X=x}→ Binomial (1, π(x))
π(x) =exp(β0 + β1x)
1 + exp(β0 + β1x)
I Es un método predictivo y explicativo:I Finalidades:
1. Cuantificar la importancia de la relación existente entre lavariable X y la variable Y .
2. Clasificar individuos dentro de las categorías(presente/ausente) de la variable Y en función de laprobabilidad que tengan de pertenecer a cada una de ellas enpresencia de determinada información (X ).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 32
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds (ventaja)
I Definición:O(x) =
π(x)
1− π(x)
I Interpretación: “Cuánto más probable es que ocurra un sucesofrente a que no ocurra”
I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.I Modelo log-lineal...
g(x) = lnπ(x)
1− π(x)= β0 + β1x
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 33
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds (ventaja)
I Definición:O(x) =
π(x)
1− π(x)
I Interpretación: “Cuánto más probable es que ocurra un sucesofrente a que no ocurra”
I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.I Modelo log-lineal...
g(x) = lnπ(x)
1− π(x)= β0 + β1x
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 34
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds ratio (OR)I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj),
j = 1, 2;I El logaritmo de la razón de los odds
ln
[π1
1−π1π2
1−π2
]= ln
[π1(1− π2)
π2(1− π1)
]= β1(X1 − X2).
I Es decir...ln(OR) = β1(X1 − X2).
I Caso particular: X1 = X2 + 1 se tiene que ln(OR) = β1 yequivalentemente OR = eβ1 .
I Interpretación del signo:I OR > 1I OR < 1I OR = 1
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 35
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds ratio (OR)I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj),
j = 1, 2;I El logaritmo de la razón de los odds
ln
[π1
1−π1π2
1−π2
]= ln
[π1(1− π2)
π2(1− π1)
]= β1(X1 − X2).
I Es decir...ln(OR) = β1(X1 − X2).
I Caso particular: X1 = X2 + 1 se tiene que ln(OR) = β1 yequivalentemente OR = eβ1 .
I Interpretación del signo:I OR > 1I OR < 1I OR = 1
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 36
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitudI Datos: {(Xi ,Yi ); i = 1, . . . , n}I Contribución del dato (Xi ,Yi ): Li = π(Xi )
Yi [1− π(Xi )]1−Yi
I Función de verosimilitud: L(β0, β1) =∏n
i=1 LiI Log-verosimilitud:`(β0, β1) =
∑ni=1{Yi ln(π(Xi )) + (1− Yi ) ln(1− π(Xi ))}
I Diferenciando con respecto a β0 y β1∑ni=1[Yi − π(Xi )] = 0∑ni=1 Xi [Yi − π(Xi )] = 0
I Si no hay una separación completa existe solución.I Métodos numéricos: Newton-Raphson (veremos en el caso
múltiple).I Solución inicial: Análisis Discriminante (Normalidad de las
variables explicativas)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 37
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitudI Datos: {(Xi ,Yi ); i = 1, . . . , n}I Contribución del dato (Xi ,Yi ): Li = π(Xi )
Yi [1− π(Xi )]1−Yi
I Función de verosimilitud: L(β0, β1) =∏n
i=1 LiI Log-verosimilitud:`(β0, β1) =
∑ni=1{Yi ln(π(Xi )) + (1− Yi ) ln(1− π(Xi ))}
I Diferenciando con respecto a β0 y β1∑ni=1[Yi − π(Xi )] = 0∑ni=1 Xi [Yi − π(Xi )] = 0
I Si no hay una separación completa existe solución.I Métodos numéricos: Newton-Raphson (veremos en el caso
múltiple).I Solución inicial: Análisis Discriminante (Normalidad de las
variables explicativas)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 38
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitudI Datos: {(Xi ,Yi ); i = 1, . . . , n}I Contribución del dato (Xi ,Yi ): Li = π(Xi )
Yi [1− π(Xi )]1−Yi
I Función de verosimilitud: L(β0, β1) =∏n
i=1 LiI Log-verosimilitud:`(β0, β1) =
∑ni=1{Yi ln(π(Xi )) + (1− Yi ) ln(1− π(Xi ))}
I Diferenciando con respecto a β0 y β1∑ni=1[Yi − π(Xi )] = 0∑ni=1 Xi [Yi − π(Xi )] = 0
I Si no hay una separación completa existe solución.I Métodos numéricos: Newton-Raphson (veremos en el caso
múltiple).I Solución inicial: Análisis Discriminante (Normalidad de las
variables explicativas)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 39
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitudI Datos: {(Xi ,Yi ); i = 1, . . . , n}I Contribución del dato (Xi ,Yi ): Li = π(Xi )
Yi [1− π(Xi )]1−Yi
I Función de verosimilitud: L(β0, β1) =∏n
i=1 LiI Log-verosimilitud:`(β0, β1) =
∑ni=1{Yi ln(π(Xi )) + (1− Yi ) ln(1− π(Xi ))}
I Diferenciando con respecto a β0 y β1∑ni=1[Yi − π(Xi )] = 0∑ni=1 Xi [Yi − π(Xi )] = 0
I Si no hay una separación completa existe solución.I Métodos numéricos: Newton-Raphson (veremos en el caso
múltiple).I Solución inicial: Análisis Discriminante (Normalidad de las
variables explicativas)MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 40
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Ejemplo: Hosmer y Lemeshow (1989), pg. 2Se pretende estudiar la influencia de la edad (X = Edad) en lapresencia/ausencia de evidencia de enfermedad coronaria(Y = CHD). Se seleccionaron 100 sujetos para participar en elestudio. La tabla siguiente representa la información referente a losprimeros individuos
ID GrupoEdad Edad CHD1 1 20 02 1 23 03 1 24 04 1 25 05 1 25 16 1 26 07 1 26 08 1 28 0
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 41
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Diagrama de dispersión
Y =
{1, enfermedad está presente0, otro caso
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 42
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
E (Y |x) por grupos de edad
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 43
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Resultado del ajuste
I Modelo: ln P(CHD=1|Edad)P(CHD=0|Edad) = β0 + β1Edad
I Coeficientes estimados (SPSS):Coeficiente estimado Error estándar
Edad β1 = 0,111 0,024Constante β0 = −5,309 1,134
Log -verosimilitud = −53,6765
I Probabilidad estimada de presentar la enfermedad en funciónde la Edad:
π(Edad) =exp(−5,309 + 0,111Edad)
1 + exp(−5,309 + 0,111Edad)
I Interpretación...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 44
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Resultado del ajuste
I Modelo: ln P(CHD=1|Edad)P(CHD=0|Edad) = β0 + β1Edad
I Coeficientes estimados (SPSS):Coeficiente estimado Error estándar
Edad β1 = 0,111 0,024Constante β0 = −5,309 1,134
Log -verosimilitud = −53,6765I Probabilidad estimada de presentar la enfermedad en función
de la Edad:
π(Edad) =exp(−5,309 + 0,111Edad)
1 + exp(−5,309 + 0,111Edad)
I Interpretación...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 45
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Contraste de regresiónI Después de ajustar el modelo evaluamos la significación de
la(s) variable(s) involucrada(s).I No estudiamos aún la bondad de ajuste (términos absolutos):
¿representan los valores ajustados a los valores observados?I Comparamos un modelo sin la covariable (modelo nulo) frente
a modelo con la covariable (términos relativos)
I Regresion lineal:Coeficientes Estadístico
Modelo nulo β0 = Y ;β1 = 0 Var(Y )
Modelo lineal β0; β1 6= 0∑
(Yi − Yi )2
Medida de diferencia V .E .I Regresión logística: la medida se basa en el log de la función
de verosimilitud
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 46
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Contraste de regresiónI Después de ajustar el modelo evaluamos la significación de
la(s) variable(s) involucrada(s).I No estudiamos aún la bondad de ajuste (términos absolutos):
¿representan los valores ajustados a los valores observados?I Comparamos un modelo sin la covariable (modelo nulo) frente
a modelo con la covariable (términos relativos)I Regresion lineal:
Coeficientes EstadísticoModelo nulo β0 = Y ;β1 = 0 Var(Y )
Modelo lineal β0; β1 6= 0∑
(Yi − Yi )2
Medida de diferencia V .E .I Regresión logística: la medida se basa en el log de la función
de verosimilitudMÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 47
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El test de razón de verosimilitudesI Contraste de regresión: ¿Es mejor el modelo nulo?
H0 : β1 = 0H1 : β1 6= 0
I Se basa en el estadístico (Hosmer y Lemeshow, 1989)
G = −2 ln[función de verosimilitud del modelo sin Xfunción de verosimilitud del modelo con X
]
I En el modelo univariante comparamos con el modelo nulo
G = −2 ln
[ (n1n
)n1(n0
n
)n0∏ni=1 π
Yii (1− πi )(1−Yi )
]I Bajo H0, G → χ2(1).I Ejemplo...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 48
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El test de razón de verosimilitudesI Contraste de regresión: ¿Es mejor el modelo nulo?
H0 : β1 = 0H1 : β1 6= 0
I Se basa en el estadístico (Hosmer y Lemeshow, 1989)
G = −2 ln[función de verosimilitud del modelo sin Xfunción de verosimilitud del modelo con X
]I En el modelo univariante comparamos con el modelo nulo
G = −2 ln
[ (n1n
)n1(n0
n
)n0∏ni=1 π
Yii (1− πi )(1−Yi )
]I Bajo H0, G → χ2(1).I Ejemplo...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 49
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El coeficiente R2 en regresión logísticaAlternativas al coeficiente de determinación usado en regresiónlineal (Maddala-Magee)
R2 = 1− {L(0)/L(β0, β1)}2/n
I No es una verdadera medida de la bondad de ajuste: sólocompara 2 modelos
I L(0) = pn11 (1− p1)n−n1 , F. de verosimilitud del modelo nulo
(sólo β0); con p1 = n1/n =∑
Yi/n.I L(β0, β1), F. de verosimilitud evaluada en el estimador.I L ≤ 1, entonces
R2 ≤ 1− (pp11 (1− p1)1−p1)2
I R2 ≥ 0I Coeficiente corregido:R2
= R2/max(R2) (Nagelkerke)MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 50
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
El test de Hosmer-Lemeshow
Pasos:1. Calcular π1 = π(X1), . . . , πn = π(Xn), a partir del modelo
ajustado (suponemos que no hay valores repetidos de lavariable X ).
2. Ordenar los n valores de menor a mayor.3. Agrupar los valores calculados siguiendo uno de los dos
criterios siguientes:(a) Dividir la secuencia ordenada en cuartiles, deciles u otra
clasificación similar.(b) Formar el primer grupo con todos los individuos para los que
πi es menor que 0.1; en el segundo grupo considerar losindividuos cuyo πi esté entre 0.1 y 0.2, etc.
Sean n1, n2, . . . , n10 las frecuencias respectivas.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 51
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
4. Sumar los valores de πi dentro de cada grupo. Estossumatorios serán los valores esperados, que denotamosE1,E2, . . . ,E10.
5. Contar en cada grupo el número de sujetos para los cualesY = 1, estos serán los valores observados, que denotamosO1,O2, . . . ,O10.
Estadístico de Hosmer-Lemeshow
χ2 =10∑i=1
(Oi − Ei )2
Ei+
10∑i=1
(O∗i − E ∗i )2
E ∗i,
donde E ∗i = ni − Ei y O∗i = ni − Oi .Este estadístico sigue una distribución χ2(8).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 52
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
4. Sumar los valores de πi dentro de cada grupo. Estossumatorios serán los valores esperados, que denotamosE1,E2, . . . ,E10.
5. Contar en cada grupo el número de sujetos para los cualesY = 1, estos serán los valores observados, que denotamosO1,O2, . . . ,O10.
Estadístico de Hosmer-Lemeshow
χ2 =10∑i=1
(Oi − Ei )2
Ei+
10∑i=1
(O∗i − E ∗i )2
E ∗i,
donde E ∗i = ni − Ei y O∗i = ni − Oi .Este estadístico sigue una distribución χ2(8).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 53
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Tests individualesNos planteamos...
H0 : βj = 0H1 : βj 6= 0, j = 0, 1
Test de Wald
I Estadístico de Wald:
W =βj
seβj
,
con seβj
=√
Var(βj).
I Sea H =(∂2`(β0,β1)∂βu∂βj
)0≤u,j≤1
I La matriz de covarianzas Σ(β0, β1) = −(H(β0, β1))−1
I W tiene distribución Normal estándar.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 54
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Tests individualesNos planteamos...
H0 : βj = 0H1 : βj 6= 0, j = 0, 1
Test de WaldI Estadístico de Wald:
W =βj
seβj
,
con seβj
=√
Var(βj).
I Sea H =(∂2`(β0,β1)∂βu∂βj
)0≤u,j≤1
I La matriz de covarianzas Σ(β0, β1) = −(H(β0, β1))−1
I W tiene distribución Normal estándar.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 55
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Tests individualesNos planteamos...
H0 : βj = 0H1 : βj 6= 0, j = 0, 1
Test de WaldI Estadístico de Wald:
W =βj
seβj
,
con seβj
=√
Var(βj).
I Sea H =(∂2`(β0,β1)∂βu∂βj
)0≤u,j≤1
I La matriz de covarianzas Σ(β0, β1) = −(H(β0, β1))−1
I W tiene distribución Normal estándar.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 56
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Tests individualesNos planteamos...
H0 : βj = 0H1 : βj 6= 0, j = 0, 1
Test de WaldI Estadístico de Wald:
W =βj
seβj
,
con seβj
=√
Var(βj).
I Sea H =(∂2`(β0,β1)∂βu∂βj
)0≤u,j≤1
I La matriz de covarianzas Σ(β0, β1) = −(H(β0, β1))−1
I W tiene distribución Normal estándar.MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 57
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Prueba ScoreI Contraste:
H0 : βj = 0H1 : βj 6= 0
I Requiere menos esfuerzo computacional que los anterioresI Estimador
ST =
∑ni=1 Xi (Yi − Y )√
Y (1− Y )∑n
i=1(Xi − X )2.
I ST tiene distribución Normal estándarI Ejemplo...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 58
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Prueba ScoreI Contraste:
H0 : βj = 0H1 : βj 6= 0
I Requiere menos esfuerzo computacional que los anterioresI Estimador
ST =
∑ni=1 Xi (Yi − Y )√
Y (1− Y )∑n
i=1(Xi − X )2.
I ST tiene distribución Normal estándarI Ejemplo...
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 59
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modeloObjetivo: Establecer si el modelo logístico estimado clasificacorrectamente a los sujetos de acuerdo con los valores de la variablerespuesta.
Clasificacion =
{πi > 0,5⇒ Yi = 1πi ≤ 0,5⇒ Yi = 0
Y Y 1 01 VP FN0 FP VN
I CP = (VP + VN)/nI Sensibilidad = VP/(VP + FN)
I Especifidad = VN/(VN + FP)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 60
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modeloObjetivo: Establecer si el modelo logístico estimado clasificacorrectamente a los sujetos de acuerdo con los valores de la variablerespuesta.
Clasificacion =
{πi > 0,5⇒ Yi = 1πi ≤ 0,5⇒ Yi = 0
Y Y 1 01 VP FN0 FP VN
I CP = (VP + VN)/nI Sensibilidad = VP/(VP + FN)
I Especifidad = VN/(VN + FP)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 61
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modeloObjetivo: Establecer si el modelo logístico estimado clasificacorrectamente a los sujetos de acuerdo con los valores de la variablerespuesta.
Clasificacion =
{πi > 0,5⇒ Yi = 1πi ≤ 0,5⇒ Yi = 0
Y Y 1 01 VP FN0 FP VN
I CP = (VP + VN)/nI Sensibilidad = VP/(VP + FN)
I Especifidad = VN/(VN + FP)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 62
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) =exp(β0 + β1X1 + · · ·+ βpXp)
1 + exp(β0 + β1X1 + · · ·+ βpXp)
I F. de verosimilitud:
L(β) =n∑
i=1
{Yi lnπi + (1− Yi ) ln(1− πi )} ,
con πi = π(Xi1,Xi2, . . . ,Xip).I Ecuaciones de verosimilitud, para j = 1, . . . , p
∂`(β)
∂β0=
n∑i=1
(Yi − πi ) = 0
∂`(β)
∂βj=
n∑i=1
(Yi − πi )Xij = 0;
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 63
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) =exp(β0 + β1X1 + · · ·+ βpXp)
1 + exp(β0 + β1X1 + · · ·+ βpXp)
I F. de verosimilitud:
L(β) =n∑
i=1
{Yi lnπi + (1− Yi ) ln(1− πi )} ,
con πi = π(Xi1,Xi2, . . . ,Xip).
I Ecuaciones de verosimilitud, para j = 1, . . . , p
∂`(β)
∂β0=
n∑i=1
(Yi − πi ) = 0
∂`(β)
∂βj=
n∑i=1
(Yi − πi )Xij = 0;
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 64
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) =exp(β0 + β1X1 + · · ·+ βpXp)
1 + exp(β0 + β1X1 + · · ·+ βpXp)
I F. de verosimilitud:
L(β) =n∑
i=1
{Yi lnπi + (1− Yi ) ln(1− πi )} ,
con πi = π(Xi1,Xi2, . . . ,Xip).I Ecuaciones de verosimilitud, para j = 1, . . . , p
∂`(β)
∂β0=
n∑i=1
(Yi − πi ) = 0
∂`(β)
∂βj=
n∑i=1
(Yi − πi )Xij = 0;
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 65
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
I Forma matricial: X′ (Y − π) = 0, donde
X =
1 X11 · · · X1p1 X21 · · · X2p...
... · · ·...
1 Xn1 · · ·... Xnp
;Y =
Y1Y2...Yn
;π =
π1π2...πn
I Buscamos solución del siguiente sistema de ecuaciones:
U(β) = X′ (Y − π) = 0
I Desarrollo de Taylor → β = β(0) −H−1(β(0))U(β(0))donde
I U(·) es la funcion score, el vector de derivadas parciales de `;I H(·) =
(∂2`(·)∂βj∂βu
)1≤u,j≤p
, es la matriz hessiana
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 66
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
I Forma matricial: X′ (Y − π) = 0, donde
X =
1 X11 · · · X1p1 X21 · · · X2p...
... · · ·...
1 Xn1 · · ·... Xnp
;Y =
Y1Y2...Yn
;π =
π1π2...πn
I Buscamos solución del siguiente sistema de ecuaciones:
U(β) = X′ (Y − π) = 0
I Desarrollo de Taylor → β = β(0) −H−1(β(0))U(β(0))donde
I U(·) es la funcion score, el vector de derivadas parciales de `;I H(·) =
(∂2`(·)∂βj∂βu
)1≤u,j≤p
, es la matriz hessiana
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 67
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
I Forma matricial: X′ (Y − π) = 0, donde
X =
1 X11 · · · X1p1 X21 · · · X2p...
... · · ·...
1 Xn1 · · ·... Xnp
;Y =
Y1Y2...Yn
;π =
π1π2...πn
I Buscamos solución del siguiente sistema de ecuaciones:
U(β) = X′ (Y − π) = 0
I Desarrollo de Taylor → β = β(0) −H−1(β(0))U(β(0))donde
I U(·) es la funcion score, el vector de derivadas parciales de `;I H(·) =
(∂2`(·)∂βj∂βu
)1≤u,j≤p
, es la matriz hessiana
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 68
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Método de Newton-Raphson
El estimador se obtiene de modo iterativo, en el paso k delalgoritmo
β(k) = β(k−1) +(X′W(k−1)X
)−1 X′(Y − π(k−1)
)I W(k−1) = diag
(π(k−1)(1− π(k−1))
)n×n
I π(k−1) son probabilidades estimadas en el paso anterior
I β(k−1) es el vector de coeficientes obtenido en el paso anterior.
I Se necesita un valor inicial para empezar el proceso iterativo.I Matriz de información de Fisher: I(k−1) = X′W(k−1)X
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 69
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Método de Newton-Raphson
El estimador se obtiene de modo iterativo, en el paso k delalgoritmo
β(k) = β(k−1) +(X′W(k−1)X
)−1 X′(Y − π(k−1)
)I W(k−1) = diag
(π(k−1)(1− π(k−1))
)n×n
I π(k−1) son probabilidades estimadas en el paso anterior
I β(k−1) es el vector de coeficientes obtenido en el paso anterior.I Se necesita un valor inicial para empezar el proceso iterativo.I Matriz de información de Fisher: I(k−1) = X′W(k−1)X
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 70
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientesI β0= logit de presentar el suceso de interés cuando todas las
covariables toman valor 0.I Sean X1 y X2 dos perfiles distintos:
O(X1)
O(X2)= exp
[ p∑i=1
βi (X 1i − X 2
i )
]Cuánto más “peligro” tiene un sujeto del perfil 1 de presentarla característica de interés frente a un individuo del perfil 2.
I Caso particular: X 1j = X 2
j + 1 y el resto igual,
O(X1)/O(X2) = exp(βj)
I βj= cambio en logit cuando Xj aumenta en una unidad y elresto de variables se mantienen iguales.
I A veces el cambio en 1 unidad no tiene interés práctico (edad)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 71
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientesI β0= logit de presentar el suceso de interés cuando todas las
covariables toman valor 0.I Sean X1 y X2 dos perfiles distintos:
O(X1)
O(X2)= exp
[ p∑i=1
βi (X 1i − X 2
i )
]Cuánto más “peligro” tiene un sujeto del perfil 1 de presentarla característica de interés frente a un individuo del perfil 2.
I Caso particular: X 1j = X 2
j + 1 y el resto igual,
O(X1)/O(X2) = exp(βj)
I βj= cambio en logit cuando Xj aumenta en una unidad y elresto de variables se mantienen iguales.
I A veces el cambio en 1 unidad no tiene interés práctico (edad)MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 72
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Contrastes de significación del modelo(A) Desviación del modelo: “Contraste de regresión”
H0 : β1 = β2 = · · · = βp = 0H1 : ∃βj 6= 0,
Estadístico de contraste: G → χ2(p).
(B) Contrastes individuales:
H0 : βj = 0H1 : βj 6= 0, j = 1, . . . , p.
Estadístico de contraste (Wald): Wj =βj
se(βj )→ N(0, 1)
Intervalo de confianza al nivel 100× (1− α) %:
βj ± Z1−α/2se(βj)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 73
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Contrastes de significación del modelo(A) Desviación del modelo: “Contraste de regresión”
H0 : β1 = β2 = · · · = βp = 0H1 : ∃βj 6= 0,
Estadístico de contraste: G → χ2(p).(B) Contrastes individuales:
H0 : βj = 0H1 : βj 6= 0, j = 1, . . . , p.
Estadístico de contraste (Wald): Wj =βj
se(βj )→ N(0, 1)
Intervalo de confianza al nivel 100× (1− α) %:
βj ± Z1−α/2se(βj)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 74
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
(C) Pruebas de hipótesis de subconjuntos de parámetrosI Sea β = (β(1),β(2)), con dim(β(1)) = r < p.I Contraste:
H0 : β(1) = 0H1 : β(1) 6= 0,
I Estadístico de contraste:G = −2[`(modelo bajoH0)− `(modelo bajoH1)]→ χ2(p − r)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 75
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Selección de variables
(Silva y Barroso, 2004)Adelante:1. Se inicia con un modelo vacio (solo β0)2. Se ajusta un modelo y se calcula el p-valor de incluir cada
variable por separado3. Se selecciona el modelo con la variable más significativa4. Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se
calcula el p-valor de añadir cada variable no seleccionada porseparado
5. Se selecciona el modelo con la más significativa6. Se repite 4-5 hasta que no queden variables significativas para
incluir.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 76
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Atrás :1. Se inicia con un modelo con TODAS las variables candidatas2. Se eliminan, una a una, cada variable y se calcula la pérdida de
ajuste al eliminar3. Se selecciona para eliminar la menos significativa4. Se repite 2-3 hasta que todas las variables incluidas sean
significativas y no pueda eliminarse ninguna sin que se pierdaajuste.
Stepwise:a) Se combinan los métodos adelante y atrás.b) Puede empezarse por el modelo vacío o por el completo, pero
en cada paso se exploran las variables incluidas, por si debensalir y las no seleccionadas, por si deben entrar
c) No todos los métodos llegan a la misma soluciónnecesariamente
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 77
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Atrás :1. Se inicia con un modelo con TODAS las variables candidatas2. Se eliminan, una a una, cada variable y se calcula la pérdida de
ajuste al eliminar3. Se selecciona para eliminar la menos significativa4. Se repite 2-3 hasta que todas las variables incluidas sean
significativas y no pueda eliminarse ninguna sin que se pierdaajuste.
Stepwise:a) Se combinan los métodos adelante y atrás.b) Puede empezarse por el modelo vacío o por el completo, pero
en cada paso se exploran las variables incluidas, por si debensalir y las no seleccionadas, por si deben entrar
c) No todos los métodos llegan a la misma soluciónnecesariamente
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 78
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Consideraciones importantes en regresión logística múltiple
I MulticolinealidadI Consiste en: dos o más variables linealmente correlacionadas;I Efecto: Incremento exagerado en los errores estándar y en los
coeficientes estimados. Modelo poco creibleI Posibles estrategias:
I Examinar la matriz de correlaciones;I Formular modelos con las variables correlacionadas y estudiar
el coeficiente R2
I Si R2 > 0,9 !!
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 79
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
I Confusión e interacciónI Variable confusora: Covariable que está asociada a la variable
respuesta y a un factor de riesgoI Interacción: La asociación entre el factor de riesgo y la
respuesta depende de la covariable (efecto modificador).I Ejemplo:
I Y= (1, si enfermedad coronaria; 0, en otro caso); X= edad;F=sexo (0=m, 1=m);
I logit lineal en la covariable X para los individuos con factorF = 1 con pendiente distinta de los individuos con factorF = 0
I Modelo: logit = β0 + β1X + β2F + δX ∗ FI Importante: Determinar la evidencia o no de interacción en el
modelo. H0 : δ = 0
I Variables categóricasI Se introducen como variables dummyI Se aceptan o se rechazan en bloque.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 80
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
I Confusión e interacciónI Variable confusora: Covariable que está asociada a la variable
respuesta y a un factor de riesgoI Interacción: La asociación entre el factor de riesgo y la
respuesta depende de la covariable (efecto modificador).I Ejemplo:
I Y= (1, si enfermedad coronaria; 0, en otro caso); X= edad;F=sexo (0=m, 1=m);
I logit lineal en la covariable X para los individuos con factorF = 1 con pendiente distinta de los individuos con factorF = 0
I Modelo: logit = β0 + β1X + β2F + δX ∗ FI Importante: Determinar la evidencia o no de interacción en el
modelo. H0 : δ = 0I Variables categóricas
I Se introducen como variables dummyI Se aceptan o se rechazan en bloque.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 81
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Análisis de residuosResiduo. Medida que expresa la diferencia entre lasrespuestas observadas y predichas por el modelo. Alertan de...1. que no se cumpla el supuesto de linealidad entre el
modelo logit de la probabilidad de Y = 1 y la(s)variable(s) independiente(s);
2. la presencia de algunas observaciones extremas queperturbe la calidad del ajuste; o
3. que una función distinta de la logística describiese másadecuadamente el conjunto de observaciones.
Tipos:I Residuos de PearsonI Residuos deviance
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 82
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Datos agrupados
Consideramos perfiles de covariables que definen grupos deindividuos
I mj= número total de individuos con mismo perfil decovariables.
I Hay J combinaciones distintas: X1, . . . ,XJ
I Yj= número de individuos con perfil j que presentan el sucesoY = 1
I πj = π(Xj) = valor de probabilidad estimado según el modelologístico para el perfil j-ésimo.
I Las aproximaciones normales asintóticas se sustentan en laaproximación normal de la variable binomial Y , por esto mjdebe ser grande.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 83
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Residuos de PearsonI Residuos: Se definen...
rj = Yj −mj πj
I Residuos estandarizados o residuos de Pearson:
rej =Yj −mj πj√mj πj(1− πj)
I Si |rej | > 2 dato a examinar!I Si J no es grande (mj suficientemente grande para cada j), rej
son NORMALES.I Si mj = 1, rj solo toma 2 valores y no puede esperarse
Normalidad.I Estadístico resumen: X 2 =
∑Jj=1 r
2ej → χ2(J − (p + 1))
(J ≈ n problema!).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 84
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Residuos de PearsonI Residuos: Se definen...
rj = Yj −mj πj
I Residuos estandarizados o residuos de Pearson:
rej =Yj −mj πj√mj πj(1− πj)
I Si |rej | > 2 dato a examinar!I Si J no es grande (mj suficientemente grande para cada j), rej
son NORMALES.I Si mj = 1, rj solo toma 2 valores y no puede esperarse
Normalidad.
I Estadístico resumen: X 2 =∑J
j=1 r2ej → χ2(J − (p + 1))
(J ≈ n problema!).
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 85
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Residuos de PearsonI Residuos: Se definen...
rj = Yj −mj πj
I Residuos estandarizados o residuos de Pearson:
rej =Yj −mj πj√mj πj(1− πj)
I Si |rej | > 2 dato a examinar!I Si J no es grande (mj suficientemente grande para cada j), rej
son NORMALES.I Si mj = 1, rj solo toma 2 valores y no puede esperarse
Normalidad.I Estadístico resumen: X 2 =
∑Jj=1 r
2ej → χ2(J − (p + 1))
(J ≈ n problema!).MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 86
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Residuos deviance
Definición:
dj = sign(Yj−mj πj)
√√√√2
[Yj ln
(Yj
mj πj
)+ (mj − Yj) ln
(mj − Yj
mj(1− πj)
)]
I Mide la discrepancia entre la j-ésima componente dellogaritmo de la función de verosimilitud del modelo ajustado yla correspondiente componente del logaritmo de la función deverosimilitud que resultaría si cada punto fuese ajustadoexactamente.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 87
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
I Datos no agrupados (mj = 1)I di = −{2[− ln(1− πi )]}1/2, si Yi = 0; yI di = {2[− ln(πi )]}1/2 si Yi = 1.
I Estadístico resumen:
D =J∑
j=1
d2j
es χ2 si J << n.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 88
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
I Datos no agrupados (mj = 1)I di = −{2[− ln(1− πi )]}1/2, si Yi = 0; yI di = {2[− ln(πi )]}1/2 si Yi = 1.
I Estadístico resumen:
D =J∑
j=1
d2j
es χ2 si J << n.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 89
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Influencia o leverage¿Qué efecto tiene eliminar todos aquellos sujetos que tienen undeterminado perfil de covariables en los coeficientes estimados y lasmedidas de resumen global, X 2 y D?Se define...
∆βj = β − β(−j)
Pregibon (1981) aproxima...
∆βj =r2ejhj
1− hj
donde hj son los leverages,
H = V1/2X(X′VX)−1X′V1/2
XJ×p es la matriz de diseño,V = diag(vj)J×J = diag(mj π(Xj)[1− π(Xj)])
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 90
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Objetivo: determinar perfiles de covariables para los que el modeloproporciona un ajuste pobre...
Procedimiento: Examinar cambios debidos a la eliminación de losmj sujetos en...
I Chi-cuadrado de Pearson: ∆X 2j = r2ej
I Deviance: ∆Dj =d2j
1−hj
Considerar las representaciones gráficasI Detectar perfiles con gran influencia en el modelo: (πj ,∆βj)
I Detectar perfiles que no son bien ajustados por el modelo:(πj ,∆X 2
j ) y (πj ,∆Dj)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 91
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Objetivo: determinar perfiles de covariables para los que el modeloproporciona un ajuste pobre...Procedimiento: Examinar cambios debidos a la eliminación de losmj sujetos en...
I Chi-cuadrado de Pearson: ∆X 2j = r2ej
I Deviance: ∆Dj =d2j
1−hj
Considerar las representaciones gráficasI Detectar perfiles con gran influencia en el modelo: (πj ,∆βj)
I Detectar perfiles que no son bien ajustados por el modelo:(πj ,∆X 2
j ) y (πj ,∆Dj)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 92
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Hosmer y Lemeshow (1989) aconsejan estos gráficos por encima de(πj , rj) o (πj , dj) porque:1. Cuando J ≈ n la mayoría de los residuos positivos
corresponden a perfiles en los que Yj = mj , por ejemplomj = 1, y los residuos negativos se corresponden con aquelloscon Yj = 0. Por lo que el signo no es informativo.
2. Grandes residuos se corresponden con puntos que no estánbien reflejados en el modelo. Si consideramos los residuos alcuadrado se enfatiza aún más la falta de ajuste.
3. La forma de los gráficos ayuda a determinar qué perfiles secorresponden con Yj = 0 y cuáles tienen Yj = mj
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 93
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I La variable respueste tiene r + 1 ≥ 2 categoríasI Se elige una como referencia y se enfrentan a ella las r
restantes a través deProb(Y = k)
Prob(Y = 0); k = 1, . . . , r
I Modelo
lnProb(Y = k)
Prob(Y = 0)= β0k + β1kX1 + · · ·+ βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimarI Se estima mediante el método de máxima-verosimilitudI Métodos númericos implementados en software estadístico
(SPSS)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 94
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística MultinomialI La variable respueste tiene r + 1 ≥ 2 categorías
I Se elige una como referencia y se enfrentan a ella las rrestantes a través de
Prob(Y = k)
Prob(Y = 0); k = 1, . . . , r
I Modelo
lnProb(Y = k)
Prob(Y = 0)= β0k + β1kX1 + · · ·+ βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimarI Se estima mediante el método de máxima-verosimilitudI Métodos númericos implementados en software estadístico
(SPSS)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 95
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística MultinomialI La variable respueste tiene r + 1 ≥ 2 categoríasI Se elige una como referencia y se enfrentan a ella las r
restantes a través deProb(Y = k)
Prob(Y = 0); k = 1, . . . , r
I Modelo
lnProb(Y = k)
Prob(Y = 0)= β0k + β1kX1 + · · ·+ βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimarI Se estima mediante el método de máxima-verosimilitudI Métodos númericos implementados en software estadístico
(SPSS)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 96
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística MultinomialI La variable respueste tiene r + 1 ≥ 2 categoríasI Se elige una como referencia y se enfrentan a ella las r
restantes a través deProb(Y = k)
Prob(Y = 0); k = 1, . . . , r
I Modelo
lnProb(Y = k)
Prob(Y = 0)= β0k + β1kX1 + · · ·+ βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimarI Se estima mediante el método de máxima-verosimilitudI Métodos númericos implementados en software estadístico
(SPSS)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 97
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística MultinomialI La variable respueste tiene r + 1 ≥ 2 categoríasI Se elige una como referencia y se enfrentan a ella las r
restantes a través deProb(Y = k)
Prob(Y = 0); k = 1, . . . , r
I Modelo
lnProb(Y = k)
Prob(Y = 0)= β0k + β1kX1 + · · ·+ βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimarI Se estima mediante el método de máxima-verosimilitudI Métodos númericos implementados en software estadístico
(SPSS)MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 98
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESISMODELOS LINEALES Y SERIES TEMPORALES
Bibliografía I
Hosmer,D.W. y Lemeshow, S. (1989). Applied LogisticRegression, Wiley
Kleinbaum, D.G. (1994). Logistic Regression. A Self-LearningText. Springer.
Montgomery, D.C., Peck, E.A. y Vining, G.G. (2002).Introducción al análisis de regresión lineal, CECSA
Pérez López, C. (2001). Técnicas Estadísticas con SPSS(Versión 10), Pearson Alhambra
Ryan, T. (1997). Modern Regression Methods, Wiley
Silva, L.C. y Barroso, I. (2004). Regresión Logística, La Muralla
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 99