IntroducciónRegresión logística nominalRegresión logística ordinal
Análisis de datos categóricos
Regresión multinomial
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2017-1
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Distribución multinomial
Distribución multinomial
Considere una variable aleatoria Y con J categorías cuyas
probabilidades respectivas son π1, · · · , πJ tales que∑πj = 1.
Si existen n observaciones independientes para Y tales que y1corresponden a la categoría 1, y2 corresponden a la categoría 2
y así sucesivamente, entonces:
y ∼M (n,π)
donde y = (y1, · · · , yJ) y π = (π1, · · · , πJ) .La función de probabilidad es:
f (y|n) = n!
y1! · · · , yJ !πy11 · · ·π
yJJ
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Distribución multinomial
Distribución multinomial
La distribución multinomial no cumple con los requisitos de
una familia exponencial.
Sin embargo existe una relación con la distribución de Poisson
que permite usar los modelos lineales generalizados.
Sean Y1, · · · ,YJ v.a.i. tales que Yj ∼ P(λj). Si n =∑
Yj
entonces n ∼ P (∑λj). Se puede demostrar que:
y|n ∼M(n, πj =
λj∑λj
)La distribución multinomial se puede considerar como la
función de probabilidad conjunta del vector aleatorio de
Poisson condicionado en su suma.
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Regresión logística nominalEjemplo: Vida después de la muerte
Regresión logística nominal
Se usa cuando no existe un orden natural entre las categorías
de Y .
Una de las categorías se elige como referencial. Supongamos
que se trata de la primera.
Los logits para las otras categorías se de�nen por:
log
(πjπ1
)= x
Tβj j = 2, · · · , J
La probabilidad para la categoría referencial es:
π̂1 =1
1+∑J
k=2 exp {xTβk}
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Regresión logística nominalEjemplo: Vida después de la muerte
Regresión logística nominal
Las probabilidades restantes se calculan por:
π̂j =exp
{xTβj
}1+
∑Jk=2 exp {xTβk}
j = 2, · · · , J
Los residuales de Pearson son:
ri =oi − ei√
ei
y pueden ser usados para determinar si el modelo es adecuado.
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Regresión logística nominalEjemplo: Vida después de la muerte
Regresión logística nominal
El estadístico chi-cuadrado: X 2 =∑N
i=1 r2i
El estadístico de devianza:
D = 2(l(β̂max)− l(β̂)
)El estadístico chi-cuadrado de razón de verosimilitud:
C = 2(l(β̂)− l(β̂min)
)El pseudo R cuadrado:
R2 =l(β̂min)− l(β̂)
l(β̂min)
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Regresión logística nominalEjemplo: Vida después de la muerte
Regresión logística nominal
Los efectos de las variables predictoras se interpretan en
términos de los odds ratios.
Si se tienen J categorías y una variable predictora que
representa la exposición a un factor tal que:
X =
{1 si el factor esta presente
0 si el factor esta ausente
El odds ratio para la categoría j relativa a la categoría de
referencia con respecto a la variable predictora es:
ORj =
πjp
πja
π1pπ1a
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Regresión logística nominalEjemplo: Vida después de la muerte
Regresión logística nominal
Considere el modelo:
log
(πjπ1
)= β0j + β1jx j = 2, · · · , J
Si el factor de exposición esta presente:
log
(πjpπ1p
)= β0j + β1j
Si el factor de exposición no esta presente:
log
(πjaπ1a
)= β0j
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Regresión logística nominalEjemplo: Vida después de la muerte
Regresión logística nominal
El logaritmo del odds ratio es:
logORj = log
(πjpπ1p
)− log
(πjaπ1a
)donde:
ORj = exp {β1j}
Si β1j = 0 entonces ORj = 1 lo cual indica que el factor de
exposición no tiene efecto importante en el modelo.
La elección de la categoría de referencia para Y afecta las
estimaciones de los coe�cientes del modelo pero no las
probabilidades estimadas.
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Regresión logística nominalEjemplo: Vida después de la muerte
Ejemplo: Vida después de la muerte
Se clasi�caron las respuestas de un grupo de estudiantes de
acuerdo al género, raza y sobre su opinión acerca de la vida
después de la muerte.
Los datos se encuentran en el aula virtual del curso.
Tabla 1: Opinión sobre la vida después de la muerte
Raza Género Si No sabe No
Blanca Femenino 371 49 74
Masculino 250 45 71
Negra Femenino 64 9 15
Masculino 25 5 13
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Regresión logística nominalEjemplo: Vida después de la muerte
Regresión logística nominal
Regresión logística nominal
> library(nnet)
> attach(Opiniones)
> m1 <- multinom(Opinion ~ Raza + Genero, weights=Frec)
> �tted.values(m1)
Cambio de categoría referencial
> Raza <- relevel(Raza, "Negra")
> Genero <- relevel(Genero, "Masculino")
> Opinion <- relevel(Opinion, "Nosabe")
> m2 <- multinom(Opinion ~ Raza + Genero, weights=Frec)
> �tted.values(m2)
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental
Regresión logística ordinal
Si existe un orden natural entre las categorías de Y entonces
deben ser tomadas en cuenta en la construcción del modelo.
En algunas situaciones existen variables aleatorias difíciles de
medir tales como la severidad de una enfermedad.
Se pueden identi�car puntos de corte Cj para una variable
latente Z .
Los pacientes con valores pequeños de Z son clasi�cados como
no tiene enfermedad y aquellos con valores grandes de Z son
clasi�cados como enfermedad leve o enfermedad moderada.
Los puntos de corte C1, · · · ,CJ−1 de�nen J categorías
ordinales con probabilidades asociadas π1, · · · , πJ .
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental
Modelo logístico acumulativo
El odds acumulativo para la categoría j es:
Pr (Z ≤ Cj)
Pr (Z > Cj)=
π1 + π2 + · · ·+ πjπj+1 + πj+2 + · · ·+ πJ
El modelo logit acumulativo es:
log
(π1 + π2 + · · ·+ πj
πj+1 + πj+2 + · · ·+ πJ
)= x
Tβj
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental
Modelo de odds proporcionales
Suponga que en el predictor lineal solo el intercepto depende
de la categoría j .
El modelo de odds proporcionales es:
log
(π1 + · · ·+ πjπj+1 + · · ·+ πJ
)= β0j + β1x1 + · · ·+ βpxp
El modelo anterior se basa en el supuesto que los efectos de
las variables predictoras son iguales para cualquiera de las
categorías.
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental
Modelo de categorías adyacentes
Se puede considerar ratios de probabilidad para categorías
consecutivas, por ejemplo:
π1π2,π2π3, · · · , πJ−1
πJ
El modelo logit de categorías adyacentes es:
log
(πjπj+1
)= β0j + β1x1 + · · ·+ βpxp
El efecto de cada variable predictora se asume que es el mismo
para categorías adyacentes.
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental
Otros modelos
Otra alternativa es modelar:
π1π2 + · · ·+ πJ
,π2
π3 + · · ·+ πJ, · · · , πJ−1
πJ
El modelo sería:
log
(πj
πj+1 + · · ·+ πJ
)= x
Tβj
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental
Ejemplo: Discapacidad mental
Se realizó un estudio de salud mental para una muestra
aleatoria de adultos residentes de Florida.
El estudio intenta relacionar la discapacidad mental de los
pacientes con dos variables explicativas.
La discapacidad mental se considera una varible ordinal con
categorías: ausente, leve, moderado y presente.
La variable explicativa X1 mide el número de eventos
importantes en la vida del paciente como el nacimiento de los
hijos, cambio de trabajo, divorcio, fallecimiento en el entorno
familiar, etc durante los últimos tres años.
La variable explicativa X2 mide el nivel socioeconómico del
paciente (1 = alto y 0 = bajo).
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental
Ejemplo: Discapacidad mental
Modelo logístico acumulativo
> attach(Mental)
> Discapacidad <- ordered(Discapacidad, labels=c("Ausente",
"Leve", "Moderado", "Presente"))
> library(VGAM)
> m1 <- vglm(Discapacidad ~ x1 + x2, family=cumulative)
Modelo de odds proporcionales
> m2 <- vglm(Discapacidad ~ x1 + x2,
family=cumulative(parallel=TRUE))
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos
IntroducciónRegresión logística nominalRegresión logística ordinal
Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental
Ejemplo: Cinturón de seguridad
Se tiene información correspondiente a 68694 accidentes de
automóviles y camiones ocurridos en el estado de Maine en
1991.
Los conductores fueron clasi�cados por género, ubicación del
accidente y el uso del cinturón de seguridad.
La variable respuesta es la condición del conductor luego del
accidente: (y1) no resulto herido, (y2) herido pero no
transportado por servicios médicos de emergencia, (y3) herido,
transportado por los servicios médicos de emergencia pero no
hospitalizado, (y4) herido y hospitalizado y (y5) fallecido.
Los datos se encuentran en el aula virtual del curso.
Ms Carlos López de Castilla Vásquez Análisis de datos categóricos