Análisis de datos Categóricos - La Molina · 2017-03-30 · ablasT de contingencia Medidas de...

Tablas de contingenciaMedidas de asociación en tablas 2×2

Tablas parciales

Análisis de datos Categóricos

Tablas de contingencia de dos vías

Ms Carlos López de Castilla Vásquez

Universidad Nacional Agraria La Molina

2017-1

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos


Tablas parciales

Notación y estructura de probabilidadIndependencia de variables categóricasDistribuciones de muestreoTipos de estudios

Tablas de contingencia

Sean X y Y dos variables categóricas con I y J categorías

respectivamente.

El término tabla de contingencia fue introducido por Karl

Pearson (1904).

Una tabla de contingencia que tiene I las y J columnas es

llamada una tabla I × J.

Tabla 1: Uso de aspirina y ataque al corazón

Ataque fatal Ataque no fatal Sin Ataque

Placebo 18 171 10845

Aspirina 5 99 10933



Tablas parciales


Probabilidad conjunta y marginal

Sea πij la probabilidad que (X ,Y ) se encuentre en la la i ycolumna j de la tabla de contingencia.

La distribución de probabilidad conjunta para (X ,Y ) se denota

por πij.Las distribuciones marginales se denotan por πi+ para la

variable en la y π+j para la variable en columna.

Se cumple que:

πi+ =∑j

πij y π+j =∑i

πij



Tablas parciales


Probabilidad condicional

Sea πj |i la probabilidad de clasicar un elemento en la columna

j de Y , dado que pertenece al grupo i de X .

Las probabilidades π1|i , · · · , πJ|i forman la distribución

condicional de Y en el grupo i de X .

Tabla 2: Probabilidad conjunta, marginal y condicional

Columna

Grupo 1 2 Total

1 π11 (π1|1) π12 (π2|1) π1+ (1.0)

2 π21 (π1|2) π22 (π2|2) π2+ (1.0)

Total π+1 π+2 1.0



Tablas parciales


Sensitividad y Especicidad

Tabla 3: Probabilidades condicionales estimadas

Cáncer de Diagnóstico

seno Positivo Negativo Total

Si 0.82 0.18 1.00

No 0.01 0.99 1.00

Si la persona tiene cáncer, la probabilidad de que el diagnóstico

de la prueba sea positivo es llamada sensitividad (π1|1).

Si la persona no tiene cáncer, la probabilidad de que el

diagnóstico de la prueba sea negativo es llamada especicidad

(π2|2).



Tablas parciales


Prevalencia, VPP y VPN

La prevalencia de una enfermedad es la proporción de personas

en una población que tienen dicha enfermedad en un

determinado momento.

El valor predictivo positivo (VPP) es la probabilidad que la

persona tenga cáncer, dado que el diagnóstico de la prueba es

positivo.

El valor predictivo negativo (VPN) es la probabilidad que la

persona no tenga cáncer, dado que el diagnóstico de la prueba

es negativo.



Tablas parciales


Independencia

Dos variables categóricas son independientes si todas sus

probabilidades conjuntas son iguales al producto de sus

marginales:

πij = πi+π+j i = 1, · · · , I j = 1, · · · , J

Dos variables son independientes cuando πj |1 = · · · = πj |Ipara j = 1, · · · , J.La independencia es tambien llamada homogeneidad en las

distribuciones condicionales.



Tablas parciales


Poisson, multinomial e hipergeométrica

Si el tamaño de muestra no es jo se usa la distribución de

Poisson. La función de probabilidad conjunta es:

∏i

∏j

exp−µijµnijij

nij !

Cuando el tamaño de muestra es jo se usa la distribución

multinomial. La función de probabilidad conjunta es:

n!

n11! · · · nIJ !

∏i

∏j

πnijij



Tablas parciales


Poisson, multinomial e hipergeométrica

Si los totales en la son jos se usa la notación ni = ni+.

Suponga que las ni observaciones de Y en el grupo i de X son

independientes cada una con distribución de probabilidad

π1|i , · · · , πJ|i.Los conteos nij satisfacen

∑j nij = ni y tienen la forma

multinomial:ni !

ni1! · · · niJ !

∏j

πnijj |i

Cuando los totales en la y columnas son jos la distribución

de muestreo apropiada es la hipergeométrica.



Tablas parciales


Ejemplo: Cinturón de seguridad

Suponga que se desea estudiar la relación entre el uso del

cinturón de seguridad con el tipo de accidente de auto.

Tabla 4: Tipo de accidente y uso del cinturón

Uso del Tipo de accidente

cinturón Fatal No fatal

Si

No

Los resultados del estudio seran resumidos en el formato de la

tabla anterior.



Tablas parciales


Ejemplo: Cinturón de seguridad

Suponga que se desea clasicar los accidentes para el próximo

año, entonces el tamaño de muestra es una variable aleatoria y

nij ∼ P(µij).

Suponga que se toma una muestra de 200 registros policiales

de los accidentes ocurridos el año pasado, entonces el tamaño

de muestra es jo y nij ∼ M(n = 200, πij).Suponga que se eligen al azar 100 registros de accidentes

fatales y 100 de accidentes no fatales, entonces los totales por

columna son jos y cada una se convierte en una muestra

binomial independiente.



Tablas parciales


Ejemplo: Cáncer al pulmón

La siguiente tabla es parte de un estudio de la relación entre el

hábito de fumar y la presencia de cáncer al pulmón.

Tabla 5: Hábito de fumar y cáncer al pulmón

Hábito de Cáncer al pulmón

fumar Casos Control

Si 688 650

No 21 59

709 709

En este tipo de estudios por lo general Y = presencia de

cáncer al pulmón y X = hábito de fumar.



Tablas parciales



Si la distribución marginal de la presencia de cáncer al pulmón

es ja y lo que se observa corresponde al hábito de fumar se

trata de un estudio retrospectivo o estudio caso-control (mirar

al pasado).

Suponga que en un estudio similar se elige una muestra de

adolescentes y 60 años después se observa la presencia de

cáncer al pulmón para los fumadores y no fumadores en la

muestra. En este caso se trata de un estudio prospectivo.

Existen dos tipos de estudios prospectivos: ensayos clínicos y

estudios de cohorte.



Tablas parciales



En un ensayo clínico los sujetos serian colocados al azar en el

grupo de fumadores y no fumadores.

En un estudio de cohorte los sujetos harian su propia el

elección sobre su hábito de fumar.

Si los sujetos en la muestra son clasicados simultáneamente

según el hábito de fumar y la presencia de cáncer al pulmón

entonces el diseño es transversal.

Los diseños de tipo caso-control, cohorte y transversal son

estudios observacionales. En contraste, un ensayo clínico es un

estudio experimental ya que se tiene la ventaja de controlar los

sujetos que recibiran cada tratamiento.



Tablas parciales



Los estudios prospectivos consideran los totales para X como

jos (ni =∑

j nij) y cada la como una muestra multinomial

independiente sobre Y .

Los estudios retrospectivos consideran los totales para Y como

jos n+j y cada columna como una muestra multinomial

independiente sobre X .

En un estudio transversal el tamaño de muestra es jo pero no

los totales de la y columna por lo que los I × J conteos en la

tabla se consideran una muestra multinomial.



Tablas parciales

Diferencia de proporcionesRiesgo relativoOdds ratio

Diferencia de proporciones

En general, para los individuos en el grupo i la probabilidad

que la variable respuesta pertenezca a la categoría 1 denotada

como éxito es π1|i .

Con solo dos posibles resultados, π2|i = 1− π1|i y por

simplicidad πi = π1|i .

La diferencia de la proporción de éxitos en cada grupo es

π1 − π2.La diferencia de la proporción de fracasos en cada grupo es

π2 − π1.La variable respuesta Y es estadísticamente independiente de

X cuando π1 − π2 = 0.



Tablas parciales


Diferencia de proporciones

Un estimador para la diferencia de proporciones es:

π1 − π2

El error estándar es:

σ(π1 − π2) =

√π1(1− π1)

n1+π2(1− π2)

n2

Si el tamaño de muestra es grande, el intervalo (1− α) 100%de Wald es:

(π1 − π2)∓ z1−α/2σ(π1 − π2)



Tablas parciales


Riesgo relativo

Una diferencia de proporciones puede ser más importante

cuando éstas se encuentran cerca de 0 o 1 que cuando se

encuentran cerca de 0.5.

La diferencia entre 0.010 y 0.001 tiene mayor relevancia que la

diferencia entre 0.410 y 0.401 aún cuando el valor es el mismo.

El riesgo relativo se dene por:

r =π1π2≥ 0

La condición de independencia se da cuando el riesgo relativo

es igual a uno.



Tablas parciales


Riesgo relativo

El riesgo relativo muestral es:

r =π1π2

El error estándar asintótico de log r es:

σ (log r) =

√1− π1π1n1

+1− π2π2n2

El intervalo de conanza (1− α) 100% para log r es:

log r ∓ z1−α/2σ (log r)



Tablas parciales


Odds ratio

Si π es la probabilidad de éxito, entonces el odds se dene por:

Ω =π

1− π

Si π = 0.75 entonces Ω = 3 lo cual indica que la probabilidad

de éxito es 3 veces la probabilidad de fracaso.

Inversamente:

π =Ω

1 + Ω

Si la tabla es 2×2, en el grupo i el odds es:

Ωi =πi

1− πi



Tablas parciales


Odds ratio

El cociente de Ω1 y Ω2:

θ =Ω1

Ω2=π1/ (1− π1)

π2/ (1− π2)

es llamado el odds ratio.

Si las probabilidades de celda son πij el odds ratio es:

θ =π11/π12π21/π22

=π11π22π12π21

Un nombre alternativo para θ en tablas 2×2 es razón producto

cruzado.



Tablas parciales


Odds ratio

El odds ratio siempre es un número positivo.

Cuando X y Y son independientes entonces Ω1 = Ω2 y por

consiguiente θ = 1.

Si θ > 1 los sujetos en el grupo 1 tienen mayor probabilidad de

tener éxito que los sujetos en el grupo 2, es decir π1 > π2. Si0 < θ < 1 entonces π1 < π2.

Si θ = 4 el odds para el éxito en el grupo 1 es cuatro veces el

odds en el grupo 2.

Los valores de θ alejados de 1 en alguna dirección representan

una fuerte asociación.



Tablas parciales


Odds ratio

Dos valores representan el mismo grado de asociación pero en

dirección opuesta cuando una es la inversa de la otra.

Si θ = 0.25 el odds para el éxito en el grupo 1 es 0.25 veces el

odds correspondiente en el grupo 2 o equivalentemente, el

odds para el éxito en el grupo 2 es 4 veces el odds

correspondiente en grupo 1.

Para el proceso de inferencia es conveniente usar log θ que es

simétrico con respecto a cero, ya que log 4 = 1.39 y

log 1/4 = − 1.39.

No se requiere identicar una variable respuesta para usar θ.

El odds ratio es válido para diseños prospectivos,

retrospectivos o transversales.



Tablas parciales


Odds ratio

El odds ratio muestral es:

θ =n11n22n12n21

El estimador modicado es:

θ =(n11 + 0,5) (n22 + 0,5)

(n12 + 0,5) (n21 + 0,5)

El error estándar estimado para log θ es:

σ(

log θ)

=

√1

n11+

1

n12+

1

n21+

1

n22



Tablas parciales


Odds ratio

Los estimadores θ y θ tienen la misma distribución normal

asintótica con respecto de θ.

Si el tamaño de muestra es grande, el intervalo de conanza

(1− α) 100% de Wald para log θ es:

log θ ∓ z1−α/2σ(

log θ)

El intervalo correspondiente para θ es:

exp

log θ ∓ z1−α/2σ(

log θ)



Tablas parciales


Ejemplo: Uso de aspirina y ataque al corazón

La proporción que sufrió ataque al corazón en el grupo placebo

es 0.0171 y en el grupo aspirina es 0.0094.

La diferencia de proporciones es 0.0077.

El riesgo relativo es 1.82 lo cual nos dice que la proporción que

sufre ataque al corazón en el grupo placebo es 1.82 veces la

proporción correspondiente en el grupo aspirina.

La razón de odds muestral es 1.83. El odds de los que sufren

ataque al corazón en el grupo placebo es 1.83 veces el odds

correspondiente al grupo aspirina.



Tablas parciales


Ejemplo: Cáncer al pulmón y hábito de fumar

Se considera que Y = Cáncer al pulmón y X = Hábito de

fumar. La tabla 5 consta de dos muestras binomiales sobre Xconsiderando Y jo.

La probabilidad que un sujeto sea fumador dado que tiene

cáncer al pulmón es 0.9704.

La probabilidad que un sujeto sea fumador dado que no tiene

cáncer al pulmón es 0.9168

Sin embargo no es posible estimar la probabilidad de tener

cáncer al pulmón dado que la persona fuma.



Tablas parciales


Ejemplo: Cáncer al pulmón y hábito de fumar

Tampoco es posible estimar diferencias de proporciones o la

razón de probabilidades para los que tienen cáncer al pulmón.

Sin embargo se puede calcular el odds ratio:

θ =688× 59

650× 21= 3

La interpretación puede usar la dirección que sea de interés

aún cuando el estudio fuese retrospectivo.

El odds estimado de cáncer al pulmón para fumadores fué 3

veces el odds estimado para los no fumadores.



Tablas parciales

IntroducciónOdds ratios condicionales y marginalesAsociación homogéneaOdds ratio en tablas I × J

Tablas parciales

En un estudio del efecto de X sobre Y es posible controlar

alguna otra variable que podría inuir en dicho efecto.

Suponga que se desea estudiar el efecto de ser un fumador

pasivo en el desarrollo de cáncer al pulmón.

Se podria comparar la proporción de fumadores pasivos con

cáncer al pulmón entre los grupos formados por los cónyuges

que fuman y no fuman.

Sin embargo los fumadores pasivos tienden a ser más jóvenes

en el grupo donde el cónyuge no fuma y como se sabe la gente

joven tiene menos posibilidades de tener cáncer al pulmón.



Tablas parciales


Tablas parciales

Una tabla parcial resulta de construir tablas de clasicación

para X y Y en cada nivel de Z .

La tabla de contingencia de dos vías obtenida combinando las

tablas parciales se llama tabla marginal XY .

Una tabla marginal en lugar de controlar Z lo que hace es

ignorarla ya que no contiene información con respecto de ella.

Las relaciones en una tabla parcial son llamadas asociaciones

condicionales debido a que se reeren al efecto de X sobre Ycondicionado en uno de los niveles de Z .



Tablas parciales


Ejemplo: Pena de muerte

Se desea estudiar el efecto de las características raciales sobre

la pena de muerte.

Se clasicaron 674 sujetos que fueron acusados de múltiples

asesinatos en Florida entre 1976 y 1987.

Las variables son Y = pena de muerte, X = raza del asesino y

Z = raza de la víctima.

Se estudia el efecto de la raza del asesino sobre el veredicto de

la pena de muerte, considerando la raza de la víctima como

variable control.

La tabla 6 contiene tablas parciales 2×2 que relacionan la raza

del asesino con el veredicto según la raza de la víctima.



Tablas parciales



Tabla 6: Veredicto para la pena de muerte

Pena de muerte

Víctima Asesino Si No Porcentaje

Blanca Blanca 53 414 11.3%

Negra 11 37 22.9%

Negra Blanca 0 16 0.0%

Negra 4 139 2.8%

Total Blanca 53 430 11.0%

Negra 15 176 7.9%



Tablas parciales



La tabla anterior muestra el porcentaje de acusados que

recibieron la pena de muerte.

Cuando las víctimas fueron de raza blanca la pena de muerte

fue impuesta al 22.9% y 11.3% de los asesinos negros y

blancos respecivamente.

Cuando las víctimas fueron de raza negra la pena de muerte

fue impuesta al 2.8% de los asesinos negros y a ninguno de

raza blanca.

Ignorando la raza de la víctima la pena de muerte fue impuesta

al 11.0% y 7.9% de los asesinos blancos y negros

respectivamente.



Tablas parciales


Odds ratios condicionales y marginales

Suponga una tabla 2× 2× K y sea µijk la frecuencia esperada

en la celda correspondiente.

Se ja Z = k y se dene el odds ratio condicional como:

θXY (k) =µ11kµ22kµ12kµ21k

y el odds ratio marginal como:

θXY =µ11+µ22+µ12+µ21+

Cuando se sustituyen los valores de µijk por las frecuencias

observadas se obtienen los odds ratios muestrales.



Tablas parciales


Odds ratios condicionales y marginales

Si θXY = 1 se dice que existe independencia marginal.

Si θXY (k) = 1 se dice que existe independencia condicionada a

que Z = k .

La independencia condicional a Z = k es equivalente a:

Pr(Y = j |X = i ,Z = k) = Pr(Y = j |Z = k)

para todo i , j .

La independencia condicional no implica la independencia

marginal.



Tablas parciales


Asociación homogénea

Una tabla 2× 2× K tiene una asociación XY homogénea

cuando:

θXY (1) = θXY (2) = · · · = θXY (K)

es decir, el tipo de asociación entre X y Y es el mismo para

las distintas categorías de Z .

Si existe una asociación XY homogénea entonces también

tenemos una asociación XZ homogénea y una asociación YZhomogénea.

Se dice también que no existe interacción entre las dos

variables con respecto a sus efectos en la otra variable.



Tablas parciales


Asociación homogénea

Sean X = Fumador (Si, No), Y = Cáncer de pulmón (Si, No)

y Z = Edad (< 45, 45 - 65, > 65).

Suponga que los odds ratios condicionales son:

θXY (1) = 1,2

θXY (2) = 3,9

θXY (3) = 8,8

El efecto de fumar se acentúa conforme la edad es mayor.

La edad se denomina efecto modicador, dado que el efecto de

fumar queda modicado cuando la edad aumenta.



Tablas parciales


Odds ratios en tablas I × J

Considere el subconjunto de (I − 1) (J − 1) odds ratios locales:

θij =πijπi+1,j+1

πi ,j+1πi+1,ji = 1, · · · , I − 1 j = 1, · · · , J − 1

Los odds ratios locales usan las celdas en las y columnas

adyacentes.

Otro subconjunto básico es:

αij =πijπI ,JπI ,jπi ,J

i = 1, · · · , I − 1 j = 1, · · · , J − 1



Tablas parciales


Ejemplo

Se realizó un estudio retrospectivo sobre cáncer al pulmón y

consumo de tabaco en pacientes de hospitales en Inglaterra.

Tabla 7: Cáncer de pulmón y consumo de tabaco

Número de cigarrillos Cáncer Control

Ninguno 7 61

Menos de 5 55 129

5 - 14 489 570

15 - 24 475 431

25 - 49 293 154

50 a más 38 12


Date post:	30-Jun-2020
Category:	Documents
Upload:	others
View:	1 times
Download:	0 times

Análisis de datos Categóricos - La Molina · 2017-03-30 · ablasT de contingencia Medidas de...

Documents