Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 1
Análisis de Datos
Categóricos
En el análisis de datos, a menudo nos encontramos con
mediciones de respuestas que son de naturaleza categórica.
Éstas respuestas reflejan información de categorías más que
mediciones en escala de intervalos o razón.
Extenderemos los principios básicos de la prueba de
hipótesis a situaciones que implican variables categóricas.
Trataremos información que se obtiene del recuento del
número de casos que se presentan al estudiar características
cualitativas
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 2
Análisis de Datos
CategóricosIntroducción
Si consideramos la situación más sencilla de esta unidad
donde cada observación de una muestra se clasifica como
pertenecientes a un número finito de categorías:
Ejemplo 1Se observaron 80 nacimientos de un cruzamiento de cerdos de los cuales
42 fueron rojizos, 12 negros y 26 blancos. Las leyes de la herencia
implican que estas tres categorías presentan un modelo genético 9:3:4, es
decir que deben tener probabilidades 9/16; 3/16 y 4/16 de aparecer en
cada cruzamiento. ¿Son los datos consistentes con el modelo teórico
propuesto?
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 3
Ejemplo 2
En la frontera fitosanitaria de la Patagonia se revisaron
cargamentos de frutas de distinta procedencia para evaluar la
posibilidad de introducción de mosca de las frutas (Ceratitis
capitata), una plaga importante de los frutales, en áreas no
infestadas. La información de cargamentos con presencia de
la plaga se resume en la siguiente tabla:
Presencia de la
plagaRegión de procedencia del cargamento
Cuyo NOA NEA
Con mosca 22 32 33
Sin mosca 67 5 10
¿Existe alguna dependencia entre la región de procedencia y
la presencia de la plaga?
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 4
Ejemplo 3Una formulación nueva de convertidor de oxido para tratar cierto material
se comparó con la formulación de mayor uso. Para esto se tomó al azar un
grupo de 300 piezas con herrumbre; a la mitad de éstas, tomados al azar,
se las trató con la nueva formulación y a las otras 150, con la formulación
tradicional. Luego de un tiempo se analizaron nuevamente las piezas con
el siguiente resultado:
¿Considera que estos tratamientos se comportan de manera similar?
Estado de las piezas luego del tratamiento
Tratamiento Empeoró Sin efecto Mejoró Totales
Nuevo 16 30 104 150
Tradicional 20 42 88 150
Totales 36 72 192 300
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 5
Distribución 2-cuadradoPara resolver estos problemas utilizaremos la distribución 2-
cuadrado.
La aplicaremos básicamente:
2-
cuadrado
Bondad de
Ajuste
Pruebas con probabilidades de cada
categoría completamente especificada
Bondad de ajuste a una variable
discreta
Bondad de ajuste a una variable
continua
Tablas de
contingencia
Pruebas de Homogeneidad
Pruebas de Independencia
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 6
Propiedades 2-cuadrado
Antes de dar una descripción más detallada de estas pruebas
repasemos algunas propiedades de esta distribución:
Es asimétrica con sesgo hacia la derecha
No toma valores negativos
Tiene una distribución diferente para cada número de grados de
libertad
df = 3
df = 5
df = 10
Valores de ji-cuadrado
Probabilidad
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 7
Pruebas de Bondad del Ajuste(Inferencias acerca del Experimento Multinomial)
Se desea contrastar una distribución de frecuencias observada en
una muestra con una distribución de frecuencias teórica
Verificar si responde a un determinado modelo o situación
preconcebida.
Es una generalización del experimento binomial.
Para aplicar la prueba se necesita una tabla donde se encuentren
registradas las frecuencias observadas y las frecuencias teóricas
o esperadas según el modelo. El estadístico que se utiliza en
estas pruebas es el siguiente:
k
i i
ii
e
eo
1
2
2
donde k es el número de categorías y oi y ei son las frecuencia
observada y esperada en la i-ésima categoría, respectivamente.
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 8
Características de la multinomial
Consta de n ensayos independientes e idénticos.
El resultado de cada ensayo cae en una de las k categorías
posibles (medidas en escala nominal) de la única variable, donde
k>2.
Hay una probabilidad asociada a cada categoría, la cual es
constante de un ensayo a otro
Las categorías son exhaustivas y excluyentes, por lo cual la
suma de sus probabilidades es 1
Se obtienen frecuencias observadas para cada categoría, siendo
su suma igual a n.
El número esperado de intentos que resulten en la categoría i es
E(Ni)= n*i,, donde i es la probabilidad de que cualquier
observación en particular pertenezca a la categoría i
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 9
Prueba de hipótesis para el experimento
multinomial
Hipótesis nula H0: 1, 2, ... , k poseen valores especificados
(iguales o no)
Hipótesis alternativa Ha: alguna probabilidad de las celdas. Difiere de
los valores especificados en H0
Estadístico de prueba donde o y e representan las
Frecuencias observadas y esperadas para cada
celda
Región de rechazo Está determinada por la distribución 2 , con un
determinado y k - 1 grados de libertad
Supuesto Las frecuencias esperadas no pueden ser en
ningún caso inferiores a 5
k
i i
ii
e
eo
1
2
2
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 10
Bajo la hipótesis nula los ni deben estar razonablementecerca de n*i
Cuando los valores de i difieran marcadamente de loespecificado en la hipótesis nula, los valores observadosdiferirán de los esperados.
El procedimiento de prueba implica medir las discrepanciasentre ni y n*i, rechazando la hipótesis nula cuando ladiscrepancia sea suficientemente grande
Hay solo k -1 valores de celda determinadas libremente ypor lo tanto k -1 grados de libertad.
Dado que grandes discrepancias entre valores observadosy esperados conducen a gran valor de ji-cuadrado elrechazo de H0 es apropiado cuando 2 2
, k –1(unilateral ala derecha)
Prueba de hipótesis para el experimento
multinomial
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 11
Veamos un ejemplo utilizando una distribución de las
paradas de una máquina por falla en el proceso de
producción.
De la observación en el tiempo tenemos que el número de paradas
de una máquina por fallas por día esxi fi
0 27
1 65
2 102
3 88
4 42
5 31
6 14
≥7 11
Total 380
¿Sería razonable, con = 0.05, pensar que el número de paradas
por día por falla sigue una distribución de Poisson?
Prueba de hipótesis para el experimento
multinomial
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 12
Prueba de hipótesis para el experimento
multinomial
1. Hipótesis. H0: sigue una distribución de Poisson con
parámetro = 0 ;
H1: no sigue una distribución de Poisson con
parámetro = 0
2. Nivel de significación. = 0.05.
3. Estadística de la prueba. que se distribuye compuesto que,
para esta prueba k = 8 y, por consiguiente, = 8 – 1 = 7.
4. Regla de decisión. Rechazamos H0 si, y solo si, el valor de
2 calculado es mayor que el valor crítico. En caso contrario,
se acepta H0.
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 13
Prueba de hipótesis para el experimento
multinomial
Aún cuando hemos desarrollado la prueba 2–cuadrado para
situaciones donde k>2, también se puede utilizar cuando k=2.
La hipótesis nula en este caso se puede expresar como H0: 1= 10.
Estas hipótesis también se pueden probar utilizando una prueba z de
dos colas con estadísticos de prueba
n
ˆ
n
)(
)n/N(Z
2010
101
1010
10
1
De manera sorprendente, los dos procedimientos de prueba son
completamente equivalentes. Esto es porque se puede demostrar que
Z2= 2 y (z/2)= 21 de modo que 2 2
, k –1 si y sólo si Z z/2.
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 14
Tablas de contingencia con dos criterios
de clasificación
1. Hay i-poblaciones de interés ubicadas cada una en una fila de la
tabla y en cada población se describen j-categorías o atributos. Se
toma una muestra de cada población y las frecuencias se anotan
en la celda de la tabla.
2. Hay una sola población de interés, y cada individuo es clasificado
respecto a dos factores diferentes (i-categorías de un factor j-
categorías de otro). Se toma una sola muestra y se anota el
número de individuos en cada categoría de ambos factores.
En una tabla de contingencia la información está representada por
conteos o frecuencias organizadas en i-filas y j-columnas (dos
criterios de clasificación). Se presentan dos situaciones:
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 15
Características de las tablas de contingencia
Consta de n ensayos independientes e idénticos
Hay 2 variables en juego y se representa una tabla de doble
entrada
El resultado de cada ensayo cae en una de las celdas, las cuales
resultan de las combinaciones posibles de categorías (medidas en
escala nominal) de ambas variables
Hay una probabilidad asociada a cada celda, la cual es constante
de un ensayo a otro
La probabilidad asociada a cada celda resulta del producto de sus
probabilidades marginales
La suma de las probabilidades asociadas a cada celda es 1
Se obtienen frecuencias observadas para cada categoría, siendo
su suma igual a n
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 16
Caso 1: Prueba de homogeneidad
Ocurre cuando una de las 2 variables es controlada por el
investigador, de modo que los totales por fila o por columna
están predeterminados
El análisis es idéntico al de las tablas de contingencia para
independencia
La hipótesis nula que se plantea en este caso consiste en
sostener que la distribución de proporciones entre las
categorías de la variable no controlada (por fila o por
columna) es la misma para cada categoría de la variable
controlada
Otra manera de abordar el mismo problema es preguntarse
si las muestras provienen de la misma población
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 17
Prueba de hipótesis para prueba de
homogeneidadHipótesis. H0: las i-muestras son extraídas de la misma población.
H1: son extraídas de diferentes poblaciones.
H0: 1j= 2j= 3j= ...= ij
H1: H0 no es verdadera
Nivel de significación. = 0.05.
Estadística de la prueba. que se distribuye aproximadamentecomo. Aquí = (i – 1)·(j – 1)
Regla de decisión. Rechazamos H0 si, y solo si, el valor de 2
calculado es mayor que 2,(i-1)*(j-1). En caso contrario, se acepta
H0.
k
i i
ii
e
eo
1
2
2
El esperado es estimado en cada celda..
.ji.
ijn
nne
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 18
Ejemplo para prueba de homogeneidadObjetivo: establecer si las preferencias acerca del envase de dulce de
leche son similares para hombres y mujeres
Envase lata plástico cartón vidrio Total
varones 27
(19,5)
30
(29,5)
19
(22,5)
24
(28,5)
100
mujeres 12
(19,5)
29
(29,5)
26
(22,5)
33
(28,5)
100
Total 39 59 45 57 200
H0: las preferencias acerca del envase de dulce de leche no difieren entre
hombres y mujeres
H1: las preferencias acerca del envase de dulce de leche difieren entre
hombres y mujeres
Estadístico 2*: 8,296 2 tabla ( = 0,05; gl = 3): 7,81 Valor p: 0,0402
Conclusión: se rechaza h0: las preferencias acerca del envase de dulce de
leche difieren entre hombres y mujeres
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 19
Caso 2: Prueba de independencia
Este tipo de prueba se aplica cuando existe interés en determinar si
dos atributos categóricos presentan algún tipo de asociación entre
ellos o, por el contrario, son independientes.
Este tipo de información se suele presentar en tablas de doble
entrada.
El estadístico que se utiliza en estas pruebas es el mismo que el
empleado en las pruebas de bondad del ajuste y homogeneidad.
Se estudia la relación entre dos factores diferentes de la misma
población
A diferencia de las pruebas de homogeneidad donde en general los
totales de filas están fijos por anticipado, en las pruebas de
independencia solo el tamaño muestral es fijo. Por lo tanto los
totales de filas como de columnas son variables aleatorias
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 20
Prueba de hipótesis para independencia
Hipótesis nula H0: ij=i.* .j las variables son
independientes
Hipótesis alternativa Ha: iji.* .j las variables no son
independientes
Estadístico de prueba donde O y E
representan las Frecuencias
observadas y esperadas para cada
celda
Región de rechazo Está determinada por la distribución
2 , con un determinado y
(i -1)(j -1) grados de libertad
E
EO2
2
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 21
Ejemplo para prueba de independenciaUna muestra de 500 estudiantes ingresantes en una universidad participó en un
estudio diseñada con el fin de evaluar el grado de conocimiento en matemáticas. La
siguiente tabla muestra los estudiantes clasificados según su formación secundaria
(escuelas técnicas, bachiller y otras) y el nivel de conocimiento en matemáticas
(bueno=aprobó el examen; deficiente = no aprobó el examen):
H0: La aptitud en matemáticas es independiente de la orientación del secundario
H1: La aptitud en matemáticas es dependiente de la orientación del secundario
Estadístico 2*:15,289 2 tabla( = 0,05; gl = 2): 5.99 Valor p: 0,00047845
Conclusión: se rechaza h0: La aptitud en matemáticas es independiente de la
orientación del secundario, por lo tanto las variables son dependientes.
Bueno Deficiente
Técnicas 20 60
Bachiller 15 150
Otras 25 230
¿Confirman estos datos que la aptitud en matemáticas depende de la orientación de
los estudios secundarios?
Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 22
Precauciones en la interpretación de
resultados
Los grados de libertad dependen de la cantidad de
categorías de las variables y no del número de
casos, de modo que el valor de tabla no se modifica
al aumentar el número de casos
Utilizando muestras grandes, se dice poca cosa al
decir que una relación es significativa, ya que es
relativamente fácil establecer significación, aún en el
caso de que la relación existente sea muy
superficial.