Análisis de datos categóricos -...

Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 1

Análisis de Datos

Categóricos

En el análisis de datos, a menudo nos encontramos con

mediciones de respuestas que son de naturaleza categórica.

Éstas respuestas reflejan información de categorías más que

mediciones en escala de intervalos o razón.

Extenderemos los principios básicos de la prueba de

hipótesis a situaciones que implican variables categóricas.

Trataremos información que se obtiene del recuento del

número de casos que se presentan al estudiar características

cualitativas


Análisis de Datos

CategóricosIntroducción

Si consideramos la situación más sencilla de esta unidad

donde cada observación de una muestra se clasifica como

pertenecientes a un número finito de categorías:

Ejemplo 1Se observaron 80 nacimientos de un cruzamiento de cerdos de los cuales

42 fueron rojizos, 12 negros y 26 blancos. Las leyes de la herencia

implican que estas tres categorías presentan un modelo genético 9:3:4, es

decir que deben tener probabilidades 9/16; 3/16 y 4/16 de aparecer en

cada cruzamiento. ¿Son los datos consistentes con el modelo teórico

propuesto?


Ejemplo 2

En la frontera fitosanitaria de la Patagonia se revisaron

cargamentos de frutas de distinta procedencia para evaluar la

posibilidad de introducción de mosca de las frutas (Ceratitis

capitata), una plaga importante de los frutales, en áreas no

infestadas. La información de cargamentos con presencia de

la plaga se resume en la siguiente tabla:

Presencia de la

plagaRegión de procedencia del cargamento

Cuyo NOA NEA

Con mosca 22 32 33

Sin mosca 67 5 10

¿Existe alguna dependencia entre la región de procedencia y

la presencia de la plaga?


Ejemplo 3Una formulación nueva de convertidor de oxido para tratar cierto material

se comparó con la formulación de mayor uso. Para esto se tomó al azar un

grupo de 300 piezas con herrumbre; a la mitad de éstas, tomados al azar,

se las trató con la nueva formulación y a las otras 150, con la formulación

tradicional. Luego de un tiempo se analizaron nuevamente las piezas con

el siguiente resultado:

¿Considera que estos tratamientos se comportan de manera similar?

Estado de las piezas luego del tratamiento

Tratamiento Empeoró Sin efecto Mejoró Totales

Nuevo 16 30 104 150

Tradicional 20 42 88 150

Totales 36 72 192 300


Distribución 2-cuadradoPara resolver estos problemas utilizaremos la distribución 2-

cuadrado.

La aplicaremos básicamente:

2-

cuadrado

Bondad de

Ajuste

Pruebas con probabilidades de cada

categoría completamente especificada

Bondad de ajuste a una variable

discreta

Bondad de ajuste a una variable

continua

Tablas de

contingencia

Pruebas de Homogeneidad

Pruebas de Independencia


Propiedades 2-cuadrado

Antes de dar una descripción más detallada de estas pruebas

repasemos algunas propiedades de esta distribución:

Es asimétrica con sesgo hacia la derecha

No toma valores negativos

Tiene una distribución diferente para cada número de grados de

libertad

df = 3

df = 5

df = 10

Valores de ji-cuadrado

Probabilidad


Pruebas de Bondad del Ajuste(Inferencias acerca del Experimento Multinomial)

Se desea contrastar una distribución de frecuencias observada en

una muestra con una distribución de frecuencias teórica

Verificar si responde a un determinado modelo o situación

preconcebida.

Es una generalización del experimento binomial.

Para aplicar la prueba se necesita una tabla donde se encuentren

registradas las frecuencias observadas y las frecuencias teóricas

o esperadas según el modelo. El estadístico que se utiliza en

estas pruebas es el siguiente:

k

i i

ii

e

eo

1

2

2

donde k es el número de categorías y oi y ei son las frecuencia

observada y esperada en la i-ésima categoría, respectivamente.


Características de la multinomial

Consta de n ensayos independientes e idénticos.

El resultado de cada ensayo cae en una de las k categorías

posibles (medidas en escala nominal) de la única variable, donde

k>2.

Hay una probabilidad asociada a cada categoría, la cual es

constante de un ensayo a otro

Las categorías son exhaustivas y excluyentes, por lo cual la

suma de sus probabilidades es 1

Se obtienen frecuencias observadas para cada categoría, siendo

su suma igual a n.

El número esperado de intentos que resulten en la categoría i es

E(Ni)= n*i,, donde i es la probabilidad de que cualquier

observación en particular pertenezca a la categoría i


Prueba de hipótesis para el experimento

multinomial

Hipótesis nula H0: 1, 2, ... , k poseen valores especificados

(iguales o no)

Hipótesis alternativa Ha: alguna probabilidad de las celdas. Difiere de

los valores especificados en H0

Estadístico de prueba donde o y e representan las

Frecuencias observadas y esperadas para cada

celda

Región de rechazo Está determinada por la distribución 2 , con un

determinado y k - 1 grados de libertad

Supuesto Las frecuencias esperadas no pueden ser en

ningún caso inferiores a 5

k

i i

ii

e

eo

1

2

2


Bajo la hipótesis nula los ni deben estar razonablementecerca de n*i

Cuando los valores de i difieran marcadamente de loespecificado en la hipótesis nula, los valores observadosdiferirán de los esperados.

El procedimiento de prueba implica medir las discrepanciasentre ni y n*i, rechazando la hipótesis nula cuando ladiscrepancia sea suficientemente grande

Hay solo k -1 valores de celda determinadas libremente ypor lo tanto k -1 grados de libertad.

Dado que grandes discrepancias entre valores observadosy esperados conducen a gran valor de ji-cuadrado elrechazo de H0 es apropiado cuando 2 2

, k –1(unilateral ala derecha)


multinomial


Veamos un ejemplo utilizando una distribución de las

paradas de una máquina por falla en el proceso de

producción.

De la observación en el tiempo tenemos que el número de paradas

de una máquina por fallas por día esxi fi

0 27

1 65

2 102

3 88

4 42

5 31

6 14

≥7 11

Total 380

¿Sería razonable, con = 0.05, pensar que el número de paradas

por día por falla sigue una distribución de Poisson?


multinomial



multinomial

1. Hipótesis. H0: sigue una distribución de Poisson con

parámetro = 0 ;

H1: no sigue una distribución de Poisson con

parámetro = 0

2. Nivel de significación. = 0.05.

3. Estadística de la prueba. que se distribuye compuesto que,

para esta prueba k = 8 y, por consiguiente, = 8 – 1 = 7.

4. Regla de decisión. Rechazamos H0 si, y solo si, el valor de

2 calculado es mayor que el valor crítico. En caso contrario,

se acepta H0.



multinomial

Aún cuando hemos desarrollado la prueba 2–cuadrado para

situaciones donde k>2, también se puede utilizar cuando k=2.

La hipótesis nula en este caso se puede expresar como H0: 1= 10.

Estas hipótesis también se pueden probar utilizando una prueba z de

dos colas con estadísticos de prueba

n

ˆ

n

)(

)n/N(Z

2010

101

1010

10

1

De manera sorprendente, los dos procedimientos de prueba son

completamente equivalentes. Esto es porque se puede demostrar que

Z2= 2 y (z/2)= 21 de modo que 2 2

, k –1 si y sólo si Z z/2.


Tablas de contingencia con dos criterios

de clasificación

1. Hay i-poblaciones de interés ubicadas cada una en una fila de la

tabla y en cada población se describen j-categorías o atributos. Se

toma una muestra de cada población y las frecuencias se anotan

en la celda de la tabla.

2. Hay una sola población de interés, y cada individuo es clasificado

respecto a dos factores diferentes (i-categorías de un factor j-

categorías de otro). Se toma una sola muestra y se anota el

número de individuos en cada categoría de ambos factores.

En una tabla de contingencia la información está representada por

conteos o frecuencias organizadas en i-filas y j-columnas (dos

criterios de clasificación). Se presentan dos situaciones:


Características de las tablas de contingencia

Consta de n ensayos independientes e idénticos

Hay 2 variables en juego y se representa una tabla de doble

entrada

El resultado de cada ensayo cae en una de las celdas, las cuales

resultan de las combinaciones posibles de categorías (medidas en

escala nominal) de ambas variables

Hay una probabilidad asociada a cada celda, la cual es constante

de un ensayo a otro

La probabilidad asociada a cada celda resulta del producto de sus

probabilidades marginales

La suma de las probabilidades asociadas a cada celda es 1

Se obtienen frecuencias observadas para cada categoría, siendo

su suma igual a n


Caso 1: Prueba de homogeneidad

Ocurre cuando una de las 2 variables es controlada por el

investigador, de modo que los totales por fila o por columna

están predeterminados

El análisis es idéntico al de las tablas de contingencia para

independencia

La hipótesis nula que se plantea en este caso consiste en

sostener que la distribución de proporciones entre las

categorías de la variable no controlada (por fila o por

columna) es la misma para cada categoría de la variable

controlada

Otra manera de abordar el mismo problema es preguntarse

si las muestras provienen de la misma población


Prueba de hipótesis para prueba de

homogeneidadHipótesis. H0: las i-muestras son extraídas de la misma población.

H1: son extraídas de diferentes poblaciones.

H0: 1j= 2j= 3j= ...= ij

H1: H0 no es verdadera

Nivel de significación. = 0.05.

Estadística de la prueba. que se distribuye aproximadamentecomo. Aquí = (i – 1)·(j – 1)

Regla de decisión. Rechazamos H0 si, y solo si, el valor de 2

calculado es mayor que 2,(i-1)*(j-1). En caso contrario, se acepta

H0.

k

i i

ii

e

eo

1

2

2

El esperado es estimado en cada celda..

.ji.

ijn

nne


Ejemplo para prueba de homogeneidadObjetivo: establecer si las preferencias acerca del envase de dulce de

leche son similares para hombres y mujeres

Envase lata plástico cartón vidrio Total

varones 27

(19,5)

30

(29,5)

19

(22,5)

24

(28,5)

100

mujeres 12

(19,5)

29

(29,5)

26

(22,5)

33

(28,5)

100

Total 39 59 45 57 200

H0: las preferencias acerca del envase de dulce de leche no difieren entre

hombres y mujeres

H1: las preferencias acerca del envase de dulce de leche difieren entre

hombres y mujeres

Estadístico 2*: 8,296 2 tabla ( = 0,05; gl = 3): 7,81 Valor p: 0,0402

Conclusión: se rechaza h0: las preferencias acerca del envase de dulce de

leche difieren entre hombres y mujeres


Caso 2: Prueba de independencia

Este tipo de prueba se aplica cuando existe interés en determinar si

dos atributos categóricos presentan algún tipo de asociación entre

ellos o, por el contrario, son independientes.

Este tipo de información se suele presentar en tablas de doble

entrada.

El estadístico que se utiliza en estas pruebas es el mismo que el

empleado en las pruebas de bondad del ajuste y homogeneidad.

Se estudia la relación entre dos factores diferentes de la misma

población

A diferencia de las pruebas de homogeneidad donde en general los

totales de filas están fijos por anticipado, en las pruebas de

independencia solo el tamaño muestral es fijo. Por lo tanto los

totales de filas como de columnas son variables aleatorias


Prueba de hipótesis para independencia

Hipótesis nula H0: ij=i.* .j las variables son

independientes

Hipótesis alternativa Ha: iji.* .j las variables no son

independientes

Estadístico de prueba donde O y E

representan las Frecuencias

observadas y esperadas para cada

celda

Región de rechazo Está determinada por la distribución

2 , con un determinado y

(i -1)(j -1) grados de libertad

E

EO2

2


Ejemplo para prueba de independenciaUna muestra de 500 estudiantes ingresantes en una universidad participó en un

estudio diseñada con el fin de evaluar el grado de conocimiento en matemáticas. La

siguiente tabla muestra los estudiantes clasificados según su formación secundaria

(escuelas técnicas, bachiller y otras) y el nivel de conocimiento en matemáticas

(bueno=aprobó el examen; deficiente = no aprobó el examen):

H0: La aptitud en matemáticas es independiente de la orientación del secundario

H1: La aptitud en matemáticas es dependiente de la orientación del secundario

Estadístico 2*:15,289 2 tabla( = 0,05; gl = 2): 5.99 Valor p: 0,00047845

Conclusión: se rechaza h0: La aptitud en matemáticas es independiente de la

orientación del secundario, por lo tanto las variables son dependientes.

Bueno Deficiente

Técnicas 20 60

Bachiller 15 150

Otras 25 230

¿Confirman estos datos que la aptitud en matemáticas depende de la orientación de

los estudios secundarios?


Precauciones en la interpretación de

resultados

Los grados de libertad dependen de la cantidad de

categorías de las variables y no del número de

casos, de modo que el valor de tabla no se modifica

al aumentar el número de casos

Utilizando muestras grandes, se dice poca cosa al

decir que una relación es significativa, ya que es

relativamente fácil establecer significación, aún en el

caso de que la relación existente sea muy

superficial.

Date post:	15-Jun-2018
Category:	Documents
Upload:	lyngoc
View:	214 times
Download:	0 times

Análisis de datos categóricos -...

Documents