+ All Categories

Download - Metodos No Parametricos

Transcript

UNIVERSIDAD NACIONAL ABIERTA CENTRO LOCAL METROPOLITANO

LICENCIATURA EN MATEMTICA MENCIN PROBABILIDAD Y ESTADSTICA

U NA ESTUDIO DE MTODOS NO PARAMTRICOS

Informe de pasantas presentado como requisito para optar al ttulo de

Licenciado en Matemtica Mencin Probabilidad y Estadstica

Autor: Frank Rodrguez Tutor: MSc. Amrica Vera

Caracas, Marzo de 2008
LISTA DE ILUSTRACIONES

GRFICOS Pag.

Figura I.2.2.1. Distribucin con tres niveles de significancia distintos en

donde se muestra la regin de aceptacin y rechazo 5

Figura I.3.1. Curvas de funcin de potencia de una prueba de dos colas

con nivel de significancia = 0.05 con diferentes tamaos de muestras 7 Figura I.5.1. El rea sombreada muestra la regin de rechazo de una prueba

de dos colas 13

Figura I.5.2. El rea sombreada muestra la regin de rechazo de una prueba

de cola derecha o superior. 13

Figura I.5.3. El rea sombreada muestra la regin de rechazo de una prueba

de cola izquierda o inferior 13

Figura II.6.1. Regin derechazo para la prueba de corridas (rachas) 34

Figura II.6.2. Distribucin de n 1 elementos S en y 1 celdas 35

Grfica III.7.1. Distribucin muestral de R 74

Grfica III.7.2. Distribucin de probabilidad de R 74

Grfica III.7.3. Muestra la brillantez en funcin del tiempo 77

TABLAS

Tabla I.1.1. Resumen de probabilidades segn el tipo de error 4

Tabla I.4.4.1. Temperatura en centgrados y Fahrenheit 11

Tabla I.4.5.1. Resumen de los cuatro niveles de representacin 12

Tabla II.2.1. Hiptesis alternativa y regin de rechazo para la hiptesis

nula 0 = 22
iii

Tabla II.2.2.1. Hiptesis alternativa y regin de rechazo para la hiptesis

nula X = Y 24 Tabla II.4.1. Hiptesis alternativa y regin de rechazo para la hiptesis

nula BA = 29 Tabla III.1.1. Observaciones y diferencias de mediciones de la resistencia

a la compresin de probetas preparadas para el ensayo 44

Tabla III.1.2. Observaciones y diferencias de las cantidades de monxido

de carbono (CO) emitidas contenidas en al aire 47

Tabla III.1.3. Observaciones y diferencias de las calificaciones del examen

con mediana 66 y 75 de los casos a) y b) respectivamente 49

Tabla III.2.1. Nmero de rechazos ocurridos antes y despus de la aplicacin

del nuevo saborizante en las compotas 51

Tabla III.2.2. Nmero de rechazos ocurridos antes y despus de la aplicacin

del saborizante indicando el signo de su diferencia 52

Tabla III.2.3. Nmero de piezas defectuosas producidas por mquina 53

Tabla III.2.4. Nmero de tuercas defectuosas por mquina y signo

de la diferencia 54

Tabla III.3.1. Medicin de resistencia 56

Tabla III.4.1. Pesos en libras antes y despus de aplicar la dieta a 16

personas 57

Tabla III.4.2. Pesos en libras antes y despus de aplicarla dieta a 16

personas con los rangos asignados 59

Tabla III.4.3. Datos pareados y sus diferencias para el ejemplo III.4.2 61

Tabla III.5.1. Resistencia de cable segn su aleacin 62

Tabla III.5.2. Asignacin de rango a las resistencias 62
iv

Tabla III.5.3. Rangos asociados de la tabla III.5.2 63

Tabla III.5.4. Datos del papel tamao carta con sus rangos y sus sumas

de rango 65

Tabla III.5.5. Asignaciones de rangos a las calificaciones 66

Tabla III.6.1. Calificaciones de examen final obtenida por tres grupos

con tres mtodos distintos 67

Tabla III.6.2. Nmero de unidades producidas por las mquinas A, B, C,

D, E 68

Tabla III.6.3. Asignacin de rango a los valores y su sumatoria 69

Tabla III.6.4. Datos del ejemplo III.6.3 70

Tabla III.7.1 Secuencia-corridas 73

Tabla III.7.2. Tabla (R,f) consecuencia de la tabla III.7.1 74

Tabla III.8.1. Estatura de 12 padres y sus hijos mayores 78

Tabla III.8.2. Los valores de la tabla III.8.1 sustituidos por sus rangos 79

Tabla III.8.3. Diferencia en rangos y su cuadrado 79

Tabla III.8.4. Compara nivel acadmico con el nivel profesional 10 aos

despus de graduados y la diferencia de rangos 80

Tabla III.8.5. Compara nivel acadmico con el nivel profesional 10 aos

despus de graduados y la diferencia de rangos 81

Tabla III.8.6. Horas de estudios por estudiante y las calificaciones

que obtuvieron en el examen de matemticas 82

Tabla III.8.7. Indicacin de rangos por variables y sus diferencias 83

Tabla III.9.1. Frecuencias acumulativas observadas y relativas 86

Tabla III.9.2. Frecuencias acumulativas observadas relativas, frecuencias

acumulativas relativas esperadas y desviaciones absolutas 87
v

Tabla IV.1.Conversin de valores paramtricos a rangos no paramtricos 93

Tabla # 1. Distribucin de Probabilidades Binomiales 98

Tabla # 2. Distribucin normal estndar 103

Tabla # 3. Prueba de rangos con signos de Wilcoxon. Valores crticos de T 104

Tabla # 4. Prueba U de Mann-Whitney. Valores crticos de U 105

Tabla # 5. Valores de 2, 107

Tabla # 6. Rachas o corridas. Valores crticos de R 108

Tabla # 7. Valores crticos del coeficiente de correlacin de rangos de Spearman110

Tabla # 8. Valores crticos de D para la prueba de bondad de ajuste

de Kolmogorov-Smirnov 111
vii

NDICE

Pg.

Introduccin 1

CAPTULO I 2

Prueba estadstica y prueba de hiptesis 2

I.1 Elementos de una prueba estadstica 2

I.2 Nivel de significancia de una prueba 4

I.2.1 Seleccin 4

I.2.2 Interpretacin 4

I.3 Funcin de potencia de una prueba de hiptesis 6

I.4 Escalas de medicin 8

I.4.1 Introduccin 8

I.4.2 Escala nominal o clasificatoria 8

I.4.3 Escala ordinal o de rango 9

I.4.4 Escala de intervalo 10

I.4.5 Escala de proporcin 11

I.5 Teora de decisin 12

CAPTULO II 14

Las pruebas y su teora 14

II.1 Prueba del signo. Breve historia 14

II.1.1 Prueba del signo de una sola muestra 14

II.1.2 Prueba del signo para muestras en pares. Experimentos de pares

comparados 17

II.1.2.1 Caso de dos muestras 17

II.1.2.2 Modelo general de desplazamiento 18
viii

II.1.2.3 Prueba de los signos para un experimento de pares comparados 18

II.2 Prueba de Wilcoxon 20

II.2.1 Prueba de rangos para una sola muestra. Intervalos con signos 20

II.2.2 Prueba de rangos con signos de Wilcoxon para un experimento

de pares comparados 23

II.3 Prueba de suma de rangos de Wilcoxon. Muestras aleatorias independientes 26

II.4 Prueba U de Mann-Whitney. Muestras aleatorias independientes 26

II.5 Prueba H de Kruskal- Wallis 32

II.6 Prueba de corridas (rachas) de una sola muestra 34

II.7 Coeficiente de correlacin de rangos de Spearman 38

II.8 Prueba de Kolmogorov-Smirnov 41

CAPTULO III 43

Las pruebas y sus aplicaciones 43

III.1 Aplicaciones de la prueba del signo de una sola muestra 43

III.2 Aplicaciones de la prueba del signo para muestras de pares comparados 50

III.3 Aplicaciones para la prueba de rangos con signos de Wilcoxon para

un experimento de una sola muestra 55

III.4 Aplicaciones para la prueba de rangos con signos de Wilcoxon para

un experimento de pares comparados 57

III.5 Aplicaciones para la prueba U de Mann-Whitney 61

III.6 Aplicaciones de la prueba H de Kruskal- Wallis 67

III.7 Aplicaciones de la prueba de corridas (rachas) de una sola muestra 71

III.8 Aplicaciones del coeficiente de correlacin de rangos de Spearman 78

III.9 Aplicaciones de la prueba de Kolmogorov-Smirnov 84

CAPTULO IV 89
ix

Anlisis, conclusiones y recomendaciones 89

IV.1 Pruebas estadsticas paramtricas y no paramtricas 89

IV.2 Ventajas de los mtodos no paramtricos 92

IV.3 Desventajas de los mtodos no paramtricos 93

IV.4 Recomendaciones 94

APNDICE A 95

Teorema central del lmite 95

APNDICE B 98

Tabla # 1. Distribucin de probabilidades binomiales 98

Tabla # 2. Distribucin normal estndar 103

Tabla # 3 Valores crticos de T (Wilcoxon) 104

Tabla # 4 Valores crticos de U (Mann-Whitney) 105

Tabla # 5 Valores de 2, 107

Tabla # 6. Valores crticos de R (rachas o corridas) 108

Tabla # 7. Valores crticos del coeficiente de correlacin de

rangos de Spearman 110

Tabla # 8. Valores crticos de D (Kolmogorov-Smirnov) 111

REFERENCIA BIBLIOGRFICA 112
1

INTRODUCCIN

Cada vez es ms frecuente el uso de mtodos no paramtricos para el

anlisis estadstico entre profesionales y estudiantes de diferentes reas del

conocimiento, entre otras, las ciencias sociales, medicina, ingeniera y aquellas que

estudian las preferencias del consumidor. Esto ha motivado la elaboracin del presente

trabajo. Las pruebas estadsticas no paramtricas forman, hoy da, un conjunto amplio

con muchos mtodos de inferencia disponible, y debido a su importancia y lo poco

conocidas se presenta un estudio, introductorio, que describe los mtodos de Pruebas:

de signo, Wilcoxon, U de Mann-Whitney, H de Kruskal-Wallis, de corridas, correlacin

de rangos y de Kolmogorov-Smirnov mostrando, en forma clara, las aplicaciones en que

son de utilidad estos mtodos.

En ningn momento se pretende abordar el tema bajo estudio de manera

exhaustiva, se hace una recopilacin bibliogrfica considerando el fundamento terico y

aplicaciones de los mtodos mencionados arriba, y presentamos una comparacin con

los mtodos clsicos, en donde es posible.
2

CAPTULO I

PRUEBA ESTADSTICA Y PRUEBA DE HIPTESIS

I.1 ELEMENTOS DE UNA PRUEBA ESTADSTICA

En una prueba estadstica todo se inicia con una suposicin que hacemos de

un valor hipottico de la poblacin, cosa que se puede determinar, por ejemplo, en

forma intuitiva o producto de la experiencia que tenemos sobre un parmetro de algn

evento, que en particular creemos que tiene una determinada poblacin.

Uno de los objetivos de una prueba estadstica es el de probar una hiptesis

relacionada con los valores de uno o ms parmetros poblacionales. Una vez planteado

el problema, formulamos una hiptesis de investigacin respecto a los parmetros que

queremos sustentar y despus de seleccionar la hiptesis, se recogen los datos empricos

que dan informacin directa acerca de la aceptabilidad de sta, la cual es llamada

hiptesis nula y se denota mediante H 0 . Este trmino, hiptesis nula, surgi de las

primeras aplicaciones agrcolas y mdicas de la estadstica, teniendo como fin el probar

la efectividad de un nuevo fertilizante o una nueva medicina, la hiptesis que se probaba

era que no tuvo efecto, es decir, no hubo diferencia entre las muestras tratadas y no

tratadas.

Cuando nos referimos a un parmetro cualquiera de la poblacin, por

ejemplo , el smbolo 0 se usar en los planteamientos de este tipo de problemas para representar el valor hipottico del parmetro poblacional que corresponde a la hiptesis

nula.

La decisin acerca del significado de los datos, una vez procesado, puede

conducir a la confirmacin, revisin o rechazo de la hiptesis y, con ella, la teora que la

origin.

La hiptesis alternativa, que se denota por H 1 , es la hiptesis que se acepta

si se rechaza H 0 y que queremos comprobar con base en la informacin de la muestra.
3

Por definicin una hiptesis estadstica es una afirmacin o conjetura de la

distribucin de una o ms variables aleatorias. Y cuando especfica por completo la

distribucin, recibe el nombre de hiptesis simple; si no, se conoce como hiptesis

compuesta.

Las partes esenciales de una prueba estadstica son el estadstico de prueba

y una regin de rechazo asociada. El estadstico de prueba, como un estimador, es una

funcin de las mediciones de la muestra que sirve de fundamento para las tomas de

decisiones estadsticas. La regin de rechazo, denotada por RR, especifica los valores

del estadstico de prueba para los que la hiptesis nula se rechaza a favor de la hiptesis

alternativa. Si en una muestra el valor calculado del estadstico de prueba est en la

regin RR, rechazamos la hiptesis nula H 0 y aceptamos la hiptesis alternativa H 1 . Si

el valor del estadstico de prueba no cae en la regin de rechazo RR, aceptamos H 01.

Un problema importante es encontrar una buena regin de rechazo para una

prueba estadstica y en cualquier regin de rechazo fija se pueden cometer dos tipos de

errores al tomar una decisin. Podemos decidirnos a favor de H 1 cuando H 0 es

verdadera o lo que es lo mismo rechazar H 0 cuando es verdadera, este error se

denomina del tipo I con probabilidad denominada nivel de significancia de la prueba, o podemos decidirnos a favor de H 0 cuando H 1 es verdadera lo que equivale a rechazar

H 1 cuando es verdadera; este error se denomina del tipo II con probabilidad . As estas probabilidades proporcionan una manera prctica de medir la bondad de una

prueba y podramos resumirlas de la siguiente manera segn se muestra en la

tabla # I.1.1

1 Aceptar es asegurar que la hiptesis Ho es verdadera 100% y esto no es as. En la mayora de los textos que tratan el tema se usa esta expresin como una abreviacin que no es ms que un abuso del lenguaje. Todos aclaran, y as tambin lo hacemos aqu, que lo que se quiere decir es que no se tiene suficientes elementos de juicio desde el punto de vista estadstico como para rechazarla; siendo sta la forma ms adecuada o completa. En esta monografa se hace tambin de las dos formas y es bueno que se tenga presente para no crear confusin.
4

Probabilidad de rechazar la hiptesis cuando es verdadera:P(RHCEV)1

Tipo de error

P(RH 0 CEV) = I

P(RH 1 CEV) = II Tabla # I.1.1. Resumen de probabilidades segn el tipo de error.

I.2 NIVEL DE SIGNIFICANCIA DE UNA PRUEBA

I.2.1 SELECCIN

El cuestionar o no el valor calculado del estadstico de una muestra no es el

propsito de la prueba de hiptesis, sino hacer un juicio con respecto a la diferencia

entre el valor de ese estadstico de muestra y un parmetro hipottico de la poblacin.

Una vez establecida la hiptesis nula y la alternativa, entonces, todo consiste en decidir

qu criterio utilizar para decidir si aceptar o rechazar la hiptesis nula.

I.2.2 INTERPRETACIN

No existe un nivel de significancia nico universal para probar hiptesis. En

algunos casos, se utiliza un nivel de significancia de 5%. Algunos resultados de

investigaciones publicados a menudo prueban hiptesis al nivel de significancia de 1%.

Es posible probar una hiptesis a cualquier nivel de significancia. Pero es bueno

recordar que la eleccin del estndar mnimo para una probabilidad aceptable, o el nivel

de significancia, es tambin el riesgo que se asume al rechazar una hiptesis nula

cuando es cierta. Mientras ms alto sea el nivel de significancia que se utilice para

probar una hiptesis, mayor ser la probabilidad de rechazar una hiptesis nula cuando

sea cierta.

Al examinar este concepto, nos referimos a la figura # I.2.2.1 en la que se ha

ilustrado una prueba de hiptesis con 00 : =H y 01 : H a tres niveles de 1 Probabilidad de Rechazar la Hiptesis Cuando Es Verdadera se abrevia como P(RHCEV). Obsrvese que las palabras que se inician con mayscula son las nicas que se incluyen en el parntesis.
5

significancia diferentes: 0.01, 0.1, y 0.50. En ella se puede observar la distribucin

muestral, la regin de aceptacin de la hiptesis nula (en blanco) y su regin de rechazo

(sombreada).

Figura # I.2.2.1. Distribucin con tres niveles de significancia distintos en

donde se muestra la regin de aceptacin y de rechazo.

Tambin se ubica en ella la misma muestra x en cada una de las distribuciones en donde

puede verse que tanto en a) como en b) aceptaramos la hiptesis nula de que la media

de poblacin es igual al valor hipottico. Pero observe que en la parte c) de la misma

figura, rechazaramos la misma hiptesis nula que con la condicin anterior se acept,

pues nuestro nivel de significancia de 0.50 en esa parte es tan alto que raramente

aceptaramos dicha hiptesis cuando no sea cierta, pero, al mismo tiempo la

rechazaramos cuando es cierta.
6

Observemos que cuando ampliamos RR para obtener una nueva regin de

rechazo RR*; es decir, RR RR*, la prueba con la regin de rechazo RR* nos llevar a rechazar H 0 con ms frecuencia. Si * y denotan las probabilidades de los errores tipo I (niveles de las pruebas) cuando utilizamos RR* y RR como regiones de rechazo,

respectivamente, entonces, como RR RR*, * = P( el estadstico de la prueba est en RR* cuando H 0 es verdadera)

P( el estadstico de la prueba est en RR cuando H 0 es verdadera) = .

De la misma manera, si usamos la regin de rechazo ampliada RR*, el

procedimiento de la prueba nos llevar a aceptar H 0 con menor frecuencia. Si * y denotan las probabilidades de los errores tipo II para las pruebas con regiones de

rechazo RR* y RR, respectivamente, entonces

* = P( el estadstico de la prueba no est en RR* cuando H 1 es verdadera) P( el estadstico de la prueba no est en RR cuando H 1 es verdadera) = . Estas relaciones permiten notar que si se modifica la regin de rechazo para

incrementar , disminuye. De la misma manera, si el cambio en la regin de rechazo da como resultado que disminuya, se incrementa. Por lo tanto, y estn relacionados de manera inversa. Para poder reducir los valores de o debemos obtener ms informacin respecto a la verdadera naturaleza de la poblacin

incrementando el tamao de la muestra. En casi todas las muestras estadisticas, si se mantiene fijo con un valor suficientemente menor, disminuye a medida que aumenta el tamao de la muestra.

I.3 FUNCIN DE POTENCIA DE UNA PRUEBA DE HIPTESIS

La bondad de una prueba de hiptesis se mide mediante las probabilidades

de cometer errores de tipo I y II, stos estn identificados con y , respectivamente,
7

Figura # I.3.1. Curvas de funcin de potencia de una prueba de dos colas con nivel de significancia = 0.05 con diferentes tamaos de muestras.

donde se elige con anterioridad, y determina la localizacin de la regin de rechazo. Un mtodo que presenta una mayor utilidad para evaluar el desempeo de una prueba

recibe el nombre de funcin de potencia de una prueba de una hiptesis estadstica H 0

contra una hiptesis alternativa H1 y est dada por

con supuestos de valorespara )(1

con supuestos de valorespara )()(

1

o

= H

Hfp

La figura # I.3.1 muestra las curvas tpicas fp para la prueba de H 0 : 0 = (hiptesis simple) frente a la hiptesis alternativa H 1 : 0 (hiptesis compuesta) a medida que el tamao de la muestra (n) se incrementa, de modo que la funcin potencia aumenta al

crecer el tamao de n. Esto en algunos casos de la prctica no siempre es posible pues

el investigador puede estar estudiando un caso muy raro de enfermedad, por ejemplo, en

la que n solo se dispondr en valores pequeos. En la figura se ilustra el incremento de

la potencia de una prueba de dos colas de la media que se produce con muestras de
8

tamao cada vez mayor, siendo n sucesivamente igual a 4, 10, 20, 50 y 100. Estas

muestras se tomaron de poblaciones normales con varianza 2 . Es importante tener en cuenta que cuando los supuestos que constituyen el

modelo estadstico para una prueba no han sido en verdad satisfechos, o cuando la

medida carece de la fuerza requerida, es difcil, si no imposible, medir la potencia de la

prueba.

I.4 ESCALAS DE MEDICIN

I.4.1 INTRODUCCIN

Los investigadores principiantes y an los ms experimentados que usan la

estadstica como herramienta, encuentran dificultades en muchos casos, para decidir

cual de las pruebas estadsticas es la ms adecuada para analizar un conjunto de datos.

Las reas en las que se aplica la estadstica para el anlisis de datos son muy amplias y

diversas, pues abarca desde las ciencias bsicas, pasando por las ciencias mdicas y las

tecnolgicas, hasta llegar a las ciencias sociales y las que estudian las preferencias del

consumidor. La seleccin de la prueba estadstica necesaria para el caso, depende de

varios factores, y uno de ellos es la escala con la que se estn midiendo los datos que se

analizarn, pues no es igual procesar una variable que identifica el peso de un artculo

que la profesin del usuario de un producto. La medicin es el proceso de asignar

nmeros a objetos u observaciones. En seguida describiremos los cuatro mtodos de

medicin usados comnmente: nominal, ordinal, de intervalo y de proporcin.

I.4.2 ESCALA NOMINAL O CLASIFICATORIA

Es aquella escala en donde los nmeros o smbolos se usan con el fin de

distinguir entre s los grupos a que pertenecen varios objetos, personas o caractersticas

representando un nivel elemental de medicin pues simplemente los clasifica. Cada uno

de estos grupos debe ser mutuamente excluyente y la nica relacin implicada es la de
9

equivalencia ( = ) la cual es reflexiva (x = x x), simtrica (x = y y = x x,y) y transitiva (si x = y e y = z x = z x,y,z) . Ejemplos. Cuando un mdico psiquitrico examina a sus pacientes y los agrupa por

diagnstico como esquizofrnico, paranoico, manaco-depresivo o psiconeurtico se

vale de un smbolo para representar la clase de personas a que pertenece ese individuo;

por tanto se emplea la escala nominal.

Los nmeros de los uniformes de los futbolistas y de los policas tambin

ejemplifican el empleo de nmeros en escala nominal.

Tambin la asignacin de placas automovilsticas conforma otro ejemplo de

esta escala, pues en algunos pases los nmeros y letras de las placas indican el lugar

donde reside cada propietario del automvil, y tenemos que cada subclase de la escala

nominal consta de un grupo de entidades: todos los propietarios que residen en el

mismo lugar. La asignacin de los nmeros debe ser tal que el mismo nmero (o letra)

se d a todas las personas que residen en el mismo lugar y que diferentes nmeros (o

letras) se den a personas que residen en lugares diferentes. Esto es, el nmero o la letra

de la placa debe indicar claramente a qu conjunto de las subclases que se excluyen

mutuamente pertenece el propietario. Observe que en ste ejemplo como en los

anteriores, la diferencia entre dos valores cualesquiera de una escala para una prueba

estadstica no paramtrica carece de sentido y la frecuencia es un ejemplo de estadstico

utilizado en este tipo de escala.

I.4.3 ESCALA ORDINAL O DE RANGO

Se llama escala ordinal a toda escala nominal en la que se sostenga la

relacin >, que significa mayor que, entre todos los pares de clases de modo que surja

un rango ordenado completo. Este orden cumple con las relaciones de equivalencia ( = )

y la de mayor que ( > ), es irreflexiva ( x, x no es > x), asimtrica ( x,y x > y y no es > x) y transitiva ( x,y,z x > y e y > z x > y).
10

Ejemplos. En el sistema educativo de un pas podra medirse el nivel de conocimientos,

o grado de preparacin, alcanzado por los estudiantes en las diferentes materias segn

las notas por ellos obtenidas. En la escala del 1 al 20 cada una de las notas representa

una clase. La relacin de equivalencia (=) se mantiene entre los miembros de la misma

clase y la relacin mayor que (>), entre cualquier pareja de clases.

El sistema de grados en el ejrcito es tambin un ejemplo de una escala

ordinal. El sargento > el cabo > el soldado raso cumple con la relacin mayor que, la

misma es irreflexiva: es decir el cabo no es mayor que el cabo; y es asimtrica: el cabo

es mayor que el soldado raso entonces el soldado raso no es mayor que el cabo y

transitiva: como el sargento es mayor que el cabo y ste a su vez mayor que el soldado

raso entonces el sargento es mayor que el soldado raso. Aqu tambin se mantiene la

relacin de equivalencia (=) entre elementos de la misma clase, ya que es reflexiva,

simtrica y transitiva.

Como puede verse por medio de estos ejemplos la diferencia entre valores

en esta escala no representa informacin con valor aunque s la posicin que las

diferentes clases tienen en ella.

Existen varios estadsticos que usan este tipo de escala para pruebas

estadsticas no paramtricas, uno de ellos es el coeficiente de correlacin de Spearman

que ser tratado ms adelante.

I.4.4 ESCALA DE INTERVALO

Se define as aquella escala en la que se especifica las relaciones de

equivalencia y de mayor que, junto con la proporcin de dos intervalos cualesquiera. En

esta escala el punto cero y la unidad de medida son arbitrarios.

Ejemplo. Un ejemplo tpico de medicin de una variable en esta escala, es la

temperatura cuando se mide en grados Fahrenheit o en grados centgrados, pues stas

como es ya conocido, no son escalas absolutas, sino relativas. Sabemos que la
11

diferencia entre 30 C y 35 C es la misma que entre 45 C y 50 C y si se dice que un

lquido se encuentra a 0 C, no significa que no tiene temperatura.

En la tabla # I.4.4.1 que se muestra seguidamente se tabula la misma

temperatura en ambas escalas

Centgrados 0 10 30 100

Fahrenheit 32 50 86 212

Tabla # I.4.4.1. Temperatura en centgrados y Fahrenheit.

Calculamos ahora la proporcin de la diferencia en cada escala: centgrados 2010

1030 =

y Fahrenheit 232505086 =

. Las lecturas comparables en ambas escalas, como se ven

producto del clculo, dan como resultado la misma proporcin: 2. Esta escala es de tipo

cuantitativo y resulta apropiada para pruebas estadsticas paramtricas y no

paramtricas.

I.4.5 ESCALA DE PROPORCIN

Se llaman as a las escalas que adems de tener todas las caractersticas de

una escala de intervalo tienen un punto cero real en su origen. En ella, la proporcin de

un punto a otro cualquiera de la escala es independiente de la unidad de medida. Los

nmeros que se asocian con esta escala son nmeros con verdadero cero y cualquier

prueba estadstica, ya sea paramtrica o no paramtrica, puede usarse.

Ejemplo. Medimos la masa o el peso en una escala de proporcin. La escala en onzas y

libras tiene un verdadero punto cero. Lo mismo sucede con las escalas en gramos,

amperios y voltajes. La proporcin entre dos pesos cualesquiera es independiente de la

unidad de medida. Por ejemplo, si determinamos los pesos de dos objetos diferentes no
12

slo en libras sino tambin en gramos, encontramos que la razn de los dos pesos en

libras es idntica a la razn de los dos pesos en gramos.

La tabla # I.4.5.1 contiene un resumen sobre los cuatro mtodos de

medicin comentados anteriormente.

Tabla # I.4.5.1. Resumen de los cuatro niveles de representacin.

I.5 TEORIA DE DECISIN

El razonamiento en que se apoya este proceso de decisin es muy simple. Se

trata de establecer un criterio para decidir si aceptar o rechazar la hiptesis nula. Si es

muy pequea la probabilidad asociada con la ocurrencia conforme a la hiptesis nula de

un valor particular en la distribucin muestral, decimos que dicha hiptesis es falsa.

Esto es, cuando la probabilidad asociada con un valor observado de una prueba

estadstica es igual o menor que el valor previamente determinado de , concluimos que H 0 es falsa. El valor observado es llamado significativo. La hiptesis en prueba,

H 0 , se rechaza siempre que ocurra un resultado significativo. Por tanto, se llama valor

significativo a aquel cuya probabilidad asociada de ocurrencia de acuerdo con H 0 es

Escala Relaciones definidas. Pruebas estadsticas apropiadas.

Nominal 1- Equivalencia( = ) Pruebas estadsticas no paramtricas

Ordinal o de rango 1- Equivalencia( = ) 2- Mayor que( > )

Pruebas estadsticas no paramtricas

Intervalo 1- Equivalencia( = ) 2- Mayor que ( > ) 3- Proporcin conocida de un intervalo a cualquier otro.

Pruebas estadsticas paramtricas y no paramtricas

Proporcin 1- Equivalencia( = ) 2- Mayor que( > ) 3- Proporcin conocida de un intervalo a cualquier otro. 4- Proporcin conocida de un valor de la escala a cualquier otro.

Pruebas estadsticas paramtricas y no paramtricas
13

igual o menor que . Obsrvese que las figuras # I.5.1, # I.5.2., y # I.5.3 muestran las diferentes regiones de rechazo o aceptacin de la hiptesis nula de una prueba para el

caso de dos y una cola, siendo esta ltima de cola derecha o de cola izquierda segn

corresponda.

Figura # I.5.1. El rea sombreada muestra la regin de rechazo de una prueba de dos colas.

Figura # I.5.2. El rea sombreada muestra la regin de rechazo de una prueba de cola derecha o superior.

Figura # I.5.3. El rea sombreada muestra la regin de rechazo de una prueba de cola izquierda o inferior
14

CAPTULO I LAS PRUEBAS Y SU TEORA

II.1 PRUEBA DEL SIGNO. BREVE HISTORIA

Es una de las pruebas no paramtricas ms simples y la ms antigua de

todas, pues est reportada en la literatura desde 1710 por John Arbuthnott, quien hizo

uso de este procedimiento, por primera vez, para demostrar que la proporcin de

varones nacidos en Londres en un determinado perodo de tiempo era

significativamente mayor que la proporcin de mujeres. Se basa en los signos que

generan la diferencia de comparar los datos en una poblacin con respecto a su media,

mediana o con respecto a otros datos tomados de la misma poblacin, presentndose as

dos casos, el de una muestra sencilla (una sola muestra) y el de una muestra en pares.

II.1.1 PRUEBA DEL SIGNO DE UNA SOLA MUESTRA

Si cada vez que se vaya a realizar una experiencia aleatoria, fijamos nuestra

atencin ante un suceso A, de probabilidad no nula P(A) = p, podemos definir

trivialmente una variable aleatoria Y , dicotmica, tomando valores en { }1,0 , que recibe el nombre de variable de Bernoulli de parmetro p, B(p):

Y = 1 si tiene lugar el evento A

Y = 0 si no tiene lugar el evento A

cuya funcin de densidad se puede expresar en la forma:

,)1()()( 1 yy ppyYPyf === y = 0,1 Si realizamos n ensayos o repeticiones independientes, es decir, en idnticas

condiciones, y siempre centrados en el suceso A, la variable X que cuenta el nmero de

veces que ha tenido lugar el suceso A define el modelo binomial B (x,n,p) que tiene por

funciones de densidad y distribucin la siguiente estructura:

)(xf = P (X= x ) = xnx ppxn

)1( ; nx ,....,1,0=
15

)(tFX = Pknk

t

k

t

kpp

kn

kftX ==

== )1()()(

00

Cuando muestreamos una poblacin simtrica continua en donde se hace

insostenible la suposicin de que se muestrea una poblacin normal, se puede aplicar la

prueba del signo de una sola muestra, en donde el suceso A aparece como resultado de

la diferencia de cada uno de los datos con la media y la probabilidad de obtener un valor

de la muestra que sea mayor que la media o que sea menor que la media son ambas .

Y si no se puede suponer que la poblacin es simtrica, se usa la misma tcnica pero

aplicada a la hiptesis nula 0~~ = , donde~ es la mediana de la poblacin. Para probar la hiptesis nula H 0 : 0 = contra una alternativa apropiada sobre la base de una muestra aleatoria de tamao n, se sustituye cada valor de la muestra

que exceda a 0 por un signo ms y cada valor de la muestra menor que 0 con un signo menos, y despus se prueba la hiptesis nula de que el nmero de signos ms es el

valor de una variable aleatoria que tiene una distribucin binomial con los parmetros

n y p = 1/2. Por lo tanto, la alternativa bilateral H 1 : 0 se transforma en p 21 y las alternativas unilaterales < 0 y > 0 se convierte en p < 1/2 y p > 1/2 respectivamente. Si un valor de la muestra es igual a 0 , simplemente se desecha. Sea ( nXXX ,.....,, 21 ) n variables aleatorias reales contnuas e

independientes y adems denotamos, para todo i = 1,2,,n; i = ( iX - 0 ) , con 0 conocido, donde ( ix ) = 1 si ix > 0 ( ix ) = 0 si ix < 0 Entonces sea T( 1 ,, n ) un estadstico basado sobre los i . Los estadsticos

1 ,, n son independientes y siguen una distribucin de Bernoulli. En efecto como los iX son independientes, los i lo son tambin. En particular si
16

T( nXXX ,.....,, 21 ) = =

n

iiX

1 y 0 es la mediana comn de los iX , se tiene el siguiente

estadstico, denotado por S.

S = T( 1 ,, n ) = =

n

ii

1 =

=

n

iiX

1( - 0 ) = nmero de diferencias iX - 0

estrictamente positivas

El estadstico a calcular es:

S = n de casos en los que iX - 0 > o ni ,.....,2,1= y tiene una distribucin binomial B (s,n,1/2), donde n es el nmero de diferencias

iX - 0 no nulas ya que el estadstico obliga a la conversin de los valores a signos. Para ejecutar una prueba del signo de una sola muestra cuando la muestra es

muy pequea, nos referimos directamente a la tabla # 1 de probabilidades binomiales

del apndice B; cuando la muestra es grande ( 5>np y 5>nq ), podemos utilizar la distribucin normal representada en la tabla # 2 del mismo apndice como

aproximacin a la distribucin binomial. Una demostracin general de este concepto

puede verse en el apndice A.

La prueba del signo de una sola muestra se resume de la siguiente manera:

Sea p =

Hiptesis nula -------------------------H 0 : 0 = Hiptesis alternativa----------------- 1H : 0 o ( 0 < o )0 > Estadstico de prueba ----------------S = n de casos en los que iX - 0 > o ni ,.....,1= Regin de rechazo--------------------si H 1 : 0 , se rechaza H 0 para los valores ms grandes y ms pequeos de S; si H1 : < 0 , se rechaza H 0 para los valores ms pequeos de S;

si H 1 : > 0 , se rechaza H 0 para los valores ms grandes de S.
17

II.1.2 PRUEBA DEL SIGNO PARA MUESTRAS EN PARES. EXPERIMENTOS

DE PARES COMPARADOS

II.1.2.1 CASO DE DOS MUESTRAS

Las pruebas estadsticas de dos muestras se usan cuando el investigador

desea establecer la diferencia entre dos tratamientos o si un tratamiento es mejor que

otro. El tratamiento puede ser cualquiera de una gran variedad de condiciones:

inyeccin de una droga, adiestramiento, propaganda, separacin de la familia,

modificacin quirrgica, cambio en las condiciones del alojamiento, integracin

intergrupal, cambios del clima, introduccin de un nuevo elemento en la economa, etc.

En cada caso, el grupo que ha sufrido el tratamiento es comparado con el que no lo ha

experimentado o que ha sufrido un tratamiento diferente.

En semejante comparaciones de dos grupos, algunas veces se observan

diferencias significativas que no son resultado del tratamiento. Por ejemplo para

comparar dos mtodos de enseanza, un investigador hace que un grupo de estudiantes

aprenda con uno de los mtodos y un grupo diferente aprenda con el otro. Ahora bien, si

uno de los grupos tiene estudiantes ms capaces o ms motivados, la ejecucin de los

dos grupos puede no reflejar exactamente la relativa efectividad de los dos mtodos de

enseanza, porque otras variables estn creando diferencias en la ejecucin.

Una manera de vencer la dificultad impuesta por diferencias extraas entre

los grupos es usar dos muestras relacionadas o comparables en la investigacin. Esto es,

uno puede igualar, relacionar o hacer comparables de otra manera las dos muestras

estudiadas, cosa que puede lograrse cuando cada sujeto es su propio control o con

parejas de sujetos en las que se asignan los miembros de cada pareja a las dos

condiciones. Cuando un sujeto sirve como su propio control est expuesto a ambos

tratamientos en diferentes ocasiones. Cuando se usa el mtodo de pares, se trata de

seleccionar, dentro de lo posible, en cada pareja de sujetos, aquellos que sean los ms
18

semejantes, con respecto a cualquier variable extraa que pudiera influir el resultado de

la investigacin. En el ejemplo mencionado anteriormente, el mtodo de pares requera

que fueran seleccionadas numerosas parejas de estudiantes, cada una compuesta por

dos estudiantes de capacidad y motivacin fundamentalmente iguales. Un miembro de

cada pareja, escogido al azar, sera asignado a uno de los mtodos de enseanza y su

compaero al otro.

II.1.2.2 MODELO GENERAL DE DESPLAZAMIENTO

Un problema que comnmente se presenta a los experimentadores es el

de obtener observaciones de dos poblaciones con el fin de probar si estas poseen la

misma distribucin. Por ejemplo, si se toman muestras aleatorias independientes en

donde 1

,...,, 21 nXXX y 2,...,, 21 nYYY tienen distribuciones F(x) y G(y) respectivamente y

queremos probar si las dos poblaciones tienen la misma distribucin, es decir,

H 0 : F(z) = G(z) frente a H 1 : F(z) G(z), para las que las formas de estas distribuciones

no estn determinadas. Obsrvese que H 1 es una hiptesis muy amplia. Muchas veces el

experimentador querr analizar la hiptesis alternativa ms especfica que indica que 1Y

posee la misma distribucin que 1X , desplazada una cantidad indeterminada . As se

tiene que G(y) = P( 1Y y) = P( 1X y ) = F(y - ) para algn valor desconocido ;

es decir, las distribuciones tienen diferentes localizaciones.

II.1.2.3 PRUEBA DE LOS SIGNOS PARA UN EXPERIMENTO DE PARES

COMPARADOS

Aqu contamos con una tabla formada de n pares de observaciones de la

forma ( iX , iY ), y queremos probar la hiptesis que afirma que la distribucin de los

valores de X es la misma que la distribucin de los valores de Y frente a la hiptesis

alternativa que sostiene que la distribucin tiene diferente localizacin. Con base en la
19

hiptesis nula que indica que iX y iY provienen de las mismas distribuciones de

probabilidad continua, la probabilidad de que iD = iX - iY sea positiva es igual a 1/2 (la

misma probabilidad de que iD sea negativa). Sea S la cantidad total de diferencias

positivas. De esta manera, si los valores de las variables iX y iY poseen la misma

distribucin, S poseer una distribucin binomial con p = 1/2, y la regin de rechazo

para una prueba basada en S podr obtenerse mediante la distribucin de probabilidad

binomial. La prueba de los signos en este caso se resume de la siguiente manera.

Prueba de los signos para un experimento de pares comparados

Sea p = P(X >Y).

Hiptesis nula.. H 0 : p =

Hiptesis alternativa..H 1 : p > o (p < o p )

Estadstico de prueba........... S = nmero de diferencias positivas, donde iD = iX - iY

Regin de rechazo............ si H 1 : p > , se rechaza H 0 para los valores ms

grandes de S; si H 1 : p < , se rechaza H 0 para los

valores ms pequeos de S; si H 1 : p , se rechaza

H 0 para valores muy grandes o muy pequeos de S.

Supuestos los pares ( iX , iY ) se eligen de forma aleatoria e

independiente.

Prueba de los signos para experimentos de pares comparados con muestras

grandes ( 5y 5 >> nqnp ).

Hiptesis nula: H 0 : p = 0.5 (No hay preferencia por algn tratamiento).

Hiptesis alternativa: H 1 : p 0.5 para una prueba de dos colas.

Estadstico de prueba: Z = X =

nnS)2/1(

2/
20

Regin de rechazo: H 0 se rechaza si z z 2/ o si z - z 2/ , donde z 2/ se

obtiene de la tabla # 2 del apndice B referente a la

distribucin normal.

II.2 PRUEBA DE WILCOXON

II.2.1 PRUEBA DE RANGOS PARA UNA SOLA MUESTRA. INTERVALOS

CON SIGNOS

Como se vio en secciones anteriores, la prueba del signo en sus dos versiones

es muy fcil de realizar, pues sin importar la distribucin que siguen las observaciones,

slo utilizamos los signos de las diferencias entre stas y 0 o entre las parejas comparadas, siendo los signos + y las direcciones de las diferencias producto de las

transformaciones realizadas, desperdicindose por tanto, toda la informacin contenida

en la magnitud de estas diferencias. La prueba de Wilcoxon para intervalos con signo,

hace un mejor aprovechamiento de la informacin contenida en las observaciones, ya

que toma en cuenta, adems de los signos, las magnitudes de las diferencias por medio

de los rangos a que son asignados.

Sean ( 1Z ,, nZ ) una muestra aleatoria de la variable aleatoria continua Z y

( )1(Z ,, )(nZ ) la muestra ordenada asociada. Se llama rango iR de la variable aleatoria

iZ al nmero de variables aleatorias iZ menores o iguales a iZ , 1 ni . Luego el

rango se determinar mediante la frmula iR ))(1(1

i

n

jj XX =

= , donde es como

se defini en la seccin II.1.1, tenindose en particular que )1(Z )()3()2( .... nZZZ
21

absoluto, el rango 2 a la segunda diferencia ms pequea en valor absoluto, y as

sucesivamente. Cuando varias de las diferencias sean las mismas, si fuera el caso de las

que corresponderan a 3, 4 y 5, cada una tomara como rango el valor promedio de las

tres, en este caso, 4, seria el rango asignado a cada una de las diferencias iguales, y a la

siguiente diferencia en valor absoluto ms grande se le asignara el rango 5.

Calcularamos ahora la suma de los rangos para las diferencias negativas T y las

sumas de los rangos para las diferencias positivas T + .En el caso de una prueba de dos

colas utilizamos T, la ms pequea de estas dos cantidades, como estadstico de prueba

para probar la hiptesis nula que afirma que las dos poblaciones son idnticas. Cuanto

ms pequeo sea el valor de T, mayor el peso de la evidencia que favorece el rechazo de

la hiptesis nula. Por consiguiente, rechazaremos la hiptesis nula si T es menor o igual

a algn valor T .

La hiptesis nula permite que para cada rango, las probabilidades de que se

le asigne una diferencia positiva o una negativa son ambas . Podemos escribir el

estadstico como

T + = 1. 1X + 2. 2X + . . . . . . + nnX , donde 1X , 2X ,. . . .y nX son variables

aleatorias independientes que tienen la distribucin de Bernoulli con p = . Como el

valor esperado y varianza de las iX son E( iX ) = 0.1/2 +1.1/2 = 1/2 y

Var( iX ) = 1/2 .(1 1/2 ) = 1/4 para i = 1, 2, 3, ,n , y tomando en cuenta las

siguientes propiedades

E ( nn XaXaXa +++ .......2211 ) = )( 11 XEa + . . . + )( nn XEa y

Var( nn XaXaXa +++ .......2211 ) = +)( 121 XVara . . . + 2na Var )( nX ,

se deduce que

E (T + ) = 1.1/2 + 2.1/2 + . . . + n.1/2 = 2...21 n+++

y aplicando el mtodo de induccin completa, se tiene que (E T + ) = 4

)1( +nn ,
22

y que

Var(T + ) = 1 2 .1/4 + 2 2 .1/4 +. . .+n 2 .1/4 = 4...21 n+++

y aplicando de nuevo el mtodo anterior, se llega a que

Var(T + ) = 24

)12)(1( ++ nnn

La probabilidad de que T sea menor o igual a algn valor T est calculado

para una combinacin de tamaos muestrales y valores de T . Estas probabilidades, se

pueden utilizar para determinar la regin de rechazo de la prueba que se basa en T.

Cualquiera sea la hiptesis alternativa, podemos basar todas las pruebas de

la hiptesis nula 0 = en la distribucin de T, debiendo slo tener cuidado de utilizar la estadstica correcta y el valor crtico correcto de T, como se muestra en la tabla II.2.1

Hiptesis alternativa

Rechace la hiptesisnula si:

0 T T

> 0 T T 2

0 < T + T 2

Tabla II.2.1. Hiptesis alternativa y regin de rechazo para la hiptesis nula 0 = .

donde, como se indica, el nivel de significancia es en cada prueba. Los valores crticos de T, que son tales que T es el valor ms grande para el cual P(T T ) no es

mayor que , se dan en la tabla 3 del apndice B. Obsrvese que los mismos valores crticos sirven para pruebas en diferentes niveles de significancia, dependiendo de que

la hiptesis alternativa sea unilateral o bilateral.
23

II.2.2 PRUEBA DE RANGOS CON SIGNOS DE WILCOXON PARA UN

EXPERIMENTO DE PARES COMPARADOS

En este caso, al igual que la prueba del signo de pares comparados,

contamos tambin con n observaciones pareadas ( iX , iY ) y iD = iX - iY . Nos interesa

probar la hiptesis de que los valores de X e Y tienen la misma distribucin frente a la

hiptesis alternativa que sostiene que la localizacin de las distribuciones es diferente.

En la hiptesis nula no hay diferencia en las distribuciones de los valores de X eY ,

esperaramos que la mitad de las diferencias de los pares fuera negativa y la otra mitad

positiva, o sea, que el nmero esperado de las diferencias negativas fuera de valor n/2.

Para realizar la prueba de Wilconxon calculamos las diferencias ( iD ) de

cada uno de los n pares eliminando las diferencias nulas y se asignan los rangos como

en la seccin anterior.

Para detectar la hiptesis alternativa unilateral que afirma que la

distribucin de los valores de X estn desplazados a la derecha de los valores de Y

empleamos la suma de rangos T de las diferencias negativas, y rechazamos la hiptesis

nula para los valores T T 2 . Si queremos detectar un desplazamiento de la

distribucin de los valores de Y a la derecha de los valores de X , empleamos la suma

de rangos T + de las diferencias positivas como estadstico de la prueba, y rechazamos

los valores T + T 2 .

El resumen de las hiptesis alternativas, para el caso de dos muestras,

basada en la prueba de la hiptesis nula X = Y , es como se muestra en la tabla II 2.2.1 donde hay que tener presente los mismos detalles de la seccin anterior y manejar

la tabla con los mismos criterios indicados all. A continuacin se resume la prueba que

se basa en T, la cual se conoce como prueba de rangos con signo de Wilconxon.
24

Hiptesis alternativa

Rechace la hiptesisnula si:

YX T T

X > Y T T 2

YX < T + T 2

Tabla II.2.2.1.Hiptesis alternativa y regin de rechazo para la hiptesis nula X = Y

Prueba de rangos con signo de Wilcoxon para un experimento de pares

comparados.

Hiptesis nula H 0 : las distribuciones de poblacin para los valores de X e Y

son idnticas.

Hiptesis alternativa H 1 : las dos distribuciones de poblacin tienen diferentes

localizaciones (dos colas); o la distribucin de poblacin

para los valores de X (Y ) est desplazada a la derecha de

la distribucin para los valores de Y ( X ) (una cola).

Estadstico de la prueba:

1. Para una prueba de dos colas utilice T = mn(T + , T ), donde T + es la suma de

los rangos de las diferencias positivas y T es igual a la suma de los rangos de las

diferencias negativas.

2. En una prueba de una cola utilice la suma T (T + ) de los rangos de las

diferencias negativas (positivas) cuando la distribucin de los valores de X (Y ) estn

desplazados a la derecha de los valores de Y ( X ).

Regin de rechazo:

1. Para una prueba de dos colas rechace H 0 si T T donde T es el valor crtico

para la prueba bilateral que se proporciona en la tabla 3 del apndice B.

2. En una prueba de una cola rechace H 0 si T (T + ) T 2 donde T 2 es el valor

crtico para la prueba unilateral.
25

Prueba de rangos con signos de Wilcoxon con muestra grandes para un

experimento de pares comparados.

Hiptesis nula H 0 : las distribuciones de poblacin para los valores de X e Y

son idnticas.

Hiptesis alternativa H 1 : las dos distribuciones de poblacin tienen diferente

localizacin (prueba de dos colas); o la distribucin de

poblacin para los valores de X est desplazada a la

derecha (o izquierda) de la distribucin de los valores de

Y (pruebas de una cola).

Estadstico de prueba: Z = X = [ ]

24/)12)(1(4/)1(

++++nnn

nnT , T = T + ya que T +

o T tendr aproximadamente una distribucin normal

cuando la hiptesis nula sea verdadera y n sea grande.

Regin de rechazo: rechace H 0 si z z 2/ o z - z 2/ , en una prueba de dos

colas.

Para detectar un desplazamiento en las distribuciones de

valores de X a la derecha de los valores de Y, rechace H 0

cuando z z . Y para detectar un desplazamiento en la

direccin opuesta rechace H 0 si z - z .
26

II.3 PRUEBA DE SUMA DE RANGOS DE WILCOXON. MUESTRAS

ALEATORIAS INDEPENDIENTES

En el ao de 1945 Wilcoxon propuso una prueba estadstica para comparar

dos poblaciones basadas en muestras aleatorias independientes. Suponga que elegimos

muestras aleatorias independientes de n 1 y n 2 observaciones, cada una de ellas tomadas

de dos poblaciones; representemos a las muestras con A y B. La idea de Wilcoxon fue

combinar las n 1 + n 2 = n observaciones y ordenarlas por orden de magnitud, de la uno

(la ms pequea) a la n (la ms grande). Los empates se manejan igual que como se

indic antes. Si las observaciones se obtienen de poblaciones idnticas, las sumas de

rangos para las muestra deberan ser ms o menos proporcionales a los tamaos de las

muestras n 1 y n 2 . Por ejemplo, si n 1 y n 2 son iguales, esperamos que las sumas de los

rangos sean aproximadamente iguales. Pero si las observaciones de la muestra A, por

ejemplo, tienden a ser mayores que las observaciones de la muestra B, las observaciones

de la muestra A tendern a recibir los rangos ms altos, y la suma de rangos que le

pertenece ser mayor que la suma de rangos esperada. Por consiguiente, teniendo

muestras de igual tamao, si una prueba de rangos es muy grande y, en consecuencia, la

otra es muy pequea, esta podra indicar una diferencia importante entre las dos

poblaciones desde el punto de vista estadstico.

II.4 PRUEBA U DE MANN-WHITNEY. MUESTRAS ALEATORIAS

INDEPENDIENTES

Mann y Whitney propusieron en 1947 una prueba estadstica equivalente a

la de Wilcoxon que tambin incluye las sumas de los rangos de dos muestras, la cual

consiste en ordenar las (n 1 + n 2 ) observaciones de acuerdo con su magnitud y contar el

nmero de observaciones de la muestra A, por ejemplo, que preceden a cada

observacin de la B, as resulta el estadstico U que es la suma de estas enumeraciones.
27

Sean ( 1X ,,X m ) y (Y 1 ,,Y n ) dos muestras aleatorias A y B de las

variables continuas X e Y. Se llama muestra combinada a la muestra de tamao

N = n + m igual a (X 1 ,,X m , Y 1 ,,Y n ) = (Z 1 ,,Z m ,Z 1+m ,,Z N ). Entonces sea

R = (R 1 ,,R m ,R 1+m ,,R N ) el vector de los rangos asociados a la muestra combinada,

aqu Q = (R 1 ,,R m ) y S = (R 1+m ,,R N ) son los vectores de los rangos de los X y los Y

en la muestra combinada y se tiene =

m

iiR

1+

+=

N

mjjR

1 =

=

N

kk

1 =

2)1( +NN .

Consideremos los estadsticos T 1 , T 2 , T 3 y T 4 tales que T 1 (Z 1 ,,Z N ) = =

m

iiZ

1

T 2 ( Z 1 ,,Z N ) = +=

N

mjjZ

1, T 3 ( Z 1 ,,Z N ) = )(

1 1j

m

i

n

ji YX

= =

T 4 ( Z 1 ,,Z N ) = )(1 1

i

m

i

n

jj XY

= =

Entonces los estadsticos W y W tales que W = T 1 (R 1 ,,R N ) = =

m

iiR

1= suma de los

rangos de las X i en la muestra combinada y W = T 2 (R 1 ,,R N ) = +=

N

mjjR

1= suma de los

rangos de las Y i en la muestra combinada, son no paramtricos llamados de Wilcoxon

para dos muestra.

Luego los estadsticos T 3 y T 4 son los de Mann-Whitney

U = MW = T 3 (Z 1 ,,Z N ) = )(1 1

j

m

i

n

ji YX

= =

U = MW = T 4 (Z 1 ,,Z N ) = )(1 1

i

m

i

n

jj XY

= = ,

entonces

=

n

jiX

1( - jY ) = nmero de valores de j tal que jY < iX para un i, i = 1,,m, fijado

Luego si m i = nmero de X menor o igual a iX se tiene:=

n

jiX

1( - jX ) = R i - m i
28

Entonces U A = MW = =

m

iiR

1

( - m i ) ==

m

iiR

1 -

=

m

iim

1=

=

m

iiR

1-

=

m

ii

1 =

=

m

iiR

1-

2)1( +mm

Cambiando m por n se obtiene inmediatamente U B = MW = +=

N

mjjR

1-

2)1( +nn

Haciendo n 1 = m y n 2 = n, las frmulas para el estadstico U quedaran as:

MW = U A = R 1 - n 1 (n 1 +1)/2

MW= U B = R 2 - n 2 (n 2 +1)/2

donde

n 1 = nmero de observaciones de la muestra A

n 2 = nmero de observaciones de la muestra B

U A + U B = n 1 n 2

R 1 = suma de rangos para la muestra A

R 2 = suma de rangos para la muestra B

Como se puede ver en las frmulas de U A y U B , U A es pequeo cuando

R 1 es grande, un caso que puede presentarse cuando la distribucin de poblacin de las

mediciones de A se encuentra desplazada a la derecha de las mediciones de B. Por

consiguiente, para efectuar una prueba de dos colas con el fin de detectar un

desplazamiento en la distribucin de A a la derecha de la distribucin de B, es necesario

rechazar la hiptesis nula que afirma que no hay diferencia en las distribuciones de

poblacin si U A es menor que algn valor especfico U . Es decir, rechazamos H 0

para valores pequeos de U A . De manera similar, para llevar a cabo una prueba de una

cola con el fin de detectar un desplazamiento de la distribucin B a la derecha de la

distribucin A, se rechazara H 0 si U B es menor que algn valor especfico U 2 .

La tabla 4 del apndice B proporciona la probabilidad de que un valor

observado de U sea menor que un valor especfico U . Para llevar a cabo una prueba

de dos colas, es decir, para detectar un desplazamiento en las distribuciones
29

poblacionales para las mediciones A y B en cualquier direccin, convenimos en utilizar

siempre U, el menor de U A o U B o sea U = mn(U A , U B ) como estadstico de prueba y

rechazar H 0 para U < U . El valor de para la prueba de una cola es el doble del de una prueba de dos colas tal como se muestra en la siguiente tabla # II.4.1.

Hiptesis alternativa

Rechace la hiptesis nula si:

BA UU

A > B U B U 2

BA < U A U 2

Tabla # II.4.1.Hiptesis alternativa y regin de rechazo para la hiptesis nula BA =

Una prueba para muestras grandes simplificada (n 1 > 8 y n 2 > 8) se puede

obtener utilizando el estadstico Z de la distribucin normal. Si las distribuciones de

poblacin son idnticas, el estadstico U posee los siguientes valores esperados y de

varianza cuando U = U A (o U = U B ):

E(U A ) = 221nn y Var(U A ) = 12

)1( 2121 ++ nnnn

La prueba U de Mann Whitney se resume de la siguiente forma

Hiptesis nula: H 0 : Las distribuciones de frecuencias relativas de

poblacin para A y B son idnticas.

Hiptesis alternativa: H 1 : Las dos distribuciones de frecuencias relativas de

poblacin estn desplazadas respecto a sus

localizaciones relativas (prueba de dos colas); o

H 1 : La distribucin de frecuencias relativas de

poblacin para A est desplazada a la derecha de
30

la distribucin de frecuencias relativa para la

poblacin B (prueba de una cola).

Estadstico de prueba: Para una prueba de dos colas, utilice U, el ms

pequeo de

U A = R 1 - n 1 (n 1 +1)/2 y U B = R 2 - n 2 (n 2 +1)/2

donde R 1 y R 2 constituyen las sumas de rangos

para las muestras A y B, respectivamente. Para

una prueba de una cola utilice U A o U B segn

sea el caso. Tabla II.4.1.

Regin de rechazo: 1. Para una prueba de dos colas y un valor dado de

rechace H 0 si U U , donde

P(U U ) = (Nota: observe que U es el

valor por el que P(U U ) = ) 2. Para una prueba de una cola y un valor dado de

, rechace H 0 si U A ( U B ) U 2 , donde

P(U A ( U B ) U 2 ) = 2 .

Supuestos: Las muestras se han seleccionado aleatoria e

independientemente de sus respectivas

poblaciones. Los empates en las observaciones

se pueden manejar promediando los rangos que

se hubieran asignado a las observaciones

empatadas y asignando este promedio a cada

observacin. Por consiguiente, si hay tres

observaciones empatadas, debido a que se

les asignaron los rangos 3, 4 y 5, les asignaremos

el rango 4 a las tres.
31

En el caso de muestras grandes la prueba U se resume como sigue:

Hiptesis nula: H0 : Las distribuciones de frecuencias relativas de

poblacin para A y B son idnticas.

Hiptesis alternativa H 1 : Las dos distribuciones de frecuencias relativas

de poblacin no son idnticas (prueba de dos

colas); o

H 1 : La distribucin de frecuencias relativas de

poblacin para A est desplazada a la derecha (o

izquierda) de la distribucin de frecuencias

relativa para la poblacin B

U = U A (U B ) (prueba de una cola).

Estadstico de prueba: Z =12/)1)((

)2/(

2121

21

++

nnnnnnU

Regin de rechazo: Rechace H0 si z > z2

o z < -z2

en el caso de una

prueba de dos colas. En una prueba de una cola

coloque todos los valores de en una de las colas

de la distribucin z. Para detectar un desplazamiento

de la distribucin de las observaciones A a la

derecha de distribucin de las observaciones B

rechace H0 cuando z < - z . Para detectar un

desplazamiento en la direccin contraria rechace H0

cuando z > z . Los valores tabulados de z se

encuentran en la tabla 2 del apndice B que es la

distribucin normal.
32

II.5 PRUEBA H DE KRUSKAL-WALLIS

La prueba de Kruskal-Wallis o prueba H es una generalizacin para k

muestras de la prueba U. El procedimiento de Kruskal-Wallis no requiere supuestos

respecto a la forma real de las distribuciones de probabilidad. Supondremos que las

muestras aleatorias independientes se tomaron de k poblaciones que difieren slo en

cuanto a su localizacin y no necesitamos suponer que estas poblaciones poseen

distribuciones normales. Generalizamos, utilizando tamaos de muestras diferentes y

representaremos con n i en el caso de i = 1,2,,k el tamao de la muestra tomada de la

i-sima poblacin. Aqu tambin se combinan las n 1 + n 2 + + n k = n observaciones

y se ordena de 1, la ms pequea, a n , la ms grande. Los empates se manejan igual que

antes. Sea R i la suma de los rangos de las observaciones obtenidas de la poblacin i, y

sea iR = R i /n i el promedio correspondiente de los rangos. Si R es igual al promedio

total de los rangos, consideramos el equivalente para los rangos de la suma de los

cuadrados para los tratamientos, que se calcula utilizando los rangos, en lugar de los

valores reales de las mediciones: V = =

k

iin

1( iR - R )

2 .

Si la hiptesis es verdadera y las poblaciones no difieren en cuanto a su localizacin,

esperaramos que los valores de iR fueran aproximadamente iguales y que el valor que

se obtiene de V fuera relativamente pequeo. Si la hiptesis alternativa es verdadera,

espiraramos que este hecho se reflejara en las diferencias entre los valores de las iR , lo

cual dara como resultado un valor grande para V. Como R = (suma de los primeros n

enteros) / n = [ ] nnn /2/)1( + = 2

1+n ; de esta manera, V = =

k

iin

1( iR - 2

1+n ) 2 .

En lugar de concentrarse en V, Kruskal y Wallis consideraron el estadstico

H = )1(

12+nnV , que puede escribirse como H =

)1(12+nn =

k

i i

i

nR

1

2

-3(n+1).
33

La hiptesis nula afirma que la igualdad de las poblaciones se rechaza a favor de la

hiptesis alternativa que plantea que las poblaciones difieren en cuanto a su localizacin

si el valor de H es grande. En consecuencia, la prueba de nivel correspondiente exige el rechazo de la hiptesis nula en favor de la hiptesis alternativa si H > h( ), donde h( ) satisface la relacin. La prueba, adems de suponer que la variable en estudio tiene como base

una distribucin continua, requiere, por lo menos, una medida ordinal de la variable.

La distribucin de H para cualesquiera valores de k y n 1 , n 2 , , n k se

puede determinar calculando el valor de H para cada una de las n! permutaciones, con la

misma probabilidad, de los rangos de las n observaciones.

Kruskal y Wallis demostraron que, si los n i valores son grandes, la

distribucin nula de H se puede aproximar mediante una distribucin ji-cuadrada con

k-1 grados de libertad. Esta aproximacin, por lo general, se considera adecuada si cada

uno de los n i es mayor o igual a 5.

Resumen de la prueba de Kruskal-Wallis basada en H para comparar k

distribuciones de poblacin.

Hiptesis nula H0: Las k distribuciones de poblacin son idnticas.

Hiptesis alternativa..H 1 : Por lo menos dos de las distribuciones de poblacin

difieren en cuanto a posicin.

Estadstico de la prueba H = )1(

12+nn =

k

i i

i

nR

1

2

-3(n+1), donde

n i = nmero de mediciones en la muestra tomada

de la poblacin i

R i = suma de los rangos para la muestra i, en la que

el rango de cada medicin se calcula de acuerdo

con su tamao relativo en el conjunto total de
34

n = n 1 + n 2 + + n k observaciones formadas

combinando los datos de las k muestras.

Regin de rechazo. Rechace H0 si H > 2 con k-1 grados de libertad.

Supuestos Las k muestras se extraen de forma aleatoria e

independiente.

Hay cinco o ms mediciones en cada muestra.

II.6 PRUEBA DE CORRIDAS ( RACHAS) DE UNA SOLA MUESTRA

Esta prueba se aplica en el estudio de una serie de eventos en la que cada

elemento de la serie puede dar origen a dos resultados, xito (S) o fracaso (F). Si

consideramos un proceso de fabricacin en el que al hacer el control de calidad a cada

artculo, se produce una serie, como por ejemplo, S S S S S F F S S S F F F S S S S S S

S, en la que se ha hecho la observacin de 20 artculos consecutivos, donde (S) denota

cuando el articulo es no defectuoso y (F) a los defectuoso y deseamos saber si este

agrupamiento que se muestra en la serie implica que no hay aleatoriedad en el proceso,

y por consiguiente, hay falta de control.

Una cantidad muy pequea o muy grande de corridas (subsucesin mxima

de elementos iguales) en una serie constituye una seal de no aleatoriedad. Llamamos R

el nmero de corridas en una serie y es el estadstico de la prueba, y sea R k 1 y

R k 2 la regin de rechazo.

|------|------|------//-----|--------------------------------------------|------//------|------|------|-----|

2 3 4 1k Nmero de rachas 2k m

Regin de rechazo Regin de rechazo

Fig.II.6.1.Regin de rechazo para la prueba de corridas (rachas).
35

Para determinar la distribucin de probabilidad de R, supongamos que la

serie completa contiene n 1 elementos S y n 2 elementos F, lo cual da como resultado Y 1

corridas de elementos S y Y 2 corridas de elementos F, donde Y 1 + Y 2 = R. Por

consiguiente dado Y 1 , Y 2 es necesariamente igual a Y 1 , (Y 1 -1) o (Y 1 +1). Sea m el

nmero mximo de posibles corridas. Observe que m = 2n 1 si n 1 = n 2 y que m = 2n 1 + 1

si n 1 < n 2 . Supondremos que todo ordenamiento distinguible de los n 1 + n 2 elementos

de la serie constituye un evento simple del experimento y que los puntos muestrales son

equiprobables. As nos queda como siguiente paso, contar el nmero de puntos

muestrales que implica R corridas.

En la serie estn dados 1n elementos indistinguibles S y 2n elementos

indistinguibles F, stos generan el nmero total de ordenamientos distinguibles dado

por

+

1

21

nnn

y, por consiguiente, la probabilidad por punto muestral es de

+

1

21

1

nnn

.

|S|SSSS|SS|SS|SSS|S|

Fig.II.6.2. Distribucin de n 1 elementos S en y 1 celdas.

El nmero de formas para obtener y 1 corridas de elementos S es igual al nmero de

ordenamientos distinguibles de n 1 elementos indistinguibles en y 1 celdas, ninguna de

las cuales esta vaca, como se indica en la figura # II.6.2. Esta cantidad es igual al

nmero de formas para distribuir las (y 1 -1) barras internas idnticas en los (n 1 -1)

espacios entre los elementos S. En consecuencia, es igual al nmero de formas para

seleccionar (y 1 -1) espacios para las barras afuera de los (n 1 -1) espacios disponibles; es

decir

11

1

1

yn
36

El nmero de formas para observar y 1 corridas de elementos S y y 2 corridas

de elementos F, se obtiene con el producto

11

1

1

yn

11

2

2

yn

Esta expresin proporciona el nmero de puntos muestrales en el evento y 1 corridas de

elementos S y y 2 corridas de elementos F. Si multiplicamos este nmero por la

probabilidad de cada punto muestral, obtenemos la probabilidad de y 1 corridas de

elementos S y y 2 corridas de elementos F, exactamente:

p(y 1 , y 2 ) =

+

1

21

2

2

1

1

11

11

nnnyn

yn

Entonces, P(R = r) es igual a la suma de p(y 1 ,y 2 ) que recorre todos los

valores de y 1 y y 2 , los cuales satisfacen la relacin (y 1 + y 2 ) = r.

Para ilustrar la aplicacin de esta frmula, el evento R = 4 podra ocurrir

cuando y 1 = 2 y y 2 = 2, ya sea que el elemento S o F inicie las sucesiones. Por lo tanto,

P(R = 4) = 2P(Y 1 = 2, Y 2 = 2). Por otra parte, R = 5 podra ocurrir cuando y 1 = 2 y y 2 = 3,

o cuando y 1 = 3 y y 2 = 2, y estas ocurrencias son mutuamente excluyentes. De manera

que P(R = 5) = P(Y 1 = 3, Y 2 = 2) + P(Y 1 = 2, Y 2 = 3).

EJEMPLO # II.6.1

Suponga que una sucesin consta de n 1 = 5 elementos S y n 2 = 3

elementos F. Calcule P(R 3).

SOLUCIN

Podran ocurrir tres corridas cuando y 1 = 2 y y 2 = 1, o cuando y 1 = 1 y

y 2 = 2. Por consiguiente,
37

P(R = 3) = P(Y 1 = 2, Y 2 = 1) + P(Y 1 = 1, Y 2 = 2)

= 107.0562

564

58

12

04

58

02

14

=+=

+

.

En seguida, requerimos que P(R 3) = P(R = 2) + P(R = 3). En consecuencia,

P(R = 2) = 2P(Y 1 = 1, Y 2 = 1) = 2

58

02

04

= 843 = 0.036.

Por lo tanto, la probabilidad de tres o menos corridas es de 0.107 + 0.036 = 0.143

Cuando n 1 y n 2 son pequeos, suelen realizarse pruebas de aleatoriedad con respecto a R

mediante el uso de tablas especiales, como la tabla # 6 del apndice B. Rechazamos la

hiptesis nula de aleatoriedad en el nivel de significancia si R r2 o bien

R r2 donde r

2 es el valor ms grande para el cual P( R r

2 ) no es mayor que 2

y r2 es el valor ms pequeo para el cual P( R r

2 ) no es mayor que 2

.

El resumen de esta prueba es como se muestra:

Hiptesis nula H0: Hay aleatoriedad en el proceso

Hiptesis alternativa. H 1 : No hay aleatoriedad en el proceso

Estadstico de la prueba.. R = nmero de corridas en una prueba

Regin de rechazo... Se rechaza la hiptesis nula si R k 1 = r2 y

R k 2 = r2
38

Como en el caso de otros estadsticos de prueba no paramtricos analizados

anteriormente, la distribucin de probabilidad para R tiende a la normalidad conforme

n 1 y n 2 crecen. La aproximacin es buena cuando n 1 y n 2 son mayores que 10. As que

podemos utilizar el estadstico Z como estadstico de prueba para una muestra grande.

En consecuencia,

Z = R

RR y 12

21

21 ++= nnnn

R con )1()()2(2

212

21

2121212

++=

nnnnnnnnnn

R

representan el valor esperado y la varianza de R, respectivamente. La regin de rechazo

para una prueba de dos colas con = 0.05 es 96.1z . Si es la probabilidad que se

busca de cometer un error tipo I, en el caso de una prueba de cola superior, rechazamos

la hiptesis nula si z > z (en el caso de una prueba de cola inferior rechazamos H 0

si z < - z ).

II.7 COEFICIENTE DE CORRELACIN DE RANGOS DE SPEARMAN

Con frecuencia, en el anlisis de correlacin, la informacin no esta

disponible en forma de valores numricos, pero si podemos asignar clasificaciones a los

elementos de cada una de dos variables que estamos estudiando, entonces puede

calcularse un coeficiente de correlacin de rango. Esta es una medida de la correlacin

que existe entre los dos conjuntos de rangos, una medida del grado de asociacin entre

las variables que no podramos calcular de otra manera. Tambin este mtodo simplifica

el proceso de clculo a partir de un conjunto de datos muy grande para cada una de las

dos variables, ya que calcula una medida de asociacin basada en los rangos de las

observaciones y no en los valores numricos de los datos. Esta medicin se le conoce

como el coeficiente de correlacin de rango de Spearman, en honor al estadstico que lo

desarroll a principios del siglo pasado y fue la primera de todas las estadsticas basadas

en rangos.
39

Para un conjunto dado de datos ordenados en parejas { }niyx ii ,...,2,1);,( = , este se obtiene ordenando por rango las x entre si mismas y tambin las y; cuando hay

coincidencias de rango, se procede como se hizo en caso del estadstico de Mann-

Whitney.

Se parte de la frmula de Pearson

r =

= =

=

n

i

n

iii

n

iii

yyxx

yyxx

1 1

22

1

)()(

))((=

yyxx

xy

SSS

,

y como las x y las y son rangos, entonces r = r s ; la suma de los n enteros 1, 2, . . ., n, es

=

n

iix

1=

2)1( +nn , y la suma de sus cuadrados, 1 2 , 2 2 , . . . , n 2 es

=

n

iix

1

2 = 6

)12)(1( ++ nnn . Por consiguiente,

S xx =2

1)( xx

n

ii

==

=

n

iix

1

2

n

xn

ii

= 12)(

=6

)12)(1( ++ nnn4

)1( 2+ nn =12

3 nn ,

y similarmente

S yy = 12

3 nn .

Ahora

d = x y

d 2 = ( x y) 2 = x 2 2 xy + y 2

====

+=n

iii

n

ii

n

ii

n

ii yxyxd

11

2

1

2

1

2 2

==

n

iid

1

2 S xx + S yy xyS2

Pero la frmula establece que

r = yyxx

xy

SS

S= r s
40

cuando las observaciones estn en forma de rango. Por consiguiente,

==

n

iid

1

2 S xx + S yy -2 r s yyxx SS , y r s =yyxx

n

iiyyxx

SS

dSS

21

2=

+,

sustituyendo se tiene

r s = )

12)(

12(2

121233

1

233

nnnn

dnnnnn

ii

+

= =

12)(2

12)(2

31

23

nn

dnnn

ii

= = 1

6

3

2

1

2

nn

di

i

= = 1

nn

dn

ii

=3

1

26

que se podr usar cuando no hay empates en x o y, o si el nmero de empates es

pequeo en comparacin con el nmero de pares de datos. As el error cometido al

emplear esta frmula ser pequeo.

Cuando es el caso en que el nmero de empates es grande hay que usar el

factor T = 12

3 tt para ajustar la frmula. En este caso se tendr

r s = yyxx

n

iiyyxx

SS

dSS

21

2=

+, donde S xx = xTnn 12

3

y S yy = 12

3 nn yT

Resumen de la prueba de correlacin de rangos de Spearman

Hiptesis nula: H 0 : No hay relacin entre los pares de rangos.

Hiptesis alternativa: H 1 : Hay relacin entre los pares de rangos (prueba de dos

colas) o,

H 1 : La correlacin entre los pares de rangos es positiva

(o negativa) (prueba de una cola).

Estadstico de la prueba:

r s =

= ===

= ==n

i

n

iii

n

ii

n

ii

n

i

n

ii

n

iiii

yynxxn

yxyxn

1

2

1

22

11

2

1 11 = 1nn

dn

ii

=3

1

26
41

donde x i y y i representan los rangos del i-simo par de

observaciones.

Regin de rechazo: En una prueba de dos colas, rechace H 0 si r s 0r o

r s 0r , donde 0r figura en la tabla # 7 del apndice B.

Duplique la probabilidad tabulada para obtener el valor de para la prueba de dos colas. En una prueba de una cola,

rechace H 0 si r s 0r (para una prueba de cola superior) o

r s 0r (para una prueba de cola inferior). El valor de

Top Related

Practica No. 5-Analisis de Los Metodos de Trabajo

Costos Parametricos Valuador Bimsa 2014

Power metodos trabajo de metodos

Imic Costos-parametricos-2014 Urbanizacion y Equipamiento

Estudio de Metodos No Parametricos

metodos de generacion de energia electrica por metodos convencionales y no convencionales en El Salvador.pdf

Analisis Parametricos

Costos Parametricos