Resumenes númericas de una muestra I: medidas basadas en...

transcript

Resumenes númericas de una muestra I:

medidas basadas en percentiles

Michael Wiper

Departamento de Estadística

Universidad Carlos III de Madrid

M. Wiper Estadística 1 / 23
Objetivo

Introducir medidas de localización y escala de una muestra basadas en la posicióny orden de los datos.

La moda

Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.

Es apropiada para muestras cualitativas o discretas.

Una muestra puede ser unimodal o multimodal.

No tiene tanto sentido para una muestra continua.

Sólo podemos hablar de un intervalo modal.

Buscamos una medida alternativa.

La moda







La moda







La moda







Una medida del centro: la mediana

Una alternativa a la moda es la mediana, es decir el valor más centrico de lamuestra.

Con un número impar de datos es fácil de calcular ...

5, 7, 4, 3, 2, 9 7

La mediana con un número par de datos

Con un número par de datos, no existe un único dato más centrico ...

1, 2, 4, 5, 7, 9, 11, 13


... sino dos valores. En nuestro ejemplo, (n + 1)/2 = 4,5 ...

1, 2, 4, 5, 7, 9, 11, 13


... entonces tomamos el promedio

1, 2, 4, 5, 7, 9, 11, 13

La mediana es Me = (5+ 7)/2 = 6.

La mediana a través de la tabla de frecuencias

Con datos discretas ...


... buscamos la primera vez que la frecuencia cumulativa sube a 0,5 o por arriba.

En este caso hay la mediana es Me = tres accidentes mortales diarios.


Con datos continuos ...


podemos encontrar un intervalo mediano ...

El intervalo mediano es (0, 350].

Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36) pero puede ser imprecisa (163 es la verdadera mediana).




Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36)

pero puede ser imprecisa (163 es la verdadera mediana).




Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36) pero puede ser imprecisa (163 es la verdadera mediana).

Otras medidas de localización: mínimo, máximo y

percentiles

De vez en cuando, no sólo el dato más centrico es de interés y queremos medirotras posiciones en la muestra:

El mínimo es el valor más pequeña de la muestra.

El máximo es el valor más grande.

El percentil de p × 100% es el valor (n + 1) ∗ p en la muestra ordenada.

La idea es dividir la muestra en dos grupos de proporción (aproximadamente)p y (1− p) respectivamente.Tipicamente, se tiene que utilizar interpolación para calcular el percentil.

Los percentiles de 25% y 75% se llaman el primer cuartíl y el tercer cuartílrespectivamente.


percentiles








percentiles







Ejemplo1, 2, 4, 5, 7, 9, 11, 13

El mínimo (o cero cuartíl) es Q0 = 1.

El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.

Q1 = 2+ 0,25× (4− 2) = 2,5.

La mediana es Q2 = 6.

EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.

Q3 = 9+ 0,75× (11− 9) = 10,5.

El máximo (o cuarto cuartíl) es Q4 = 13.

El 40% percentil es el punto 0,4× (8+ 1) = 3,6.

40% percentil = 4+ 0,6× (5− 4) = 4,6.

Ejemplo1, 2, 4, 5, 7, 9, 11, 13



Q1 = 2+ 0,25× (4− 2) = 2,5.



Q3 = 9+ 0,75× (11− 9) = 10,5.



40% percentil = 4+ 0,6× (5− 4) = 4,6.

Ejemplo1, 2, 4, 5, 7, 9, 11, 13



Q1 = 2+ 0,25× (4− 2) = 2,5.



Q3 = 9+ 0,75× (11− 9) = 10,5.



40% percentil = 4+ 0,6× (5− 4) = 4,6.

Ejemplo1, 2, 4, 5, 7, 9, 11, 13



Q1 = 2+ 0,25× (4− 2) = 2,5.



Q3 = 9+ 0,75× (11− 9) = 10,5.



40% percentil = 4+ 0,6× (5− 4) = 4,6.

Ejemplo1, 2, 4, 5, 7, 9, 11, 13



Q1 = 2+ 0,25× (4− 2) = 2,5.



Q3 = 9+ 0,75× (11− 9) = 10,5.



40% percentil = 4+ 0,6× (5− 4) = 4,6.

Ejemplo1, 2, 4, 5, 7, 9, 11, 13



Q1 = 2+ 0,25× (4− 2) = 2,5.



Q3 = 9+ 0,75× (11− 9) = 10,5.



40% percentil = 4+ 0,6× (5− 4) = 4,6.

Ejemplo1, 2, 4, 5, 7, 9, 11, 13



Q1 = 2+ 0,25× (4− 2) = 2,5.



Q3 = 9+ 0,75× (11− 9) = 10,5.



40% percentil = 4+ 0,6× (5− 4) = 4,6.

Cuartiles a través de la tabla de frecuencia

Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.

Igual que la mediana, sólo se puede calcular un intervalo conteniendo el cuartilpara datos continuos.


Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.



Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.


Midiendo la dispersión de los datos: el rango

La mediana es una medida razonable de la localización típica de los datos.

Queremos una medida de dispersión.

Una posibilidad es el rango que mide la distancia entre el mínimo y el máximo:R = Q4 − Q0.

1, 2, 4, 5, 7, 9, 11, 13

El rango es 12.

¾Qué pasaría en presencia de un dato atípico?

1, 2, 4, 5, 7, 9, 11, 130

El rango sube a 129. Es una medida muy inestable.


La mediana es una medida razonable de la localización típica de los datos.

Queremos una medida de dispersión.

Una posibilidad es el rango que mide la distancia entre el mínimo y el máximo:R = Q4 − Q0.

1, 2, 4, 5, 7, 9, 11, 13

El rango es 12.

¾Qué pasaría en presencia de un dato atípico?

1, 2, 4, 5, 7, 9, 11, 130

El rango sube a 129. Es una medida muy inestable.


intercuartilico

Una medida mucho más estable es el rango intercaurtilico RI = Q3 − Q1.Mide la distancia entre los 50% de la muestra más centrica.

1, 2, 4, 5, 7, 9, 11, 131, 2, 4, 5, 7, 9, 11, 130

En ambos casos: RI = 10,5− 2,5 = 8. El RI es robusto a atípicos.

Identi�cando atípicos y el diagrama de caja

Una regla empírica dice que si un dato queda más de 1,5× RI por debajo de Q1 opor arriba de Q3, se lo puede identi�car como atípico de la muestra. Si queda másde 3× RI por debajo de Q1 o arriba de Q3, se lo identi�ca como fuertamenteatípico.

El diagrama de caja (o de caja y bigotes es una manera grá�ca de visualizar losdatos y mostrar la asimetría y posibles datos atípicos.

Ejemplo de juguete

1, 2, 4, 5, 7, 9, 11, 13

Sin presencia de atípicos, los bigotes sonel mínimo y máximo.

1, 2, 4, 5, 7, 9, 11, 130

El bigote de arriba está en 11: el datomáximo menor que Q3 + 1,5RI .Observamos un fuerte atípico.

Ejemplo de datos forestales

Se puede ver la típica forma deldiagrama de caja con datos asimétricos ala derecha.

Resumen y siguiente sesión

Hemos introducido la mediana y el rango intercuartilico como medidas delocalización y dispersión de una muestra.

Son medidas muy apropiadas para muestras asímetricas en presencia de datosatípicos.

En la siguiente sesión consideramos medidas alternativas muy apropiadas paramuestras simétricas.

Resumenes númericas de una muestra I: medidas basadas en...

Documents