Post on 21-Oct-2020
transcript
Resumenes númericas de una muestra I:
medidas basadas en percentiles
Michael Wiper
Departamento de Estadística
Universidad Carlos III de Madrid
M. Wiper Estadística 1 / 23
Objetivo
Introducir medidas de localización y escala de una muestra basadas en la posicióny orden de los datos.
M. Wiper Estadística 2 / 23
La moda
Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.
Es apropiada para muestras cualitativas o discretas.
Una muestra puede ser unimodal o multimodal.
No tiene tanto sentido para una muestra continua.
Sólo podemos hablar de un intervalo modal.
Buscamos una medida alternativa.
M. Wiper Estadística 3 / 23
La moda
Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.
Es apropiada para muestras cualitativas o discretas.
Una muestra puede ser unimodal o multimodal.
No tiene tanto sentido para una muestra continua.
Sólo podemos hablar de un intervalo modal.
Buscamos una medida alternativa.
M. Wiper Estadística 3 / 23
La moda
Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.
Es apropiada para muestras cualitativas o discretas.
Una muestra puede ser unimodal o multimodal.
No tiene tanto sentido para una muestra continua.
Sólo podemos hablar de un intervalo modal.
Buscamos una medida alternativa.
M. Wiper Estadística 3 / 23
La moda
Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.
Es apropiada para muestras cualitativas o discretas.
Una muestra puede ser unimodal o multimodal.
No tiene tanto sentido para una muestra continua.
Sólo podemos hablar de un intervalo modal.
Buscamos una medida alternativa.
M. Wiper Estadística 3 / 23
Una medida del centro: la mediana
Una alternativa a la moda es la mediana, es decir el valor más centrico de lamuestra.
Con un número impar de datos es fácil de calcular ...
5, 7, 4, 3, 2, 9 7
M. Wiper Estadística 4 / 23
Una medida del centro: la mediana
es el punto (n + 1)/2 de la muestra ...
5, 7, 4, 3©, 2, 9 7
M. Wiper Estadística 5 / 23
Una medida del centro: la mediana
... pero el resultado no tiene sentido
5, 7, 4, 3©, 2, 9 7
M. Wiper Estadística 6 / 23
Una medida del centro: la mediana
... si no ordenamos los datos:
2, 3, 4, 5©, 7, 7 9
M. Wiper Estadística 7 / 23
La mediana con un número par de datos
Con un número par de datos, no existe un único dato más centrico ...
1, 2, 4, 5, 7, 9, 11, 13
M. Wiper Estadística 8 / 23
La mediana con un número par de datos
... sino dos valores. En nuestro ejemplo, (n + 1)/2 = 4,5 ...
1, 2, 4, 5, 7, 9, 11, 13
M. Wiper Estadística 9 / 23
La mediana con un número par de datos
... entonces tomamos el promedio
1, 2, 4, 5, 7, 9, 11, 13
La mediana es Me = (5+ 7)/2 = 6.
M. Wiper Estadística 10 / 23
La mediana a través de la tabla de frecuencias
Con datos discretas ...
M. Wiper Estadística 11 / 23
La mediana a través de la tabla de frecuencias
... buscamos la primera vez que la frecuencia cumulativa sube a 0,5 o por arriba.
En este caso hay la mediana es Me = tres accidentes mortales diarios.
M. Wiper Estadística 12 / 23
La mediana a través de la tabla de frecuencias
Con datos continuos ...
M. Wiper Estadística 13 / 23
La mediana a través de la tabla de frecuencias
podemos encontrar un intervalo mediano ...
El intervalo mediano es (0, 350].
Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36) pero puede ser imprecisa (163 es la verdadera mediana).
M. Wiper Estadística 14 / 23
La mediana a través de la tabla de frecuencias
podemos encontrar un intervalo mediano ...
El intervalo mediano es (0, 350].
Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36)
pero puede ser imprecisa (163 es la verdadera mediana).
M. Wiper Estadística 14 / 23
La mediana a través de la tabla de frecuencias
podemos encontrar un intervalo mediano ...
El intervalo mediano es (0, 350].
Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36) pero puede ser imprecisa (163 es la verdadera mediana).
M. Wiper Estadística 14 / 23
Otras medidas de localización: mínimo, máximo y
percentiles
De vez en cuando, no sólo el dato más centrico es de interés y queremos medirotras posiciones en la muestra:
El mínimo es el valor más pequeña de la muestra.
El máximo es el valor más grande.
El percentil de p × 100% es el valor (n + 1) ∗ p en la muestra ordenada.
La idea es dividir la muestra en dos grupos de proporción (aproximadamente)p y (1− p) respectivamente.Tipicamente, se tiene que utilizar interpolación para calcular el percentil.
Los percentiles de 25% y 75% se llaman el primer cuartíl y el tercer cuartílrespectivamente.
M. Wiper Estadística 15 / 23
Otras medidas de localización: mínimo, máximo y
percentiles
De vez en cuando, no sólo el dato más centrico es de interés y queremos medirotras posiciones en la muestra:
El mínimo es el valor más pequeña de la muestra.
El máximo es el valor más grande.
El percentil de p × 100% es el valor (n + 1) ∗ p en la muestra ordenada.
La idea es dividir la muestra en dos grupos de proporción (aproximadamente)p y (1− p) respectivamente.Tipicamente, se tiene que utilizar interpolación para calcular el percentil.
Los percentiles de 25% y 75% se llaman el primer cuartíl y el tercer cuartílrespectivamente.
M. Wiper Estadística 15 / 23
Otras medidas de localización: mínimo, máximo y
percentiles
De vez en cuando, no sólo el dato más centrico es de interés y queremos medirotras posiciones en la muestra:
El mínimo es el valor más pequeña de la muestra.
El máximo es el valor más grande.
El percentil de p × 100% es el valor (n + 1) ∗ p en la muestra ordenada.
La idea es dividir la muestra en dos grupos de proporción (aproximadamente)p y (1− p) respectivamente.Tipicamente, se tiene que utilizar interpolación para calcular el percentil.
Los percentiles de 25% y 75% se llaman el primer cuartíl y el tercer cuartílrespectivamente.
M. Wiper Estadística 15 / 23
Ejemplo1, 2, 4, 5, 7, 9, 11, 13
El mínimo (o cero cuartíl) es Q0 = 1.
El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.
Q1 = 2+ 0,25× (4− 2) = 2,5.
La mediana es Q2 = 6.
EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.
Q3 = 9+ 0,75× (11− 9) = 10,5.
El máximo (o cuarto cuartíl) es Q4 = 13.
El 40% percentil es el punto 0,4× (8+ 1) = 3,6.
40% percentil = 4+ 0,6× (5− 4) = 4,6.
M. Wiper Estadística 16 / 23
Ejemplo1, 2, 4, 5, 7, 9, 11, 13
El mínimo (o cero cuartíl) es Q0 = 1.
El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.
Q1 = 2+ 0,25× (4− 2) = 2,5.
La mediana es Q2 = 6.
EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.
Q3 = 9+ 0,75× (11− 9) = 10,5.
El máximo (o cuarto cuartíl) es Q4 = 13.
El 40% percentil es el punto 0,4× (8+ 1) = 3,6.
40% percentil = 4+ 0,6× (5− 4) = 4,6.
M. Wiper Estadística 16 / 23
Ejemplo1, 2, 4, 5, 7, 9, 11, 13
El mínimo (o cero cuartíl) es Q0 = 1.
El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.
Q1 = 2+ 0,25× (4− 2) = 2,5.
La mediana es Q2 = 6.
EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.
Q3 = 9+ 0,75× (11− 9) = 10,5.
El máximo (o cuarto cuartíl) es Q4 = 13.
El 40% percentil es el punto 0,4× (8+ 1) = 3,6.
40% percentil = 4+ 0,6× (5− 4) = 4,6.
M. Wiper Estadística 16 / 23
Ejemplo1, 2, 4, 5, 7, 9, 11, 13
El mínimo (o cero cuartíl) es Q0 = 1.
El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.
Q1 = 2+ 0,25× (4− 2) = 2,5.
La mediana es Q2 = 6.
EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.
Q3 = 9+ 0,75× (11− 9) = 10,5.
El máximo (o cuarto cuartíl) es Q4 = 13.
El 40% percentil es el punto 0,4× (8+ 1) = 3,6.
40% percentil = 4+ 0,6× (5− 4) = 4,6.
M. Wiper Estadística 16 / 23
Ejemplo1, 2, 4, 5, 7, 9, 11, 13
El mínimo (o cero cuartíl) es Q0 = 1.
El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.
Q1 = 2+ 0,25× (4− 2) = 2,5.
La mediana es Q2 = 6.
EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.
Q3 = 9+ 0,75× (11− 9) = 10,5.
El máximo (o cuarto cuartíl) es Q4 = 13.
El 40% percentil es el punto 0,4× (8+ 1) = 3,6.
40% percentil = 4+ 0,6× (5− 4) = 4,6.
M. Wiper Estadística 16 / 23
Ejemplo1, 2, 4, 5, 7, 9, 11, 13
El mínimo (o cero cuartíl) es Q0 = 1.
El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.
Q1 = 2+ 0,25× (4− 2) = 2,5.
La mediana es Q2 = 6.
EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.
Q3 = 9+ 0,75× (11− 9) = 10,5.
El máximo (o cuarto cuartíl) es Q4 = 13.
El 40% percentil es el punto 0,4× (8+ 1) = 3,6.
40% percentil = 4+ 0,6× (5− 4) = 4,6.
M. Wiper Estadística 16 / 23
Ejemplo1, 2, 4, 5, 7, 9, 11, 13
El mínimo (o cero cuartíl) es Q0 = 1.
El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.
Q1 = 2+ 0,25× (4− 2) = 2,5.
La mediana es Q2 = 6.
EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.
Q3 = 9+ 0,75× (11− 9) = 10,5.
El máximo (o cuarto cuartíl) es Q4 = 13.
El 40% percentil es el punto 0,4× (8+ 1) = 3,6.
40% percentil = 4+ 0,6× (5− 4) = 4,6.
M. Wiper Estadística 16 / 23
Cuartiles a través de la tabla de frecuencia
Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.
Igual que la mediana, sólo se puede calcular un intervalo conteniendo el cuartilpara datos continuos.
M. Wiper Estadística 17 / 23
Cuartiles a través de la tabla de frecuencia
Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.
Igual que la mediana, sólo se puede calcular un intervalo conteniendo el cuartilpara datos continuos.
M. Wiper Estadística 17 / 23
Cuartiles a través de la tabla de frecuencia
Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.
Igual que la mediana, sólo se puede calcular un intervalo conteniendo el cuartilpara datos continuos.
M. Wiper Estadística 17 / 23
Midiendo la dispersión de los datos: el rango
La mediana es una medida razonable de la localización típica de los datos.
Queremos una medida de dispersión.
Una posibilidad es el rango que mide la distancia entre el mínimo y el máximo:R = Q4 − Q0.
1, 2, 4, 5, 7, 9, 11, 13
El rango es 12.
¾Qué pasaría en presencia de un dato atípico?
1, 2, 4, 5, 7, 9, 11, 130
El rango sube a 129. Es una medida muy inestable.
M. Wiper Estadística 18 / 23
Midiendo la dispersión de los datos: el rango
La mediana es una medida razonable de la localización típica de los datos.
Queremos una medida de dispersión.
Una posibilidad es el rango que mide la distancia entre el mínimo y el máximo:R = Q4 − Q0.
1, 2, 4, 5, 7, 9, 11, 13
El rango es 12.
¾Qué pasaría en presencia de un dato atípico?
1, 2, 4, 5, 7, 9, 11, 130
El rango sube a 129. Es una medida muy inestable.
M. Wiper Estadística 18 / 23
Midiendo la dispersión de los datos: el rango
intercuartilico
Una medida mucho más estable es el rango intercaurtilico RI = Q3 − Q1.Mide la distancia entre los 50% de la muestra más centrica.
1, 2, 4, 5, 7, 9, 11, 131, 2, 4, 5, 7, 9, 11, 130
En ambos casos: RI = 10,5− 2,5 = 8. El RI es robusto a atípicos.
M. Wiper Estadística 19 / 23
Identi�cando atípicos y el diagrama de caja
Una regla empírica dice que si un dato queda más de 1,5× RI por debajo de Q1 opor arriba de Q3, se lo puede identi�car como atípico de la muestra. Si queda másde 3× RI por debajo de Q1 o arriba de Q3, se lo identi�ca como fuertamenteatípico.
El diagrama de caja (o de caja y bigotes es una manera grá�ca de visualizar losdatos y mostrar la asimetría y posibles datos atípicos.
M. Wiper Estadística 20 / 23
Ejemplo de juguete
1, 2, 4, 5, 7, 9, 11, 13
Sin presencia de atípicos, los bigotes sonel mínimo y máximo.
1, 2, 4, 5, 7, 9, 11, 130
El bigote de arriba está en 11: el datomáximo menor que Q3 + 1,5RI .Observamos un fuerte atípico.
M. Wiper Estadística 21 / 23
Ejemplo de datos forestales
Se puede ver la típica forma deldiagrama de caja con datos asimétricos ala derecha.
M. Wiper Estadística 22 / 23
Resumen y siguiente sesión
Hemos introducido la mediana y el rango intercuartilico como medidas delocalización y dispersión de una muestra.
Son medidas muy apropiadas para muestras asímetricas en presencia de datosatípicos.
En la siguiente sesión consideramos medidas alternativas muy apropiadas paramuestras simétricas.
M. Wiper Estadística 23 / 23