Post on 20-Jun-2015
transcript
Medidas de Tendencia Central. Dispersión. Gráficos
Dr Carlos Canelo AybarMedicina Interna. Epidemiología ClínicaHospital Arzobispo Loayza
Características de una distribución de frecuencias
Los datos deberá ser examinados gráficamente, antes de intentar resumirlos, con una medición resumida simple.
Presentaciones visuales ayudan a identificar los extremos y la forma de la distribución.
Histograma- gráfica de distribución de frecuencias.
Características de una distribución de frecuencias
Propiedades de la distribución de frecuencias Tendencia central Variabilidad (dispersión)
Forma de la distribución (simétrica o desviada), determina la medida de tendencia central o de dispersión, adecuadas
MEDIDAS DE TENDENCIA CENTRAL Medidas de localización
Media Aritmética
Se obtiene sumando todos los valores de una población o muestra y dividiéndolo entre el número de valores sumados.
x = ∑ xi
nµ =
∑ xi
N
Los valores extremos influyen sobre la media, y en algunos casos puede distorsionarla tanto que llega a ser indeseable como medida de tendencia central.
Media ponderadaMedia que se obtiene asignando distintos pesos a los valores,
x
=Σ ( W . X )
Σ W Necesitamos una media de tres calificaciones de una prueba, 85, 90, 75, donde
la primera prueba tiene el 20%, la segunda el 30% y la tercera 50%
Triola 2004:66
x
=( 20 . 85 ) + (30 . 90) + (50 . 75)
20 + 30 + 50= 81.5
Medidas de localización La Moda
La moda de un conjunto de valores es aquel que ocurre con mayor frecuencia
Si todos los valores son diferentes, no hay moda.
Un conjunto de valores puede tener mas de una moda
Ejemplo:
¿Cual es la moda en los siguientes datos?
12 14 09 04 12 33 23 17 33 31 12 24 09 18
16 09 25 07 15
Medidas de localización La Mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto de números ordenados en dos partes iguales.Ninguna observación extrema en un conjunto de datos afecta a la mediana, en consecuencia, siempre que una observación extrema esté presente, es adecuado usar la mediana en lugar de la media para describir un conjunto de datos.
50%50% n + 1
2=(Par)
Me
n = número de datos
Tendencia central (Resumen)
Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.
Media: Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral.
Media de 2, 2, 3, 7 es (2+2+3+7)/4 = 3,5Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos.
Mediana: Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos. Si el número de datos es par, se elige la media de los dos datos centrales.
Mediana de 1, 2 ,4 ,5, 6 ,6, 8 = 5Mediana de 1, 2, 4, 5, 6, 6, 8, 9 = (5+6)/2 = 5,5Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.Mediana de 1, 2 , 4, 5, 6, 6, 800 = 5 La media 1, 2, 4, 5, 6, 6, 800 = 117,7
Medidas de Dispersión
La dispersión de un conjunto de observaciones se refiere a la variabilidad que presentan estas.
Una medida de dispersión conlleva información respecto a la cantidad total de variabilidad presente en el conjunto de datos
Tres distribuciones normales con diferentes dispersiones de los datos
x
MEDIDAS DE DISPERSIÓN Rango
Diferencia entre el valor mayor y el valor menor de un conjunto de datos obtenidos en una medición.
Rango = X más grande – X más pequeño
El rango mide la dispersión total en un conjunto de datos. Aunque es una medida sencilla de la variación total de los datos, su debilidad característica consiste en que no toma en cuenta como se distribuyen los datos entre los valores mas grande y más pequeños.
No es necesariamente una medida de típica de dispersión porque la presencia de un valor extremo puede cambiar radicalmente su valor
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.
Amplitud o Rango:Diferencia entre observaciónes extremas.
2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.
Rango intercuartílico: Es la distancia entre primer y tercer cuartil.
Rango intercuartílico = Q3 – Q1 Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos.
150 160 170 180 190
0.0
00
.01
0.0
20
.03
0.0
40
.05
150 160 170 180 190
25% 25% 25% 25%
Mín. P25 P50 P75 Máx.
Rango intercuartílico
Rango
Medidas de dispersión
MEDIDAS DE DISPERSIÓN La Varianza
La varianza es una medida de la dispersión que emplea todos los valores de los datos. Se basa en la diferencia entre cada valor y la media.
La diferencia entre cada valor del dato Xi y el promedio ( x para una muestra y µ para una población) se llama desviación respecto al promedio.
Para una muestra la desviación se expresa como: (Xi – x); para una población: (Xi - µ)
Varianza Mide el promedio de las desviaciones (al cuadrado)
de las observaciones con respecto a la media.
MEDIDAS DE DISPERSIÓN Varianza
( X1 – X )2 + ( X2 – X )2 + ….........…. ( Xi – X )2
n - 1
∑ ( Xi – X )2
S2 =
La varianza de la muestra, es la suma de los cuadrados de las diferencias de los datos con relación a la media aritmética divida entre el tamaño de la muestra menos 1
∑ ( Xi – )2
Nσ 2=
VARIANZA MUESTRAL
VARIANZA POBLACIONAL
Unidades de la varianza son al cuadrado.
S2 =n - 1
Dado un conjunto de observaciones, se llama varianza de dicho conjunto a la sumatoria de las diferencias entre cada observación y la media aritmética elevadas al cuadrado, y dividido por el número de observaciones
Es sensible a valores extremos (alejados de la media).
Sus unidades son al cuadrado.
MEDIDAS DE DISPERSIÓN Desviación estándar
Es la raíz cuadrada de la varianza Indica como se agrupa o distribuye un conjunto de datos
alrededor de la media.
La desviación estándar también se define como la raíz cuadrada positiva de la varianza.
σ = σ 2
s2s =
Desviación estándar población
Desviación estándar muestra
MEDIDAS DE DISPERSIÓN Coeficiente de variación
El CV, relativo a un conjunto de datos, que se define como el cociente entre la desviación típica y la media aritmética, es evidentemente un número adimensional. Siempre se expresa como porcentaje.
CV =S
X100 %( )
S = Desviación estándar de un conjunto de datos numéricosX = Media aritmética
Permite establecer comparaciones válidas entre las dispersiones relativas expresadas en unidades de medida diferente
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente. Por ejemplo 0ºC ≠ 0ºF
También se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entonces CV = 20/80 = 0,25 = 25% (variabilidad relativa) Es una cantidad adimensional. Interesante
para comparar la variabilidad de diferentes variables.
Si el peso tiene CV = 30% y la altura tiene CV = 10%, los individuos presentan más dispersión en peso que en altura.
MEDIDAS DE FORMA
Asimetría: Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. La distribución de los datos es simétrica o no lo es. Si no lo es, recibe el nombre de distribución asimétrica o sesgada.
media > mediana: Sesgo positivo o a la derecha
media = mediana: simetría o sesgo cero
media < medina: sesgo negativo o a la izquierda
En las distribuciones simétricas media y mediana
coinciden. Si sólo hay una moda también coincide
Las discrepancias entre la media y la mediana indican
asimetría.
La asimetría es positiva o negativa en
función de a qué lado se encuentra la cola de la distribución.
Sesgo (+) Sesgo (-)
La simetría de una función de distribución se mide por el coeficiente de sesgo de la misma.
El coeficiente de sesgo no debe sobrepasar el valor de ± 2 (para considerarse una distribución Normal)
CURTOSIS
El coeficiente de curtosis mide el mayor o menor aplanamiento de la curva de distribución
Curtosis < 0Curtosis = 0 Curtosis > 0
El coeficiente de sesgo no debe sobrepasar el valor de ± 2
(para considerarse una distribución Normal)
DISTRIBUCION NORMAL
V1
100
80
60
40
20
0
µ
Características de la distribución normal
1.- Es simétrica respecto a su media. En la imagen anterior, la curva hacia cualquiera de los lados de es una imagen de espejo de la del otro ladoµ
2.- La media, la mediana y la moda son iguales
3.- El área total bajo la curva sobre el eje de las X es una unidad de área. Esta característica se deduce del hecho de que la distribución normal es una distribución de probabilidad.
4.- Si se levantaran perpendiculares a una distancia de una desviación estándar desde la media hacia ambos lados, el área delimitada por esas perpendiculares, el eje de las X y la curva será del 68 % del área total, aproximadamente. A dos desviaciones estándar, estará incluido aproximadamente el 95 % del área, y a tres desviaciones estándar, aproximadamente 99,7 del área total estará englobada.
Dispersión en distribuciones ‘normales’
Centrado en la media y a una desv. típica de distancia hay aproximadamente el 68% de las observaciones.
150 160 170 180 190
0.00
0.01
0.02
0.03
0.04
0.05
xs
68.5 %
150 160 170 180 190
0.00
0.01
0.02
0.03
0.04
0.05
x2s
95 %
A dos desviaciones típicas tenemos el 95% (aprox.)
Tres distribuciones normales con diferentes desviaciones estándar pero con la misma media
σ 3
σ 2
x
σ 1
DISTRIBUCIÓN NORMAL ESTÁNDAR
MEDIDAS DE POSICIÓNNO CENTRALES
INFORMAN ACERCA DE LA POSICIÓN QUE OCUPA UN DATO DENTRO DE UNA SERIE ORDENADA EN FORMA CRECIENTE.
DECILES Dividen el conjunto de datos ordenados en diez partes
iguales. Nueve deciles dividen las observaciones en diez partes iguales. Se denotan: D1 D2 D3……………… D9 ; D5 = Mediana
PERCENTILES Dividen el conjunto de datos ordenados en 100 partes
iguales. El percentil 90 es un valor tal que el 90% de todos los valores son menores y el 10 son mayores que él. Se denotan: P1 , P2 P3 , P4 ……………. P99 ; P50 = Mediana; P25 Se corresponde con el primer cuartil ; P75 Se corresponde con tercer cuartil
CUARTILES
Dividen el conjunto de datos ordenados en cuatro partes iguales. Los cuartiles son: Q1 ; Q2 ; Q3 . Se necesitan solamente tres cuartiles para dividir los datos en cuatro partes. El cuartil Q2 = Mediana
Datos
Q1 Q2=Me Q3 Ls
0% 25% 50% 100%75%
CUARTILES
Li
Datos
DECILES 1 2 3 4 5 6 7 8 9 10
Variable Descripción Estadísticos y gráficos
Cualitativa en escala nominal
Valores no numéricos con ausencia de orden entre
ellos
Distribución de frecuencias
ModaDiagrama de barras
Cualitativa en escala ordinal
Valores no numéricos con
presencia de orden entre
ellos
MínimoMáximoMedianaCurtiles
PercentilesRango
IntercuartílicoGráfico de caja y
bigotes
Cuantitativa en escala de intervalo o de razón
Cuantitativa discreta Cuantitativa continua
En escala de intervalo En escala de razón
MediaRango
VarianzaDesviación Típica
Coeficiente de Variación
Coeficiente de asimetría
Coeficiente de curtosis
HistogramaGráfico de tallo y
hoja
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
GRÁFICOS ESTADÍSTICOS
El gráfico es la representación en el plano, de la información estadística, con el fin de obtener una impresión visual global del material presentado, que facilite su rápida comprensión. Los gráficos son una alternativa a las tablas para representar las distribuciones de frecuencias. Algunos requisitos recomendables al construir un gráfico son:
- Evitar distorsiones por escalas exageradas.
- Elección adecuada del tipo de gráfico, según los objetivos y tamaño de recorrido de las variables.
- Sencillez y autoexplicación.
Al igual que las tablas estadísticas, los gráficos
estadísticos deben tener un título y una
explicación de QUE, DONDE y CUANDO se
obtuvo la información.
PREFERENCIA POR LAS ASIGNATURAS
0%10%20%30%40%50%60%70%80%90%
100%
ASIGNATURA
HARTO
MAS O MENOS
NADA
Ganancias25%
Ganancias25%
Representación gráfica y problemas éticos
Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis.
That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front …
Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.
Ganancias25%
.
Representación gráfica y problemas éticos
Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders.
No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down.
LaborCosts
AdministrativeCosts
LaborCosts
AdministrativeCosts
Representación gráfica y problemas éticos
Now, if you could only show this declining sales picture as going up, all my problems would be solved.
Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up.
‘87 ‘88 ‘89 ‘90 ‘91 ‘920
25
50
75
100
‘87 ‘88 ‘89 ‘90 ‘91 ‘920
25
50
75
100
Box plot
Manejo de datos fuera de rango (outliers)
Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos.
Razones para darse: 1. Errores de medición 2. Resultados atípicos
La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas.
PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’
Relación entre el perfil de la distribución y el Box Plot
Sesgada derechaSesgada izquierda Simétrica
Q1 Mediana Q3Q1 Mediana Q3 Q1
Mediana Q3
…………..GRACIAS