Date post: | 13-Jul-2015 |
Category: |
Education |
Upload: | pablo-ramos |
View: | 8,312 times |
Download: | 3 times |
Dra. Luz Carbajal A.Departamento de Estadística, demografía, Humanidades y Ciencias
Sociales
Setiembre, 2010
Universidad Peruana Cayetano Heredia
Curso: Análisis Exploratorio de datos
Tomado de MSp. Wilfredo Mormontoy
1
• La enumeración de los datos representa un avance importante en el análisis de la información.
• La distribución de frecuencias organiza los datos en un formato que facilita su análisis e interpretación.
• La conversión a frecuencias relativas permite hacer comparaciones valiosas y significativas.
Recordar que
Tomado de MSp. Wilfredo Mormontoy 2
• La utilización de distribuciones de frecuencias en intervalos de clases:
• Resume y condensa la información presente en los datos
• Se pierde información individual pero se gana en capacidad de análisis de características globales.
• El uso de gráficos permite una rápida visualización de estas características globales.
• Otra técnica estadística es poder resumir aspectos presentes en los datos con un único valor (o algunos valores).
Tomado de MSp. Wilfredo Mormontoy
3
• A través de:• Medidas de Tendencia central • Medidas de Dispersión• Medidas de Posición• Medidas de Asimetría
Tomado de MSp. Wilfredo Mormontoy 4
• Intento de resumir la distribución, expresando el valor que se puede considerar mas típico o representativo de los datos.
• El término tendencia central implica la idea de un “centro” identificable en la distribución. Tanto más útil será ese valor en tanto más identificable sea ese “centro”.
• Veremos: - Modo o moda - Media Aritmética- Mediana - Media Geométrica
Tomado de MSp. Wilfredo Mormontoy 5
• Es el valor con mayor frecuencia en la distribución de datos.
• En datos agrupados es el punto medio de la clase con mayor frecuencia.
• Se aplica a datos medidos en todas las escalas vistas.
• Las distribuciones pueden ser unimodales, bimodales, multimodales.
Tomado de MSp. Wilfredo Mormontoy 6
• Ej: Variable cualitativa: sexoF F F F F F M M M M M M M M M
Moda:
• Ej: Variable cuantitativa: Años de servicio12 15 13 12 14 16 12 14 14 12 14Moda:
Masculino
12 y 14 (distribución bimodal)
Tomado de MSp. Wilfredo Mormontoy 7
• Es el promedio de las observaciones.• Se puede ver como un punto de equilibrio de la distribución,
o como un centro de gravedad de la misma. • Aplicada a datos cuantitativos (medidos en escala de razón).• Cálculo (población).
Ojo: La suma de las diferencias de cada valor de la muestra con la media es siempre cero, es decir:
N
xNi
ii∑
=
== 1µ
Tomado de MSp. Wilfredo Mormontoy 8
∑=
=−n
ii xx
1
0)(
• Ejemplo: Para la serie de datos utilizada anteriormente:12 15 13 12 14 16 12 14 14 12 14
µ = (12+15+13+12+14+16+12+14+14+12+14)/11=13.45
Interpretación: El total de individuos tienen en promedio 13.45 años de servicio; o
El total de individuos tienen alrededor de 13,45 años de servicio.
N
xNi
ii∑
=
== 1µ
Tomado de MSp. Wilfredo Mormontoy 9
• Es el punto medio de una distribución ordenada de los datos.
• El 50% de los datos están por encima o debajo de este valor.
Es útil cuando se quiere reducir o eliminar el efecto de valores extremos en un conjunto de datos (muy grandes o muy pequeños).
• Es aplicable cuando la variable está en una escala por lo menos ordinal.
Tomado de MSp. Wilfredo Mormontoy 10
• Ejemplo 1: Cantidad de observaciones impar (n=11)
12 15 13 12 14 16 12 14 14 12 14• Ordenamos de menor a mayor y ubicamos el centro:
• Ejemplo 2: Cantidad de observaciones par (n=10)
5 8 8 5 9 6 8 2 9 6 Ordenamos de manera ascendente y ubicamos el centro:
12 12 12 12 13 14 14 14 14 15 16
2 5 5 6 6 8 8 8 9 9
Mediana=(6+8)/2=7Tomado de MSp. Wilfredo Mormontoy 11
Se ordenan los n valores en forma creciente:x1 < x2 < x3 < x4 < x5 < x6 < …..xn
• Si n impar:
• Si n par:
1
2
nMd X +=
12 2
2
n nX X
Md+
+=
Tomado de MSp. Wilfredo Mormontoy 12
• Valor de la variable correspondiente al 0.50 en la frecuencia relativa acumulada
0102030405060708090
100
15 20 25 30 35 40
Edad(años)
Fre
cuen
cia
acum
ulad
a%
Tomado de MSp. Wilfredo Mormontoy 13
Tomado de MSp. Wilfredo Mormontoy 14
Edad fi Fi
14.5-19.5 10 10
19.5-24.5 30 40
24.5-29.5 20 60
29.5-34.5 30 90
34.5-39.5 10 100
Total (n) 100
0.27)5.245.29(20
40505.24 =−×
−+=Md
Md = lri + ( n/2 – Fi-1 ) * c
fmed
fmed
Fi-1
fmed: 20 c: 5Fi-1: 40n/2 = 50lri: 24.5
Interpretación: El 50% de los individuos tienen una edad menor o igual a 27 años.
• Resume la magnitud con la cual los diferentes datos difieren entre sí.
• Sirven como medida de homogeneidad.
• Nos dan elementos para evaluar la adecuación de la medida de tendencia central usada.
• Veremos:- Rango - Desviación estándar- Varianza - Coeficiente de variación- Erro Estándar
Tomado de MSp. Wilfredo Mormontoy 15
• Rango= Xmax-Xmin
• Se utiliza para variables cuantitativas medidas en escala de intervalo o razón.
• Inestable (muy afectada por los valores extremos).• No aprovecha los datos, insuficiente.• Fácil de calcular.
Tomado de MSp. Wilfredo Mormontoy 16
• Nos informan sobre la magnitud de la variación en los datos, la magnitud con la cual las observaciones se agrupan en torno a la media.
• Sólo se aplica a variables cuantitativas (medidas en escala de razón).
• Para una población, la varianza es:
22
1
( )i ni
i
x
N
µσ=
=
−= ∑
Tomado de MSp. Wilfredo Mormontoy 17
• Poblacional
• Muestral
22
1
( )
1
i ni
i
x xs
n
=
=
−=
−∑
22
1
( )i ni
i
x
N
µσ=
=
−= ∑
Tomado de MSp. Wilfredo Mormontoy 18
Varianza Desviación estándar
2σ σ=
2s s=
Ej: 5 8 8 5 9
Media=(5+8+8+5+9)/5=7
87.15,3
5,34
41144
4
)79()78()78()75()75( 222222
==
=++++=−+−+−+−+−=
s
s
22
1
( )
1
i ni
i
x xs
n
=
=
−=
−∑
Tomado de MSp. Wilfredo Mormontoy 19
Proporciona los elementos para comparar la variabilidad en distintos conjuntos de datos que pueden tener distintas medias.
Una desviación estándar de 500 en una distribución con una media de 5000, sugiere una variabilidad mayor que una desviación de 500 en una distribución de media 50000
Generalmente se expresa en porcentaje:
Tomado de MSp. Wilfredo Mormontoy 20
sCV
x= * 100%
Es una medida útil para comparar la variabilidad entre dos o mas grupos de datos (dos o mas muestras). Incluso en una sola muestra cuando se muestran mediciones de diferente unidad de medida.
Indica la variabilidad de las medias muestrales respecto a la media poblacional.
Tomado de MSp. Wilfredo Mormontoy 21
E. S. = S x √n
• Se refiere a la simetría respecto a la media.Si f es la función de distribución, diremos que la distribución es:
Distribución simétrica
0
2
4
6
8
10
12
m-a m
m+a
Densidad
Asimetría negativa
0
1
2
3
4
5
6
7
8
1 2 3 4 5 6 7 8 9
Densidad
0
1
2
3
4
5
6
7
8
1 2 3 4 5 6 7 8 9
Densidad
Asimetría positiva
( ) ( )f media a f media a− = +Simétrica si para todo a es
( ) ( )f media a f media a− < +Asimetría negativa si para algún a es
( ) ( )f media a f media a− > +Asimetría positiva si para algún a es
Tomado de MSp. Wilfredo Mormontoy 22
• Cuantil: valor de la variable bajo el cual se encuentra una cierta proporción de los valores de la distribución.
• Percentiles o centiles: C,100 partes
• Deciles: D, 10 partes
• Cuartiles: Q, 4 partes:
• Q1(25%), Q2(50%), Q3(75%)
Tomado de MSp. Wilfredo Mormontoy 23
Mediana: Valor de la variable que deja por debajo al 50% de las observaciones
Percentil k: Valor de la variable que deja por debajo el k% de las observaciones(Ej: P23, P45 , P50)
Decil k: Valor de la variable que deja por debajo el (k*10)% de las observaciones (Ej: P10=D1, P20=D2,etc.)
Cuartil k:Valor de la variable que deja por debajo el (k*25)% de las observaciones (Ej: P50=Q2 =Me,
Medidas de Posición
Tomado de MSp. Wilfredo Mormontoy 24
• D1=P10
• Q1=P25
• Q2=Md=P50
• Medidas derivadas:
Rango intercuartil (RIC): Q3-Q1.
Desviación intercuartil: (Q3-Q1)/2 La desviación intercuartil es una medida que
acompaña a la mediana en la descripción de sus datos
Tomado de MSp. Wilfredo Mormontoy 25
Tomado de MSp. Wilfredo Mormontoy 26
Edad fi Fi
14.5-19.5 10 10
19.5-24.5 30 40
24.5-29.5 20 60
29.5-34.5 30 90
34.5-39.5 10 100
Total (n) 100
0.32530
60755.293 =×
−+=Q
Q3 = lri + ( 3(n/4) – Fi-1 ) * c
fcuartil3
fcuartil3
Fi-1
fcuartil3: 30 c: 5Fi-1: 603(n/4) = 3*(100/4) = 75lri: 29.5
Calcular: ◦ Q1, Q2 y Q3
▶ Obtener los limites imaginarios:◦ Inferior: Q1 – 1.5*RIC (RIC = rango intercuartil)
◦ Superior:Q3 + 1.5*RIC
◦ RIC = Q3 – Q1
Considerando los datos de la tabla anterior:Q1 = 22.0 ; Q2 = 27.0 ; Q3 = 32.0 ; RIC = 32-22=10
Inferior: 22 – (1.5)(10) = 7Superior: 32 + (1.5)(10) = 47 Con estos datos, podemos generar la gráfica de caja y bigote.
Tomado de MSp. Wilfredo Mormontoy 27
Tomado de MSp. Wilfredo Mormontoy 28
50
40
30
20
10
Edad
Max. aprox
Q3
MdQ1
Min. aprox
Tomado de MSp. Wilfredo Mormontoy 29
Edad fi Fi
14.5-19.5 20 20
19.5-24.5 60 80
24.5-29.5 40 120
29.5-34.5 60 180
34.5-39.5 20 200
Total (n) 200
83.22)5.195.24(60
20605.1930 =−×
−+=P
P30 = lri + ( 30(200/100) – Fi-1 ) * c
fpercentil30
fpercentil30
Fi-1
fpercentil30: 60 c: 5Fi-1: 20Posición P30: 30(n/100) = 60lri: 19.5
Curvas de crecimiento ◦ Peso-edad◦ Talla-edad◦ Perímetro cefálico-edad◦ Crecimiento intrauterino,etc
Tomado de MSp. Wilfredo Mormontoy 30
Para 12 meses:
P50 =46cm(aprox)
P90=48cm(aprox)
Tomado de MSp. Wilfredo Mormontoy 31
• No siempre es necesario indicar todas las medidas de resumen.
• Buscar las más significativas y representativas.
• En distribuciones sesgadas o asimétricas es mas apropiada la mediana como medida de tendencia central.
• En distribuciones bimodales o multimodales, esa característica no debe dejar de mencionarse.
Tomado de MSp. Wilfredo Mormontoy 32
Tomado de MSp. Wilfredo Mormontoy 33
Ubicación gráfica de los cuartiles
Tomado de MSp. Wilfredo Mormontoy 34
Tomado de MSp. Wilfredo Mormontoy 35
Tomado de MSp. Wilfredo Mormontoy 36
Valores atípicos
Proporción:◦ Número (a) de observaciones con una característica dada
(como sano o enfermo) dividido entre el numero total de observaciones de los sanos y enfermos (a+b) en un grupo dado. El numerador es parte del denominador. Esto es:
)( ba
aproporcion
+=Resultado Trat A Trat B Total
Sano 90 350 440
Enfermo 810 750 1560
Total 900 1100 2000
45.02000
900
)1100900(
900. ==
+=ATrat
Tomado de MSp. Wilfredo Mormontoy 37
Razón:◦ Número (a) de observaciones en un grupo dado con una
característica dada (como sano) dividido entre el número (b) de observaciones sin la característica dada (como estar enfermo). El numerador no es parte del denominador. Esto es:
ba
razon =
282.01560
440/ ==enfsanos
Tomando los datos de la tabla, la razón de sanos sobre enfermos es:
Tomado de MSp. Wilfredo Mormontoy 38
Tasa:◦ Está asociado con la rapidez o velocidad de cambio de un
fenómeno como nacimiento, crecimiento, muerte, en función o en relación con alguna unidad de tiempo. El numerador debe ser la expresión de un cambio respecto de la
ocurrencia de eventos en individuos desde una condición basal hasta una final.
El numerador debe expresar el concepto de exposición de un conjunto de individuos, en un periodo determinado.
Por ejemplo: Tasa bruta de mortalidad:
Se considera las defunciones ocurridas en un periodo de tiempo y la población en la mitad del periodo por una constante k = 100, 1000, 10000.
La tasa es una proporción en función al tiempo (multiplicado por una constante).
1000)()(
xtpoblaciontsdefuncione
TBM =
Tomado de MSp. Wilfredo Mormontoy 39