UNIDAD 5: Estadística Descriptiva
• Algunas definiciones
Letras griegas utilizadas en notación estadística
Nombre Min May.alfa abeta bji cuadrada c 2
delta dmu mnu npi p Prho rsigma s Stau ttheta q
• Sumatoria de una serie de términos:
xi = x1+ + x2 + x3 + ......... + xni =1
n
Â
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central se utilizan para representar a través de un solovalor a una serie de datos agrupados o no agrupados y son valores alrededor de loscuáles tienden a agruparse las observaciones.
Media aritmética
Es el promedio de los valores de las observaciones.
Datos no agrupados Datos agrupados
Población m =
xi
i =1
N
ÂN
m =
fixi
i =1
N
ÂN
Muestra x =
xi
i =1
n
Ân
x =
fixi
i =1
n
Ân
Media ponderada
Cuando se desea otorgar pesos diferentes a una serie de datos de acuerdo a suimportancia desigual, la media se obtiene sumando los productos de los valoresobservados y sus pesos respectivos, dividida entre la suma de éstos últimos.
x =
wixi( )i =1
n
Â
wi
i =1
n
Â
Mediana
Es el valor que divide en dos partes iguales un arreglo ordenado. Si el número devalores es impar, la mediana es el valor medio del arreglo, si el número de valores espar, la mediana será el promedio de los dos valores centrales. En el caso de datosagrupados, se ubica el intervalo en el que está la mediana y su valor se obtiene através de interpolación.
Mediana = L1 +n 2 fÂ( )
fmedc
L1 = límite inferior de clase .n = número total de observaciones
f = suma de frecuencias de las clases inferiores a la de la mediana.Âfmed = frecuencia de clase de la mediana.
c = tamaño del intervalo de clase de la mediana
Moda
Es el valor que ocurre con mayor frecuencia en una serie de datos, puede no existir ytampoco ser único. Una distribución con una sola moda se conoce como unimodal. En elcaso de datos agrupados la moda se calcula por interpolación, después de ubicar la clasemodal:
Mo = L1 +D1
D1 + D2
Ê Ë Á
ˆ ¯ ˜
L1 = límite inferior de la clase modalD1 = diferencia entre la frecuencia de la clase
modal y la frecuencia de la clase anterior.D2 = diferencia entre la frecuencia de la clase
modal y la frecuencia de la clase posterior.
Rango Medio
Es el valor promedio de las medidas mayor y menor de un conjunto de datos
Rango =Li + Ls
2Li = límite inferior de los datosLs = límite superior de los datos
Media Geométrica
Es la raíz n-ésima del producto de n valores.
Datos no agrupados Datos agrupadosG = x1 x2 x3......xnn G = x1
f 1x2f 2 x3
f 3...xnfnn
MEDIDAS DE DISPERSION
En el análisis estadístico es importante conocer la variabilidad de las observacionesalrededor de su valor central. La variabilidad se mide de dos maneras: comodistancia entre observaciones seleccionadas o bien como desviaciones promedio delas observaciones individuales respecto a un valor central.
De los primeros valores mencionados, los más usuales son el rango y el rangointerfractil.
Rango
Es la diferencia entre las medidas mayor y menor de un conjunto de datos. Para datosagrupados y no agrupados se calcula:
R = Ls - Li
Ls = límite superior de claseLi = límite inferior de clase
Fractiles y percentiles
Cualquier valor de un conjunto de datos bajo el cuál se encuentra una proporciónespecífica de ellos.
Cuando esa proporción representa un porcentaje de datos, entonces se denominapercentil y dentro de éstos los más conocidos son, los cuartiles y deciles.
• Cuartiles: dividen los datos observados en cuatro porciones, en cada una de ellasse ubica el 25% de los datos.
• Deciles: dividen los datos observados en diez porciones, en cada una de ellas seubica el 10% de los datos.
La mediana es el segundo cuartil y el quinto decil.
Rango interfractilEs la diferencia entre dos fractiles.
Desviación media
Es la media aritmética de todas las diferencias absolutas entre cada observaciónindividual y la media aritmética del conjunto de datos.
Datos no agrupados Datos agrupados
Población Dm =| xi - m |
i =1
N
ÂN
m = media de la poblaciónN = total de observaciones
Dm =fi | xi - m |
i =1
N
ÂN
fi = frecuencia de la clase ixi = punto medio de la clase im = media poblacionalN = total de observaciones
Muestra Dm =| xi - x |
i =1
n
Ân
m = media de las observacionesn = total de observaciones
Dm =fi | xi - x |
i =1
n
Ân
fi = frecuencia de la clase ixi = punto medio de la clase ix = media muestraln = total de observaciones
Varianza
Es la media aritmética del cuadrado de las desviaciones de cada uno de los valoresrespecto a la media.
Datos no agrupados Datos agrupados
Población s 2 =xi - m( )
i=1
N
ÂN
2
s 2 =fi xi - m( )
i=1
N
ÂN
2
Muestra s 2 =xi - x ( )
i =1
n
Ân -1
2
s 2 =fi xi - x ( )
i =1
n
Ân -1
2
Desviación estándar.Es la raíz cuadrada positiva de la varianza
Población s = s 2
Muestra s = s2
Distribución normal
Describe un tipo de población cuya distribución de frecuencias se caracteriza por:
• La media = mediana = moda• Es simétrica alrededor de este valor central• Sus extremos se extienden en forma indefinida en ambas direcciones y se
aproximan pero nunca tocan al eje horizontal.
En una distribución normal de frecuencias, puede estimarse el porcentaje de losvalores que están a ±1,±2 y ± 3 desviaciones estándard desde la media:
Intervalo % de datos en el intervalom -s , m +s[ ] 68.3%m - 2s, m + 2s[ ] 95.4%m - 3s, m + 3s[ ] 99.7%
Teorema de Chevyshev
Para cualquier población con una distribución, podemos esperar que sus datos sedispersen alrededor de la media en al menos:
1 -1k2 dónde k ≥1
Estas predicciones son más conservadoras, aplicando este teorema, se espera que ladispersión de los datos con relación a la media en términos de desviaciones estándardes el siguiente:
Intervalo % de datos en el intervalom -s , m + s[ ] 0%m - 2s, m + 2s[ ] 75%m - 3s, m + 3s[ ] 89%m - 4s, m + 4s[ ] 94%
Coeficiente de variación
Es la razón entre la desviación estándard y la media y nos indica el porcentaje dedatos que están ubicados alrededor de la media a una distancia de una desviaciónestándard.
Población CV =sm
Muestra CV =sx
MEDIDAS DE FORMA
La forma de una distribución de frecuencias se puede describir por su simetría o faltade ella (asimetría) y por su agudeza (curtosis).
Asimetría
Grado de asimetría, es el grado de distorsión de una distribución de frecuenciasdesde la simetría horizontal, cuando se tiene una distribución unimodal, se puedenpresentar tres casos:
Asimetría cero media = mediana = modaAsimetría positiva media > mediana > modaAsimetría negativa moda > mediana >media
Coeficiente de Pearson
Es la medida de asimetría más conocida, es la razón de la diferencia de la media y lamoda entre la desviación estándard.
Población
Sk =m - mo
sm = media de la poblaciónmo = mod a de la poblacións = desviación estándard de la población
Muestra
Sk =x - mo
sx = media de la muestramo = mod a de la muestras = desviación estándard de la muestra
De acuerdo al valor del coeficiente, tenemos que:
Sk = 0 simetríaSk < 0 sezgo negativoSk > 0 sezgo positivo
Curtosis
Es el grado de agudeza de una curva de distribución de frecuencias y su cálculo es:
Datos no agrupados Datos agrupados
Población k =
xi - m( )4
i =1
N
ÂNs 4
m = mediaxi = valores observadosN = total de observacioness 4 = cuadrado de la var ianza
k =fi
i =1
N
 xi - m( )
fi
m = mediaxi = punto medio de la clase ifi = frecuencia de la clase i
Muestra k =
xi - x ( )4
i =1
n
Âns4
x = mediaxi = valores observadosn = total de observacioness 4 = cuadrado de la var ianza
k =fi
i =1
n
 xi - x ( )
fi
x = mediaxi = punto medio de la clase ifi = frecuencia de la clase i
De acuerdo al valor del coeficiente, las curvas tienen diferentes denominaciones:
k=3 mesocúrticask>3 leptocúrticas son más agudask<3 platocúrticas son más planas