Unidad 3:Medidas de posiciónLas medias y sus propiedades
Mediana y modaMedidas de posición no centrales;
Cuartiles, deciles y percentiles
Prof. Alejandra Camors
2
Es buena idea codificar las variables como números para poder procesarlas con facilidad
Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. Sexo (Cualit: Códigos arbitrarios)
1 = Hombre 2 = Mujer
Raza (Cualit: Códigos arbitrarios) 1 = Blanca 2 = Negra,...
Felicidad Ordinal: Respetar un orden al codificar. 1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz
Se pueden asignar códigos a respuestas especiales como
0 = No sabe 99 = No contesta...
Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’)
Tema 1: Introdución 3
Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico.
No todo está permitido con cualquier tipo de variable.
4
ARREGLO ORDENADO
Una vez que los datos de la encuesta se encuentran listos, el siguiente paso es organizar la información y ordenarla.
• Por cada variable se hace un ordenamiento simple.
• El determinar cual es el dato que tiene menor valor y cual el de mayor valor es información vital para empezar a trabajar con variables cuantitativas.
5
DISTRIBUCIÓN DE FRECUENCIAS
Sin importar si los datos están o no ordenados, siempre es posible crear una distribución de frecuencias para los datos de una variable en una muestra.
La distribución de frecuencias es una tabla de resumen en la que los datos están organizados en clases o grupos numéricamente ordenados.
6
DISTRIBUCIÓN DE FRECUENCIAS
Se organiza en filas y columnas para resumir la información y poder realizar interpretaciones de manera rápida y efectiva.
Seleccionar el número apropiado de agrupaciones o clases para la tabla,
determinando una amplitud conveniente de las clases y estableciendo los límites
de cada una para evitar traslape.
7
Amplitud de intervalo o clase
La Amplitud de cada intervalo o clase se calcula dividiendo el rango entre el número de intervalos elegidos.
Se ha convenido que todos los intervalos tengan la misma amplitud.
elegidosIntervalosdeNumero
RangoAmplitud
8
Amplitud de un Intervalo o clase
La mayoría de las veces la amplitud de un intervalo es mejor trabajarla con una anchura que sea un número entero (aplican restricciones).
Si el resultado de la división es decimal, se redondea el resultado de la siguiente manera.• Si el resulta es menor de 0.5 se elimina la parte decimal.
• En caso contrario se pasa al próximo entero.
9
Cálculo de la amplitud
Muestra de restaurantes citadinos
7
7/49
7
49
1463
Amplitud
Amplitud
Intervalos
Rango
Rango
DatoMenorDatoMayorRango
10
Calcular el rango.Elegir el número de intervalosCalcular la anchura de cada intervaloGenerar los intervalos de clases (no
deben menos de 5 ni más de 15)Determinar la frecuencia para cada
intervalo.
Procedimiento para generar una distribución de frecuencias
11
FRECUENCIA ABSOLUTA
La información en cada intervalo debe ser única.
Para determinar el número de intervalos para una distribución, se calcula con la información del valor del Rango.
Intervalos Frecuencia
2-200812
Se sugiere que una distribución de frecuencias no debe tener menos de 5 intervalos, ni más de 15.
Si no se sigue esta convención, la interpretación de los datos puede ser demasiado condensada o muy dispersa y en ambos casos los resultados aunque están bien, no son objetivos. Y puede afectar la toma de decisiones.
IntervalosFrecuen
cia
Intervalo 1 Frec. 1
Intervalo 2 Frec. 2
Intervalo 3 Frec. 3
Intervalo 4 Frec. 4
Intervalo 5 Frec. 5
Intervalo 6 Frec. 6
FRECUENCIA ABSOLUTA
13
DISTRIBUCIÓN DE FRECUENCIAS
Determinar el número de intervalos que sirva a una muestra se basa en la experiencia o sentido común de la persona que va a generar la distribución de frecuencias.
Intervalos Frecuencia
Intervalo 1 Frec. 1
Intervalo 2 Frec. 2
Intervalo 3 Frec. 3
Intervalo 4 Frec. 4
Intervalo 5 Frec. 5
Intervalo 6 Frec. 6
14
Frecuencia Acumulada
La frecuencia acumulada es la suma parcial para cada intervalo, permite hacer observaciones sobre los intervalos que están por debajo de él.
15
Cálculo de la frecuencia acumulada
Se suman todas las frecuenciasSe suma la frecuencia del intervalo con
todas las frecuencias anteriores.La frecuencia acumulada de cada
intervalo nunca es menor que el valor del intervalo anterior.
El último intervalo debe tener como resultado la suma de todas las frecuencias (tamaño de la muestra)
2-200816
PRECIO POR PLATO FrecuenciaFrecuencia Acumulada
14 pero menos de 21 1 1
21 pero menos de 28 5 6
28 pero menos de 35 7 13
35 pero menos de 42 16 29
42 pero menos de 49 10 39
49 pero menos de 56 9 48
56 pero menos de 63 1 49
63 pero menos de 70 1 50
Frecuencia Acumulada
17
Frecuencia Porcentual
La frecuencia porcentual es la misma frecuencia relativa pero en formato de % (porcentaje). El total de la muestra siempre resulta ser 100%
18
Frecuencia Porcentual
La frecuencia porcentual se puede calcular para las frecuencias absolutas o las acumuladas
2-200819
PRECIO POR PLATO FrecuenciaFrecuencia
Porcentual
14 pero menos de 21 1 0.02*100 = 2
21 pero menos de 28 5 0.10 *100 = 10
28 pero menos de 35 7 0.14*100 = 14
35 pero menos de 42 16 0.32*100 = 32
42 pero menos de 49 10 0.20*100 = 20
49 pero menos de 56 9 0.18*100 = 18
56 pero menos de 63 1 0.02*100 = 2
63 pero menos de 70 1 0.02*100 = 2
20
FrecuenciaFrecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se : desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se presenta una característica.presenta una característica.
DISCRETADISCRETA
CONTINUACONTINUA
ORDINALORDINAL
NOMINALNOMINAL
TIPO FRECUENCIATIPO FRECUENCIAFrecuencia Absoluta (F)Frecuencia Absoluta (F) Frecuencia Relativa Frecuencia Relativa
(f)(f)
Frecuencia Absoluta Frecuencia Absoluta Acumulada (FAA)Acumulada (FAA)
Frecuencia Relativa Frecuencia Relativa Acumulada (fra)Acumulada (fra)
DISCRETADISCRETA
CONTINUACONTINUANOMINALNOMINAL
ORDINALORDINAL
Variable Variable CuantitativaCuantitativa
Variable Variable CualitativaCualitativa
Variable Variable CuantitativaCuantitativa
Variable Variable CualitativaCualitativa
21
VariablesVariables- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominalcualitativa nominal))- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discretacuantitativa discreta))- Superficie: se refiere a los - Superficie: se refiere a los metros cuadradosmetros cuadrados ( (unidad de medidaunidad de medida) disponibles para las áreas de ) disponibles para las áreas de
producción. (producción. (cuantitativa continuacuantitativa continua))- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares - Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares
(Muy Bien, Bien, Regular, Mal). ((Muy Bien, Bien, Regular, Mal). (cualitativa ordinalcualitativa ordinal))
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
Problema de Investigación: Se quiere establecer el perfil de las industrias de Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en función de algunas características. conserva en función de algunas características. Unidad de Análisis: Industria de ConservaUnidad de Análisis: Industria de ConservaPoblación: Industrias de Conservas del paísPoblación: Industrias de Conservas del país
DatosDatos
EJEMPLOEJEMPLO
22
EJEMPLOEJEMPLO
TABLAS DE TABLAS DE FRECUENCIAFRECUENCIA
Tipo deIndustria
FrecuenciaAbsoluta (Fj)
FrecuenciaRelativa (fj)
Porcentaje(%)
A
B
C
D
Total 300 1 100
CalificaciónFrec.
Absoluta (Fj)Frec.Relativa
(fj) o %Frec. Absol.
Acum. (FAAj)Frec. Relat.
Acum. (fraj) o %
Muy Bien
Bien
Regular
Mal 300 1 (o 100)
Total 300 1 (o 100)
Numero deEmpleados
Frec.Absoluta (Fj)
Frec.Relativa(fj) o %
Frec. Absol.Acum. (FAAj)
Frec. Relat.Acum. (fraj) o %
<100
[100-150[
.
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)Superficie
(mt2)Frec.
Absoluta (Fj)Frec.Relativa
(fj) o %Frec. Absol.
Acum. (FAAj)Frec. Relat.
Acum. (fraj) o %
<200
[200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)
(1)(1)(2)(2)
(3)(3)
(4)(4)
Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en función de algunas características. función de algunas características. Unidad de Análisis: Industria de ConservaUnidad de Análisis: Industria de ConservaPoblación: Industrias de Conservas del paísPoblación: Industrias de Conservas del país
SE CONSTRUYE UNA TABLA de DISTRIBUCIÓN DE FRECUENCIA POR CADA VARIABLE
23
Elementos de una tabla de frecuencia cuando la variable es continua (x)Elementos de una tabla de frecuencia cuando la variable es continua (x)
Intervalo Centro de clase Amplitud F f FAA fra
I1 c1 a1
I2 c2 a2 . .
Ik ck ak n 1
Total n 1
[LI1 ; LS1 [
[LI2 ; LS2 [
[LIk ; LSk]
aj = (LSj – LIj))cj = (LIj) + LSj )/2
Estadística
24
En síntesis, para la presentación ordenada de datos
0
1
2
3
4
5
6
7
Hombre Mujer
Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.
Género Frec.
Hombre 4
Mujer 6
Tema 1: Introdución25Instituto Universitario Gastón Dachary
Datos desordenados y ordenados en tablas
Variable: GéneroModalidades:
H = HombreM = Mujer
Muestra:
M H H M M H M M M H
equivale aHHHH MMMMMM
Género Frec. Absoluta
Frec. Relat.
porcentaje
Hombre 4 4/10=0,4=40%
Mujer 6 6/10=0,6=60%
10 = tamaño muestral
26
Número de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8
127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,0
1509 100,0
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.Porcent.(válido)
Porcent.acum.
Ejemplo ¿Cuántos individuos
tienen menos de 2 hijos?frec. indiv. sin hijos
+ frec. indiv. con 1 hijo = 419 + 255= 674 individuos
¿Qué porcentaje de individuos tiene 6 hijos o menos?97,3%
¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual?2 hijos
≥50%
Media aritméticaMedia aritmética
La media aritmética es la suma de todos los valores de la distribución dividida por el número total de datos.
Para el caso de En el caso contrario
frecuencias unitarias;
N
x
N
xxxx
N
ii
n
121 ...
n
i
iinn
N
nx
N
nxnxnxx
1
2211 ...
Media aritméticaSi tenemos datos agrupados en intervalos,
se puede usar la marca de clase representando el valor medio de dicha clase.
Media aritmética ponderada es la media cuando cado valor tiene una ponderación
ii
iiix
x
La media aritmética de un conjunto de datos es el cociente entre la suma
de todos los datos y el número de estos.
Ejemplo: las notas de Juan el año pasado fueron:
5, 6, 4, 7, 8, 4, 6
La nota media de Juan es:
Nota media = 7,57
40
7
6487465
que suman 40
Hay 7 datos
Media aritmética (I)
Media aritméticaVentajas…
Consideración de todos los valores Calculable Única Es el centro de gravedad (primera propiedad).
…e inconvenientes…
Si la variable tiene valores anormalmente extremos, la media aritmética puede distorsionarse, haciéndola incluso poco representativa. (La mediana, que vamos a estudiar más tarde, no tiene este inconveniente.)
Uso: distribuciones en escala de intervalos o de proporción.
Cálculo de la media aritmética cuando los datos se repiten.
Ejemplo. Las notas de un grupo de alumnos fueron:
Notas Frecuenciaabsoluta
Notas xF. absoluta
3 5 155 8 40
6 10 60
7 2 14Total 25 129
1,525
129 Media
Datos por frecuencias
Total de datos
1º. Se multiplican los datos por sus frecuencias absolutas respectivas, y se suman.2º. El resultado se divide por el total de datos.
Media aritmética (II)
MedianaDefinición:
Aquel valor de la distribución, supuesta ésta ordenada de menor a mayor, que deja a su izquierda y a su derecha el mismo número de frecuencias, es decir el valor que ocupa el lugar central, supuesto un número impar de datos. Si el número de datos fuese par puede decirse que hay dos valores medianos, y se toma la media aritmética entre ellos como valor mediano.
La mediana de un conjunto de datos es un valor del mismo tal que el número de datos menores que él es igual al número de datos mayores que él.
1º. Ordenamos los datos:
56,57, 59, 63, 65, 71, 72, 72
2º. El dato que queda en el centro es: 63 y 65
La mediana vale 65.
Si el número de datos fuese par, la mediana es la media aritmética de los dos valores centrales.
la mediana es: 642
6563
Número par de valores
2
122
nn xx
Me
La mediana de un conjunto de datos es un valor del mismo tal que el número de datos menores que él es igual al número de datos mayores que él.
Los pesos, en kilogramos, de 7 jugadores de un equipo de fútbol son:
Ejemplo:72, 65, 71, 56, 59, 63, 72
1º. Ordenamos los datos:
56, 59, 63, 65, 71, 72, 72
2º. El dato que queda en el centro es 65.
La mediana vale 65.
Número impar de valores
2
1nxMe
MedianaEn distribuciones agrupadas en intervalos:
Busca el valor que ocupa el lugar
Encontramos un intervalo mediano. Suponemos que todos los valores dentro del intervalo mediano se encuentran distribuidos uniformemente a lo largo de él. Vamos a considerar la poligonal de frecuencias acumuladas correspondiente al intervalo mediano y a sus dos contiguos, y determinamos gráficamente la mediana.
2/N
ii
i
i cn
NN
LMe
1
12
Test sobre satisfacción en el trabajo: N=88
Clases fi Fi
[38-44)
[44-50)
[50-56)
[56-62)
[62-68)
[68-74)
[74-80)
7
8
15
25
18
9
6
7
15
30 < 44
55 > 44
73
82
88
Aplicando la fórmula:
Li = 56c = 6N/2 = 44Fi-1 = 30fi = 25
36.5925
3044656
M
i
i
i f
FN
cLM12.
Li = Límite inferior de la clase modalc = amplitud de los intervalosN = Número total de datosFi-1 = Frecuencia absoluta acumulada de la clase anterior a la clase mediana.Fi = frecuencia absoluta de la clase mediana.
88/2= 44
Mediana
La mediana no es sensible como la media aritmética a los valores extremos. En estos casos, la mediana puede dar un resumen más representativo.
La mediana de un variable discreta es siempre un valor de la variable. (Ej. Numero de hijos.).
ModaEl valor de la variable que más veces se
repite; en una distribución de frecuencias, es decir, es el valor que tiene la frecuencia más alta.
La moda de un conjunto de datos es el dato que más se repite.
Una zapatería ha vendido en una semana los zapatos que se reflejan en la tabla:
Ejemplo.
La moda es 41.
Nº de calzado 38 39 40 41 42 43 44 45
Nº de personas 16 21 30 35 29 18 10 7
El número de zapato más vendido, el dato con mayor frecuencia absoluta, es el 41.
Lo compran 35 personas
Modaa) Distribuciones no agrupadas en
intervalos.
observa la columna de las frecuencias absolutas, el valor que tiene la mayor frecuencia es la moda.
Una distribución puede tener una moda relativa y una moda absoluta.
Una distribución también puede tener más que una moda.
Moda b) Distribuciones agrupadas en intervalos
B1: intervalos de la misma amplitudEl intervalo que tiene la mayor frecuencia da un intervalo
modal. Dentro este intervalo podemos encontrar el valor modal, usando diferentes criterios;Tomar como valor modal el extremo inferior del intervalo.
.Considerar como valor modal el extremo superior.
.Hacer la moda igual a la marca de clase. .Suponiendo que:
1) Todos los valores del intervalo están distribuidos uniformemente dentro de él.
2) La moda estará más cerca de aquel intervalo contiguo cuya frecuencia sea mayor.
1 iLMo
iLMo ixMo
Claramente la frecuencia mayor la encontramos en 8.
Entonces, la moda de las notas de este curso corresponde a un 4,0.
Ejemplo 1
Nota Frecuencia
2,5 1
3,0 2
3,5 7
4,0 8
4,5 6
5,0 2
5,5 6
6,0 5
6,5 2
7,0 2
Encontramos que hay dos frecuencias que son igualmente altas.
Ambas corresponden a 4.
Entonces, esta es una distribución bimodal, que corresponde a las edades de 23 y 25.
Ejemplo 2
Edad Frecuencia
22 2
23 4
25 4
26 3
28 3
30 1
31 2
35 1
47
MEDIDAS DE TENDENCIA CENTRALMEDIDAS DE TENDENCIA CENTRAL
-Media Aritmética (Promedio)Media Aritmética (Promedio)-MedianaMediana-ModaModa
n
xx
n
ii
1
Media Aritmética o PromedioMedia Aritmética o Promedio
MedianaMediana
)(EM kx
2M )1()(
E
kk xx
x
1x
2x
nx
Datos CuantitativosDatos Cuantitativos
x
)1(x
)2(x
)(nx
Datos Cuantitativos ordenados de menor a mayorDatos Cuantitativos ordenados de menor a mayor
Si Si nn es par es par
Si Si n n es impares impar
centro del dato)( kx
repite" se más que dato el"M o ModaModaDatos Datos
Cualitativos y CuantitativosCualitativos y Cuantitativos
Estadística
2-200848
Cuantiles
CuartilesDecilesPercentiles
Los cuantiles son medidas de posición “no central” que se utilizan con mayor frecuencia y se emplean sobre todo para resumir o describir las propiedades de conjuntos grandes de datos
numéricos.
Medidas de posición no centralesLos cuartiles; tres valores que dividen la
distribución en cuatro partes iguales. 25 por ciento están incluidos en cada uno de los cuatro intervalos.
Los deciles; nueve valores que dividen la distribución en diez partes iguales. 10 por ciento están incluidos en cada uno de los diez intervalos.
Los percentiles; noventa y nueve valores que dividen la distribución en cien partes iguales. 1 por ciento están incluidos en cada uno de los cien intervalos.
CuartilesDe la misma manera que la mediana divide un conjunto de datos en dos grupos iguales, los cuartiles lo dividen en cuatro grupos iguales.
Cada grupo está formado por 25% de los datos de la muestra y se denotan por C1, C2 y C3
respectivamente
25% 25% 25% 25%
C1 C2 C3
51
Cuartiles
)4
)1(3(
)4
)1(2(
)4
1(
3
2
1
niónValorPosicQ
niónValorPosicQ
niónValorPosicQ
La obtención de los cuartiles depende del número de datos de la muestra; se utilizan los mismo conceptos del cálculo de la mediana. Las fórmulas para cada los cuartiles 1 y al vienen a ser:
52
Se define en minutos el tiempo que le lleva arreglarse, desde que se levanta hasta que sale de casa. A lo largo de 10 días hábiles consecutivos, Usted recaba los tiempos (redondeados a minutos) que se muestras a continuación
39 29 43 52 39
44 40 31 44 35
53
Tamaño de la muestra N=10
35
)3(
)75.2(
)4
110(
)4
1(
1
1
1
1
1
Q
VPQ
VPQ
VPQ
nVPQ
29
31
35
39
39
40
43
44
44
52
Cuartil 1
33
54
Tamaño de la muestra N=10
5.392
4039
)5.5(
)4
)110(2(
)4
1(
2
2
2
2
1
Q
Q
VPQ
VPQ
nVPQ
29
31
35
39
39
40
43
44
44
52
Cuartil 2
5.55.5
55
Tamaño de la muestra N=10
44
)8(
)25.8(
)4
)110(3(
)4
1(
3
3
3
3
1
Q
VPQ
VPQ
VPQ
nVPQ
29
31
35
39
39
40
43
44
44
52
Cuartil 3
88
56
Deciles
Los deciles dividen una muestra en 10 grupos iguales y cada decil acumula el 10% de los
datos.
Se trabajan igual que los cuartiles
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
Medidas de posición no centrales
Deciles:
1D es el valor que ocupe el lugar 10
N.
2D es el valor que ocupe el lugar 10
2N.
…etc…
9D es el valor que ocupe el lugar 10
9N.
58
Percentiles
Los percentiles dividen una muestra en 100 grupos iguales y cada percentil acumula el 1%
de los datos.
Se trabajan igual que los cuartiles y deciles
1% 1% 1% 1% 1% 1% 1%
Medidas de posición no centrales
Perceciles:
1P es el valor que ocupe el lugar 100
N.
2P es el valor que ocupe el lugar 100
2N.
…etc…
99P es el valor que ocupe el lugar 100
99N.