Date post: | 27-Jan-2016 |
Category: |
Documents |
Upload: | juanita-oliva |
View: | 224 times |
Download: | 4 times |
Capítulo 2 Capítulo 2 Análisis Análisis
Exploratorio de Exploratorio de DatosDatosII-2001II-2001
• Cualitativo (Categorías)– Nominal Viña = 1 ; Santiago = 2 ; Temuco =
3 ..etc.
– Ordinal Pobre= 1; Aceptable = 2;
Bueno= 3; Excelente = 4
• Cuantitativo (Números)– Intervalo estatura, viscosidad, distancia, duración...etc
– Razón temperatura, peso...etcNOTA:
El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)
NOTA:
El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)
Clasificación/Tipo de DatosClasificación/Tipo de DatosClasificación/Tipo de DatosClasificación/Tipo de Datos
Clasificación : Nominal, Ordinal, Intervalos y Razón
Variables : Discretas y Continuas Categóricas,
CuantitativasOrganización : Frecuencia absoluta
Frecuencia relativa
A partir de nivel ordinal : Frecuencia absoluta
acumulada Frecuencia relativa acumulada
Escalas de MedidaEscalas de MedidaEscalas de MedidaEscalas de Medida
Tanto en la escala intervalar como en la de razón es posible distinguir dos tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto de puntos aislados (subconjunto de valores en IR)
Variables Continuas: una que puede tomar sus valores en un conjunto donde todos sus elementos son puntos de acumulación (un intervalo en IR). Siempre es posible tratar una variable continua como discreta mediante la construcción de “intervalos de clase” representando cada uno de los intervalos por su valor medio denominado “marca de clase”
Variables Categóricas o Cualitativas
Variables Cuantitativas
Tipos de VariablesTipos de VariablesTipos de VariablesTipos de Variables
Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.
Frecuencia Absoluta.
Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenece a dicha clase y se denota por ni. Como las clases c1, c2, ..... ck una partición de la muestra, es fácil verificar que
n = ni número total de observaciones o tamaño de la muestra
k
i = 1
Organización/PresentaciónOrganización/PresentaciónOrganización/PresentaciónOrganización/Presentación
Frecuencia Relativa.
Se llama frecuencia relativa de la clase ci a la proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra. Se de nota por fi. Se puede verificar que
fi = --- nótese que .... fi = 1 k
i = 1
ni
n
Organización/PresentaciónOrganización/PresentaciónOrganización/PresentaciónOrganización/Presentación
• Reglas: Partición de la Población– Cada observación debedebe pertenecer a una, y sólo
una clase o categoría.– Todas las observaciones deben ser pertenecer a
una.
• Tablas Tabligrama.• Gráficos de Barras Diagrama de Pareto.
• Gráficos Circulares o de Torta .
Presentación de Datos CualitativosPresentación de Datos CualitativosPresentación de Datos CualitativosPresentación de Datos Cualitativos
107
60
51
25
10
8
1
2
3
4
5
6
Clase Descripción Frecuencia
Ejemplo: Tablas Ejemplo: Tablas Ejemplo: Tablas Ejemplo: Tablas
Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.
• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías. • Cada clase debe estar perfectamente definida y diferenciada de las demás. • La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:
Ejemplos : Clasificación de alumnos por Cursos : primero (1), segundo (2),...., sexto (6) año; Sexo : masculino (M), femenino (F); Colegio : SEK (1); Alemán(2), Ruben Castro(3), etc.
Escala NominalEscala NominalEscala NominalEscala Nominal
107
60
51
25
10 8
0
20
40
60
80
100
120
1 2 3 4 5 6
Clase
Fre
cuen
cia
Diagrama de Pareto
Escala NominalEscala NominalEscala NominalEscala Nominal
140%
223%
320%
410%
54%
63%
Diagrama Circular
Escala NominalEscala NominalEscala NominalEscala Nominal
Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de arreglar los elementos de acuerdo al orden establecido.
La variable admite grados de calidad:existe una relación de orden total entre las clases.
No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases.
Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)
Escala OrdinalEscala OrdinalEscala OrdinalEscala Ordinal
0
1
2
3
4
5
6
7
8
9
Pobre Regular Aceptable Bueno Muy Bueno
Diagrama de Bloques
Escala OrdinalEscala OrdinalEscala OrdinalEscala Ordinal
Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantificar la diferencia de todos los individuos pertenecientes a los intervalos, clases o categorías distintas.
Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.
Ejemplos: temperatura al interior de un silo, interés sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos.
Escala IntervalarEscala IntervalarEscala IntervalarEscala Intervalar
• Tabligramas.
• Tablas de Frecuencia.
• Histogramas: valores discretos y continuos.
– Usar 5 a 20 clases (intervalos o grupos).– (considerar anchos de clases, límites y marca de clase).– (polígono de frecuencias – dibujar en marca de clase).
• Frecuencia Acumulada - Ojiva.– (graficar en límite superior).
Escala IntervalarEscala IntervalarEscala IntervalarEscala Intervalar
Ejemplo: 40 Datos
10 7 811 1 2 3 7 912 0 3 3 4 6 813 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 815 0 2 3 3 8 816 0 0 1 2
Diagrama deTallos-y-hojas
Ejemplo: TabligramaEjemplo: TabligramaEjemplo: TabligramaEjemplo: Tabligrama
K := N° Clases 1 + 3.3 log n 7R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8
Límites
102,5-111,5111,5-120,5120,5-129,5129,5-138,5138,5-147,5147,5-156,5156,5-165,5
Marca
107116125134143152161
FrecuenciasABS - REL - REL. AC.
3 5 5 8 7 6 6
Conteo
/////////////// /////// ////// ///// /
Tabla de FrecuenciasTabla de FrecuenciasTabla de FrecuenciasTabla de Frecuencias
0
1
2
3
4
5
6
7
8
9
107 116 125 134 143 152 161
HistogramaHistogramaHistogramaHistograma
0
1
2
3
4
5
6
7
8
9
107 116 125 134 143 152 16199 170
Polígono de FrecuenciasPolígono de FrecuenciasPolígono de FrecuenciasPolígono de Frecuencias
0123456789
107 116 125 134 143 152 16199 170
10111213141516171819202122232425262728293031323334353637383940
Frecuencia Acumulada: OjivaFrecuencia Acumulada: OjivaFrecuencia Acumulada: OjivaFrecuencia Acumulada: Ojiva
Esta escala se usa cuando no sólo el orden y tamaño del intervalo son importantes.
La única diferencia entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no
Buscar ejemplos de Escala intervalar
Buscar ejemplos de Escala de razón
Tarea : Discuta la diferencia entre Precisión y Exactitud ,
Escala de RazónEscala de RazónEscala de RazónEscala de Razón
• Mediciones de Tendencia Central
• Mediciones de Dispersión
• Coeficiente de Variación
Extraer Información desde la MuestraExtraer Información desde la MuestraExtraer Información desde la MuestraExtraer Información desde la Muestra
• Estas medidas tienden a ubicarse en el centro del conjunto.
• Proporcionan un valor simple y representativo, que resume un gran volumen de información.
• Media Aritmética • Media Geométrica• Media Armónica
• Moda• Mediana • Semi Rango
Medidas de Tendencia CentralMedidas de Tendencia CentralMedidas de Tendencia CentralMedidas de Tendencia Central
• Miden la “dispersión” de valores dentro del conjunto de datos respecto de alguna medida de tendencia central.
• Rango• Rango Cuartílico• Rango Percentil
• Varianza• Desviación Estándar• Desviación Media
Medidas de DispersiónMedidas de DispersiónMedidas de DispersiónMedidas de Dispersión
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
0,3500
0,4000
0,4500
0,5000
4 5 6 70 1 2 3
Q1 Q2 Q3 Q4
Moda
MediaAritmética
Mediana
Rango
Medidas de Tendencia y DispersiónMedidas de Tendencia y DispersiónMedidas de Tendencia y DispersiónMedidas de Tendencia y Dispersión
fM fi = i = 1, 2, 3, ..., k. ni
n
V = 1 – fM = 1 - =nM
n
n - nM
n
Variables Categóricas: (Escala Nominal)Moda (Medida del centro)Tasa de Variación (Medida de Dispersión)
Tipo de VariableTipo de VariableTipo de VariableTipo de Variable
En un estudio de mercado se considera una muestra de 1100 fumadores averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla
Marca A B C D
Frecuencia 220 270 310 300
Frec. Relativa 0,200 0,245 0,282 0,273
fM = 0,282 Clase modal C
TV = 1 – 0,282 = 0,718 Tasa de variación
EjemploEjemploEjemploEjemplo
Variables Categóricas: (Escala Nominal)Moda (Mo) (Medida del centro)Tasa de Variación (V) (Medida de Dispersión)
Variables Cualitativas: (Escala Ordinal)Moda, Mediana (Me)Tasa de Variación,
Indice de Dispersión (ID) , Cuartíles
Qi = Cj j : min fj > i/4 Cj : clase j
Mediana = C(Q2)
D = rango clase es su N° de Orden K : N° total de clases
( rango C(Q3) – rango C(Q1)) (K –1)
Tipo de VariableTipo de VariableTipo de VariableTipo de Variable
Ejemplo 2.4 : Se tiene la impresión que el servicio prestado por una sucursal bancaria no es buena; por lo tanto, la gerencia ordena un estudio al respecto.Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio recibido
Calificación P R S B E
Frec. Absoluta 20 10 18 16 6
Frec. Relativa 0,286 0,143 0,257 0,229 0,086
Frec Acumul 20 30 48 64 70
Frec Aculm.Relat. 0,286 0,429 0,686 0,914 1,000
Q1 = 0,286 > 0,25 P
Q2 = 0,686 > 0,50 S
Q3 = 0,914 > 0,75 B
Q4 = E
fM = 0,286 CM = P
Med =C(Q2) CMed = S
V = 1 - fM = 1 – 0,286 = 0,714
D = = = 0,75
rC(Q3) – rC(Q1)
(K-1)
4 – 1
5 –1
1 2 3 4 5
Variables Categóricas: (Escala Nominal)Moda ( Medida del centro )
Tasa de Variación ( Medida de Dispersión )
Variables Cualitativas: (Escala Ordinal)Moda, MedianaTasa de Variación, Índice de Dispersión
Variables Cuantitativas: (Escala Intervalar)Moda, Mediana, Media, Media TruncadaTasa de Variación, Índice de Dispersión, VarianzaRango, Rango Inter-cuartílico (IQR), MEDA
Medidas de homogeneidad
Señal de Ruido = - log CV =X
S
2
2
X
S
Existen dos maneras de realizar los cálculos de las madidas características de datos de escala inervalar, con ...
1. Datos Agrupados: cuando los datos disponibles se presentan ya “trabajados” en tablas de frecuencias y no se cuenta con los datos originales.
2. Datos No agrupados: cuando los datos se presentan como “materia” en bruto
Escala IntervalarEscala IntervalarEscala IntervalarEscala Intervalar
Datos Agrupados:Datos Agrupados:
xi
ai
ni
Xi+1
fi : Frec. relativa Clase i =
Xi : Marca Clase i
X : Media Aritméticak : N° de clases
ni : Frec. absoluta Clase i
n : Tamaño Muestra
ai : Amplitud de Clase i
_
ni n
=
k
i
iXif1
*X =
Datos NO Agrupados:Datos NO Agrupados:
=
n
iiX
1X =
n
X : Media Aritmética
Xi : i-ésimo valor observado
n : Tamaño Muestra
Tendencia Central: PromedioTendencia Central: PromedioTendencia Central: PromedioTendencia Central: Promedio
L : Límite inferior Clase modal
aM : Amplitud Clase Modal
1 : nM - n1
2 : nM - n2
nM : Frec. absoluta Clase Modal
n1 : Frec. absoluta Clase anterior a Clase Modal
n2 : Frec. absoluta Clase posterior a Clase Modal
++=
21
1
M
aLM o
xML
aM
n1
nM
n2
1 2
Datos Agrupados:Datos Agrupados: Datos NO Agrupados:Datos NO Agrupados:
Es el valor que ocurre con mayor frecuencia: el valor más común.
• Puede que no exista moda.
• Puede que exista más un valor Modal
V = Tasa de Variación = 1 – fM
Tendencia Central: ModaTendencia Central: ModaTendencia Central: ModaTendencia Central: Moda
L : Límite inferior Clase Mediana (C Me)
Ne-1 : Frec. Acumulada hasta antes (C Me)
ne : Frecuencia Absoluta (C Me)
ae : Amplitud (C Me)
n : Tamaño de la muestra
e
e-1
en
Nn2aLMe
)( -+=
Datos Agrupados:Datos Agrupados:Datos Agrupados:Datos Agrupados:
xe
ae
Ne-1= fii = e-1
i = 1
L
ne
Datos NO Agrupados:Datos NO Agrupados:
Si los datos se ordenan de orden ascendente de magnitud, entonces la Mediana está dada por:
• Si n es imparSi n es impar , la Mediana es exactamente el valor del medio
• Si n es parSi n es par , la Mediana es el promedio de los valores
centrales
Me =n + 1
2
Tendencia Central: MedianaTendencia Central: MedianaTendencia Central: MedianaTendencia Central: Mediana
Datos Agrupados:Datos Agrupados:
fi : Frec. relativa Clase i
Xi : Marca Clase i
X : Media Aritméticani : Frec. absoluta Clase i
n : Tamaño Muestra
k : N° de clases
_
=
k
i
XX iif1
2)(S2 =_
ae
ne
xixi-1 xk
_x
ni nk
Datos NO Agrupados:Datos NO Agrupados:
Dispersión: Varianza MuestralDispersión: Varianza MuestralDispersión: Varianza MuestralDispersión: Varianza Muestral
=
n
i
XX i1
2)(S2 =
_
s2 : Variancia Muestral
X : Media Aritmética
Xi : i-ésimo valor observado
n : Tamaño Muestra
1
n
Datos Agrupados:Datos Agrupados:Datos Agrupados:Datos Agrupados: Datos NO Agrupados:Datos NO Agrupados:
MD : Desviación Media
X : Media Aritmética
Xi : i-ésimo valor observado
n : Tamaño Muestra
MD =
=
n
i
XX i1
_
n
Dispersión: Desviación MediaDispersión: Desviación MediaDispersión: Desviación MediaDispersión: Desviación Media
fi : Frec. relativa Clase iXi : Marca Clase i
X : Media Aritméticani : Frec. absoluta Clase in : Tamaño Muestrak : N° de clases| | : valor absoluto
ae
ne
xixi-1 xk
_x
ni nk
=1i
ifMD = XXi
k
RQ = (QRQ = (Q33– Q– Q11) / 2) / 2
xQ
L : Límite inferior Qi; i = 1,2,3,4NQí-1 : Frec. Absoluta acumulada hasta antes de la clase Q i
aQi : Amplitud cuartil i-ésimonQi : Frecuencia Absoluta de la clase del cuartil i-ésimon : Tamaño de la muestra
i
i
i Q
Q
Qin
Nin
aLQ
-*
+= - 14
Datos Agrupados:Datos Agrupados:
ae
L
nQi
i
i
NQ -1= fii = Q -1
i = 1
i
Datos NO Agrupados:Datos NO Agrupados:
Si los datos se ordenan de orden ascendente de magnitud, entonces el cuartil Qi, para i = 1, 2, 3, 4 está dado por
Qi =
• Puede ser necesario interpolar Puede ser necesario interpolar entre valores sucesivosentre valores sucesivos
• Nota QNota Q22 = = MeMe
i(n + 1)
4
Rango Inter-CuartílicoRango Inter-CuartílicoRango Inter-CuartílicoRango Inter-Cuartílico
L : Límite inferior percentil i-ésimoNPí-1 : Frec. Absoluta acumulada hasta antes de la
clase percentil i-ésimoaPi : Amplitud percentil i-ésimonPi : Frecuencia Absoluta de la clase del percentil
i-ésimon : Tamaño de la muestra
i
i
iP
P
Pi
n
Nin
aLP
-*
+= - 1100
Datos Agrupados:Datos Agrupados:
xP
ae
L
nPi
i
i
NP -1= fii = P -1
i = 1
RP = (PRP = (P9090 – P – P1010))
Datos NO Agrupados:Datos NO Agrupados:
Si los datos se ordenan de orden ascendente de magnitud, entonces el percentil Pi, para i = 1, 2, .., 99 está dado por
Pi =
• Puede ser necesario interpolar Puede ser necesario interpolar entre valores sucesivosentre valores sucesivos
• Nota PNota P5050 = = MeMe
i(n + 1)
100
Dispersión: Rango PercentilDispersión: Rango PercentilDispersión: Rango PercentilDispersión: Rango Percentil
Representación visual para describir, simultáneamente, varias características importantes tales como• Centro• Dispersión• Desviación de la asimetría• Identificación de las observaciones (valores atípicos)
Q1 Q2 Q3
3 I RQ 3 I RQ
Mediana
Valores Atípicos
Valores Atípicos
D = Índice de Dispersión = (rangQ3- rangQ1) / (K-1)
Gráficos de CajasGráficos de CajasGráficos de CajasGráficos de Cajas
Comparaciones gráficas entre conjuntos de datos
1
2
3
70 80 90 100 110 120
Gráficos de CajasGráficos de CajasGráficos de CajasGráficos de Cajas
Coeficiente de Simetría de Fisher 1 =
Sesgo.3S
m3
0 2,5 5 7,5 10 12,5 15 17,5 20
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
1 < 0
Distribución, tiende a concentrarse en Valores Altos de la Variable
Mo > MA > Me
0
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
1 = 0
Distribución, es simétrica respecto a la Media
Mo = MA = Me
1 > 0
Distribución, tiende a concentrarse en Valores Bajos de la Variable
Mo < MA < Me
Características de forma: SimetríaCaracterísticas de forma: SimetríaCaracterísticas de forma: SimetríaCaracterísticas de forma: Simetría
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0 2,5 5 7,5 10 12,5 15 17,5 20
Coeficiente 2 = - 3 Curtosis4S
m4
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
2 = 0
Distribución “Normal”
2 < 0
Distribución tiende a concentrarse alrededor de la Media.
Variancia Pequeña
Aguzada
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-2 -1 0 1 2
2 > 0
Distribución tiende a dispersarse
Variancia grande
Achatada.
0
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4 5-5
Características de forma: Características de forma: AchatamientoAchatamiento
Características de forma: Características de forma: AchatamientoAchatamiento
Ejercicio: Se desea determinar las características de resistencia a la ruptura bajo cargas de tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de 0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2. El laboratorio de resitencia de materiales proporciona la tabla de frecuencias
Clase Límites Marca Frecuencia Frecuencia Frecuencia Frecuencia de Clase de Clase Absoluta Abs. Acuml. Relativa Relat. Acuml.
1 407,5- 412,5 410 4 4 0,032 0,0322 412,5- 417,5 415 5 9 0,040 0,0723 417,5- 422,5 420 8 17 0,064 0,1364 422,5- 427,5 425 14 31 0,112 0,2485 427,5- 432,5 430 13 44 0,104 0,3526 432,5- 437,5 435 19 63 0,152 0,5047 437,5- 442,5 440 20 83 0,160 0,6648 442,5- 447,5 445 15 98 0,120 0,7849 447,5- 452,5 450 12 110 0,096 0,880
10 452,5- 457,5 455 6 116 0,048 0,929 11 457,5- 462,5 460 7 123 0,056 0,984 12 462,5- 467,5 465 2 125 0,016 1,000
Determine: Todas las medidas de localización, escala, simetria y forma
Análisis de una muestra estratificadaAnálisis de una muestra estratificada
E2
n2 V2
2X
E1
n1 V1
1XEm
nmVm
mX
m
hh nn
1
nn
p hh
Supongamos que la variable admite una clasificación en k-clases, representadas por X1, X2,.....Xk.
m- estratos
nih = Cantidad de individuos de la submuestra del estrato “h” que pertenece a Ci.
h
ih
nnihf
k
i 1
1ihf
k
ihih nn
1
k
iih XX
1ihf
k
i
hih XXV1
2)(ihf
m
hhp
1ihi ff
Análisis de una muestra estratificadaAnálisis de una muestra estratificada
2
11
)(
m
h
hh
m
hhhT XXpVpV
Entonces:
m
h
nh XpX1
erraT VVV intint
Análisis de una muestra estratificadaAnálisis de una muestra estratificada
EjemploEjemplo
Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán 1,00 ; 1,50 1,50 ; 2,00 2,00 ; 2,50.Centros
01,251,752,25
Frecuencias Absolutas(1) (2) (3)5 10 1010 20 3030 150 505 20 10
Calcular
Note que existen 3 estratos y 4 clases
raer
Thh
VV
VXVX
intint ,
,,,
FrecuenciaRelativa
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0 1,25 1,75 2,25
1,00 1,50 2,00 2,50
Peso
Criadero 1
Criadero 2
Criadero 3
Histograma Apilado por Peso
Análisis Muestra Estratificada
Análisis Muestra Estratificada
Criadero 1
Criadero 2
Criadero 3
1,00 1,50 2,00 2,50
FrecuenciaRelativa
0
0,1
0,2
0,3
0,4
0,5
0 1,25 1,75 2,25
Peso
Histograma por Estrato y por Peso
Análisis Muestra Estratificada
Análisis Muestra Estratificada
Estrato (1) P1=1/7
Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2
0 0,1 0 -1,525 2,325 0,23251,25 0,2 0,250 -0,275 0,0756 0,01511,75 0,6 1,050 0,225 0,0501 0,03042,25 0,1 0,225 0,725 0,525 0,0525
Estrato (2) P2=4/7
fi2 fi2X1 Xi-X2 ( )2 fi2( )2
0,05 0 -1,662 2,76 0,1380,10 0,125 -0,412 0,17 0,0170,75 1,312 0,088 0, 01 0,0070,1 0,225 0,588 0,34 0,034
X1=1,525V1=0,331
X2=1,662V2=0,196
EjemploEjemplo
Estrato (3) P3=2/7
fi3 fi3X1 Xi-X3 ( )2 fi3( )2
0,10 0 -1,475 2,17 0,2170,30 0,375 -0,225 0,05 0,0150,50 0,875 0,275 0, 08 0,0400,20 0,225 0,775 0,60 0,060
X3=1,475V3=0,0332
Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2
Xh Vh
(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00057(2) 4/7 1,662 0,196 0,949 0,112 0,033 0,001 0,00057(3) 2/7 1,475 0,332 0,422 0,095 -0,114 0,013 0,00557
1,589 0,254 0,0067
Estrato (2) P2=4/7
fi2 fi2X1 Xi-X2 ( )2 fi2( )2
0,05 0 -1,662 2,76 0,138 0,10 0,125 -0,412 0,17 0,017 0,75 1,312 0,088 0, 01 0,007 0,10 0,225 0,588 0,34 0,034
X2=1,662
V2=0,196
Estrato (3) P3=2/7
fi3 fi3X1 Xi-X3 ( )2 fi3( )2
0,10 0 -1,475 2,17 0,2170,30 0,375 -0,225 0,05 0,0150,50 0,875 0,275 0, 08 0,0400,20 0,225 0,775 0,60 0,060
X3=1,475
V3=0,0332
Estrato (1) P1=1/7
Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2
0 0,1 0 -1,525 2,325 0,23251,25 0,2 0,250 -0,275 0,0756 0,01511,75 0,6 1,050 0,225 0,0501 0,03042,25 0,1 0,225 0,725 0,525 0,0525
X1=1,525
V1=0,331
Se ha obtenido, entonces:
• Media Total X = 1,589
•Varianza promedio dentro de los estratosVintra= 0,254
•Varianza entre estratosVinter= 0,0067
•Varianza TotalVT= 0,2607
ResultadosResultados
Supongamos que se toma una muestra de tamaño n de una población y que se está investigando, o se desea estudiar, dos características de la misma.
Sean estas características X e Y. Siguiendo los procedimientos habituales, la Muestra se divide en • r clases Ai para la variable X • s clases Bj para la variables Y
Existirán elementos que pertenecerán simultánea-mente a AiBj. Los datos los podemos ordenar en una tabla o matriz llamada Tabla de ContingenciaTabla de Contingencia
Estadística BivariadaEstadística Bivariada
Y B1 B2 ..... Bj ..... Bs Total
A1 n11 n12 ..... n1j ..... n1s n1
A2 n21 n22 ..... n2j ..... n2s n2
Ai ni1 ni2 ..... nij ..... nis ni
Ar nr1 nr2 ..... nrj ..... nrs nr
Total n1 n2 ..... nj ..... ns n
X
n = n_
Tabla de ContingenciaTabla de Contingencia
Y B1 B2 ..... Bj ..... Bs Total
A1 f11 f12 ..... f1j ..... f1s f1
A2 f21 f22 ..... f2j ..... f2s f2
Ai fi1 fi2 ..... fij ..... fis fi
Ar fr1 fr2 ..... frj ..... frs fr
Total f1 f2 ..... fj ..... fs f
X
f = 1_
Tabla de ContingenciaTabla de Contingencia
Notación:
fij := frecuencia conjunta = fr(xi,yj)
fi = = frecuencia marginal =
f j = = frecuencia marginal =
fi/j = = frecuencia condicional =
j
ijf j
iji xyx )(),( rr ff
i
ijf i
jji yyx )(),( rr ff
j
ij
f
f
)(
),()/(
j
jiji y
yxyx
r
rr f
ff
Estadística BivariadaEstadística Bivariada
s
jiji nn
1
Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r(Independiente de la clases Bj a la que estén asociadas Suma de los valores de la fila i-ésima )
r
iijj nn
1
Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s(Independiente de las clases Ai a la que estén asociadas. Suma de los valores de la columna j-ésima)
nij Frecuencia Absoluta de la clase conjunta AiBj. (Valor observado en la celda (i,j) de la Tabla de Contingencia)
fij nijn
Frecuencia Relativa“conjunta” de la clase conjunta correspondiente a la intersección de Ai y Bj.
s
jijf
1
r
i 1
1
Tabla de ContingenciaTabla de Contingencia
Para frecuencias relativas , i = 1,....,r se tiene:
Además se verifica que:
s
jiji ff
1
(Suma de los valores de la fila i-ésimade la tabla de contingencia de frecuencias)
r
iijj ff
1
n
niif
n
n jjf
j
ij
n
n
j
iji/j f
ff
Tabla de ContingenciaTabla de Contingencia
niif
n
n jjf
Frecuencia (relativa) “marginal” de la variable X, Conjunto de valores pertenecientes a las clases Ai, considerandolas independientemente de las calses Bj
Frecuencia (relativa) “marginal” de la variable Y, Conjunto de valores pertenecientes a las clases Bj, considerandolas independientemente de las calses Ai
Dado el experimento anterior, cuando sólo interesa conocer la frecuencia de ocurrencia de cada una de las variables por separado se habla de Frecuencia Marginal de la variable
n
Frecuencia MarginalFrecuencia Marginal
Una tela se clasifica en tres categorías A, B y C según cantidad y severidad de pequeñas imperfecciones. La empresa tiene 5 telares, en un mes dado de producción se registraron los siguientes datos.
# piezas de tela en la clasificaciónTelar A B C Marginal
1 185 16 12 213 2 190 24 21 235 3 170 35 16 221 4 158 22 7 187 5 185 22 15 222Marginal 888 119 71 1078
Ejemplo
Tabla de ContingenciaTabla de Contingencia
Se dice que X es independiente de Y si las frecuencias condicionales de X/Y son todas iguales; es decir, no dependen de la clase condicionante, esto es
fi/1 = fi/2 = fi/3 = = fi/s = fi
A
i = 1, 2, 3, ... , r
i1n
1n i2
n
2n i3
n
3n is
n
Sn
i1n
1n
i2n
i3n
isn
2n 3n sn
+ +
+ +
+ +....
+ +....i
n
n
....
....
fi
ii/j ff jffj/i
ji/jij fff ij if jff
Luego similarmente
ji/j f
ijffComo
Independencia Estadística
Independencia Estadística
ijn
jn
j
i/j fijf
f
• Cuando se “pregunta” por la frecuencia relativa de una de las varia-bles, digamos X, restrigida a los elementos observados de una clase dada de la otra; esto es, estudiar el comportamiento de una variable dado un valor fijo de la otra.
Frecuencia (relativa) de la variable X en la clase conjunta AiBj, “dado” que sólo nos interesa respecto a lo observado en la clase Bj de la variable Y; para i = 1, 2, .., r
f1/j, f2/j, f3/j, ... , fr/j
Constituye la distribución de frecuencia relativa condicional de la variable X dada la clase Bj de la variable Y.Nótese que se trabaja “condicionado” sobre un tamaño de muestra “reducido” al número de observaciones de la clase Bj dada
Frecuencia CondicionalFrecuencia Condicional
Notación:
Análogamente, se tiene:
fj/i = = frecuencia condicional =
i
ij
f
f)(
),()/(
i
jiij x
yxxy
r
rr f
ff
Independencia Estadística
X e Y son variables estadísticamente independientes ssi:
ó
ó
)()/( jij yxy rr ff )()/( iyi xyx rr ff
ii/j ff jffj/i
Estadística BivariadaEstadística Bivariada
Independencia Estadística
como ij/iij fff ijij fff
Asociación de Variables
Datos no agrupados Cov(x,y) =
Datos agrupados : Cov(x,y) =
Coeficiente de Correlación = r =
))((1
yyxxn ii
))(( yyxx ii if
Cov (x,y) Sx Sy
Estadística BivariadaEstadística Bivariada
Fallas Anuales
Temperatura 120 140 160 Marginal Averías
2 20 15 10 45 3 12 7 5 24 4 4 10 2 16 5 - 5 10 15
Marginal 36 37 27 100 Obtener :Distribuciones marginalesDistribuciones condicionales (4 averías), Mediay Varianza condicional
EjercicioEjercicio
Fallas Anuales
Temperatura 120 140 160 Marginal Averías
2 0,20 0,15 0,10 0,45 3 0,12 0,07 0,05 0,24 4 0,04 0,10 0,02 0,16 5 0 0,05 0,10 0,15
Marginal 0,36 0,37 0,27 1,00 fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5
Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2
+1//8(160-137,5)2 =
EjercicioEjercicio
Curvas de Regresión Curvas de Regresión
X
Y
x , y son variables independiente y dependiente respectivamente. Además una variable estadística que representa el error.
Los parámetros 0 y 1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados.
Entonces
xy 10
iiiii xyyye 10 ˆˆˆ Sea ;
Curvas de regresión (Lineal)
Curvas de regresión (Lineal)
x
y
x: variable independiente y y : variable dependiente : una variable estadística que representa el error.
xx 10
xy 10
Modelo Estadístico (Lineal)
Modelo Estadístico (Lineal)
x
y
xy 10
1
0
Modelo Estadístico (Lineal)
Modelo Estadístico (Lineal)
x
y xy 10
Los parámetros 0 y 1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados. Esto es, minimizar el error cuadrático medio min ei
2
xx 10ii
ei
x
xyi 10
y
Modelo Estadístico (Lineal)
Modelo Estadístico (Lineal)
n
i
n
iiii xy
1 1
210
2 )(minmin1010
n
iiE eSC
1
2
x
xy
SC
SC1̂ xy 10 ˆˆ
n
iix xxSC
1
2)(
))(( yyxxSC i
n
iixy
1
n
iieVNE
1
2
Límites de Clase Ingreso Estandarizado
de una Población
Marca de Clase
105
Consumo Promedio de Leche Semanal
N° de Personas
Encuestadas
0 - 100000 0,5 2,13 532 100001 - 200000 1,5 2,82 647 200001 - 300000 2,5 3,70 692 300001 - 400000 3,5 4,25 867 400001 - 500000 4,5 4,86 865 500001 - 600000 5,5 5,16 513 600001 - 800000 7,0 5,23 530 800001 - 1000000 9,0 5,57 181
x
Ejemplo: Curvas de Regresión
Ejemplo: Curvas de Regresión
x y SCx SCy SCxy SCE
0,5 2,13 14,06 4,35 7,82 2,70 0,321,5 2,82 7,56 1,95 3,84 3,10 0,082,5 3,70 3,06 0,27 0,90 3,51 0,043,5 4,25 0,56 0,00 -0,03 3,91 0,114,5 4,86 0,06 0,42 0,16 4,32 0,305,5 5,16 1,56 0,89 1,18 4,72 0,197,0 5,23 7,56 1,03 2,79 5,33 0,019,0 5,57 22,56 1,84 6,44 6,14 0,32
34,0 33,72 57,00 10,74 23,10 33,72 1,374,25 4,215 4,215
0.4135965
0 2.4697149
y
x = y =
Modelo Estadístico: Ejemplo
Modelo Estadístico: Ejemplo
0.4135965=
SCx
ˆ SCxy=
ˆˆ 2.4697149 xy0 = =
SCxy= 23,10
SCx= 57,00
y
x
= 4,215
= 4,25
10,74
% de Ajuste del Modelo =
1 = 1,37= 0,872 87,2%
SCE
SCy
EjemploEjemplo
Ejemplo: Curvas de RegresiónEjemplo: Curvas de Regresión
t 0 1 2 3 4 5 6
V(t) 30 60 46 32 10 4 1720 40 26 14 8
20 12
V(t) 25 40 46 29 12 6 17
Sea xt = sen t yt = V(t)
Luego y(t) = 0 + 1 xt + t
t
tt xyQ 210
,10
,)(min),(min
1010
3,25ˆˆ10 xy 20
),cov(ˆ21
xS
yx
12762 yS 45222 ,)ˆ( tt yy
% de Ajuste del Modelo =
%%,ˆ
981009801 2
2
y
t
S
e
Ingreso
Co
ns
um
o
0.1 1.7 3.3 4.9 6.6 8.2 9.8
6.02
5.32
4.61
3.90
3.19
2.48
1.78
a = 2.4697149
b = 0.4135965
Linear Fit:
Y = a + bx
Ajuste LinealAjuste Lineal
Ajuste LogarítmicoAjuste Logarítmico
Ingreso
Co
ns
um
o
0.1 1.7 3.3 4.9 6.6 8.2 9.8
6.02
5.32
4.61
3.90
3.19
2.48
1.78
Logarithm Fit:
Y = a + b*ln(x)
Ajuste PolinomialAjuste Polinomial
Ingreso
Co
ns
um
o
0.1 1.7 3.3 4.9 6.6 8.2 9.8
6.02
5.32
4.61
3.90
3.19
2.48
1.78
Power Fit:
Y = a xb
a = 2.6890974
b = 0.3543629
Modelo LogísticoModelo Logístico
Ingreso
Co
ns
um
o
0.1 1.7 3.3 4.9 6.6 8.2 9.8
6.02
5.32
4.61
3.90
3.19
2.48
1.78
Logistic Model:
Y =
a
1+b*e-cx
a = 5.6469463
b = 2.2230602
c = 0.55970905
Ingreso
Co
ns
um
o
0.1 1.7 3.3 4.9 6.6 8.2 9.8
6.02
5.32
4.61
3.90
3.19
2.48
1.78
Richard’s Model:
Y =
a
1+b*e(b-cx)(1/d)
a = 5.6606384
b = 0.5984401
c = 0.5415778
d = 0.8782331
Modelo de RichardModelo de Richard
Asociación ExponencialAsociación Exponencial
Ingreso
Co
ns
um
o
0.1 1.7 3.3 4.9 6.6 8.2 9.8
6.02
5.32
4.61
3.90
3.19
2.48
1.78
Exponential Association (3):
Y = a (b - e-cx)
a = 4.6333776
b = 1.3115177
c = 0.2709334
Sea yi = h ( xi ) con i = 1,...,n
1. Lineales yi = axi + b
y = ax + bSy = a Sx
2. No lineales yi = h( xi )
y = h(x) + h”(x) SX2
Sy2 Sx
2 h’ (x)2
En particular h(x) = ln x y = ln x - ( Sx
2 / x2 )
Sy2 ( Sx
2 / x2 ) = CV 2
2
1
2
1
TransformacionesTransformaciones
Relaciones LinealizablesRelaciones Linealizables
1. y = K x ln y = a0 + a1 ln x2. y = K ( / x ) y = a0 a1 x-1
3. y = K ex ln y = a0 + a1 x
4. y = K e-/x ln y = a0 + a1 x-1
5. yt = K + cos t y = a0 + a1 xt
siendo xt = cos t
6. y() = y - 1 = a0 + a1 x
y-1 dy = a1 w = dy dx dx
ln w = ln a1 + ( 1 - ) ln y
3. Box-Cox Transformaciones (1964)
h (x) = X() =
( x + m ) - 1 0 x > -m
ln ( x + m ) = 0 m > 0
TransformacionesTransformaciones
Sea yi = h ( xi ) con i = 1,...,n
1. Lineales 2. No lineales• yi = a + bxi • y = a + b ln x • y = a + bx • y = a e bx
• sy = b sx
3. Linealizables• y = a x b ln y = ln a + b ln x• y = a ( b / x ) y = a b x-1
• y = a e bx ln y = ln a + b x
• y = a e-b/x ln y = ln a - b x-1
• yt = a + b cos t y = a + b xt siendo xt = cos t
TransformacionesTransformaciones