Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 1
Tema IV
Estimación con intervalos de confianza
4.1. Introducción.
Actualmente, las poblaciones son generalmente demasiado grandes como para que se realice un estudio a conciencia de
ellas. Debido a su tamaño es necesario seleccionar muestras, las cuales se pueden utilizar posteriormente para hacer
inferencias sobre las poblaciones. Si un gerente de una tienda minorista desea saber sobre el gasto promedio de sus
clientes durante el año anterior, puede hallar dificultad en calcular el promedio de los cientos o quizá miles de clientes
que pasaron por la tienda.
Existen por lo menos dos tipos de estimadores que se utilizan más comúnmente para este propósito: Un estimador
puntual y un estimador por intervalo. Un estimador puntual usa un estadístico para estimar el parámetro en un solo
valor o punto. Por ejemplo, el gerente de la tienda puede seleccionar una muestra de 250n clientes y hallar es gasto
promedio de 45.570$X , este valor sirve como una estimación puntual para la media de la población.
Una estimación por intervalo especifica el rango dentro del cual está el parámetro desconocido. Por ejemplo, el gerente
de la tienda puede decidir que la media poblacional es algún valor entre $500 y $600. Frecuentemente este intervalo, va
acompañado con una afirmación sobre el nivel de confianza que se da en su exactitud y recibe el nombre de intervalo de
confianza.
Un estimador puntual utiliza un número único o valor para localizar una estimación del parámetro. Un intervalo de
confianza indica un rango dentro del cual puede encontrarse el parámetro, el nivel de confianza que el intervalo contiene
del parámetro.
Las estimaciones por intervalos tienen ciertas ventajas sobre las estimaciones puntuales, debido al error de muestreo,
probablemente X no sea igual a . Sin embargo, no existe manera de saber qué tan grande es el error de muestreo.
Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida.
4.2. Propiedades deseables de un estimador.
Sea X una variable aleatoria cuya función de probabilidad (o función de densidad de probabilidad si es continua)
depende de unos parámetros k ,,, 21 desconocidos
kxf ,,,; 21
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 2
Representamos mediante nXXX ,,, 21 una muestra aleatoria simple de la variable. Denotamos mediante cf a la
función de densidad conjunta de la muestra, que por estar formada por observaciones independientes, puede factorizarse
del siguiente modo:
knkkknc xfxfxfxxxf ,,,;,,,;,,,;,,,;,,, 212122112121
Se denomina estimador de un parámetro i , a cualquier variable aleatoria
i que se exprese en función de la muestra
aleatoria y que tenga por objetivo aproximar el valor de i ,
ni XXX ,,, 21 estimador de i .
Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unívocamente
de los valores de la muestra observados (Xi = xi), la elección de la muestra es un proceso aleatorio. Una vez que la
muestra ha sido elegida, se denomina estimación el valor numérico que toma el estimador sobre esa muestra.
Intuitivamente, las características que serían deseables para esta nueva variable aleatoria (que usaremos para estimar el
parámetro desconocido) deben ser:
Consistencia. Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al
parámetro desconocido.
Decimos que
es un estimador consistente con el parámetro si:
,0||lim,0
P
n
o lo que es equivalente
,1||lim,0
P
n
Este tipo de propiedades definidas cuando el número de observaciones n, tiende a infinito, es lo que se denomina
propiedades asintóticas.
Teorema 4.2. Como consecuencia de la desigualdad de TChebychev (Capitulo 2, sección 2.10.3 ) se puede
demostrar el siguiente resultado:
Si se verifican las condiciones
E
nlim
0Varlim
n
entonces
es consistente.
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 3
Carencia de sesgo. El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor
del parámetro.
Se dice que un estimador
de un parámetro es insesgado si:
E
La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que se tiene un número indefinido de
muestras de una población, todas ellas del mismo tamaño n. Sobre cada muestra el estimador nos ofrece una estimación
concreta del parámetro que buscamos. Pues bien, el estimador es insesgado, si sobre dicha cantidad indefinida de
estimaciones, el valor medio obtenido en las estimaciones es (el valor que se desea conocer).
Eficiencia. El estimador, al ser variable aleatoria, no puede exigírsele que para una muestra cualquiera se
obtenga como estimación el valor exacto del parámetro. Sin embargo, podemos pedirle que su dispersión con
respecto al valor central (varianza) sea tan pequeña como sea posible.
Dados dos estimadores insesgados
1 y
2 de un mismo parámetro
, diremos que
1 es más eficiente que
2 si
21 VarVar
Suficiencia. El estimador debe aprovechar toda la información existente en la muestra.
Diremos que nXX ,,1
es un estimador suficiente del parámetro si
axXxXxXP |111111 ,,, no depende de .
para todo posible valor de .
Esta definición así enunciada, tal vez resulte un poco oscura, pero lo que expresa es que un estimador es suficiente, si
agota toda la información existente en la muestra que sirva para estimar el parámetro.
Teorema 4.3. [Criterio de factorización de Fisher--Neyman] Sea ;,,1 nXXf la distribución conjunta
para las muestras de tamaño n, nXX ,,1 . Entonces
sí sóloy sí suficiente estimadosun es ,,1 nXX
;,,,,;,, 111 nnn XXrxxhXXf
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 4
siendo h una función no negativa que no depende de y r una función que sólo depende del parámetro y de la muestra a
través del estimador.
A continuación vamos a enunciar de modo más preciso y estudiar cada una de esas características.
4.3. Estimadores de máxima verosimilitud.
Sea X una variable aleatoria con función de probabilidad ;xf . Las muestras aleatorias simples de tamaño n,
nXXX ,,, 21 tienen por distribución de probabilidad conjunta
;;;;,,;,, 2111 nnnc xfxfxfxxfxxf
Esta función que depende de n+1 cantidades podemos considerarla de dos maneras:
Fijando , es una función de las n cantidades xi. Esto es la función de probabilidad o densidad.
Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio, es
únicamente función de . A esta función de la denominamos función de verosimilitud.
En este punto, podemos plantearnos el hecho de que, dado una muestra sobre la que se ha observado los valores xi, una
posible estimación del parámetro es aquella que maximiza la función de verosimilitud. ( figura 4.1)
;,,, tudVerosimili fijados ,, 211 nn xxxfVxx
Figura 4.1: Función de verosimilitud.
La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando los papeles entre parámetro y
estimador. En una función de verosimilitud consideramos que las observaciones x1, ..., xn,están fijadas, y se representa la
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 5
gráfica con el valor de los valores que tomaría la función de densidad para todos los posibles valores del parámetro .
El estimador máximo verosímil del parámetro buscado,
, es aquél que maximiza su función de verosimilitud V
Como es lo mismo maximizar una función que su logaritmo (al ser este una función estrictamente creciente), este
máximo puede calcularse derivando con respecto a la función de verosimilitud ( bien su logaritmo) y tomando como
estimador máximo verosímil al que haga la derivada nula:
0log
V
De modo más preciso, se define el estimador máximo verosímil como la variable aleatoria
;,,,max 21 nR
XXXf
Los estimadores de máxima verosimilitud tienen ciertas propiedades en general que a continuación enunciamos:
1. Son consistentes;
2. Son invariantes frente a transformaciones biunívocas, es decir, si
es el estimador máximo verosímil de
y g es una función biunívoca de , entonces
g es el estimador máximo verosímil de g .
3. Si
es un es un estimador suficiente de , su estimador máximo verosímil,
es función de la muestra a
través de
;
4. Son asintóticamente normales;
5. Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes de un parámetro , los de
máxima verosimilitud son los de varianza mínima.
6. No siempre son insesgados.
4.4. Algunos estimadores fundamentales.
En esta sección, vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las aplicaciones
resultan fundamentales: estimadores de la esperanza matemática y varianza de una distribución de probabilidad.
4.4.1 Estimador de la esperanza matemática.
Consideremos las muestras de tamaño n, nXXX ,,, 21 , de un carácter sobre una población que viene expresado a
través de una variable aleatoria X que posee momentos de primer y segundo orden, es decir, existen XXE Vary :
221Var
,,,
i
i
nX
XEXXX
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 6
El estimador media muestral que denotaremos normalmente como X (en lugar de
) es
nXXXn
X 21
1
verifica que: XE y n
2
XVar
Por tanto es un estimador insesgado. Si además sabemos que X se distribuye según una ley gaussiana, es sencillo
comprobar que coincide con el estimador de máxima verosimilitud (figura 4.2):
Figura 4.2: La distribución del estimador muestral X del parámetro poblacional , tiene por valor esperado al mismo (insesgado), y su
dispersión disminuye a medida que aumenta el número de observaciones
4.4.2. Proposición 1.
nNXNX dd
i
2
, , entonces
Demostración: La función de densidad de una observación cualquiera de la muestra es:
RxxxxfNX n
d
i ;,;,,, , 2
21entonces
Por tanto la distribución conjunta de la muestra es
222
21
221 ,;,;,;,;,,, nn xfxfxfxxxf
xf
xf
xf
xf
xf
X xf
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 7
Para unos valores nxxx ,,, 21 fijados, la función de verosimilitud es
n
i
i
n
n
xn
xxxn
xxx
n
e
eee
eee
xxfxfV
1
21
21
2
21
2
21
2
21
2
21
2
21
2
21
2
21
22
2
2
1
2
2
1
2
1
2
1
2
1
2
1
2
1
2
1
,,;,;,;,
(en principio escribimos también el otro parámetro desconocido, 2 , aunque no nos interesamos en su estimación por el
momento). La expresión de la función de verosimilitud es algo engorrosa. Por ello es preferible trabajar con su
logaritmo:
El máximo de la función de verosimilitud se alcanza donde lo hace su logaritmo (monotonía), por tanto derivando con
respecto a e igualando a cero se llega a :
Es decir, el estimador máximo verosímil de la media poblacional, , coincide con la media muestral
como se deseaba demostrar (ver figura 4.3.)
*
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 8
Figura 4.3: El estimador de máxima verosimilitud de para una variable gaussiana es la media muestral.
4.5. Estimador de la varianza.
A la hora de elegir un estimador de XVar2 , podemos comenzar con el estimador más natural:
n
i
i XXn
S
1
22 1
Se puede comprobar que cuando el carácter que se estudia sobre la población es gaussiano, en realidad este es el
estimador máximo verosímil para la varianza. Sin embargo, se comprueba también su falta de sesgo, lo que hace mas
adecuado que se utilice como estimador de la varianza al siguiente concepto: cuasi varianza muestral.
4.5.1. Proposición 2.
2
2 , entonces
SNX i
Demostración: Recuperamos el logaritmo de la función de verosimilitud escrita en la relación (*) de la sección 4.4.2,
donde en esta ocasión el primer parámetro ya fue obtenido por el método de máxima verosimilitud (y vimos que era la
media muestral) y tratamos de maximizarla con respecto al segundo parámetro:
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 9
Derivando con respecto a 2
e igualando a 0 se obtiene el estimador máximo verosímil:
Despejando de esta ecuación se obtiene que el estimador máximo verosímil coincide con la varianza muestral,
4.5.2. Proposición 3.
El valor esperado del estimador
n
i
i XXn
S
1
22 1
no es 2 , y por tanto el estimador máximo verosímil para la varianza no es insesgado. Más aún,
Demostración: Comenzamos escribiendo
Por otro lado
Luego
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 10
Ejemplo 4.7. Consideremos una variable aleatoria de la que sólo conocemos que su ley de distribución es gaussiana,
o.desconocid,
o,desconocid,,
2
2
12
NX
Para muestras aleatorias de tamaño n =5,
254321 ,,,,, NXXXXX
un posible estimador del parámetro es
5,
5
1,,,,
2
54321543211
NXXXXXXXXXXX
Si al realizar un muestreo aleatorio simple obtenemos
2.2 1 2, 0, 5, 3,ˆ esˆ utilizando de estimación la
1
2
0
5
3
11
5
4
3
2
1
x
X
X
X
X
X
Hemos dicho que el estimador sirve para aproximar el valor de un parámetro desconocido, pero si el parámetro es
desconocido ¿cómo podemos decir que un estimador dado sirve para aproximarlo? Así pues, es necesario que definamos
en qué sentido un estimador es bueno para cierto parámetro.
Ejercicio 4.1. Se ha medido el volumen de ventas de un cierta tienda de abarrotes durante 10 días. Los montos están
expresados en miles de pesos y son las siguientes:
0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.
¿A cuánto equivalen las ventas medias diarias, suponiendo que la muestra ha sido obtenida por muestreo aleatorio
simple sobre una población normal?
4.6. Estimación de intervalos de confianza.
La estimación confidencial consiste en determinar un posible rango de valores o intervalo, en los que pueda precisarse -
-con una determinada probabilidad-- que el valor de un parámetro se encuentra dentro de esos límites. Este parámetro
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 11
será habitualmente una proporción en el caso de variables dicotómicas, y la media o varianza para distribuciones
gaussianas
La técnica de la estimación confidencial consiste en asociar a cada muestra un intervalo que se sospecha debe
contener al parámetro. A éste se le denomina intervalo de confianza
Evidentemente esta técnica no tiene porqué dar siempre un resultado correcto. A la probabilidad de que hayamos
acertado al decir que el parámetro estaba contenido en dicho intervalo se la denomina nivel de confianza. También se
denomina nivel de significación a la probabilidad de equivocarnos.
4.6.1 Intervalos de confianza para la distribución normal.
Dada una variable aleatoria de distribución gaussiana, 2,NX d , nos interesamos en primer lugar, en
calcular intervalos de confianza para sus dos parámetros, y 2 .
4.6.1.1. Intervalos de confianza para la media si se conoce la varianza.
Este no es un caso práctico (no se puede conocer 2 sin conocer previamente ), pero sirve para introducirnos en el
problema de la estimación confidencial de la media;
Este caso que planteamos es más a nivel teórico que práctico: difícilmente vamos a poder conocer con exactitud 2 mientras que es desconocido. Sin embargo nos aproxima del modo más simple a la estimación confidencial de
medias.
Para estimar , el estadístico que mejor nos va a ayudar es , del que conocemos su ley de distribución:
odesconocidparámetroun
es donde
2
,
nNX d
Esa ley de distribución depende de (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa
de ningún parámetro desconocido, para ello tipificamos:
conocidas cosas
estimador
odesconocid parámetro
n
XZ
tabulada
1,0Nd
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 12
Este es el modo en que haremos siempre la estimación puntual: buscaremos una relación en la que intervengan el
parámetro desconocido junto con su estimador y de modo que estos se distribuyan según una ley de probabilidad que es
bien conocida y a ser posible tabulada.
De este modo, fijado 1,0 , consideramos la variable aleatoria 1,0NZ y tomamos un intervalo que contenga
una masa de probabilidad de 1 . Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es
tomarlo simétrico con respecto a la media (que toma el valor de 0), ya que allí es donde se acumula más masa (véase la
figura 4.4). Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de
la masa de probabilidad, .
Figura 4.4. La distribución 1,0N
Si la distribución es 1,0N y el intervalo más pequeño posible cuya probabilidad es 1 , por simetría, los cuantiles
2/z y 2/1 z sólo difieren en el signo
Vamos a precisar cómo calcular el intervalo de confianza:
Sea 2/z el percentil
2100
de Z, es decir, aquel valor de R que deja por debajo de la cantidad
2
de la
masa de probabilidad de Z, es decir:
Sea 2/1 z el percentil
21100
, es decir,
Es útil considerar en este punto la simetría de la distribución normal, y observar que los percentiles anteriores son los
mismos aunque con el signo cambiado:
Región de confianza
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 13
El intervalo alrededor del origen que contiene la mayor parte de la masa ( 1 ) es el intervalo siguiente (Figura 4.4).
lo que habitualmente escribiremos como:
De este modo, podemos afirmar que existe una probabilidad de 1 , de que al extraer una muestra aleatoria de la
variable en estudio, ésta ocurra:
De este modo un intervalo de confianza al nivel 1 para la esperanza de una normal de varianza conocida es el
comprendido entre los valores
La forma habitual de escribir este intervalo está inspirada en la Figura 4.5.
nzX
2/1
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 14
Figura 4.5. Intervalo de confianza para la media.
Cuánto debe sumarse o restarse, depende en parte del nivel de confianza deseado, estipulado por el valor de Z. Un nivel
de confianza del 95% requiere un valor de Z de 1.96.
Consideremos el caso de un promotor inmobiliario quien intenta construir un centro comercial. Puede estimar en el área
el ingreso mensual promedio por familia como indicador de las ventas esperadas. Una muestra de 100n familias da
una media de 500,4$X . Se asume que la desviación estándar poblacional es 720$ . Se estima un intervalo
del 95% como
nzX
2/1
100
72096.1500,4
Así,
12.641,488.4358
4.6.1.2. Intervalos de confianza para la media (caso general). Aquí se trata el caso más común con verdadero interés práctico. Por ejemplo sirve para estimar intervalos que contenga
la media del ingreso per cápita en una población, el ahorro promedio, el consumo promedio mensual, etc, cuando
disponemos de una muestra de la variable.
Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una
población quizás podamos conocer si se distribuye normalmente, pero el valor exacto de los parámetros y 2 no son
conocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos. El problema que tenemos en este caso es
más complicado que el de la sección anterior, pues no es tan sencillo eliminar los dos parámetros a la vez. Para ello nos
vamos a ayudar de lo siguiente:
1,0N
n
XZ
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 15
Por el teorema de Cochran (Capítulo 3 sección 3.13.9) sabemos por otro lado que:
21
12
2
21
n
n
i
in
XX
y que además estas dos últimas distribuciones son independientes. A partir de estas relaciones se puede construir una
distribución t de Student con n-1 grados de libertad ( ver figura 4.6.)
Figura 4.6. La distribución de t de Student
La distribución nt es algo diferente a 1,0N cuando n es pequeño, pero conforme éste aumenta, ambas distribuciones
se aproximan.
Simplificando la expresión anterior tenemos:
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 16
Dado el nivel de significación 1 buscamos en una tabla de la distribución t con 1n grados de libertad, el
percentil
21100
, 2/,1 nt , el cual deja a su izquierda 2/ de la masa de probabilidad ( ver figura 4.7). Por
simetría de la distribución de Student se tiene que 2/1,12/,1 nn tt , luego
Figura 4.7. La distribución de Student.
La distribución de Student tiene las mismas propiedades de simetría que la normal tipificada.
El intervalo de confianza se obtiene a partir del siguiente cálculo:
nStX
tnS
XtT
n
nnn
/ˆ
/ˆ
2/1,1
2/1,12/1,11
entonces
que implica
Es decir, el intervalo de confianza al nivel 1 para la esperanza de una distribución gaussiana cuando sus parámetros
son desconocidos es:
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 17
n
StX n
ˆ 2/1,1
Figura 4.8. Intervalo de confianza para cuando 2 es desconocido (caso general).
Al igual que en el caso del cálculo del intervalo de confianza para cuando 2 es conocido, podemos en el caso
2 desconocido, utilizar la función de verosimilitud (figura 4.8) para representarlo geométricamente. En este caso se usa
la notación:
Ejemplo 4.8. Se quiere estimar un intervalo de confianza al nivel de significación 05.0 para el monto medio de
las compras realizadas por los individuos de Hermosillo en las tiendas VH. En principio sólo sabemos que la
distribución de los montos de las compras realizadas es una variable aleatoria X que sigue una distribución normal. Para
ello se tomó una muestra de n = 25 personas y se obtuvo
pesos 100
pesos 350
S
x
Solución: En primer lugar, en estadística inferencial, los estadísticos para medir la dispersión más convenientes son los
insesgados. Por ello vamos a dejar de lado la desviación típica muestral, para utilizar la cuasidesviación típica:
062.10224
25100
1100
n
nSSS
Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadístico
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 18
1~ˆ
nt
n
S
XT
~
y tomar como intervalo de confianza aquella región en la que
2/1,1 ntT
es decir,
4124.20350
5
062.1020639.2350 ,0639.2
25
062.102
350entonces975.0,24
t
Por lo tanto, un intervalo al 95% de confianza para es 4124.20350 o dicho de forma más precisa: Con un nivel
de confianza del 95% esperamos que el intervalo 4124.20350 contenga a . (véase la figura 4.9)
Figura 4.9. Cálculo del intervalo de confianza para la media usando la distribución de Student
Podemos observar que la función de verosimilitud asociada, tiene su máximo en x , esto se debe a que esta estimación
puntual de es la máximo verosímil.
Ejercicio 4.2. La cantidad de tiempo de espera requerida para que un cliente fuera atendido en un banco local, fue en
promedio de 5.8 minutos, con una desviación típica de 10,2 minutos, en una muestra de 60 clientes. Obtenga un
intervalo de confianza para la media al 99%, suponiendo que la muestra fue extraída mediante muestreo aleatorio simple
sobre una población normal.
350 329.6 370.4
x 2/x 2/1 x
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 19
Ejercicio 4.3. Un gerente de una empresa, se encuentra interesado en encontrar límites de confianza al 90%, para las
cantidades semanales de artículos producidos por la empresa sobre pedido. Obtenga estos límites si en 50 semanas, se
obtuvo 253,13x y 000,3S , suponiendo que el comportamiento de la variable aleatoria es normal.
4.6.1.3. Intervalo de confianza para la varianza.
Éste es otro caso de interés en las aplicaciones. El objetivo es calcular un intervalo de confianza para 2 , cuando sólo
se dispone de una muestra. Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente
propiedad de la distribución 2 :
2
1-n21
2
2
~1
nXXn
i
i
Consideremos dos cuantiles de esta distribución que nos dejen una probabilidad 1 en la ``zona central'' de la
distribución ( Figura 4.10):
Figura 4.10. Cuantiles de la distribución 2
1n .
Entonces un intervalo de confianza al nivel 1 para la varianza de una distribución gaussiana (cuyos parámetros
desconocemos) lo obtenemos teniendo en cuenta que existe una probabilidad 1 de que:
Región de confianza
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 20
2
2/,1
22
2
2/1,1
2
2
2/1,12
22
2/,1
2
2/1,1
2
1
2
2/,1
ˆ1ˆ1
ˆ1
nn
nnnnn
SnSn
Sn
Por tanto el intervalo que buscamos es
2
2/,1
2
2
2/1,1
2 ˆ1,
ˆ1
nn
SnSn.
En este intervalo de confianza al nivel 1 se espera que se encuentre la varianza de la población 2 .
Ejemplo 4.9. En el ejemplo 4.8 se tiene que en la muestra realizada a 25n individuos, el monto medio x de las
compras realizadas por los individuos de Hermosillo en las tiendas VH y la desviación estándar son respectivamente
pesos 100
pesos 350
S
x
Calcular un intervalo de confianza con 05.0 para la varianza 2 de los montos de las compras realizadas por los
individuos en las tiendas mencionadas, suponiendo que estos montos se distribuyen normalmente.
Solución: Para estimar un intervalo de confianza para 2 (varianza poblacional) el estadístico que nos resulta útil es:
2
1-n2
22 ~
ˆ1
Sn
Entonces el intervalo de confianza que buscamos lo obtenemos mediante (ver figura 4.13)
32.382,20,12.313,6
6.39062.10224
4.12 2
075.0;242
2
2
025.0;24
2
1,1
22
2/,1 2
nn
Por tanto, un intervalo aproximado para el valor poblacional de la desviación típica es:
77.14246.79
con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales 100S y 062.102S calculados
sobre la muestra.
Ejercicio 4.4. Un fabricante de ropa, desea realizar una estimación confidencial de la varianza de la estatura de los
niños varones de 10 años de Hermosillo con una confianza del 95%. Suponiendo que las estaturas de los niños se
distribuye de manera normal, ¿Cuál debe ser ese intervalo si se toma una muestra de 101 niños al azar, entre todos los
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 21
que reúnen las características deseadas, y medimos sus estaturas, y se obtienen las siguientes estimaciones puntuales:
6.138x cm. y 16.292 S cm2 ?
Ejercicio 4.5. En una muestra de bolsas de carne seca, en las cuales se observó su peso en gramos, se obtuvo:
119; 123; 118; 121; 127; 117; 115; 114; 119; 120
Suponiendo la normalidad para esta distribución de pesos, determinar un intervalo al 80% de confianza para la varianza.
4.7. Cálculo del tamaño de la muestra.
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de
muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello
antes de presentar algunos casos sencillos de cálculo del tamaño de la muestra, delimitemos estos factores.
Parámetro. Son las medidas o datos que se obtienen sobre la población.
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los
parámetros.
Error Muestral, de estimación o estándar. Es la diferencia entre un estadístico y su parámetro correspondiente.
Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población,
nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja
del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la
naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo (los resultados se someten a
error muestral e intervalos de confianza que varían muestra a muestra.) Varía según se calcule al principio o al
final. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la
desviación de la distribución muestral de un estadístico y su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información
que queremos recoger está distribuida según una ley de probabilidad así, llamamos nivel de confianza a la
probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del parámetro.
Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el número de
entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más pequeño.
Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.
4.7.1. Tamaño de muestra para estimar la media de la población.
La utilidad de estas estimaciones, consiste en decidir cuál deberá ser el tamaño necesario de una muestra, para obtener
intervalos de confianza para una media, con precisión y significación dadas de antemano. Para que esto sea posible, es
necesario poseer cierta información previa, que se obtiene a partir de las denominadas muestras piloto.
Antes de realizar un estudio de inferencia estadística sobre una variable, lo primero es decidir el número de elementos,
N, a elegir en la muestra aleatoria. Para ello consideremos que el estudio se basará en una variable de distribución
normal, y nos interesa obtener para un nivel de significación dado, una precisión (error) e.
De la sección 4.6.1.2, recordemos que un intervalo de confianza para una media en el caso general se escribe como
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 22
e
NN
StX
dadconfiabili
2/1,1
ˆ
Si n , la distribución t de Student se aproxima a la distribución normal. Luego una manera de obtener la precisión
buscada consiste en elegir n con el siguiente criterio:
2
2
2/1 Se
zn
Donde 2S es una estimación puntual a priori de la varianza de la muestra. Para obtenerla nos podemos basar en una
cota superior conocida por nuestra experiencia previa, o simplemente, tomando una muestra piloto que sirve para dar
una idea previa de los parámetros que describen una población.
Ahora, veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo aleatorio simple.
Para ello es necesario partir de dos supuestos: en primer lugar el nivel de confianza al que queremos trabajar; en segundo
lugar, cual es el error máximo que estamos dispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:
1. Obtener el tamaño muestral imaginando que en número de la población N :
2
2
2/
0e
zn
donde: 2/z es el valor de z correspondiente al nivel de confianza elegido, 2 es la varianza poblacional y
e es error máximo que se está dispuesto a tolerar.
2. Comprobar si se cumple que 100 nnN . Si esta condición se cumple el proceso termina aquí, y ese es el
tamaño adecuado que debemos muestrear.
Si no se cumple, pasamos a una tercera fase:
3. Obtener el tamaño de la muestra según la siguiente fórmula:
N
n
nn
0
0
1
Ejemplo 4.10. En los ejemplos 4.8 y 4.9 se ha estudiado la variable el monto de las compras realizadas por los
individuos de Hermosillo en las tiendas VH, considerando que ésta es una variable que se distribuye de manera
gaussiana. Para ello se tomó una muestra de n = 25 individuos (la cual podemos considerar piloto), que arrojó los
siguientes resultados:
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 23
pesos
pesos
pesos
062.1021
ˆ
100
350
n
nSS
S
X
Calcular el tamaño que debe tener una muestra para obtener un intervalo de confianza para la media poblacional con un
nivel de significación 01.0 . Es decir, al 99% de confianza y con una precisión de e =5 pesos.
Solución: Observemos que sobre la muestra piloto, el error cometido al estimar el intervalo al 95% de confianza, fue
aproximadamente de 20.41 pesos, por lo que si buscamos un intervalo de confianza más preciso, el tamaño de la
muestra, n, deberá ser bastante mayor. En este caso, sólo aplicamos el paso 1.
montos 774,2
25
062.10258.2
5
062.102 22
2
22995.0
zn
Por tanto, si queremos realizar un estudio con la precisión requerida en el enunciado, se deberá tomar una muestra de
2,774 montos en ventas realizadas. Esto es una indicación de gran utilidad antes de iniciar el estudio. Una vez que el
muestreo haya sido realizado, debemos confirmar que el error para el nivel de significación dado es inferior o igual a 5
pesos, utilizando la muestra obtenida.
Ejemplo 4.11. El Instituto de la Mujer de Hermosillo, planea un estudio con el propósito de conocer el promedio de
horas semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de una población de 10,000
mujeres que figuran en los registros locales del Instituto de la Mujer y de las cuales se conoce a través de un estudio
piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error
máximo de 0.1, ¿cuál debe ser el tamaño muestral que emplearemos?.
Buscamos en las tablas de la curva normal el valor de 2/Z que corresponde con el nivel de confianza
elegido: 96.12/ Z y seguimos los pasos siguientes:
1.
706,3
1.0
648.996.12
2
0 n
2. Se verifica que no se cumple 1 nnN , pues en este caso
730,730,13000,10;1706,3706,3000,10
3. 704,2
000,10
706,31
706,3
n
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 24
Ejercicio 4.6. En una muestra de 25 trabajadores de una empresa sonorense, se obtuvo un salario medio mensual de
5,900 pesos y una desviación típica de 940 pesos.
a) Obtenga un intervalo al 95% de confianza, para el salario medio poblacional.
b) ¿Cuántos trabajadores habría que tomar como muestra, para estimar dicha media con una precisión de 100 pesos?
Ejercicio 4.7. Se desea estimar el volumen medio de ingresos anuales en una cadena nacional de supermercados, con
una precisión de 50 mil pesos. Ante la ausencia de cualquier información acerca de la variabilidad del volumen de
ingresos en los centros comerciales, se tomó una muestra preliminar de 5 centros, en los que se obtuvieron los siguientes
montos (en millones de pesos):
97, 80, 67, 91, 73.
Determine el tamaño mínimo de muestra, al 95%, para cumplir el objetivo anterior.
4.8. Diferencia de medias.
Se realiza el cálculo del intervalo de confianza suponiendo que ambas variables tienen la misma varianza, es decir son
homocedáticas. En la práctica se usa este cálculo, cuando ambas variables tienen parecida dispersión. Para observar en
definitiva si 2
2
2
1 se realiza primero una prueba de varianza usando el estdístico F. Consideremos el caso en que
tenemos dos poblaciones de modo que el carácter que estudiamos en ambas (X1 y X2) son variable aleatoria distribuidas
según leyes gaussianas
2
222
2
111
,N~
,N~
X
X
En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras que no tienen por que ser
necesariamente del mismo tamaño (respectivamente n1 y n2)
2
1
222112
112111
,,,
,,,
n
n
XXXX
XXXX
Podemos plantearnos a partir de las muestras el saber qué diferencias existen entre las medias de ambas poblaciones, o
por ejemplo estudiar las relación existente entre sus dispersiones respectivas. A ello vamos a dedicar los siguientes
puntos.
4.8.1. Intervalo para la diferencia de medias.
Supongamos que dos poblaciones tengan varianzas idénticas (homocedasticidad, ver figura 4.11), 2 . Es decir,
.22
21
2
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 25
Figura 4.11. Poblaciones normales con igual varianza y medias distintas
Por razones análogas a las expuestas en el caso de una población, se tiene que
2
2n
2
1n
2
1n
2
2
1n
2
22
2
1n
2
11
2121
2
1
~
~ˆ1
~ˆ1
reprod.
nSn
Sn
Sea Z la variable aleatoria definida como
10,N~
11
21
2
2121
2
2
2
1
2
1
2121
nn
XX
nn
XXZ
El siguiente cociente se distribuye entonces como una t de Student con n1+ n2 - 2 grados de libertad
2
21
2121
2
2
21
21
21
t~11
ˆ2
1
nn
nnnn
S
XX
nn
Z
donde se ha definido a2S como la cuasivarianza muestral ponderada de
21S y 2
2S
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 26
Si 1 es el nivel de significación con el que deseamos establecer el intervalo para la diferencia de las dos medias,
calculamos el valor 2/1,121 nnt que deja por encima de si 2/ de la masa de probabilidad de 221 nnT
Repitiendo un proceso que ya hemos realizado en ocasiones anteriores, tenemos una probabilidad de 1 de que a
extraer una muestra aleatoria simple ocurra:
21
2/1,22121
2/1,2
21
2121
2/1,22
11ˆt
t11
ˆ
tT
21
212121
nnSXX
nnS
XX
nn
nnnnnn
Luego el intervalo de confianza al nivel 1 para la diferencia de esperanzas de dos poblaciones con la misma varianza
(aunque esta sea desconocida) es:
21
2/1,221
11ˆt
21 nnSXX nn
Ejemplo 4.12. Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer. Para ello se
consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y otras que no) y se obtienen los
siguientes datos sobre el peso X, de sus hijos:
Kg. 8.0ˆKg. 2.3mujeres,27fumadoras Madres
Kg. 5.0ˆKg. 6.3mujeres,35fumadoras no Madres
222
111
Sxn
Sxn
En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones normales de medias desconocidas, y
con varianzas que si bien son desconocidas, podemos suponer que son las mismas. Calcular en cuánto influye el que la
madre sea fumadora en el peso de su hijo.
Solución: Si X1 es la variable aleatoria que describe el peso de un niño que nace de madre no fumadora, y X2 el de un
hijo de madre fumadora, se tiene por hipótesis que
,N~X
,N~X ,,,
2
22
2
112
21 que tales
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 27
Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos estimar un intervalo
de confianza para 21 , lo que nos dará la diferencia de peso esperado entre un niño del primer grupo y otro del
segundo. El estadístico que se ha de aplicar para esta cuestión es:
60227352
21
2121
21t~
11ˆ
tt
nnS
XXnn
donde
419.0
60
8.0265.034
2
ˆ1ˆ1ˆ
22
21
222
2112
nn
SnSnS
por lo tanto, 6473.0ˆ S
Consideramos un nivel de significación que nos parezca aceptable, por ejemplo 05.0 , y el intervalo buscado se
obtiene a partir de: (ver la figura 4.12)
2
1658.0
|4.0|
27
1
35
16473.0
|2.36.3|975.0;602/05.01;60
2121
tt
Esto indica que 1658.024.0 lo que implica que 3316.04.0 con lo cual se puede decir que un intervalo de
confianza para el peso esperado en que supera un hijo de madre no fumadora al de otro de madre fumadora está
comprendido con un nivel de confianza del 95% entre los 0,068 Kg y los 0,731 Kg.
Figura 4.12. Región que se utiliza para calcular el intervalo de confianza.
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 28
4.8.2. Diferencia de medias (caso general). El caso en el que se dispone de dos grupos de observaciones independientes con diferentes varianzas, la distribución de
los datos en cada grupo no puede compararse únicamente en términos de su valor medio (ver figura 4.13).
Figura 4.13. Poblaciones normales con medias iguales y diferentes varianzas.
El contraste estadístico existente requiere de alguna modificación que tenga en cuenta la variabilidad de los datos en
cada población. Obviamente, el primer problema a resolver es el de encontrar un método estadístico que nos permita
decidir si la varianza en ambos grupos es o no la misma. El F test o test de la razón de varianzas viene a resolver este
problema. Bajo la suposición de que las dos poblaciones siguen una distribución normal y tienen igual varianza se
espera que la razón de varianzas:
22
21
1
2
1
2
ˆ
ˆ
1
1
1
1
S
S
YYm
XXn
Fm
i
i
n
i
i
siga una distribución F de Fisher con parámetros (n -1) y (m-1).
Ejemplo 4.13. Consideremos los datos que se muestran en la Tabla 4.1 correspondientes a 75 individuos con sobrepeso
sometidos a dos dietas alimenticias distintas, de modo que se desea comparar el peso en Kgs. de los individuos que
iniciaron cada una de las dietas y se desea comparar la pérdida de peso en los sujetos sometidos a cada una de las dos
dietas.
TABLA 4.1. DATOS EN KGS. DE 75 PACIENTES CON SOBREPESO SOMETIDOS A DOS DIETAS ALIMENTICIAS.
Dieta Peso inicial Peso final Dieta Peso inicial Peso final Dieta Peso inicial Peso final Dieta Peso inicial Peso final
A 94,07 86,59 B 88,02 84,12 A 89,41 85,45 B 85,26 81,36
A 96,79 93,08 B 88,22 86,13 A 85,31 84,59 B 89,42 86,64
A 92,15 87,85 B 103,45 101,21 A 89,25 84,89 B 92,42 88,99
A 92,30 86,83 B 82,94 79,08 A 93,20 93,10 B 93,13 89,73
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 29
A 96,50 92,70 B 89,71 86,19 A 89,17 86,87 B 80,86 77,81
A 83,11 76,80 B 94,83 91,93 A 93,51 86,36 B 88,75 85,93
Dieta Peso inicial Peso final Dieta Peso inicial Peso final Dieta Peso inicial Peso final Dieta Peso inicial Peso final
A 91,16 83,40 B 81,93 78,97 A 88,85 83,24 B 95,02 91,90
A 90,81 86,74 B 83,41 78,89 A 88,40 81,20 B 92,29 91,28
A 81,37 77,67 B 73,59 69,76 A 82,45 77,18 B 89,43 87,22
A 89,81 85,70 B 108,47 104,20 A 96,47 88,61 B 93,32 89,77
A 84,92 79,96 B 72,67 70,01 A 99,48 94,67 B 92,88 89,38
A 84,43 79,80 B 96,84 93,66 A 99,95 93,87 B 89,88 88,00
A 86,33 81,15 B 88,48 87,00 A 100,05 94,15 B 82,25 80,81
A 87,60 81,92 B 89,57 87,24 A 87,33 82,17 B 88,99 86,87
A 81,08 76,32 B 85,22 82,09 A 87,61 86,01 B 82,07 79,74
A 92,07 90,20 B 103,76 102,24 A 89,28 83,78
A 81,14 73,34 B 87,84 84,66 A 89,72 83,56
A 96,87 93,58 B 91,50 88,95 A 95,57 89,58
A 99,59 92,36 B 93,04 88,73 A 97,71 91,35
A 83,90 77,23 B 92,14 88,07 A 98,73 97,82
Solución. Las medias para cada una de las dietas A y B son respectivamente:
Kg.47.891
y.Kg69.901
11
m
i
i
n
i
i Ym
YXn
X
y las cuasivarianzas muestrales correspondientes son:
43.541
1ˆy14.32
1
1ˆ
1
222
1
221
m
i
i
n
i
i YYm
SXXn
S
La aplicación del método del problema 4.12 no es factible, ya que las varianzas en ambos grupos son sustancialmente
distintas. En este tipo de situaciones, donde las varianzas no se pueden considerar idénticas, podemos utilizar una
modificación del t test para el caso de varianzas desiguales, conocido como el test de Welch basada en el estadístico:
m
S
n
S
YXt YX
2
2
2
1ˆˆ
el cual sigue una distribución t de Student con un número f de grados de libertad que dependerá de las varianzas
muestrales según la expresión:
2ˆ
1
1ˆ
1
1
ˆˆ
22
21
22
21
m
S
mn
S
n
m
S
n
S
f
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 30
La técnica para realizar el contraste es análoga a cuando las varianzas son desconocidas e iguales. Por ejemplo, la
pérdida media de peso para los individuos en cada una de las dietas es de 89.4X y 94.2Y con las variabilidades
anteriormente expresadas. Esto conduce a un valor del estadístico de t =5.58 a relacionar con una distribución t de
Student con aproximadamente 56 grados de libertad. Ahora ya se puede calcular el correspondiente intervalo de
confianza del 95% para la diferencia de medias dado por:
m
S
n
StYX f
22
21
975.0,
ˆˆ
por lo tanto, el intervalo de confianza del 95% para la diferencia entre las medias poblacionales es
57.895.135
43.54
40
14.3258.594.289.4
con el que se puede deducir que el media poblacional de la dieta A puede superar al promedio poblacional de la dieta B
hasta por 10.52 Kg. mientras que la media poblacional de la dieta B puede superar hasta por 6.62 Kg. al promedio
poblacional de la dieta A
4.9. Intervalos de confianza para variables dicotómicas.
Cuando tenemos una variable dicotómica (o de Bernoulli) a menudo interesa saber en qué proporción de casos, p, ocurre
el éxito en la realización de un experimento. También nos puede interesar el comparar la diferencia existente entre las
proporciones en distintas poblaciones. También es de interés calcular para un nivel de significación dado, el tamaño
muestral necesario para calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad.
4.9.1. Intervalo para una proporción.
Sean )(,,1 pBerXX n . Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la
suma de estas --lo que nos proporciona una Distribución binomial.
),(1 pnBinXXX n
y tomar como estimador suyo la variable aleatoria
n
Xp ˆ
Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en las n pruebas, p .
La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando el tamaño de la muestra n
es grande, y p no es una cantidad muy cercana a cero o uno. ( 5np )
npqnpNXpnBinX ,, donde pq 1
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 31
El estimador p no es más que un cambio de escala de X, por tanto
1,0~ˆ
~ˆ NZ
n
pq
pp
n
pqp,N
n
Xp
Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente aproximación:
1,0~ˆˆ
ˆNZ
n
qp
pp
Para encontrar el intervalo de confianza al nivel de significación para p se considera el intervalo que hace que la
distribución de 1,0~ NZ deje la probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos extremos
son los cuantiles 2/12/ Z, Z . Así se puede afirmar con una confianza de 1 que:
n
qpzpp
z
n
qp
pp
zZzZz
z
ˆˆˆ
ˆˆ
ˆ
2/1
2/1
2/12/12/
2/1
Esto se resume en la siguiente expresión:
n
qpzp
ˆˆˆ 2/1
con una confianza de 1 (ver Figura 4.14.)
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 32
Figura 4.14. Intervalo de confianza para una proporción.
Ejemplo 4.13 Se desea estimar la proporción de amas de casa, respecto a la preferencia de un nuevo producto de
limpieza, mediante un sondeo. Para ello se realizó un muestreo aleatorio simple con n =100 amas de casa y se obtuvo
que 35 usan el producto y 65 no lo usan, (se eliminó a las indecisas para simplificar el problema a una variable
dicotómica.) Calcule un intervalo de confianza para el verdadero resultado de la preferencia de las consumidoras, con
un nivel de significación del 5%.
Solución: Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable dicotómica:
El parámetro a estimar en un intervalo de confianza con 05.0 es p, y tenemos sobre una muestra de tamaño n =100,
la siguiente estimación puntual de p:
65.0ˆ35.0100
35ˆ qp
Sabemos que
1,0~ˆ
N
n
pq
pp
En la práctica el error que se comete no es muy grande si tomamos algo más simple como
1,0~ˆˆ
ˆN
n
qp
ppZ
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 33
Así el intervalo de confianza buscado lo calculamos como se indica en la Figura 4.15.
4435.0,2565.0
0935.035.0
96.1
100
65.035.0
|35.0||| 975.02/1
zp
zZ
Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos porcentuales, al nivel de confianza del 95%.
Figura 4.15: Región a partir de la cual se realiza una estimación confidencial para una proporción,
con una confianza del 95%.
Ejercicio 4.8. Un investigador de mercado, está interesado en estimar la proporción de compras realizadas en un cierto
centro departamental en relación, al número de clientes que visitan la tienda. Su experiencia le indica que sería
sorprendente que tal proporción supere el valor de 1/3. ¿Qué tamaño de muestra debe tomar para estimar la anterior
proporción, con una confianza del 99%, para que el valor estimado no difiera del valor real en más de 0,03?.
Ejercicio 4.9. En un determinado servicio de comida rápida, se sabe que el 22% de los clientes llevan consigo una
ración de postre. En cierto año, de 2,366 clientes, 498 llevaron postre. ¿Entran en contradicción las cifras de ese año con
el porcentaje establecido de siempre?
4.9.2. Elección del tamaño de la muestra para una proporción.
En el ejercicio 4.9, con una muestra de 100 amas de casa se realizó una estimación confidencial, con un 95% de
confianza, del porcentaje de amas de casa que usan un nuevo producto de limpieza, obteniéndose un margen de error de
9,3 puntos.
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 34
Si pretendemos reducir el error a 1 punto, y queremos aumentar el nivel de confianza hasta el 97% ( 03.0 ), debemos
de tomar una muestra lógicamente de mayor tamaño, n. La técnica para aproximar dicha cantidad consiste en observar
que el error cometido en una estimación es de la forma:
n
qpz
ˆˆerror 2/1
donde p es una estimación puntual de p.
Por tanto un valor de n que satisfaga nuestros requerimientos con respecto al error sería:
2
22/1
errorˆˆ
zqpn
Si en un principio no tenemos una idea sobre qué valores puede tomar p, debemos considerar el peor caso posible, que
es en el que se ha de estimar el tamaño muestral cuando p =q =1/2. Así:
. de estimación tienese no cuando error4
12
22/1 p
zn
Si se tiene un antecedente de la proporción p de la población y se conoce el tamaño de la población N, entonces la
fórmula que nos permitirá determinar el tamaño muestral es la siguiente:
PPzeN
PPzNn
11
1
22/
2
22/
donde 2/z es el valor correspondiente al nivel de confianza elegido, P es la proporción de una categoría de la variable,
e es el error máximo que se está dispuesto a tolerar y N es el tamaño de la población.
Ejemplo 4.13. Continuemos el caso del ejemplo 4.9. Se desea estimar la proporción de amas de casa que usan un nuevo
producto de limpieza mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el
tamaño de muestra que se ha de tomar para obtener un intervalo del 97% de confianza, con un error del 1%
Solución: Como no se tiene una idea previa del posible resultado del estudio, hay que tomar un tamaño de muestra, n,
que se calcula mediante:
773,11
01.0
17.225.0
01.04
12
2
2
2985.0
zn
Así para tener un resultado tan fiable, el número de amas de casa a entrevistar debe ser muy elevado --lo que puede
volver excesivamente costoso el sondeo.
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 35
Ejemplo 4.14. Suponga que se trata de estimar la proporción de mujeres que trabajan diariamente 10 horas o más, de
una población de N = 10,000 mujeres. De un estudio piloto se dedujo que P = 0.30, fijamos el nivel de confianza en 0.95
y el error máximo 0.02.
678,1
30.0130.096.102.01000,10
30.0130.096.1000,1022
2
n
Ejercicio 4.10. Sólo una parte de los clientes que realizan la compra de un curso de inglés, quedan completamente
satisfechos después de tenerlo a prueba durante un mes; Si de 64 clientes han quedado satisfechos 41 con el curso,
realice una estimación puntual y dé un intervalo de la proporción de los clientes que quedan satisfechos ¿Qué número de
clientes habrá que observar para estimar la proporción de clientes satisfechos con un error inferior a 0,05 y una
confianza del 95%?
Ejercicio 4.11. En una determinada región de Hermosillo, se tomó una muestra aleatoria de 125 hogares, de los cuales
12 contaban con dos o más televisores.
a) Estime la proporción de hogares que cuentas con dos o más televisores en dicha región de Hermosillo.
b) Si se desea estimar dicha proporción con un error máximo del 4%, para una confianza del 95%, ¿qué tamaño de
muestra se debe tomar?
Ejercicio 4.12. Se quiere estimar la preferencia de los jóvenes varones hacia determinado desodorante. ¿Cuántos
jóvenes tenemos que observar para que, con una confianza del 95%, estimar dicha preferencia con un error del 2% en los
siguientes casos:
a) Sabiendo que un sondeo previo se ha observado una preferencia del 9% de los jóvenes
b) Sin ninguna información previa.
4.9.3. Intervalo para la diferencia entre dos proporciones.
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una variable aleatoria
dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2
2
1
222112
112111
,,,
,,,
n
n
XXXX
XXXX
Entonces
22
1
22
11
1
11
,~
,~
2
1
pnBinXX
pnBinXX
n
i
i
n
i
i
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.
Dr. Francisco Javier Tapia Moreno. Abril de 2011.
Universidad de Sonora Departamento de Matemáticas 36
Si las muestras son suficientemente grandes ocurre que
2
22
1
1121
2
2
1
121 ,ˆˆ
n
qp
n
qpppN
n
X
n
Xpp
1,0
ˆˆ d
2
22
1
11
2121 NZ
n
qp
n
qp
pppp
Esta última relación se puede aproximar por otra que simplifica bastante los cálculos:
1,0
ˆˆˆˆ
ˆˆ d
2
22
1
11
2121 NZ
n
qp
n
qp
pppp
Por el mismo razonamiento que en el caso de una población llegamos a que una aproximación para un intervalo de
confianza al nivel 1 para la diferencia de proporciones de dos poblaciones es:
2
22
1
112/121
ˆˆˆˆˆˆ
n
qp
n
qpzpp