Estadística Aplicada.pdf

UNIDAD 2. Estadística Aplicada

M.I.I. Patricia Virginia Salas Hernández Página 1

Inferencia estadística

Consiste en aquellos métodos, por los que se realizan inferencias o generalizaciones

acerca de una población.

La inferencia estadística se puede dividir en 2 áreas principales:

Estimación

Pruebas de hipótesis

Estimación puntual

Una estimación puntual de algún parámetro de la población θ es solo un valor de

un estadístico . Por ejemplo, el valor del estadístico , que se calcula a partir de una

muestra de tamaño n, es una estimación puntual del parámetro poblacional µ.

No se espera que un estimador realice la estimación del parámetro poblacional sin

error. No esperamos que estime a µ exactamente, sino que en realidad esperamos que no

esté muy alejado de su valor real.

Ejemplos

Estimador Parámetro

Media µ

Varianza

Desviación Estándar

Estimador insesgado

¿Cuáles son las propiedades deseables de una “buena” función de decisión que

influirían sobre nosotros para elegir un estimador en vez de otro? Sea un estimador

cuyo valor es una estimación puntual de algún parámetro poblacional desconocido B.

Ciertamente, desearíamos que la distribución muestral de tuviera una media igual al

parámetro estimado. Se dice que un estimador que posee esta propiedad es insesgado.

Varianza de un estimador puntual

Si y son dos estimadores insesgados del mismo parámetro poblacional elegiríamos el estimador cuya distribución muestral tuviera la menor varianza. De aquí si

<

, decimos que es un estimador más eficaz que

Se dice que un estadístico es un estimador insesgado del parámetro θ si

Si consideramos todos los posibles estimadores insesgados de algún parámetro , el de

menor varianza se llama estimador más eficaz de θ.



La noción de una estimación por intervalo

Es improbable que incluso el estimador insesgado más eficaz estime con exactitud el

parámetro poblacional. Es cierto que nuestra precisión aumenta con muestras grandes; pero

no hay razón por la cual deberíamos esperar que una estimación puntual de una muestra

dada sea exactamente igual al parámetro poblacional que se supone estima. Hay muchas

situaciones en que es preferible determinar un intervalo dentro del cual esperaríamos

encontrar al valor del parámetro. Tal intervalo se llama estimación por intervalo.

Estimación por intervalo

La estimación por intervalo de un parámetro poblacional es un intervalo de la

forma , donde dependen del valor del estadístico para una muestra

específica, y también de la distribución de muestreo de



Una sola muestra: Estimación de la media

La distribución muestral de está centrada en µ y en la mayoría de las aplicaciones

la varianza es más pequeña que la de cualquiera otros estimadores de µ. Así, la media

muestral se utilizará como una estimación puntual para la media de la población µ.

Consideremos ahora la estimación por intervalo de µ. Si nuestra muestra se

selecciona a partir de una población normal o, a falta de ésta, si n es suficientemente

grande, podemos establecer un intervalo de confianza para µ al considerar la distribución

muestral de

Intervalo de confianza de µ con σ conocida

Ejemplo

Se encuentra que la concentración promedio de zinc que se obtiene a partir de una

muestra de mediciones de zinc en 36 sitios diferentes es 2.6 gramos por mililitro. Encuentre

los intervalos de confianza de 95 y 99% para la concentración media de zinc en el río.

Suponga que la desviación estándar de la población es 0.3.

Solución: La estimación puntual de µ es . El valor z, que deja un área de

0.025 a la derecha, y por lo tanto, un área de 0.975 a la izquierda, es De aquí

que el intervalo de confianza del 95% sea

Que se reduce a

Para encontrar un intervalo de confianza de 99%, encontramos el valor z, que deja

un área de 0.005 a la derecha, y por lo tanto, un área de 0.995 a la izquierda, es y el intervalo de confianza de 99% es

Que se reduce a

Si es la media de una muestra aleatoria de tamaño n de una población con varianza

conocida, un intervalo de confianza de (1- )% para µ está dado por

Donde es el valor z que deja un área de a la derecha



Error en la estimación de µ mediante

Este error será el valor absoluto de la diferencia entre µ y , y podemos tener (1- )%

de confianza de que esta diferencia no excederá

.

En el ejemplo anterior, tenemos el 95% de confianza de que la media muestral

difiere de la media real µ por una cantidad menor que 0.1 y 99% de confianza de

que la diferencia es menor que 0.13.

Estimación del tamaño de la muestra

Ejemplo:

¿Qué tan grande se requiere una muestra en el ejemplo anterior si queremos tener

95% de confianza de que nuestra estimación de µ difiera por menos de 0.05?

Solución: La desviación estándar de la población es . Entonces,

Por lo tanto, podemos tener confianza de 95% de que una muestra aleatoria de

tamaño 139 proporcionará una estimación que difiera de µ por una cantidad menor que

0.05.

Si se utiliza como una estimación de µ, podemos tener una confianza de (1- ) % de

que el error no excederá de

Si se utiliza como una estimación de µ, podemos tener una confianza de (1- ) % de que el

error no excederá una cantidad específica (e) cuando el tamaño de la muestra sea:

Si no se conoce σ, ésta se estima a partir del tamaño de muestra



Ejercicio:

a) Calcule el tamaño de muestra que se requiere si se desea obtener una

estimación que difiera de µ por una cantidad menor que 0.01

b) Calcule el tamaño de muestra que se requiere si se desea obtener una

estimación que difiera de µ por una cantidad menor que 0.1

El caso de σ desconocida

Con frecuencia intentamos estimar la media de una población cuando se desconoce

la varianza. Si tenemos una muestra aleatoria a partir de una distribución normal, entonces

la variable aleatoria

Tiene una distribución t de Student con n-1 grados de libertad. Aquí S es la

desviación estándar de la muestra. En esta situación en que se desconoce σ se puede utilizar

T para construir un intervalo de confianza de µ.

Intervalo de confianza de µ con σ desconocida

Hacemos una distinción entre los casos de σ conocida y σ desconocida al calcular las

estimaciones del intervalo de confianza. Deberíamos resaltar que para el caso de σ conocida

se utiliza el teorema de límite central, mientras que para el caso de σ desconocida usamos la

distribución muestral de la variable aleatoria T. Sin embargo, el uso de la distribución t se

basa en la premisa de que el muestreo se realiza de una distribución normal. En tanto que la

distribución tenga aproximadamente forma de campana, los intervalos de confianza se

pueden calcular cuando σ2 se desconoce utilizando la distribución t y se esperarían muy

buenos resultados.

Si y s son la media y la desviación estándar de una muestra aleatoria de tamaño n de una

población con varianza desconocida, un intervalo de confianza de (1- )% para µ está dado por

Donde es el valor t con grados de libertad ue deja un área de a la derecha



Concepto de intervalo de confianza de una muestra grande

Con mucha frecuencia los estadísticos recomiendan que aun cuando no se pueda

suponer la normalidad, con σ desconocida y , se puede reemplazar a σ y utilizar el

intervalo de confianza

Por lo general, éste se denomina como un intervalo de confianza de muestra grande.

La justificación yace sólo en la presunción de que con una muestra tan grande como 30 y la

distribución de la población no sesgada, s estará muy cerca de la σ real y, de esta manera, el

teorema de límite central continúa siendo válido. Se deberá destacar que esto es sólo una

aproximación y que la calidad de este enfoque mejora conforme el tamaño de la muestra

crece más.

Ejemplo:

El contenido de 7 contenedores similares de ácido sulfúrico es de 9.8, 10.2, 10.4, 9.8,

10.0, 10.2 y 9.6 litros. Encuentre un intervalo de confianza de 95% para la media de todos

los contenedores si se supone una distribución aproximadamente normal.

Solución: La media muestral y la desviación estándar para los datos dados son:

Ya que el tamaño de la muestra es < 30, se utiliza el estadístico T. El valor De aquí, el intervalo de confianza de 95% para µ

es:

Que se reduce a

Ejercicio:

a) Calcule el intervalo de confianza para el 90%

b) Calcule el intervalo de confianza para el 99%



Dos muestras: Estimación de la diferencia entre dos medias

Intervalo de confianza para µ1- µ2 con

conocidas

El grado de confianza es exacto cuando las muestras se seleccionan de poblaciones

normales. Para poblaciones no normales, el teorema de límite central permite una buena

aproximación para muestras de tamaños razonables.

Ejemplo

Se lleva a cabo un experimento donde se comparan 2 tipos de motores A y B. Se

mide el rendimiento de combustible en millas por galón. Se realizan 50 experimentos con el

motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás condiciones

se mantienen constantes. El rendimiento promedio de gasolina para el motor A es de 36

millas por galón, y el promedio para el motor B es de 42 millas por galón. Encuentra un

intervalo de confianza de 96% sobre , donde son el rendimiento de

combustible medio poblacional para los motores A y B, respectivamente.

Solución: La estimación puntual de es = 42-36 = 6. Usando

encontramos . De aquí, el intervalo de confianza de 96% es

O simplemente

Este procedimiento para estimar la diferencia entre dos medias se aplica si se

conocen

. Si las varianzas no se conocen y las dos distribuciones implicadas son

aproximadamente normales, la distribución t resulta implicada como en el caso de una sola

muestra. Si no se está dispuesto a suponer normalidad, muestras grandes (mayores que 30)

permitirán usar en lugar de , respectivamente, con el fundamento de que

, y De nuevo, por supuesto, el intervalo de confianza es aproximado.

Si 1 y 2 son las medias de muestras aleatorias independientes de tamaños n1 y n2 de

poblaciones con varianzas conocidas

, respectivamente, un intervalo de confianza de (1- )%

para µ1- µ2 está dado por




Varianzas desconocidas

Intervalo de confianza para µ1- µ2 con

pero desconocidas

Ejemplo

En el artículo “Macroinvertebrate Community Strucure as an Indicator of Acid Mine

Pollution”, publicado en el Journal of Environmental Pollution, se ofrece un reporte sobre

una investigación realizada en Cane Creek, Alabama, para determinar la relación entre

parámetros fisicoquímicos seleccionados y diversas mediciones de la estructura de la

comunidada de macroinvertebrados. Una faceta de la investigación fue una evaluación de la

efectividad de un índice numérico de la diversidad de especies, para indicar la degradación

del agua debida al desagüe ácido de una mina. Conceptualmente, un índice alto de la

diversidad de especies macroinvertebradas debería indicar un sistema acuático no

contaminado; mientras que un índice de diversidad baja indicaría un sistema acuático

contaminado.

Se eligieron 2 estaciones de muestreo independientes para dicho estudio: una que se

localiza corriente abajo del punto de descarga ácida de la mina y la otra ubicada corriente

arriba. Para 12 muestras mensuales reunidas en la estación corriente abajo, el índice de

diversidad de especies tuvo un valor medio y una desviación estándar mientras que 10 muestras reunidas mensualmente en la estación corriente arriba

tuvieron un valor medio del índice y una desviación estándar Encuentre un intervalo de confianza de 90% para la diferencia entre las medias

poblacionales para los dos sitios, suponiendo que las poblaciones están distribuidas de

forma aproximadamente normal con varianzas iguales.

Si 1 y 2 son las medias de muestras aleatorias independientes de tamaños n1 y n2,

respectivamente, de poblaciones aproximadamente normales con varianzas iguales pero

desconocidas, un intervalo de confianza de (1- )% para µ1- µ2 está dado por

Donde es la estimación de unión de la desviación estándar poblacional y es el valor

con que deja un área de a la derecha





EJERCICIOS

A) Una muestra aleatoria de tamaño que se toma de una población

normal con una desviación estándar tiene una media Una

segunda muestra aleatoria de tamaño , que se toma de una población

normal diferente con una desviación estándar tiene una media .

Encuentre un intervalo de confianza de 94% para



B) Se comparan las resistencias de dos clases de hilo. Cincuenta piezas de cada clse

de hilo se prueban bajo condiciones similares. La marca A tiene una resistencia

a la tensión promedio de 78.3 kilogramos con una desviación estándar de 5.6

kilogramos; en tanto que la marca B tiene una resistencia a la tensión promedio

de 87.2 kilogramos con una desviación estándar de 6.3 kilogramos. Construya

un intervalo de confianza de 95% para la diferencia de medias poblacionales.



C) En un proceso químico por lotes, se comparan los efectos de dos catalizadores

sobre la potencia de la reacción del proceso. Se preparó una muestra de 12 lotes

con el uso del catalizador 1 y se obtuvo una muestra de 10 lotes con el

catalizador 2. Los 12 lotes para los que se utilizó el catalizador 1 dieron un

rendimiento promedio de 85 con una desviación estándar muestral de 4; en

tanto que para la segunda muestra el promedio fue de 81 con una desviación

estándar muestral de 5. Encuentre un intervalo de confianza de 90% para la

diferencia entre las medias poblacionales, suponiendo que las poblaciones se

distribuyen de forma aproximadamente normal con varianzas iguales.



D) Los estudiantes pueden elegir entre un curso de física de tres semestres-hora sin

laboratorio y un curso de cuatro semestres-hora con laboratorio. El examen

final escrito es el mismo para cada sección. Si 12 estudiantes de la sección con

laboratorio tiene una calificación promedio en el examen de 84 con una

desviación estándar de 4, y 18 estudiantes de la sección sin laboratorio tienen

una calificación promedio de 77 con una desviación estándar de 6, encuentre un

intervalo de confianza de 99% para la diferencia entre las calificaciones

promedio para ambos cursos. Suponga que las poblaciones se distribuyen de

forma aproximadamente normal con varianzas iguales.



Una sola muestra: Estimación de una proporción

Un estimador puntual de la proporción p en un experimento binomial está dado por

el estadístico , donde X representa el número de éxitos en n pruebas. Por lo tanto,

la proporción de la muestra se utilizará como el estimador puntual del parámetro

p.

Intervalo de confianza de p de una muestra grande

Cuando n es pequeña y la proporción desconocida p se considera cercana a 0 o a 1,

el procedimiento del intervalo de confianza que se establece aquí no es confiable y, por lo

tanto, no se debería emplear.

Ejemplo

En una muestra aleatoria de n=500 familias que tienen televisores en la ciudad de

Hamilton, Canadá, se encuentra que x=340 están suscritas a HBO. Encuentre un intervalo

de confianza de 95% para la proporción real de familias en esta ciudad que están suscritas a

HBO.

Si es la proporción de éxitos en una muestra aleatoria de tamaño n, y , un

intervalo de confianza aproximado de (1- )% para el parámetro binomial p está dado por




Si se utiliza como una estimación de p, podemos tener una confianza

Error en la estimación de p mediante

En el ejemplo anterior, tenemos el 95% de confianza de que la proporción de la

muestra difiere de la proporción real p en una cantidad que no excede 0.04.

Selección del tamaño de la muestra

Esta fórmula implica que debemos utilizar para determinar el tamaño de la

muestra; pero se calcula a partir de la muestra. Si se puede hacer una estimación cruda de

sin tomar la muestra, podríamos usar este valor para determinar n. A falta de tal

estimación, podríamos tomar una muestra preliminar de tamaño para proporcionar

de forma aproximada cuántas observaciones se necesitan para brindar el grado de precisión

que se desea. (Los valores fraccionarios de se redondean al siguiente número entero).

Ejemplo:

¿Qué tan grande se requiere que sea una muestra en el ejemplo anterior si queremos

tener 95% de confianza de que nuestra estimación de este dentro de 0.02?

Si se utiliza como una estimación de p, podemos tener una confianza de (1- ) % de

que el error no excederá de

Si se utiliza como estimación de p, podemos tener una confianza de (1- ) % de que el error

será menor que una cantidad específica e cuando el tamaño de la muestra sea

aproximadamente:



De cuando en cuando será poco práctico obtener una estimación de que se utilice

para determinar el tamaño muestral para un grado específico de confianza. Si esto sucede,

se puede aplicar el siguiente Teorema:

¿Qué tan grande se requiere una muestra en el ejemplo anterior si queremos tener

una confianza de al menos 95% de que nuestra estimación de p este dentro de 0.02?

Al comparar los resultados, la información con respecto a proporcionada por una

muestra preliminar o quizás a partir de la experiencia pasada, nos permite elegir una

muestra más pequeña, a la vez que mantenemos nuestro grado de precisión requerido.

Si se utiliza como estimación de p, podemos tener una confianza de (1- ) % de que el error

será menor que una cantidad específica e cuando el tamaño de la muestra sea

aproximadamente:



Dos muestras: Estimación de la diferencia entre dos proporciones

Considere el problema donde deseamos estimar la diferencia entre dos parámetros

binomiales . Por ejemplo, podríamos hacer que sea la proporción de fumadores

con cáncer pulmonar y la proporción de no fumadores con cáncer pulmonar. Nuestro

problema, entonces, consiste en estimar la diferencia entre estas dos proporciones. Primero,

seleccionamos muestras aleatorias independientes de tamaños y a partir de las dos

poblaciones binomiales con medias y varianzas respectivamente, después determinamos los números de personas con cáncer

pulmonar en cada muestra, y formamos las proporciones y . Un

estimador puntual de la diferencia entre las dos proporciones, esta dado por el

estadístico . Por lo tanto, la diferencia de las proporciones muestrales , se

utilizará como la estimación puntual de .

Intervalo de confianza de p1-p2 de una muestra grande

Ejemplo:

Se considera cierto cambio en un proceso de fabricación de partes componentes. Se

toman muestras del procedimiento actual y del nuevo, para determinar si el nuevo tiene

como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento

actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo tambióen lo son,

encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de

defectuosos entre el proceso actual y el nuevo.

Si son las proporciones de éxitos en muestras aleatoria de tamaños y ,

respectivamente, un intervalo de confianza aproximado de (1- )

% para la diferencia de dos parámetros binomiales , está dado por:


Nota: Si el intervalo de confianza incluye al 0, no hay razón para creer que la diferencia

sea significativa





EJERCICIOS:

A.1) Se selecciona una muestra aleatoria de 200 votantes y se encuentra que 114

apoyan un juicio de anexión. Encuentre el intervalo de confianza de 95% para la

fracción de la población votante que favorece el juicio.

A.2) ¿Qué podemos asegurar con 95% de confianza acerca de la posible magnitud

de nuestro error, si estimamos que la fracción de votantes que favorecen el juicio de

anexión es 0.57?

A.3) ¿Qué tan grande se requiere que sea la muestra si deseamos tener confianza de

96% de que nuestra proporción de la muestra estará dentro del 0.02 de la fracción

real de la población votante?



B) En una muestra aleatoria de 1000 viviendas en cierta ciudad, se encuentra que

228 se calientan con petróleo. Encuentre el intervalo de confianza de 99% para la

proporción de viviendas en esta ciudad que se calientan con petróleo.



C) Se considera un nuevo sistema de lanzamiento de cohetes para el despliegue de

cohetes pequeños de corto alcance. El sistema existente tiene p=0.8 como la

probabilidad de lanzamiento exitoso. Se realiza una muestra de 40 lanzamientos

experimentales con el nuevo sistema y 34 resultan exitosos.

C.1) Construya un intervalo de confianza de 95% para p

C.1) ¿Concluiría que es mejor el nuevo sistema?

Date post:	03-Jan-2016
Category:	Documents
Upload:	releated
View:	851 times
Download:	1 times

Estadística Aplicada.pdf

Documents