knowxhow_examen_2

Guía para el examen de Estadística Inferencial

ÍNDICE1. MUESTREO

a. Identificación de la población objetivob. Escoger tipo de muestreoc. Determinación del tamaño muestral

2. DISTRIBUCIÓN MUESTRAL DE MEDIA, VARIANZA Y PROPORCIÓN

a. Tipos de estimaciónb. Intervalo de confianza

3. CONTRASTE DE HIPÓTESISa. Contraste estadístico de hipótesis

i. Nomenclaturaii. Pasos

b. Contraste de mediasc. Contraste de varianzasd. Contraste de proporcionese. En muestras dependientesf. En muestras independientes

4. TIPOS DE ERRORa. Conceptos de potencia y tamaño

5. ANOVAa. Tiposb. Supuestosc. Procedimientod. ANOVA intra-sujetos, de muestras dependientes o

medidas repetidase. COMPARACIONES MÚLTIPLES

6. EJEMPLOS OUTPUTa. Prueba Tb. ANOVA

7. CONTRASTES DE CORRELACIÓN Y REGRESIÓNa. Correlación

i. Entre muestra y poblaciónii. Dos correlaciones en muestras independientesiii. Contraste de correlación en muestras dependientes

b. Regresión8. PRUEBAS NO PARAMÉTRICAS

a. Principales pruebas no paramétricas comparando grupos9. EJEMPLOS OUTPUT

a. Mann-Whitneyb. Wilcoxon

c. Kruskal-Wallisd. Friedman

10. ANEXO PARA PRACTICAR

11.

MUESTREOPara llevar a cabo una investigación es necesario determinar la muestra sobre la cual se va a realizar el estudio. Para ello, tiene lugar el proceso de muestreo, que sigue los siguientes pasos:

Identificación de la población objetivo.

La población objetivo es el grupo ideal de sujetos para llevar a cabo la investigación.

Así pues, se realiza un censo para cribar, en el que se encuesta a toda la población objetivo con el fin de determinar la muestra a partir de los resultados. No obstante, hay determinados casos en los que no se puede realizar el censo:

Cuando la población objetivo es demasiado grande Cuando la población objetivo es tan uniforme que cualquier muestra extraída será

apropiada Cuando la encuesta es destructiva

Población de encuesta, muestra de marco o marco: grupo de sujetos que puede realizar la encuesta de forma adecuada y en el momento en que se plantea.

Escoger el tipo de muestreo.Probabilísticos

1. Muestreo aleatorio simple: Todos los elementos tienen la misma probabilidad de aparición. Una vez obtenida la muestra de población, se escoge aleatoriamente el número de sujetos que participen en la investigación.

a. Anteriormente se realizaba esta elección aleatoria mediante tablas de datos (Tippett, 1927) pero actualmente programas como SPSS lo llevan a cabo.

2. Muestreo estratificado: De forma premeditada se divide a la muestra en distintos grupos o estratos y, posteriormente, se realiza una elección aleatoria dentro de cada uno de los estratos, donde todos los sujetos tienen la misma posibilidad de aparición.

a. Estratificación: Proceso por el que se divide a los sujetos en estratos.b. Afijación: Proceso en el que se determina cuántos individuos de cada estrato van a

componer la muestra total. 3. Muestreo por conglomerados o áreas: Se definen aleatoriamente conglomerados de

objetos (o sujetos) predefinidos de forma natural. Al contrario que en los anteriores, lo que se obtiene de forma aleatoria son las áreas y no los individuos.

4. Muestreo por etapas (polietápico): Combina el muestreo aleatorio simple con el muestreo por conglomerados. Se lleva a cabo una primera selección aleatoria de los conglomerados y posteriormente, en una segunda etapa se obtienen de forma aleatoria los sujetos de la investigación dentro de los conglomerados.

No probabilísticos

1. Muestreo sin norma: Se extrae una muestra de la población de forma intencionada, en base a comodidades u opiniones. No tiene valor científico.

2. Muestreo intencional u opinático: Se escoge la muestra de forma no aleatoria, pero no por conveniencia, sino intentando garantizar la representatividad de la muestra. Aunque tampoco no es probabilístico, es ligeramente superior al muestreo sin norma.

Semi-probabilístico

1. Muestreo sin cuotas (probabilístico inferior): Primero se emplea un procedimiento probabilístico, en una primera etapa, y posteriormente el encuestador escoge a los sujetos de estudio.

2. Muestreo sistemático: Se emplea un método aleatorio para escoger al primer sujeto de la muestra y a partir de este se pasa a escoger uno de cada x.

Determinación del tamaño muestral

El tamaño del error muestral depende de los siguientes aspectos:

1. Variabilidad: a más homogeneidad, menos probabilidad de error2. Tamaño de la muestra: cuanto mayor es la muestra, más representativa a nivel

poblacional

DISTRIBUCIÓN MUESTRAL DE MEDIA, VARIANZA Y PROPORCIÓN El objetivo de la estadística inferencial es la extracción de conclusiones generales

(poblacionales) a partir de una muestra reducida. La población es el número de unidades potenciales de observación. A partir de la

misma se define una variable que conduce a la creación de una distribución poblacional en la que se pueden obtener medias, varianzas, etc. Que serán representados por parámetros (µ, π, σ)

La muestra es un subgrupo formado por n sujetos de la población, a partir de una variable a estudiar en la misma se obtienen los estadísticos que describen características de la muestra

Distribución muestral: distribución teórica que asigna una probabilidad concreta a cada uno de los valores que puede tomar un estadístico en todas las muestras del mismo tamaño que se pueden extraer de una misma población. Sirve para:

Muestra que a mayor muestra, mayor aproximación a parámetros y que a mayor nº de muestras, mejores aproximaciones.

Nos muestra qué % de probabilidad tiene un estadístico de aparecer en la

población

Permite cuantificar el error que presentan las muestras (error muestral= error

aleatorio= error típico de estimación)

Estadísticos estimadores

Tipos de estimación:- Puntual

o Insesgancia : el valor del estadístico muestral es igual al parámetro poblacional que se estudia.

o Consistencia: Garantiza que, a medida que va aumentando el tamaño de la muestra, también aumenta la probabilidad de que el estadístico utilizado como estimador coincida exactamente con el parámetro estimado.

o Eficiencia : Un estimador es tanto más eficiente cuanto menor es su varianza. Mayor eficiencia indica que el estadístico varía menos entre distintas muestras.

o Suficiencia : Si es un estimador suficiente, la estimación del parámetro no puede ser mejorada considerando otros aspectos de los datos no incluidos en el estimador.

- Por intervaloso Hace falta conocer la distribución muestral del estadístico

En el caso de la media:

N (μ , σ√n ) ( σ√n ) error típico de estimación

o α = nivel de riesgoo 1 – α = nivel de confianzao el Li y Ls serán (en medias) los puntos de la distribución normal z/2 y z1-/2

Intervalo de confianza consiste en: 1. Fijar nivel de riesgo2. Buscar puntuación acorde a distribución3. Calcular error típico4. Establecer error máximo5. Hallar estadístico + - error máximo

ERROR MÁXIMO = VALOR TEÓRICO x ERROR TÍPICO

La amplitud del intervalo depende de: Nivel de confianza Tamaño del error típico usado como estimación

Expresión del intervalo para la media:1. Conocida la varianza poblacional

Expresión del intervalo para la proporción:1. Muestras grandes

En SPSS:

- ANALIZAR – ESTADÍSTICOS DESCRIPTIVOS – EXPLORAR- ANALZAR – COMPARAR MEDIAS – PRUEBA T PARA UNA MUESTRA contrastar frente

a un valor de prueba = 0

Cuando al comparar frente a 0, el resultado es un intervalo que incluye el 0, se mantiene la hipótesis nula, es decir, que no hay diferencia significativa.

Cuando no incluye el 0, el resultado es significativo. Se rechaza la hipótesis nula.

CONTRASTE DE HIPÓTESISEn estadística los contrastes de hipótesis no suelen hacerse con IC, sino con pruebas conocidas como “pruebas de contraste de hipótesis” que a la larga clarifican el procedimiento y son más sencillas.

CONTRASTE ESTADÍSTICO DE HIPÓTESISPara contrastar una hipótesis hace falta:

UNA HIPÓTESIS: pueden ser no científicas, pero más importante para nosotros: científicas y estadísticas

Las hipótesis científicas son cualquier afirmación verificable Las hipótesis estadísticas son las hipótesis científicas verificables mediante estadísticos

o En realidad toda hipótesis estadística supone aceptar una de dos opciones (hipótesis).

Estas dos hipótesis deben ser MUTUAMENTE EXCLUSIVAS Y EXHAUSTIVAS

- Hipótesis nula (H0)- Hipótesis alternativa (H1)- Hipótesis unilaterales- Hipótesis bilaterales

Nomenclatura de las hipótesis:- H. Nula , de las no diferencias, de la igualdad contiene siempre el símbolo =

- H. Alternativa o de las diferencias no puede contener nunca el = (≠)- Hipótesis bilaterales : cuando es = frente a ≠

o Es muy general, la diferencia se puede producir de un lado o de otro. Para que sea diferentes, ej. La inteligencia de los hombres puede ser mayor que la de las mujeres o al revés.

- Hipótesis unilaterales

o H0: Media hombres ≥ media mujereso H1: media hombres < media mujeres (unilateral izquierda hacia donde

señale la flecha)

Cualquier contraste de hipótesis requiere:1) Formular H0 (nula) frente a H1 (alternativa)2) Escoger el nivel de significación (nivel de error, α)3) Calcular el estadístico de contraste o valor empírico4) Calcular los límites de la región de aceptación de H0 o valores teóricos5) Aplicar la regla de decisión

Contraste de mediasDe 1 muestra y 1 población

De 2 muestras independientes (con varianzas desconocidas asumidas iguales o no)

De 2 muestras dependientes

Contraste de varianzasDe 1 muestra y 1 poblaciónDe 2 muestras independientesDe 2 muestras dependientes

Contraste de proporcionesDe 1 muestra y 1 poblaciónDe 2 muestras independientesDe 2 muestras dependientes

EN MUESTRAS DEPENDIENTESContraste sobre dos proporciones muestrales (DEPENDIENTES)

Se distribuye como una z

Se expresa:

H0: b = d

H1: b ≠ d

Se plantea como una H bilateral pero no es la forma óptima.

Hay que buscar la z para α/2 y la z para 1 - α/2

EN MUESTRAS INDEPENDIENTES

Z=P1−P2

√P(1−P)( 1n1

+ 1n2

)

P=n1 P1+n2P2n1+n2

TIPOS DE ERROR

CONCEPTOS DE POTENCIA Y TAMAÑO DEL EFECTO

Potencia: El concepto de potencia nos permite valorar cual entre dos contrastes con la

VERDADERA HO FALSA HO

MANTENER HO NO ERROR

1-αNivel de confianza

ERROR

βerror tipo II

RECHAZAR HO ERROR

αerror tipo I

NO ERROR

1-βPotencia

misma probabilidad de error de tipo I, α, es preferible. Si se trata de contrastar dos hipótesis sencillas sobre un parámetro desconocido

Tamaño del efecto: Da una medida del “impacto practico” de la intervención; es decir, de la magnitud de efecto del tratamiento. En ANOVA se llama 2 (eta cuadrado), en pruebas t dependientes se llama d de Cohen, p.e.

ANOVA

TIPOS Según el número de factores:

Unifactorial Factorial

• Según el tipo de muestras Independientes (entre-sujetos) Dependientes (intra-sujetos o medidas repetidas) Mixtos

Según los niveles de los factores Fijos (Sólo podemos generalizar los resultados a los mismos niveles del mismo factor) Aleatorios

SUPUESTOSIndependencia de las muestras: Asignación y Selección aleatoria de los grupos (muestreo completamente al azar).

Normalidad en la distribución (campana de Gauss o muy similar)

Homoscedasticidad (función tamaños iguales-desiguales) Homogeneidad de varianzas

o Es como la prueba de Levene para ver si las varianzas se pueden asumir iguales.

o Hay que tener la precaución de tener el mismo número de sujetos, o muy parecido, en los distintos grupos. De esta forma, si existiera quebrantamiento de este principio, no afectaría.

o Normalmente, mientras el desequilibrio no pase de los dos tercios, no afectará mucho.

Escala de medida: Que la variable dependiente esté medida a nivel intervalar o de razón.

En ANOVAEl efecto de una VI siempre se analizará mediante:

Un estadístico de contraste o valor empírico F (prueba F) con esta fórmula:

Un valor teórico de la distribución F valor de tablas:

Igual que en la T el estadístico de contraste es una T, aquí es una F (hay que buscarlo en la tabla F)

Es unilateral derecho todo el error está acumulado a la derecha.

Siempre es así porque en el ANOVA, lo que se están manejando son varianzas. Es uni derecho porque la varianza 1 es la varianza que se quiere afectar, las puntuaciones que muestran que el tratamiento funciona. La varianza 2 que está abajo representa la variabilidad de error no debido al tratamiento sino que, como sujetos, tienen su propia variabilidad.

Queremos probar que la varianza de arriba es mayor que la de abajo. Por eso el ANOVA siempre es unilateral derecho.

Tenemos un problema igual al de cualquier contraste de hipótesis: queremos saber si J (donde J>2) medias son iguales o distintas. Por tanto puede usarse el mismo esquema de cualquier contraste de hipótesis.

ANOVA = prueba de comparación de más de dos mediasEntre factorialIntra factorialMixto (al menos una de cada)

La respuesta que obtenemos es de carácter generalLa F siempre es para 1-alfa unilateral derechaHo: µm1 = µm2 = µm3 H1: µm1 ≠ µm2 ≠ µm3

ANOVA intra-sujetos, de muestras dependientes o medidas repetidasSE PRODUCEN LOS SIGUIENTES CAMBIOS

1. HAY MAS DE UNA MEDIDA POR SUJETO, y por tanto una nueva fuente de variación, que se extrae del error y por tanto al final el error es menor

2. NUEVO SUPUESTO: ADITIVIDAD (ESFERICIDAD): Los sujetos no interactúan con los tratamientos

COMPARACIONES MÚLTIPLESANOVA es una prueba de significación general , por tanto no ofrece suficiente información

• Si mantenemos Ho sí tenemos suficiente información• Si Rechazamos Ho, información insuficiente y es necesario plantear más análisis

COMPARACIONES MÚLTIPLES DE MEDIAS

• =Post hoc: solo dan tienen sentido si ANOVA ha sido significativo

Si se realizan k comparaciones entre medias, el error tipo I (α) aumenta: PROBLEMA DE INFLACIÓN DEL ERROR

Por tanto hacen falta pruebas específicas que consigan mantener el α para TODAS las comparaciones simultáneamente en el nivel deseado o alfa nominal (por ejemplo: 0.05)

Estas comparaciones pueden ser diversas:

- A priori o planeadas / a posteriori- Simples o complejas

ANOVA ENTRE

No da significativoSTOP

Sí da significativo

Se cumplen los supuestos

TUKEY

No se cumplen los supuestos

GAMES HOWELL

PRUEBA T

Prueba de muestras independientes

Prueba de

Levene para

la igualdad de

varianzas

Prueba T para la igualdad de medias

F Sig. t gl Sig.

(bilat

eral)

Diferen

cia de

medias

Error

típ. de

la

diferenci

a

95% Intervalo de

confianza para la

diferencia

Inferior Superior

LACIONESPOSITI

VAS

Se han

asumido

varianzas

iguales

2,879 ,107

-

2,22

0

18 ,040 -,81667 ,36789 -1,58956 -,04377

Comparación de medias

2. Comparar medias

Indep

Prueba T indep.

1º se lee rdo Levene

Si sig, Rdo 2ªlínea

No sig =var iguales. Rdo 1ªlínea

Dep

Prueba T dep

M. Lineal general. Más de dos

Todas indep

Univariante:

Compruebo supuestos con

Levene

Sí cumple--> Si ADT ANOVA sig.

TUKEY

No cumple --> si ADT ANOVA sig.

Games Howell

Mínimo alguna dep.

Medidas repetidas

Se cumpla o no el supuesto (Epsilon mayor o igual que

0.7) H y F

Si sig, la POST-HOC BONFERRONI

No se han

asumido

varianzas

iguales

-

2,220

15,6

17,042 -,81667 ,36789 -1,59811 -,03523

ANOVA

LEVENE:

TUKEY-GAMES HOWELL:

DESDE AQUÍ NO ENTRA YA EN ENTREGA 9 DE ABRIL!!!

CONTRASTES PARA LA CORRELACIÓN Y LA REGRESIÓN

Las dos primeras fórmulas no las vamos a necesitar porque nos lo da el SPSS

Tercera fórmula contrastamos frente a un valor de referencia

Hay un solo n porque en la correlación, el n siempre es común.

Lo de la derecha no tenemos que calcularlo nos da una referencia de la correlación, conversión de r a Zr.

Buscar en tablas y sustituir en la fórmula

Contraste de dos correlaciones en muestras independientes

Comparar diferencia entre correlaciones en las entregas de 1º y segundo cuatrimestre entre chicos y chicas

Nos fijamos en el valor absoluto, no hay signos

Aquí sí que tenemos 2n porque los grupos que se comparan pueden tener tamaños muestrales diferentes.

Lo que obtenemos es el valor empírico, el estadístico de contraste buscamos la z en tablas.

Contraste de dos correlaciones en muestras dependientes

Es una fórmula psicométrica.

Si tenemos varias variables en una matriz, vemos si la correlación entre 2 variable es mayor o menor que en otras dos… (siempre es la misma gente)

El valor de tablas para una t para n-3 gl

Vemos si cae dentro (H0 igualdad) o cae fuera (rechazo H0 diferencias)

Funciona como la normal

CONTRASTE DE CORRELACIÓN

3 preguntas de contraste de correlaciones

Son variables cuantitativas

Contraste correlación muestra-poblacióno Puede ser de 0 (no correlacionan)o Valor de una correlación diferente de 0 (se asume cierta asociación)

Muestras independientes Muestras dependientes o relacionadas

o Necesitamos 3 correlaciones de partida

Ver

Formulario

Tabla de transformación de r (valor de correlación en la muestra) en Zr

Todos los valores son positivos, no hay ninguno negativo se asumen valores absolutos

Localizamos en una de las columnas de r el valor que nos interesa, y vemos el Zr que le corresponde al lado

r = .300 Zr = .310

r = .900 Zr = 1.472

Las transformaciones sí que pueden ir más allá del 1, no es una correlación en sí, es una transformación.

La tabla de referencia es Z

Contraste de una correlación frente a un valor poblacional de 0 lo hace SPSS, no hay que hacerlo a mano.

Cuando el valor poblacional es distinto de 0 a mano

Contraste de correlación entre muestra y población

1. En una muestra de 180 escolares de primaria, la correlación entre calificación en matemáticas y razonamiento numérico es .75 con α = .01, ¿Existen diferencias con el valor poblacional de la C.Valenciana, que es .70?

z=Zr−Zρ0

√ 1n−3

(ρ se refiere al valor poblacional frente al que se compara)

Z= .973−.867

√ 1180−3

Z = 1.413

Es el valor empírico que hay que ver si cae dentro o fuera de los límites que nos vamos a marcar.

Es un contraste bilateral

Tenemos que repartir Z Zα/2 y Z1-α/2

Buscamos Z.005 y Z.995

- 2,575 y 2,575 (como son Z, son complementarios) El valor cae dentro del intervalo se mantiene la H0 No existen diferencias entre la muestra y la población La muestra sí que es representativa de la muestra valenciana porque no hay

diferencias entre la muestra y la población.

Contraste de dos correlaciones en muestras independientesBase Seg

Correlación antigüedad en la empresa y en el puesto concreto entre hombres y mujeres

Se ha realizado una partición en los datos del archivo para separar hombres y mujeres

Z=Zr1−Z r2

√ 1n1−3

+√ 1n2−3

1. Nh = 174 remp-pues = .7522. Nm = 93 remp-pues = .736

Z= .979−.94

√ 1171

+√ 190

Z = 0.29

α = 0.05

-1.96 y 1,96

Cae en la zona de aceptación de la Ho

Algunos pueden ser muy antiguos en la empresa pero muy poco en el puesto concreto…

Lo que pase en hombres y lo que pasa en mujeres es bastante parecido.

Si se hubiese rechazado la H0, querría decir que la forma de proporcionar o cambiar de puesto entre hombres y mujeres sería diferente.

Los valores que ponemos son aproximados porque en las tablas no nos salen los valores exactos.

Contraste de correlación en muestras dependientesLos valores con los que vamos a comparar son T

Detectar cuáles son los mejores criterios para validar un test

Hay que coger el valor de tablas con la T con n-3 grados de libertad (viene en la fórmula)

Es diferente de los dos anteriores

Un solo n una muestra, es la misma gente

3. La correlación entre participación y accidentes leves en una muestra de 223 trabajadores es -.08 y entre responsabilidad y accidentes leves es completamente nula (.00). Si la correlación entre participación y responsabilidad individual es .55. Existen diferencias en la asociación con accidentes leves si se compara en esta muestra de 223 trabajadores la participación y la responsabilidad?

rp-acc = -.08 ryx1

rr-acc = .00 ryx2

rpr =.55 rx1x2

N = 223

Hay que encajar las nomenclaturas

Y accidentes leves (es razonable porque las demás son más parecidas)

X1 y X2 nos da igual cómo ponerlas, es arbitrario

X1 = part

X2 = resp

t=(−.08−.00)√(223−3)(1+.55)

√2¿¿¿

T = - 1,25

Ahora tenemos que buscar en tablas

Tn-3 gl

220 gl

Lo más próximo en tablas son 200 gl

Como es bilateral, hay que partir el alfa en alfa medios y 1- alfa medios (0,025 y 0,975)

Buscar t para 200 gl y una probabilidad de 0.975 = 1.972

Zona de aceptación: -1,972 y 1,972 son los valores teóricos

El valor empírico cae dentro de la zona de aceptación se mantiene la hipótesis nula

No existen diferencias entre la fuerza de la correlación en accidentes leves con un criterio y con otra.

CONTRASTE DE REGRESIÓN

¿CUÁNTO EXPLICA PARTICIPACIÓN Y COMUNICACIÓN DE LA OCURRENCIA DE LOS ACCIDENTES LEVES? ¿QUÉ VARIABLE IMPORTA MÁS?

- Tenemos que hacer una regresión linealo VD = accidentes leveso VI = participación y comunicación

Lo que estamos contrastando es el coeficiente de regresión (beta) y ver si es significativo.

Es un contraste más (media, varianza, proporción…)

Esta no da significativo

Lo que consigue explicar de los acc leves es 0,008 = muy poco

Los coeficientes son tan bajos que no suponen ninguna aportación en la explicación

Para la pregunta se trata de ver los coeficientes estandarizados de beta y su significación

Ni la pendiente de participación ni la de comunicación son significativas.

PRUEBAS NO PARAMÉTRICAS

Hasta ahora, las VD estaban medidas en una escala cuatitativa o semi cuantitativa.

Antes se pensaba que el ANOVA era más endeble, no tan robusta como lo es en realidad, por ello, cuando fallaba alguno de los supuestos, se recurría enseguida a la no paramétrica el problema es que son pruebas poco potentes, muy estrictas y es más difícil encontrar diferencias significativas.

Hay que ver primero lo que se puede hacer antes de hacer una no paramétrica.

Hay que saber que hay unas equivalencias

La significación se ve igual que en las paramétricas (misma lógica)

Hay que saber qué prueba tenemos que coger.

Principales pruebas no paramétricas comparando grupos

Paramétricas No paramétricas

Prueba T de medidas independientes U de Mann-Whitney

Prueba T de medidas dependientes W de Wilcoxon

ANOVA entre H de Kruskal-Wallis

ANOVA INTRA Friedman

Estadístico de contraste = 5583.000

La sig se ve en esta tabla = .000

Podemos decir que existen diferencias entre hombres y mujeres en el promedio del nivel de estudios ¿? SI

Aquí no hay que comprobar supuestos porque sabemos que no se cumplen.

Nosotros interpretamos el

estadístico de contraste y la significación

El estadístico es la Z de Wilcoxon

Sí que existen diferencias

En Kruskall Wallis el estadístico de contraste es chi cuadrado

Para K muestras relacionadas

- Prueba de Friedman Medidas de aspectos de un mismo constructo

Estadístico de contraste (Chi cuadrado de Friedman)= 121.75

Sig<.001

Date post:	23-Dec-2015
Category:	Documents
Upload:	grupoacantun
View:	212 times
Download:	0 times

knowxhow_examen_2

Documents