Date post: | 23-Dec-2015 |
Category: |
Documents |
Upload: | grupoacantun |
View: | 212 times |
Download: | 0 times |
ÍNDICE1. MUESTREO
a. Identificación de la población objetivob. Escoger tipo de muestreoc. Determinación del tamaño muestral
2. DISTRIBUCIÓN MUESTRAL DE MEDIA, VARIANZA Y PROPORCIÓN
a. Tipos de estimaciónb. Intervalo de confianza
3. CONTRASTE DE HIPÓTESISa. Contraste estadístico de hipótesis
i. Nomenclaturaii. Pasos
b. Contraste de mediasc. Contraste de varianzasd. Contraste de proporcionese. En muestras dependientesf. En muestras independientes
4. TIPOS DE ERRORa. Conceptos de potencia y tamaño
5. ANOVAa. Tiposb. Supuestosc. Procedimientod. ANOVA intra-sujetos, de muestras dependientes o
medidas repetidase. COMPARACIONES MÚLTIPLES
6. EJEMPLOS OUTPUTa. Prueba Tb. ANOVA
7. CONTRASTES DE CORRELACIÓN Y REGRESIÓNa. Correlación
i. Entre muestra y poblaciónii. Dos correlaciones en muestras independientesiii. Contraste de correlación en muestras dependientes
b. Regresión8. PRUEBAS NO PARAMÉTRICAS
a. Principales pruebas no paramétricas comparando grupos9. EJEMPLOS OUTPUT
a. Mann-Whitneyb. Wilcoxon
MUESTREOPara llevar a cabo una investigación es necesario determinar la muestra sobre la cual se va a realizar el estudio. Para ello, tiene lugar el proceso de muestreo, que sigue los siguientes pasos:
Identificación de la población objetivo.
La población objetivo es el grupo ideal de sujetos para llevar a cabo la investigación.
Así pues, se realiza un censo para cribar, en el que se encuesta a toda la población objetivo con el fin de determinar la muestra a partir de los resultados. No obstante, hay determinados casos en los que no se puede realizar el censo:
Cuando la población objetivo es demasiado grande Cuando la población objetivo es tan uniforme que cualquier muestra extraída será
apropiada Cuando la encuesta es destructiva
Población de encuesta, muestra de marco o marco: grupo de sujetos que puede realizar la encuesta de forma adecuada y en el momento en que se plantea.
Escoger el tipo de muestreo.Probabilísticos
1. Muestreo aleatorio simple: Todos los elementos tienen la misma probabilidad de aparición. Una vez obtenida la muestra de población, se escoge aleatoriamente el número de sujetos que participen en la investigación.
a. Anteriormente se realizaba esta elección aleatoria mediante tablas de datos (Tippett, 1927) pero actualmente programas como SPSS lo llevan a cabo.
2. Muestreo estratificado: De forma premeditada se divide a la muestra en distintos grupos o estratos y, posteriormente, se realiza una elección aleatoria dentro de cada uno de los estratos, donde todos los sujetos tienen la misma posibilidad de aparición.
a. Estratificación: Proceso por el que se divide a los sujetos en estratos.b. Afijación: Proceso en el que se determina cuántos individuos de cada estrato van a
componer la muestra total. 3. Muestreo por conglomerados o áreas: Se definen aleatoriamente conglomerados de
objetos (o sujetos) predefinidos de forma natural. Al contrario que en los anteriores, lo que se obtiene de forma aleatoria son las áreas y no los individuos.
4. Muestreo por etapas (polietápico): Combina el muestreo aleatorio simple con el muestreo por conglomerados. Se lleva a cabo una primera selección aleatoria de los conglomerados y posteriormente, en una segunda etapa se obtienen de forma aleatoria los sujetos de la investigación dentro de los conglomerados.
No probabilísticos
1. Muestreo sin norma: Se extrae una muestra de la población de forma intencionada, en base a comodidades u opiniones. No tiene valor científico.
2. Muestreo intencional u opinático: Se escoge la muestra de forma no aleatoria, pero no por conveniencia, sino intentando garantizar la representatividad de la muestra. Aunque tampoco no es probabilístico, es ligeramente superior al muestreo sin norma.
Semi-probabilístico
1. Muestreo sin cuotas (probabilístico inferior): Primero se emplea un procedimiento probabilístico, en una primera etapa, y posteriormente el encuestador escoge a los sujetos de estudio.
2. Muestreo sistemático: Se emplea un método aleatorio para escoger al primer sujeto de la muestra y a partir de este se pasa a escoger uno de cada x.
Determinación del tamaño muestral
El tamaño del error muestral depende de los siguientes aspectos:
1. Variabilidad: a más homogeneidad, menos probabilidad de error2. Tamaño de la muestra: cuanto mayor es la muestra, más representativa a nivel
poblacional
DISTRIBUCIÓN MUESTRAL DE MEDIA, VARIANZA Y PROPORCIÓN El objetivo de la estadística inferencial es la extracción de conclusiones generales
(poblacionales) a partir de una muestra reducida. La población es el número de unidades potenciales de observación. A partir de la
misma se define una variable que conduce a la creación de una distribución poblacional en la que se pueden obtener medias, varianzas, etc. Que serán representados por parámetros (µ, π, σ)
La muestra es un subgrupo formado por n sujetos de la población, a partir de una variable a estudiar en la misma se obtienen los estadísticos que describen características de la muestra
Distribución muestral: distribución teórica que asigna una probabilidad concreta a cada uno de los valores que puede tomar un estadístico en todas las muestras del mismo tamaño que se pueden extraer de una misma población. Sirve para:
Muestra que a mayor muestra, mayor aproximación a parámetros y que a mayor nº de muestras, mejores aproximaciones.
Nos muestra qué % de probabilidad tiene un estadístico de aparecer en la
población
Permite cuantificar el error que presentan las muestras (error muestral= error
aleatorio= error típico de estimación)
Estadísticos estimadores
Tipos de estimación:- Puntual
o Insesgancia : el valor del estadístico muestral es igual al parámetro poblacional que se estudia.
o Consistencia: Garantiza que, a medida que va aumentando el tamaño de la muestra, también aumenta la probabilidad de que el estadístico utilizado como estimador coincida exactamente con el parámetro estimado.
o Eficiencia : Un estimador es tanto más eficiente cuanto menor es su varianza. Mayor eficiencia indica que el estadístico varía menos entre distintas muestras.
o Suficiencia : Si es un estimador suficiente, la estimación del parámetro no puede ser mejorada considerando otros aspectos de los datos no incluidos en el estimador.
- Por intervaloso Hace falta conocer la distribución muestral del estadístico
En el caso de la media:
N (μ , σ√n ) ( σ√n ) error típico de estimación
o α = nivel de riesgoo 1 – α = nivel de confianzao el Li y Ls serán (en medias) los puntos de la distribución normal z/2 y z1-/2
Intervalo de confianza consiste en: 1. Fijar nivel de riesgo2. Buscar puntuación acorde a distribución3. Calcular error típico4. Establecer error máximo5. Hallar estadístico + - error máximo
ERROR MÁXIMO = VALOR TEÓRICO x ERROR TÍPICO
La amplitud del intervalo depende de: Nivel de confianza Tamaño del error típico usado como estimación
Expresión del intervalo para la media:1. Conocida la varianza poblacional
Expresión del intervalo para la proporción:1. Muestras grandes
En SPSS:
- ANALIZAR – ESTADÍSTICOS DESCRIPTIVOS – EXPLORAR- ANALZAR – COMPARAR MEDIAS – PRUEBA T PARA UNA MUESTRA contrastar frente
a un valor de prueba = 0
Cuando al comparar frente a 0, el resultado es un intervalo que incluye el 0, se mantiene la hipótesis nula, es decir, que no hay diferencia significativa.
Cuando no incluye el 0, el resultado es significativo. Se rechaza la hipótesis nula.
CONTRASTE DE HIPÓTESISEn estadística los contrastes de hipótesis no suelen hacerse con IC, sino con pruebas conocidas como “pruebas de contraste de hipótesis” que a la larga clarifican el procedimiento y son más sencillas.
CONTRASTE ESTADÍSTICO DE HIPÓTESISPara contrastar una hipótesis hace falta:
UNA HIPÓTESIS: pueden ser no científicas, pero más importante para nosotros: científicas y estadísticas
Las hipótesis científicas son cualquier afirmación verificable Las hipótesis estadísticas son las hipótesis científicas verificables mediante estadísticos
o En realidad toda hipótesis estadística supone aceptar una de dos opciones (hipótesis).
Estas dos hipótesis deben ser MUTUAMENTE EXCLUSIVAS Y EXHAUSTIVAS
- Hipótesis nula (H0)- Hipótesis alternativa (H1)- Hipótesis unilaterales- Hipótesis bilaterales
Nomenclatura de las hipótesis:- H. Nula , de las no diferencias, de la igualdad contiene siempre el símbolo =
- H. Alternativa o de las diferencias no puede contener nunca el = (≠)- Hipótesis bilaterales : cuando es = frente a ≠
o Es muy general, la diferencia se puede producir de un lado o de otro. Para que sea diferentes, ej. La inteligencia de los hombres puede ser mayor que la de las mujeres o al revés.
- Hipótesis unilaterales
o H0: Media hombres ≥ media mujereso H1: media hombres < media mujeres (unilateral izquierda hacia donde
señale la flecha)
Cualquier contraste de hipótesis requiere:1) Formular H0 (nula) frente a H1 (alternativa)2) Escoger el nivel de significación (nivel de error, α)3) Calcular el estadístico de contraste o valor empírico4) Calcular los límites de la región de aceptación de H0 o valores teóricos5) Aplicar la regla de decisión
Contraste de mediasDe 1 muestra y 1 población
De 2 muestras independientes (con varianzas desconocidas asumidas iguales o no)
De 2 muestras dependientes
Contraste de varianzasDe 1 muestra y 1 poblaciónDe 2 muestras independientesDe 2 muestras dependientes
Contraste de proporcionesDe 1 muestra y 1 poblaciónDe 2 muestras independientesDe 2 muestras dependientes
EN MUESTRAS DEPENDIENTESContraste sobre dos proporciones muestrales (DEPENDIENTES)
Se distribuye como una z
Se expresa:
H0: b = d
H1: b ≠ d
Se plantea como una H bilateral pero no es la forma óptima.
Hay que buscar la z para α/2 y la z para 1 - α/2
EN MUESTRAS INDEPENDIENTES
Z=P1−P2
√P(1−P)( 1n1
+ 1n2
)
P=n1 P1+n2P2n1+n2
TIPOS DE ERROR
CONCEPTOS DE POTENCIA Y TAMAÑO DEL EFECTO
Potencia: El concepto de potencia nos permite valorar cual entre dos contrastes con la
VERDADERA HO FALSA HO
MANTENER HO NO ERROR
1-αNivel de confianza
ERROR
βerror tipo II
RECHAZAR HO ERROR
αerror tipo I
NO ERROR
1-βPotencia
misma probabilidad de error de tipo I, α, es preferible. Si se trata de contrastar dos hipótesis sencillas sobre un parámetro desconocido
Tamaño del efecto: Da una medida del “impacto practico” de la intervención; es decir, de la magnitud de efecto del tratamiento. En ANOVA se llama 2 (eta cuadrado), en pruebas t dependientes se llama d de Cohen, p.e.
ANOVA
TIPOS Según el número de factores:
Unifactorial Factorial
• Según el tipo de muestras Independientes (entre-sujetos) Dependientes (intra-sujetos o medidas repetidas) Mixtos
Según los niveles de los factores Fijos (Sólo podemos generalizar los resultados a los mismos niveles del mismo factor) Aleatorios
SUPUESTOSIndependencia de las muestras: Asignación y Selección aleatoria de los grupos (muestreo completamente al azar).
Normalidad en la distribución (campana de Gauss o muy similar)
Homoscedasticidad (función tamaños iguales-desiguales) Homogeneidad de varianzas
o Es como la prueba de Levene para ver si las varianzas se pueden asumir iguales.
o Hay que tener la precaución de tener el mismo número de sujetos, o muy parecido, en los distintos grupos. De esta forma, si existiera quebrantamiento de este principio, no afectaría.
o Normalmente, mientras el desequilibrio no pase de los dos tercios, no afectará mucho.
Escala de medida: Que la variable dependiente esté medida a nivel intervalar o de razón.
En ANOVAEl efecto de una VI siempre se analizará mediante:
Un estadístico de contraste o valor empírico F (prueba F) con esta fórmula:
Un valor teórico de la distribución F valor de tablas:
Igual que en la T el estadístico de contraste es una T, aquí es una F (hay que buscarlo en la tabla F)
Es unilateral derecho todo el error está acumulado a la derecha.
Siempre es así porque en el ANOVA, lo que se están manejando son varianzas. Es uni derecho porque la varianza 1 es la varianza que se quiere afectar, las puntuaciones que muestran que el tratamiento funciona. La varianza 2 que está abajo representa la variabilidad de error no debido al tratamiento sino que, como sujetos, tienen su propia variabilidad.
Queremos probar que la varianza de arriba es mayor que la de abajo. Por eso el ANOVA siempre es unilateral derecho.
Tenemos un problema igual al de cualquier contraste de hipótesis: queremos saber si J (donde J>2) medias son iguales o distintas. Por tanto puede usarse el mismo esquema de cualquier contraste de hipótesis.
ANOVA = prueba de comparación de más de dos mediasEntre factorialIntra factorialMixto (al menos una de cada)
La respuesta que obtenemos es de carácter generalLa F siempre es para 1-alfa unilateral derechaHo: µm1 = µm2 = µm3 H1: µm1 ≠ µm2 ≠ µm3
ANOVA intra-sujetos, de muestras dependientes o medidas repetidasSE PRODUCEN LOS SIGUIENTES CAMBIOS
1. HAY MAS DE UNA MEDIDA POR SUJETO, y por tanto una nueva fuente de variación, que se extrae del error y por tanto al final el error es menor
2. NUEVO SUPUESTO: ADITIVIDAD (ESFERICIDAD): Los sujetos no interactúan con los tratamientos
COMPARACIONES MÚLTIPLESANOVA es una prueba de significación general , por tanto no ofrece suficiente información
• Si mantenemos Ho sí tenemos suficiente información• Si Rechazamos Ho, información insuficiente y es necesario plantear más análisis
COMPARACIONES MÚLTIPLES DE MEDIAS
• =Post hoc: solo dan tienen sentido si ANOVA ha sido significativo
Si se realizan k comparaciones entre medias, el error tipo I (α) aumenta: PROBLEMA DE INFLACIÓN DEL ERROR
Por tanto hacen falta pruebas específicas que consigan mantener el α para TODAS las comparaciones simultáneamente en el nivel deseado o alfa nominal (por ejemplo: 0.05)
Estas comparaciones pueden ser diversas:
- A priori o planeadas / a posteriori- Simples o complejas
ANOVA ENTRE
No da significativoSTOP
Sí da significativo
Se cumplen los supuestos
TUKEY
No se cumplen los supuestos
GAMES HOWELL
PRUEBA T
Prueba de muestras independientes
Prueba de
Levene para
la igualdad de
varianzas
Prueba T para la igualdad de medias
F Sig. t gl Sig.
(bilat
eral)
Diferen
cia de
medias
Error
típ. de
la
diferenci
a
95% Intervalo de
confianza para la
diferencia
Inferior Superior
LACIONESPOSITI
VAS
Se han
asumido
varianzas
iguales
2,879 ,107
-
2,22
0
18 ,040 -,81667 ,36789 -1,58956 -,04377
Comparación de medias
2. Comparar medias
Indep
Prueba T indep.
1º se lee rdo Levene
Si sig, Rdo 2ªlínea
No sig =var iguales. Rdo 1ªlínea
Dep
Prueba T dep
M. Lineal general. Más de dos
Todas indep
Univariante:
Compruebo supuestos con
Levene
Sí cumple--> Si ADT ANOVA sig.
TUKEY
No cumple --> si ADT ANOVA sig.
Games Howell
Mínimo alguna dep.
Medidas repetidas
Se cumpla o no el supuesto (Epsilon mayor o igual que
0.7) H y F
Si sig, la POST-HOC BONFERRONI
No se han
asumido
varianzas
iguales
-
2,220
15,6
17,042 -,81667 ,36789 -1,59811 -,03523
ANOVA
LEVENE:
TUKEY-GAMES HOWELL:
DESDE AQUÍ NO ENTRA YA EN ENTREGA 9 DE ABRIL!!!
CONTRASTES PARA LA CORRELACIÓN Y LA REGRESIÓN
Las dos primeras fórmulas no las vamos a necesitar porque nos lo da el SPSS
Tercera fórmula contrastamos frente a un valor de referencia
Hay un solo n porque en la correlación, el n siempre es común.
Lo de la derecha no tenemos que calcularlo nos da una referencia de la correlación, conversión de r a Zr.
Buscar en tablas y sustituir en la fórmula
Contraste de dos correlaciones en muestras independientes
Comparar diferencia entre correlaciones en las entregas de 1º y segundo cuatrimestre entre chicos y chicas
Nos fijamos en el valor absoluto, no hay signos
Aquí sí que tenemos 2n porque los grupos que se comparan pueden tener tamaños muestrales diferentes.
Lo que obtenemos es el valor empírico, el estadístico de contraste buscamos la z en tablas.
Contraste de dos correlaciones en muestras dependientes
Es una fórmula psicométrica.
Si tenemos varias variables en una matriz, vemos si la correlación entre 2 variable es mayor o menor que en otras dos… (siempre es la misma gente)
El valor de tablas para una t para n-3 gl
Vemos si cae dentro (H0 igualdad) o cae fuera (rechazo H0 diferencias)
Funciona como la normal
CONTRASTE DE CORRELACIÓN
3 preguntas de contraste de correlaciones
Son variables cuantitativas
Contraste correlación muestra-poblacióno Puede ser de 0 (no correlacionan)o Valor de una correlación diferente de 0 (se asume cierta asociación)
Muestras independientes Muestras dependientes o relacionadas
o Necesitamos 3 correlaciones de partida
Ver
Formulario
Tabla de transformación de r (valor de correlación en la muestra) en Zr
Todos los valores son positivos, no hay ninguno negativo se asumen valores absolutos
Localizamos en una de las columnas de r el valor que nos interesa, y vemos el Zr que le corresponde al lado
r = .300 Zr = .310
r = .900 Zr = 1.472
Las transformaciones sí que pueden ir más allá del 1, no es una correlación en sí, es una transformación.
La tabla de referencia es Z
Contraste de una correlación frente a un valor poblacional de 0 lo hace SPSS, no hay que hacerlo a mano.
Cuando el valor poblacional es distinto de 0 a mano
Contraste de correlación entre muestra y población
1. En una muestra de 180 escolares de primaria, la correlación entre calificación en matemáticas y razonamiento numérico es .75 con α = .01, ¿Existen diferencias con el valor poblacional de la C.Valenciana, que es .70?
z=Zr−Zρ0
√ 1n−3
(ρ se refiere al valor poblacional frente al que se compara)
Z= .973−.867
√ 1180−3
Z = 1.413
Es el valor empírico que hay que ver si cae dentro o fuera de los límites que nos vamos a marcar.
Es un contraste bilateral
Tenemos que repartir Z Zα/2 y Z1-α/2
Buscamos Z.005 y Z.995
- 2,575 y 2,575 (como son Z, son complementarios) El valor cae dentro del intervalo se mantiene la H0 No existen diferencias entre la muestra y la población La muestra sí que es representativa de la muestra valenciana porque no hay
diferencias entre la muestra y la población.
Contraste de dos correlaciones en muestras independientesBase Seg
Correlación antigüedad en la empresa y en el puesto concreto entre hombres y mujeres
Se ha realizado una partición en los datos del archivo para separar hombres y mujeres
Z=Zr1−Z r2
√ 1n1−3
+√ 1n2−3
1. Nh = 174 remp-pues = .7522. Nm = 93 remp-pues = .736
Z= .979−.94
√ 1171
+√ 190
Z = 0.29
α = 0.05
-1.96 y 1,96
Cae en la zona de aceptación de la Ho
Algunos pueden ser muy antiguos en la empresa pero muy poco en el puesto concreto…
Lo que pase en hombres y lo que pasa en mujeres es bastante parecido.
Si se hubiese rechazado la H0, querría decir que la forma de proporcionar o cambiar de puesto entre hombres y mujeres sería diferente.
Los valores que ponemos son aproximados porque en las tablas no nos salen los valores exactos.
Contraste de correlación en muestras dependientesLos valores con los que vamos a comparar son T
Detectar cuáles son los mejores criterios para validar un test
Hay que coger el valor de tablas con la T con n-3 grados de libertad (viene en la fórmula)
Es diferente de los dos anteriores
Un solo n una muestra, es la misma gente
3. La correlación entre participación y accidentes leves en una muestra de 223 trabajadores es -.08 y entre responsabilidad y accidentes leves es completamente nula (.00). Si la correlación entre participación y responsabilidad individual es .55. Existen diferencias en la asociación con accidentes leves si se compara en esta muestra de 223 trabajadores la participación y la responsabilidad?
rp-acc = -.08 ryx1
rr-acc = .00 ryx2
rpr =.55 rx1x2
N = 223
Hay que encajar las nomenclaturas
Y accidentes leves (es razonable porque las demás son más parecidas)
X1 y X2 nos da igual cómo ponerlas, es arbitrario
X1 = part
X2 = resp
t=(−.08−.00)√(223−3)(1+.55)
√2¿¿¿
T = - 1,25
Ahora tenemos que buscar en tablas
Tn-3 gl
220 gl
Lo más próximo en tablas son 200 gl
Como es bilateral, hay que partir el alfa en alfa medios y 1- alfa medios (0,025 y 0,975)
Buscar t para 200 gl y una probabilidad de 0.975 = 1.972
Zona de aceptación: -1,972 y 1,972 son los valores teóricos
El valor empírico cae dentro de la zona de aceptación se mantiene la hipótesis nula
No existen diferencias entre la fuerza de la correlación en accidentes leves con un criterio y con otra.
CONTRASTE DE REGRESIÓN
¿CUÁNTO EXPLICA PARTICIPACIÓN Y COMUNICACIÓN DE LA OCURRENCIA DE LOS ACCIDENTES LEVES? ¿QUÉ VARIABLE IMPORTA MÁS?
- Tenemos que hacer una regresión linealo VD = accidentes leveso VI = participación y comunicación
Lo que estamos contrastando es el coeficiente de regresión (beta) y ver si es significativo.
Es un contraste más (media, varianza, proporción…)
Esta no da significativo
Lo que consigue explicar de los acc leves es 0,008 = muy poco
Los coeficientes son tan bajos que no suponen ninguna aportación en la explicación
Para la pregunta se trata de ver los coeficientes estandarizados de beta y su significación
Ni la pendiente de participación ni la de comunicación son significativas.
PRUEBAS NO PARAMÉTRICAS
Hasta ahora, las VD estaban medidas en una escala cuatitativa o semi cuantitativa.
Antes se pensaba que el ANOVA era más endeble, no tan robusta como lo es en realidad, por ello, cuando fallaba alguno de los supuestos, se recurría enseguida a la no paramétrica el problema es que son pruebas poco potentes, muy estrictas y es más difícil encontrar diferencias significativas.
Hay que ver primero lo que se puede hacer antes de hacer una no paramétrica.
Hay que saber que hay unas equivalencias
La significación se ve igual que en las paramétricas (misma lógica)
Hay que saber qué prueba tenemos que coger.
Principales pruebas no paramétricas comparando grupos
Paramétricas No paramétricas
Prueba T de medidas independientes U de Mann-Whitney
Prueba T de medidas dependientes W de Wilcoxon
ANOVA entre H de Kruskal-Wallis
ANOVA INTRA Friedman
Estadístico de contraste = 5583.000
La sig se ve en esta tabla = .000
Podemos decir que existen diferencias entre hombres y mujeres en el promedio del nivel de estudios ¿? SI
Aquí no hay que comprobar supuestos porque sabemos que no se cumplen.
Nosotros interpretamos el
estadístico de contraste y la significación
El estadístico es la Z de Wilcoxon
Sí que existen diferencias
En Kruskall Wallis el estadístico de contraste es chi cuadrado