Cuando se contrasta la hipótesisde que dos medias poblacionalesson iguales, utilizamos el árbolpara contrastes, de modo que enél encontramos las diferentesalternativas, dependiendo de lassuposiciones de normalidad,homocedasticidad, independenciaetc.
Ho: A=B
NORMALES
Muestras pequeñas
Varianzas desconocidas
Iguales
Test Tc
Distintas
T de Welch
Varianzas conocidas
Test Z
Muestras grandes
Varianzas conocidas
o desconocidas
Test Z
• Este test permite contrastes de igualdadde medias para el caso particular quedispongamos en el estudio de variosgrupos experimentales (más de dos).
1 2 3: ... iHo :Ha no todas iguales
0
0,2
0,4
0,6
0,8
1
Ries
go ti
po I
0 5 15 25 35 45 55 65 75 85 95 105 115 125comparaciones
grupos comparaciones riesgo tipo I
2 1 0,05
3 3 0,1426
4 6 0,2649
5 10 0,4013
6 15 0,5367
7 21 0,6594
8 28 0,7622
9 36 0,8422
10 45 0,9006
11 55 0,9405
12 66 0,9661
13 78 0,9817
14 91 0,9906
15 105 0,9954
• El análisis de la varianza (ANOVA) nos permite:
• El análisis de la varianza de un conjunto de muestras permitecontrastar la hipótesis nula “todas las medias poblacionales delas que provienen las muestras son iguales” contra la hipótesisalternativa “no todas las medias son iguales” con un nivel designificación prefijado.
1 2 3:Ho :Ha no todas iguales
5%
• Conviene señalar que el ANOVA es una prueba a nivelglobal. Nos habla de si existen o no diferencias a nivelglobal entre las medias pero no nos dice entre cuales seproduce la diferencia.
• Sólo cuando se obtenga una significación de la pruebaglobal se procederá por distintos métodos a comprobarque medias son las responsables de la significación.
Consideraciones generales
• El nombre se debe al método empleado y no al objetivoconseguido.
• El método se basa en la pregunta: ¿habrá mayor variaciónentre las medias de los distintos grupos que entre losgrupos mismos?.
• Una diferencia entre las medias ha de ser grande conrespecto a la variabilidad inherente a los grupos para quesea significativa.
• Como todas las técnicas estadísticas la actual está basada enciertas hipótesis que han de verificarse para que la técnica seaválida.
• Ahora las condiciones son que se disponga de r muestras aleatoriasindependientes, normales de medias y varianzas desconocidaspero iguales (homoscedásticas).
( , )i iA N
1 2 3 i r X11 X21 X31 Xi1 Xr1 X12 X22 X32 Xi2 Xr2 X13
. X1j X2j X3j Xij Xrj X1n1 X2n2 X3n3 Xini Xrnr
n1 n2 n3 ni nrN
xx1. x2. x3. xi. xr.
i = nº de grupos ; j = índice de observación en cada gruponi = nº de observaciones en la muestra i ; N = Tamaño globalxi. = media del grupo i ; = Media globalx
Ejemplo base: La tabla siguiente ofrece datos de lasdisminuciones de actividad de r = 4 grupos de ratas trasla aplicación de 4 sustancias distintas. Las 24 ratastotales eran homogéneas y fueron divididas al azar en 4grupos de 6 ratas.
1 2 3 4 64 78 75 55 72 91 93 66 68 97 78 49 77 82 71 64 56 85 63 70 95 77 76 68
x1.= 72 x2.= 85 x3.= 76 x4. =62
La idea base :
La variabilidad total de los datos (Q) es suma de dosvariabilidades: la variabilidad de los datos “dentro” decada muestra (que se debe sólo al azar (QD) y lavariabilidad existente entre las muestras (que se debe alazar y si la hipótesis alternativa es cierta a que lasmuestras provienen de poblaciones con distintasmedias(QE).
2
1 1
( )inr
iji j
Q x x
2.
1 1
( )inr
D ij ii j
Q x x
2.
1( )
r
E i ii
Q n x x
AX BX
CX
X
X AX BX
CX
ESTIMU LAN TE (t ratamiento)A B C D E
1,53 3,15 3,89 8,18 5,861,61 3,96 3,68 5,64 5,463,75 3,59 5,7 7,36 5,692,89 1,89 5,62 5,33 6,493,26 1,45 5,79 8,82 7,81
1,56 5,33 5,26 9,037,1 7,49
8,98Total 13,04 15,60 30,01 47,69 56,81 163,15Media 2,61 2,60 5,00 6,81 7,10 5,10
Datos reales:
Tratamiento
Insu
lina
liber
ada
media global
¿Qué observamos?Variabilidad en las observaciones¿Por qué?.Es debida al azar….???o a que no todos los tratamientosproducen el mismo efecto…???
¿Qué observamos?Variabilidad en las observaciones¿Por qué?.Es debida al azar….???o a que no todos los tratamientosproducen el mismo efecto…???
2
1 1
( )inr
iji j
Q x x
2.
1 1
( )inr
D ij ii j
Q x x
2.
1( )
r
E i ii
Q n x x
Datos reales: Diagrama de dispersión
Tratamiento
Insu
lina
liber
ada
media global
yyij
y
2
1 1
( )inr
iji j
Q x x
2.
1 1
( )inr
D ij ii j
Q x x
2.
1( )
r
E i ii
Q n x x
Datos reales: Diagrama de dispersión
Tratamiento
Insu
lina
liber
ada
media global
iijij yye
y
yyij
2
1 1
( )inr
iji j
Q x x
2.
1 1
( )inr
D ij ii j
Q x x
2.
1( )
r
E i ii
Q n x x
Tratamiento
Insu
lina
liber
ada
media global
iijij yydentroe
y
yyij
yyentree iij
• Para obtener variabilidades promedio espreciso dividir cada suma de cuadrados por susgrados de libertad, obteniéndose así lavarianza dentro y la varianza entre.
2 DD
QSN r
2
1E
EQSr
2
?
Estadístico de contraste
El cociente entre la variabilidad “entre” y la variabilidad “dentro”, unavez que se han hecho comparables, sigue una distribución F deSnedecor con r-1 y N-r grados de libertad.
2
2
Dentro
Entreexp S
SF
Regla de decisión
Al comparar la variabilidad entre y la variabilidad dentro:
Rechazaremos la hipótesis nula siempre que la variabilidad “entre” seagrande, pero utilizando como patrón de comparación la variabilidad“dentro”.
Es decir, aceptaremos un efecto de los tratamientos siempre que estosproduzcan mayores diferencias en las unidades experimentales que las quehabría sin la aplicación de los mismos.
2
2
Dentro
Entreexp S
SF
Regla de decisiónSi el valor experimental Fexp supera el valor crítico de una F de Snedecor con r-1 y N-rg.l. al nivel de significación elegido, se rechazará la Ho de igualdad de mediaspoblacionales y se aceptará la alternativa de que al menos algún par de medias esdiferente.
p valor Rechazo Ho
Contraste Unilateral superior
F (r 1; r)
1
Si Fexp. Rechazo Ho
2 20
2 2
:
:D E
a E D
H
H
0.05
2
1,2
ˆˆ
Er N r
D
S FS
Como se trata de un contraste unilateral superior:
RC :
RA:
( 1, )/ r N rF F F
( 1, )/ r N rF F F
1 2 i r
notodaslasmedias soniguales
Por ello la hipótesis 1 2 ...... r
es equivalente a 2 2 20 : E DH
y la alternativa Ha: No todas son iguales es equivalente a
2 2E D
y así el test de comparación de medias se convierte en un test unilateral superior.
Presentación de resultadosCuadro del ANOVA
• La información completa del análisis se resume en forma de tabla, denominada tabla del ANOVA y resume toda la información necesaria para realizar el correspondiente contraste
ANOVA
FuenteSumas de
Cuadradosg.l. Estimadores Fexp.
Entre r-1
Residual N-r
Total N-1
2
1
r
Entre i ii
Q n x x
2
1 1
inr
Dentro ij ii j
Q x x
2 / 1Entre EntreS Q r
Fexp SEntre
2
SDentro2
2Dentro DentroS Q N r
2
1 1
inr
Total iji j
Q x x
Existen fórmulas abreviadas equivalentes quefacilitan enormemente los cálculos y evitan erroresde redondeo:
2
2.
2
iji j
iE
i i
iji j
Q x C
TQ Cn
xS ien d o C
N
Ejemplo base: La tabla siguiente ofrece datos de lasdisminuciones de actividad de r = 4 grupos de ratas trasla aplicación de 4 sustancias distintas. Las 24 ratastotales eran homogéneas y fueron divididas al azar en 4grupos de 6 ratas.
1 2 3 4 64 78 75 55 72 91 93 66 68 97 78 49 77 82 71 64 56 85 63 70 95 77 76 68
x1.= 72 x2.= 85 x3.= 76 x4. =62
21770 130537,524
C
2. 1636,5i
i iE
T CQn
Q = 642+……+682 -C= 3654,5
QD =3654,5-1636,5 = 2118
1 2 3 464 78 75 5572 91 93 6668 97 78 4977 82 71 6456 85 63 7095 77 76 68
n1=6 n2=6 n3=6 n4=6 N=24T 1.= 432 T 2. =510 T3.= 456 T4.= 372 1770ij
ij
x 2
1.
1
31104Tn
2
2.
2
43350Tn
2
3.
3
34656Tn
2
4.
4
23064Tn
2. 132274i
i i
Tn
2
2.
2
iji j
iE
i i
iji j
Q x C
TQ Cn
xS ien d o C
N
El objetivo es comparar si todos los tratamientostienen igual efecto o no:
1 2 3 4:Ho
:Ha no todas iguales
3654,5 2018,0 1636,5D EQ Q Q
2
2
2
2
2018,0ˆ 100,920
1636,5ˆ 545,51 3
ˆ5, 41ˆ
DD
EE
E
D
QSN rQSr
SFS
5%(3,20)
1%(3,20)
3,10
5,85
F
F
Generalmente los resultados se expresan en formade tabla de la forma:
Fuente variación
Suma de cuadrados
Grados libertad
Estimadores F experim
Entre 2. 1636,5i
Ei i
TQ Cn
r-1=3 2ˆ 5 5,1
4 5EE
QSr
2
25 1
ˆ*ˆ ,4E
D
SFS
Dentro D EQ Q Q = 2118
N-r =20 2 100,ˆ 9D
DQ
SN r
Total 3654,5Q
N-1= 23
¡¡¡Importante!!
EL ANOVA es una prueba de significación a nivel global
Nos dice si hay diferencias, pero no donde están las diferencias(es decir que par(es) de medias es (son) diferente(s))
Necesitamos realizar contrastes tras el ANOVA paraencontrar dichas diferencias
(es decir, para encontrar las causas de la significación)
Contrastes tras el ANOVA
Sin control riesgo tipo I:……………………………………..LSD
Tamaños iguales: TUKEY
Todas las comparacionesTamaños distintos: BONFERRONI
Con control riesgo tipo I
Comparar con un control: DUNNET
(test de la diferencia significativa mínima)
a) Hipótesis estadística:
H 0 : ( ; i, j 1, ..., r)
Ha:
b) Nivel de significación (usuales) 0,05 y 0,01
c) Estadígrafo de Contraste, :
d) Región crítica =
e) Región de aceptación =
i j
i j
2 1 1
i jN r
Di j
x xt
sn n
; ;/ N r N rt t t t
;/ N rt t t
,i j
Si n n n i, j; (i, j 1, 2, ...r )j i
t exp
Si
Llamando LSD
Por tanto, la cantidad LSD es la mínima diferencia que tenemos que encontrar entre las medias muestrales de dos tratamientos (niveles del factor) Para concluir que las medias son diferentes en sus respectivas poblaciones.
,
2 1 1i j
N r
D
x xt
sn n
Cte=C
0, * Rei j N rX X t C chazoH
, *N rt C
Rechazo H0
No es más que una t de Student (corregida ya que utilizamos un mejor estimadorde la única varianza poblacional) de modo que al realizar muchascomparaciones se incrementa el riesgo tipo I.
' K
H 0 : ( ; i, j 1, ..., r)
Se elige k= r (número de grupos a comparar), de forma que se
rechaza H0 para cada comparación si texp Tukey
El test de Tukey exige que todos los grupos tengan el mismo tamaño muestral. Se consigue un
,N r k
0.05
,i j i j
i j Ha:
b) Nivel de significación (usuales) 0,05 y 0,01c) Estadígrafo de Contraste:
,2 1 1
i j
N r K
D
x xt
sn n
K r
H 0 : ( ; i, j 1, ..., r)
Se elige k= r(r-1)/2 (número de todas las comparaciones porparejas), de forma que se rechaza H0 para cada comparación si
texp tBonferroni (N r ,k ). Consigue un 0 .0 5
,i j i j
i j Ha:
b) Nivel de significación (usuales) 0,05 y 0,01c) Estadígrafo de Contraste:
,
211 1
2
i jN r K
Di j
x xt
r rs
n nK
Si las unicas comparaciones con sentido son los de losdiferentes tratamientos con el control. Se elige k=(r-1)(numero de grupos menos uno).
Se rechaza la H0 si texp > tDunnett (N r, k ).
Es conveniente que todos los grupos tengan el mismo tamaño muestra.
Relación penalizaciones