Analisis de la_varianza_

Cuando se contrasta la hipótesisde que dos medias poblacionalesson iguales, utilizamos el árbolpara contrastes, de modo que enél encontramos las diferentesalternativas, dependiendo de lassuposiciones de normalidad,homocedasticidad, independenciaetc.

Ho: A=B

NORMALES

Muestras pequeñas

Varianzas desconocidas

Iguales

Test Tc

Distintas

T de Welch

Varianzas conocidas

Test Z

Muestras grandes

Varianzas conocidas

o desconocidas

Test Z

• Este test permite contrastes de igualdadde medias para el caso particular quedispongamos en el estudio de variosgrupos experimentales (más de dos).

1 2 3: ... iHo :Ha no todas iguales

0

0,2

0,4

0,6

0,8

1

Ries

go ti

po I

0 5 15 25 35 45 55 65 75 85 95 105 115 125comparaciones

grupos comparaciones riesgo tipo I

2 1 0,05

3 3 0,1426

4 6 0,2649

5 10 0,4013

6 15 0,5367

7 21 0,6594

8 28 0,7622

9 36 0,8422

10 45 0,9006

11 55 0,9405

12 66 0,9661

13 78 0,9817

14 91 0,9906

15 105 0,9954

• El análisis de la varianza (ANOVA) nos permite:

• El análisis de la varianza de un conjunto de muestras permitecontrastar la hipótesis nula “todas las medias poblacionales delas que provienen las muestras son iguales” contra la hipótesisalternativa “no todas las medias son iguales” con un nivel designificación prefijado.

1 2 3:Ho :Ha no todas iguales

5%

• Conviene señalar que el ANOVA es una prueba a nivelglobal. Nos habla de si existen o no diferencias a nivelglobal entre las medias pero no nos dice entre cuales seproduce la diferencia.

• Sólo cuando se obtenga una significación de la pruebaglobal se procederá por distintos métodos a comprobarque medias son las responsables de la significación.

Consideraciones generales

• El nombre se debe al método empleado y no al objetivoconseguido.

• El método se basa en la pregunta: ¿habrá mayor variaciónentre las medias de los distintos grupos que entre losgrupos mismos?.

• Una diferencia entre las medias ha de ser grande conrespecto a la variabilidad inherente a los grupos para quesea significativa.

• Como todas las técnicas estadísticas la actual está basada enciertas hipótesis que han de verificarse para que la técnica seaválida.

• Ahora las condiciones son que se disponga de r muestras aleatoriasindependientes, normales de medias y varianzas desconocidaspero iguales (homoscedásticas).

( , )i iA N

1 2 3 i r X11 X21 X31 Xi1 Xr1 X12 X22 X32 Xi2 Xr2 X13

. X1j X2j X3j Xij Xrj X1n1 X2n2 X3n3 Xini Xrnr

n1 n2 n3 ni nrN

xx1. x2. x3. xi. xr.

i = nº de grupos ; j = índice de observación en cada gruponi = nº de observaciones en la muestra i ; N = Tamaño globalxi. = media del grupo i ; = Media globalx

Ejemplo base: La tabla siguiente ofrece datos de lasdisminuciones de actividad de r = 4 grupos de ratas trasla aplicación de 4 sustancias distintas. Las 24 ratastotales eran homogéneas y fueron divididas al azar en 4grupos de 6 ratas.

1 2 3 4 64 78 75 55 72 91 93 66 68 97 78 49 77 82 71 64 56 85 63 70 95 77 76 68

x1.= 72 x2.= 85 x3.= 76 x4. =62

La idea base :

La variabilidad total de los datos (Q) es suma de dosvariabilidades: la variabilidad de los datos “dentro” decada muestra (que se debe sólo al azar (QD) y lavariabilidad existente entre las muestras (que se debe alazar y si la hipótesis alternativa es cierta a que lasmuestras provienen de poblaciones con distintasmedias(QE).

2

1 1

( )inr

iji j

Q x x

2.

1 1

( )inr

D ij ii j

Q x x

2.

1( )

r

E i ii

Q n x x

AX BX

CX

X

X AX BX

CX

ESTIMU LAN TE (t ratamiento)A B C D E

1,53 3,15 3,89 8,18 5,861,61 3,96 3,68 5,64 5,463,75 3,59 5,7 7,36 5,692,89 1,89 5,62 5,33 6,493,26 1,45 5,79 8,82 7,81

1,56 5,33 5,26 9,037,1 7,49

8,98Total 13,04 15,60 30,01 47,69 56,81 163,15Media 2,61 2,60 5,00 6,81 7,10 5,10

Datos reales:

Tratamiento

Insu

lina

liber

ada

media global

¿Qué observamos?Variabilidad en las observaciones¿Por qué?.Es debida al azar….???o a que no todos los tratamientosproducen el mismo efecto…???

¿Qué observamos?Variabilidad en las observaciones¿Por qué?.Es debida al azar….???o a que no todos los tratamientosproducen el mismo efecto…???

2

1 1

( )inr

iji j

Q x x

2.

1 1

( )inr

D ij ii j

Q x x

2.

1( )

r

E i ii

Q n x x

Datos reales: Diagrama de dispersión

Tratamiento

Insu

lina

liber

ada

media global

yyij

y

2

1 1

( )inr

iji j

Q x x

2.

1 1

( )inr

D ij ii j

Q x x

2.

1( )

r

E i ii

Q n x x

Datos reales: Diagrama de dispersión

Tratamiento

Insu

lina

liber

ada

media global

iijij yye

y

yyij

2

1 1

( )inr

iji j

Q x x

2.

1 1

( )inr

D ij ii j

Q x x

2.

1( )

r

E i ii

Q n x x

Tratamiento

Insu

lina

liber

ada

media global

iijij yydentroe

y

yyij

yyentree iij

• Para obtener variabilidades promedio espreciso dividir cada suma de cuadrados por susgrados de libertad, obteniéndose así lavarianza dentro y la varianza entre.

2 DD

QSN r

2

1E

EQSr

2

?

Estadístico de contraste

El cociente entre la variabilidad “entre” y la variabilidad “dentro”, unavez que se han hecho comparables, sigue una distribución F deSnedecor con r-1 y N-r grados de libertad.

2

2

Dentro

Entreexp S

SF

Regla de decisión

Al comparar la variabilidad entre y la variabilidad dentro:

Rechazaremos la hipótesis nula siempre que la variabilidad “entre” seagrande, pero utilizando como patrón de comparación la variabilidad“dentro”.

Es decir, aceptaremos un efecto de los tratamientos siempre que estosproduzcan mayores diferencias en las unidades experimentales que las quehabría sin la aplicación de los mismos.

2

2

Dentro

Entreexp S

SF

Regla de decisiónSi el valor experimental Fexp supera el valor crítico de una F de Snedecor con r-1 y N-rg.l. al nivel de significación elegido, se rechazará la Ho de igualdad de mediaspoblacionales y se aceptará la alternativa de que al menos algún par de medias esdiferente.

p valor Rechazo Ho

Contraste Unilateral superior

F (r 1; r)

1

Si Fexp. Rechazo Ho

2 20

2 2

:

:D E

a E D

H

H

0.05

2

1,2

ˆˆ

Er N r

D

S FS

Como se trata de un contraste unilateral superior:

RC :

RA:

( 1, )/ r N rF F F

( 1, )/ r N rF F F

1 2 i r

notodaslasmedias soniguales

Por ello la hipótesis 1 2 ...... r

es equivalente a 2 2 20 : E DH

y la alternativa Ha: No todas son iguales es equivalente a

2 2E D

y así el test de comparación de medias se convierte en un test unilateral superior.

Presentación de resultadosCuadro del ANOVA

• La información completa del análisis se resume en forma de tabla, denominada tabla del ANOVA y resume toda la información necesaria para realizar el correspondiente contraste

ANOVA

FuenteSumas de

Cuadradosg.l. Estimadores Fexp.

Entre r-1

Residual N-r

Total N-1

2

1

r

Entre i ii

Q n x x

2

1 1

inr

Dentro ij ii j

Q x x

2 / 1Entre EntreS Q r

Fexp SEntre

2

SDentro2

2Dentro DentroS Q N r

2

1 1

inr

Total iji j

Q x x

Existen fórmulas abreviadas equivalentes quefacilitan enormemente los cálculos y evitan erroresde redondeo:

2

2.

2

iji j

iE

i i

iji j

Q x C

TQ Cn

xS ien d o C

N

Ejemplo base: La tabla siguiente ofrece datos de lasdisminuciones de actividad de r = 4 grupos de ratas trasla aplicación de 4 sustancias distintas. Las 24 ratastotales eran homogéneas y fueron divididas al azar en 4grupos de 6 ratas.

1 2 3 4 64 78 75 55 72 91 93 66 68 97 78 49 77 82 71 64 56 85 63 70 95 77 76 68

x1.= 72 x2.= 85 x3.= 76 x4. =62

21770 130537,524

C

2. 1636,5i

i iE

T CQn

Q = 642+……+682 -C= 3654,5

QD =3654,5-1636,5 = 2118

1 2 3 464 78 75 5572 91 93 6668 97 78 4977 82 71 6456 85 63 7095 77 76 68

n1=6 n2=6 n3=6 n4=6 N=24T 1.= 432 T 2. =510 T3.= 456 T4.= 372 1770ij

ij

x 2

1.

1

31104Tn

2

2.

2

43350Tn

2

3.

3

34656Tn

2

4.

4

23064Tn

2. 132274i

i i

Tn

2

2.

2

iji j

iE

i i

iji j

Q x C

TQ Cn

xS ien d o C

N

El objetivo es comparar si todos los tratamientostienen igual efecto o no:

1 2 3 4:Ho

:Ha no todas iguales

3654,5 2018,0 1636,5D EQ Q Q

2

2

2

2

2018,0ˆ 100,920

1636,5ˆ 545,51 3

ˆ5, 41ˆ

DD

EE

E

D

QSN rQSr

SFS

5%(3,20)

1%(3,20)

3,10

5,85

F

F

Generalmente los resultados se expresan en formade tabla de la forma:

Fuente variación

Suma de cuadrados

Grados libertad

Estimadores F experim

Entre 2. 1636,5i

Ei i

TQ Cn

r-1=3 2ˆ 5 5,1

4 5EE

QSr

2

25 1

ˆ*ˆ ,4E

D

SFS

Dentro D EQ Q Q = 2118

N-r =20 2 100,ˆ 9D

DQ

SN r

Total 3654,5Q

N-1= 23

¡¡¡Importante!!

EL ANOVA es una prueba de significación a nivel global

Nos dice si hay diferencias, pero no donde están las diferencias(es decir que par(es) de medias es (son) diferente(s))

Necesitamos realizar contrastes tras el ANOVA paraencontrar dichas diferencias

(es decir, para encontrar las causas de la significación)

Contrastes tras el ANOVA

Sin control riesgo tipo I:……………………………………..LSD

Tamaños iguales: TUKEY

Todas las comparacionesTamaños distintos: BONFERRONI

Con control riesgo tipo I

Comparar con un control: DUNNET

(test de la diferencia significativa mínima)

a) Hipótesis estadística:

H 0 : ( ; i, j 1, ..., r)

Ha:

b) Nivel de significación (usuales) 0,05 y 0,01

c) Estadígrafo de Contraste, :

d) Región crítica =

e) Región de aceptación =

i j

i j

2 1 1

i jN r

Di j

x xt

sn n

; ;/ N r N rt t t t

;/ N rt t t

,i j

Si n n n i, j; (i, j 1, 2, ...r )j i

t exp

Si

Llamando LSD

Por tanto, la cantidad LSD es la mínima diferencia que tenemos que encontrar entre las medias muestrales de dos tratamientos (niveles del factor) Para concluir que las medias son diferentes en sus respectivas poblaciones.

,

2 1 1i j

N r

D

x xt

sn n

Cte=C

0, * Rei j N rX X t C chazoH

, *N rt C

Rechazo H0

No es más que una t de Student (corregida ya que utilizamos un mejor estimadorde la única varianza poblacional) de modo que al realizar muchascomparaciones se incrementa el riesgo tipo I.

' K

H 0 : ( ; i, j 1, ..., r)

Se elige k= r (número de grupos a comparar), de forma que se

rechaza H0 para cada comparación si texp Tukey

El test de Tukey exige que todos los grupos tengan el mismo tamaño muestral. Se consigue un

,N r k

0.05

,i j i j

i j Ha:

b) Nivel de significación (usuales) 0,05 y 0,01c) Estadígrafo de Contraste:

,2 1 1

i j

N r K

D

x xt

sn n

K r

H 0 : ( ; i, j 1, ..., r)

Se elige k= r(r-1)/2 (número de todas las comparaciones porparejas), de forma que se rechaza H0 para cada comparación si

texp tBonferroni (N r ,k ). Consigue un 0 .0 5

,i j i j

i j Ha:

b) Nivel de significación (usuales) 0,05 y 0,01c) Estadígrafo de Contraste:

,

211 1

2

i jN r K

Di j

x xt

r rs

n nK

Si las unicas comparaciones con sentido son los de losdiferentes tratamientos con el control. Se elige k=(r-1)(numero de grupos menos uno).

Se rechaza la H0 si texp > tDunnett (N r, k ).

Es conveniente que todos los grupos tengan el mismo tamaño muestra.

Relación penalizaciones

Date post:	11-Feb-2017
Category:	Science
Upload:	j-m
View:	12 times
Download:	1 times

Analisis de la_varianza_

Science