Date post: | 18-Nov-2015 |
Category: |
Documents |
Upload: | davidarechaga |
View: | 46 times |
Download: | 4 times |
CAPITULO 7. ESTIMACION Y CONT-RASTES
Para leer
Lee, Captulo 4
Estimacion puntual
Para los bayesianos, el problema de estimaciones un problema de decision. Asociada con cadaestimador T hay una perdida L(T, ) que reflejala diferencia entre y T . Por ejemplo:
L(T, ) = (T )2, la perdida cuadratica
L(T, ) = |T |, la perdida lineal absoluta
L(T, ) =
{0 si T = 1 si T = , la perdida todo
o nada.
128
Definicion 9 El estimador Bayes TB es una
solucion de
TB = mnT
E[L(T, )]
Ejemplo 48 Dada la perdida cuadratica, cual
es el estimador Bayes?
E[L(T, )] =(T )2f() d
=
(T E[] + E[] )2 f() d
={(T E[])2 + (E[] )2}f() d
= V [] + (T E[])2
y entonces TB = E[] es el estimador Bayes.
129
Ejemplo 49 Con la perdida lineal absoluta, ten-
emos
E[L(T, )] =
|T |f() d
= T
(T )f() d +
+ T
( T)f() dd
dTE[L(T |)] = (T T)f(T) +
T
f() d
(T T)f(T) T
f() d
= F(T) (1 F(T))= 2F(T) 1
Entonces, recordando que en el mnimo la deriva-
da es igual a cero, tenemos F(TB) = 1/2 y el
estimador Bayes es la mediana de la distribu-
cion de .
130
Ejemplo 50 Suponiendo que es discreta, con
la perdida todo o nada se tiene
E[L(T, )] = =T
P()
= P( = T)y se minimiza la perdida esperada eligiendo el
estimador Bayes TB como la moda de la dis-
tribucion de .
Observacion 21 Esta perdida no se puede uti-
lizar con variables continuas porque P( = T) =
0 si es continua y entonces, la perdida esper-
ada sera 1 para cualquier eleccion de T .
131
Intervalos
Se han visto intervalos de credibilidad anteri-
ormente. Sigue la definicion formal.
Definicion 10 Si f(|x) es una densidad a pos-teriori, se dice que (a, b) es un intervalo de
credibilidad de 100 (1 )% siP(a b|x) = 1
Ejemplo 51 X| N (,1). Supongamos quef() 1, entonces, |x N (x,1/n) y algunosintervalos de credibilidad de 95% son
(, x+1,64/n) o (x 1,64/n,) o(x 1,96/n)
Hay muchos intervalos de credibilidad. El mas
corto se llama un intervalo de maxima den-
sidad a posteriori (MDP)
132
Definicion 11 El intervalo MDP de 100(1)% es el intervalo de forma
C = { : f() c()}donde c() es la constante mas grande cumplien-do
P(C) 1
Ejemplo 52 Volviendo al ejemplo 51, el inter-
valo MDP de 95% es
x 1,96/n
Se puede aplicar la definicion de un interva-
lo de credibilidad a densidades multivariantes
f(|x). En estas situaciones, se puede definiruna region de credibilidad C:
P( C|x) = 1 .
133
Contrastes
Consideramos las hipotesisH0 : 0H1 : 1 , donde
0 1 = y 0 1 = .
Teoricamente es facil distinguir entre las dos
hipotesis; dados los datos, solo se deben usar
las probabilidades a posteriori. Dada una fun-
cion de perdida, se elige aceptar o rechazar H0.
Ejemplo 53 Dada la perdida todo o nada,
L(H0, ) =
{0 si H0 es verdadero1 si H1 es verdadero
elegimos H0 si P(H0|x) > P(H1|x).
134
Ejemplo 54 Supongamos que X| N(,1).Queremos hacer el contraste: H0 : 0 frenteH1 : > 0. Si usamos una distribucion inicialno informativa para ,
f() 1,tenemos |x N
(x, 1n
). Entonces,
P(H0|x) = P( 0|x)= P
(n( x) nx|x
)=
(nx
)donde () es la funcion de distribucion nor-mal.
Observacion 22 Esta probabilidad es igual alp valor clasico para el contraste Hc0 : = 0frente H1 : > 0.
P(X x|H0) = P(
nX nx|H0)
= 1(
nx)
= (nx
)135
La paradoja de Lindley/Jeffreys
Consideramos el contraste H0 : = 0 frente
la alternativa H1 : = 0. En situaciones as,los resultados bayesianos pueden ser muy difer-
entes de los resultados clasicos.
Ejemplo 55 X| N (,1). Hacemos el con-traste H0 : = 0 frente H1 : = 0.
Se definen las probabilidades a priori
f0 = P(H0) = 0,5 = P(H1) = f1
y se supone que |H1 N (0,1).
Suponiendo que se observa la media de una
muestra de tamano n, se quiere calcular las
probabilidades a posteriori.
136
En primer lugar
0 = P(H0|x) f0f(x| = 0)
12
(n
2
)12exp
(nx
2
2
)
=K
2
(n
2
)12exp
(nx
2
2
)
para una constante K = f(x). Tambien
f(,H1|x) f1f(x|,H1)f(|H1)
12
(n
2
)12exp
(n(x )
2
2
)
(
1
2
)12exp
(
2
2
)
=K
2
(n
2
)12(
1
2
)12
exp(12
[n(x )2 + 2
])
donde K es la misma constante.
137
Entonces, se tiene
1 = P(H1|x)=
f(,H1|x) d
=
K
2
(n
2
)12(
1
2
)12exp
(12
[n(x )2 + 2
])d
=K
2
(n
2
)12(
1
2
)12
exp
(12
[(n+1)
( nx
n+1
)2 nx
2
n+1
])d
=K
2
(n
2
)12 1
n+1exp
( nx
2
2(n+1)
)
Recordando que 0 + 1 = 1, se tiene
K =
(1
2
( n2
)12
exp
(nx
2
2
)+
1
2
( n2
)12 1
n+1exp
( nx
2
2(n+1)
))1.
138
Entonces
0 =12
(n2
)12 exp
(nx22
)12
(n2
)12 exp
(nx22
)+ 1
2
(n2
)12 1
n+1exp
( nx2
2(n+1)
)=
exp(nx2
2
)exp
(nx22
)+ 1
n+1exp
( nx2
2(n+1)
)
=exp
(n(n+1)x2
2(n+1)
)exp
(n(n+1)x2
2(n+1)
)+ 1
n+1exp
( nx2
2(n+1)
)=
{1+
1n+1
exp
(n2x2
2(n+ 1)
)}1Consideramos el caso x = 2/
n > 1,96/
n.
Sabemos que si hubieramos hecho un contraste
clasico con un nivel de significacion de 95%, el
resultado habra sido significativo, y habramos
rechazado la hipotesis H0.
Pero 0 =
{1+
1n+1
exp(
n
n+1
)}1 1 cuando n .
139
Una muestra que nos llega a rechazar H0 con
un contraste clasico nos proporciona una prob-
abilidad a posteriori de H0 que se acerca a 1
cuando el tamano de la muestra es grande.
Esta paradoja se llama la paradoja de Lindley
y Jeffreys.
Observacion 23 La eleccion de la varianza de
en la distribucion inicial es bastante impor-
tante pero el ejemplo demuestra que no tiene
sentido usar niveles fijos de significacion segun
crece n.
Hipotesis nulos puntuales son poco razonables.
140
Factores Bayes
Tambien es util introducir otro concepto.
Supongamos que f0 = P(H0) y f1 = P(H1) y
que 0 = P(H0|x) y 1 = P(H1|x).
Definicion 12 Se define
B =0/1f0/f1
=0f11f0
el factor Bayes a favor de H0.
Observacion 24 El factor Bayes representa las
posibilidades (odds) a posteriori divididos por
las posibilidades a priori. Nos informe de los
cambios en nuestras creencias causados por los
datos.
Observacion 25 Es casi objetiva y parcialmente
elimina la influencia de la distribucion a priori.
141
Ejemplo 56 Supongamos el contraste simple
H0 : = 0 frente H1 : = 1. Tenemos
0 = P(H0|x) =f0l(0|x)
f0l(0|x) + f1l(1|x)1 = P(H1|x) =
f1l(1|x)f0l(0|x) + f1l(1|x)
Entonces el factor Bayes es
B =01
f1f0
=f0l(x|0)f1l(x|1)
f1f0
=l(0|x)l(1|x)
que coincide con la razon de verosimilutudes.
Entonces, la distribucion a priori no influye en
el factor Bayes.
142
Ejemplo 57 Se observa un dato de una dis-
tribucion exponencial con densidad
f(x|) = ex.Se quiere contrastar H0 : = 6 frente H1 : =
3. Cual es el factor Bayes?
B =l( = 6|x)l( = 3|x)
=6e6x3e3x
= 2e3x
Suponiendo que la probabilidad a priori de H0es 0,25, se puede demostrar que P(H0|x) < 0,5para cualquier valor de x.
En primer lugar, hallamos el factor Bayes.
143
B =P(H0|x)P(H1|x)
P(H1)
P(H0)
= 3P(H0|x)P(H1|x)
P(H0|x)P(H1|x)
=2
3e3x
y P(H0|x) 1/2 23e3x > 1 y entonces
x < 13log
3
2< 0
que es imposible.
Observacion 26 El factor Bayes es consistente.
Si H0 es verdadero, entonces B cuandon y si H1 es verdadero, B 0 cuandon .
144
El factor Bayes no elimina totalmente la influ-
encia de la distribucion a priori. Supongamos
que H0 y H1 son compuestos y entonces
B =P(H0|x)P(H1|x)
P(H1)
P(H0)
=f(x|H0)f(x|H1)
=
f(x|H0, 0)f(0|H0) d0f(x|H1, 1)f(1|H1) d1
donde f(0|H0) es la distribucion a priori bajola hipotesis H0 y f(1|H1) es la distribucion apriori bajo H1.
145
Ejemplo 58 Supongamos que X| E() co-mo en el Ejemplo 57. Ahora se quiere con-trastar H0 : = 6 frente a H1 : = 6. Sea ladistribucion a priori |H1 E(1/6).
Suponiendo que se observa un dato x comoanteriormente, se tiene
f(x|H0) = 6e6xy
f(x|H1) =
f(x|H1, )f(|H1) d
=
ex16e
16 d
=1
6
e
(x+16
)d
=1
6
21e
(x+16
)d
=1
6
(2)(x+ 16
)2=
6
(6x+1)2
146
Entonces el factor Bayes es
B = (6x+1)2e6x.
Supongamos ahora que las probabilidades a
priori son P(H0) = P(H1) = 0,5. Para cuales
valores de x es mas probable H0 a posteriori?
La probabilidad a posteriori de H0 es mayor
que 0,5 si B > 1. Construimos un grafico del
valor de B frente a x.
147
0.0 0.2 0.4 0.6 0.8 1.0
0.2
0.6
1.0
1.4
x
B
El modelo H0 es mas probable a posteriori si
x < 0,4188 a 4 plazas decimales.
Cual es el maximo valor posible de P(H0|x)?148
La probabilidad de H0 es maxima cuando el
factor Bayes es lo mas grande posible. Calcu-
lamos el maximo del factor Bayes como fun-
cion de x.
B = (6x+1)2e6x
logB = 2 log(6x+1) 6xd
dxlogB =
2
6x+1 6
0 =2
6x+1 6
36x = 8
x =2
9y en este caso, el valor de B es
B =(6 2
9+ 1
)2e6
29 = 1,43514
149
Recordamos que
B =P(H0|x)P(H1|x)
P(H1)
P(H0)
1,43514 =P(H0|x)
1 P(H0|x)P(H0|x) =
1,43514
1+ 1,43514 0,5893
es el maximo valor posible de la probabilidad a
posteriori.
150
Problemas y Generalizaciones
Si usamos distribuciones a priori impropias paralos parametros, puede que el factor Bayes noexista.
Volviendo a la situacion de la transparencia ,supongamos que f(0|H0) y f(1|H1) son im-propias, por ejemplo
f(i|Hi) = cigi(i)para algunas constantes ci indefinidas.
Luego
B =
f(x|H0, 0)f(0|H0) d0f(x|H1, 1)f(1|H1) d1
=c1c2
f(x|H0, 0)g0(0) d0f(x|H1, 1)g1(1) d1
que depende de la razon de las constantes in-definidas.
151
Hay algunas alternativas
factores Bayes fraccionales (OHagan, A.
Bayesian Inference, Edward Arnold, 1995)
factores Bayes intrnsicos (Berger J. y Per-
richi L. The Intrinsic Bayes Factor for lin-
ear models. En Bayesian Statistics V, eds
Bernardo et al, O.U.P., 23 42.)
Los dos metodos utilizan partes de los datos
para crear una distribucion inicial propia.
152