Date post: | 02-Feb-2016 |
Category: |
Documents |
Upload: | goito-caballero |
View: | 216 times |
Download: | 0 times |
Captura i recaptura: un Captura i recaptura: un mètode per calcular el mètode per calcular el
nombre de consumidors nombre de consumidors de droguesde drogues
Pere PuigPere Puig
Servei d’Estadística de la UABServei d’Estadística de la UAB
Quants peixos hi ha en aquest Quants peixos hi ha en aquest estany ?estany ?
Mètode per calcular Mètode per calcular l’abundància de la poblaciól’abundància de la població
Capturem un nombre determinat de peixos, Capturem un nombre determinat de peixos, els marquem i els deixem una altra vegada els marquem i els deixem una altra vegada a l’estany.a l’estany.
Passat un temps prudencial per que els Passat un temps prudencial per que els marcats es barregin amb els altres, tornem marcats es barregin amb els altres, tornem a fer una segona captura.a fer una segona captura.
Amb aquesta segona captura trobarem que Amb aquesta segona captura trobarem que uns peixos ja estan marcats (recapturats) i uns peixos ja estan marcats (recapturats) i que d’altres no. Aquesta informació ens que d’altres no. Aquesta informació ens permet calcular l’abundància de la població.permet calcular l’abundància de la població.
Capturem uns quants i els Capturem uns quants i els marquemmarquem
Els marcats queden repartits Els marcats queden repartits homogèniament entre els altres.homogèniament entre els altres.
Tornem a fer una segona Tornem a fer una segona capturacaptura
Hem capturat 8, dels quals 2 estan marcats.
Si Si nn11 és la quantitat de peixos obtinguts (i posteriorment és la quantitat de peixos obtinguts (i posteriorment marcats) a la primera captura, marcats) a la primera captura, nn22 el nombre de peixos de el nombre de peixos de la segona captura, la segona captura, mm la quantitat dels que es troben la quantitat dels que es troben marcats en aquesta segona captura i marcats en aquesta segona captura i NN és el nombre total és el nombre total de peixos a l’estany, es verifica de peixos a l’estany, es verifica
i, per tant,i, per tant,
n
n2
1 m
N
mN nn 21
Pel nostre exemple, Pel nostre exemple,
nn1 1 = 5= 5
nn2 2 = 8= 8
m = 2m = 2
202
85N̂
mN̂ nn 21
Això és el que es coneix com l’estimador de Lincoln-Petersen de la grandàriapoblacional.
L’estimador de Lincoln-Petersen no té L’estimador de Lincoln-Petersen no té sentit quan m=0.sentit quan m=0.
És una variable aleatòria.És una variable aleatòria. Té un biaix que es pot corregir utilitzant Té un biaix que es pot corregir utilitzant
l’estimador de Chapman (1951): l’estimador de Chapman (1951):
11)(m
)1)(1( nnN̂
21
c
Pel nostre exemple:
1711)(2
)18)(15(N̂c
L’estudi d’aquests estimadors es basa en el fet L’estudi d’aquests estimadors es basa en el fet que, fixats que, fixats nn11 i i nn22, el nombre de peixos de la , el nombre de peixos de la segona captura segona captura mm segueix una distribució segueix una distribució hipergeomètrica. És a dir, hipergeomètrica. És a dir,
Els valors que pot prendre Els valors que pot prendre m m es troben a l’intervales troben a l’interval
2
2
11
n
N
kn
nN
k
n
k)P(m
),(),,0( 2112 nnminNnnmax
La seva variància es pot estimar fent servir l’expressió,
22121
c 1)2)(m(m
)m)(m)(1)(1()(V nnnn
N̂
i això ens permet calcular un interval de confiança aproximat (95%):
)(V96.1 N̂N̂N cc
Pel nostre exemple,
1017 2796.117N
La precisió de l’estimació es pot augmentaragafant n1 i n2 més grans.
El procés de captura i marcatge es pot repetir unes quantes vegades més. A cada pas es verificaria si els individus capturats estan marcats i, en cas contrari, es marcarien abans de deixar-los anar.
Estimador de Schnabel (1938)
Els divulgadors del mètode
Condicions bàsiques del modelCondicions bàsiques del model
La població és tancada. La població és tancada. Cada mostra és aleatòria.Cada mostra és aleatòria. Tots els animals tenen la mateixa Tots els animals tenen la mateixa
probabilitat de ser capturats a cada probabilitat de ser capturats a cada mostra.mostra.
Captura i marcatge no afecten a la Captura i marcatge no afecten a la probabilitat de recaptura.probabilitat de recaptura.
Les marques no desapareixen o es Les marques no desapareixen o es perden. perden.
Laplace, el 1783, va utilitzar aquest mètode per estimar el nombre d'habitants de França.
Un cens incomplet va ser la primera captura (n1). Els individus d’una enquesta van constituir la segona (n2). Els individus coincidents en ambdues llistes o fonts varen configurar la quantitat m.
El precursor
En Ciències Socials i en Epidemiologia els mètodesde captura i recaptura es fan servir analitzant diverses llistes d’individus o fonts i mirant les coincidències.
Exemple (àrea de Casale Monferrato 1988)
-Llista de pacients de diabetis de centres hospitalaris públics i privats de la regió. Total pacients: 452.
-Llista computeritzada de prescripcions d’insulina.Total: 1135.
-Individus coincidents en ambdues llistes: 249.
Per aquest exemple, Per aquest exemple,
nn1 1 = 452= 452
nn2 2 = 1135= 1135
m = 249m = 249
11)(m
)1)(1( nnN̂
21
c
205711)(249
)11135)(1452(N̂c
5900)(V N̂c
1512057 590096.12057N
Problemes al treballar amb Problemes al treballar amb llistesllistes
Heterogeneïtat: Diferents individus tenen diferents probabilitats de ser “capturats”. Els valors poden dependre del sexe, edat, situació social, etc. Dependència: El fet de que un individu estigui en una llista afecta a la probabilitat de que estigui en una altra.
Possibles solucionsPossibles solucions
Heterogeneïtat: Estratificació. Considerar un model independent per cada agrupació o estrat. Dependència: Models més complicats. Per exemple els models log-lineals.
Models Log-LinealsModels Log-Lineals
Si NoSi n11 n10
No n01 n00
La informació procedent de dues llistes la podem representar en una taula de contingència.
Llista 1
Llista 2
n00 no és observable
N= n11 + n10 + n01 + n00Grandària de la població:
Si NoSi 249 203
No 886 n00
Centres hospitalaris
Prescripcions Insulina
Per l’exemple dels pacients de diabetis,
N= 1338 + n00Grandària de la població:
La idea dels models log-lineals es basa en suposar que
log(E(nij))= a + b L1 + c L2 + d L1 L2 ,
on L1 i L2 són variables indicadores de cadascuna de les llistes i a,b,c,d són paràmetres a estimar.
El paràmetre que més ens interessa és l’a.
El coeficient d mesura la dependència existent entre ambdues llistes.
Malauradament aquest model no és estimable per què hi ha massa paràmetres. Quan tenim dues llistes només s’utilitza el model en que es suposa independència ,
log(E(nij))= a + b L1 + c L2
Una justificació intuïtiva del model log-lineal la podem fer considerant que en un model multinomial, tindríem
)plog()plog()Nlog())E(nlog(
pNp)E(n
2111
2111
Model amb tres llistes.Model amb tres llistes.
Es vol conèixer la quantitat d’atacs de gossos que hiha hagut en una determinada ciutat en un cert períodede temps.
Disposem de tres llistes de registres: C. Animal Hospital Policia N. atacs 1 1 1 1 0 1 1 7 1 0 1 15 0 0 1 326 1 1 0 27 0 1 0 323 1 0 0 91 0 0 0 ?
El model log-lineal més general que podem considerar és,
log(E(nij))= a + b L1 + c L2 + d L3 + e L1 L2 + f L1 L3+g L2 L3
on L1 , L2 i L3 són les variables indicadores de cadascuna de les llistes.
El paràmetre d’interès és l’a.
No podem incloure una interacció d’ordre 3 (L1 L2 L3)
per què el model estaria sobre-parametritzat.
Per ajustar el model farem servir un paquet estadístic adient: GLIM, SAS, S-Plus, etc.
Programa SAS per ajustar les Programa SAS per ajustar les dades:dades:
data a;input l1 l2 l3 n;l12=l1*l2;l13=l1*l3;l23=l2*l3;cards;1 1 1 10 1 1 71 0 1 150 0 1 3261 1 0 270 1 0 3231 0 0 91;proc genmod;model n=l1 l2 l3 l12 l13 l23/d=poisson;estimate 'missing' intercept 1/exp;run;
El model s’ha d’afinar eliminant els termes que no siguin rellevants.
Pel nostre exemple el submodel més adient ha estat el següent:
log(E(nij))= a + b L1 + c L2 + d L3 + g L2 L3
El nombre estimat d’atacs no registrats (missing) ha estat de 1388.
Afegint els registrats, això ens dóna un total de 2178.
Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF
Deviance 2 3.8174 1.9087 Scaled Deviance 2 3.8174 1.9087 Pearson Chi-Square 2 3.8535 1.9268 Scaled Pearson X2 2 3.8535 1.9268 Log Likelihood 3514.5195
SAS output 1:
SAS output 2:
Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq
Intercept 1 7.2358 0.1891 6.8651 7.6065 1463.75 <.0001 l1 1 -2.7250 0.1574 -3.0335 -2.4164 299.65 <.0001 l2 1 -1.4414 0.1889 -1.8116 -1.0712 58.24 <.0001 l3 1 -1.4674 0.1891 -1.8380 -1.0969 60.24 <.0001 l23 1 -2.3111 0.4045 -3.1038 -1.5183 32.65 <.0001 Scale 0 1.0000 0.0000 1.0000 1.0000
Standard Chi- Label Estimate Error Alpha Confidence Limits Square Pr > ChiSq
missing 7.2358 0.1891 0.05 6.8651 7.6065 1463.7 <.0001 Exp(missing) 1388.279 262.5616 0.05 958.2769 2011.232