L’Estadística: una eina al serveidel coneixement
Joan del Castillo
2 d’Abril de 2004
Qüestions d’interès
El tabac provoca càncer ?Els medicaments són efectius ?Els preservatius eviten la SIDA ?Les enquestes electorals estan ben fetes ?Un joc d’atzar està manipulat ?Hi ha fenòmens paranormals ?
Índex
1. Determinisme i aleatorietat.2. L’Estadística i l’evolució.3. El test X2
n de Pearson.
1. Determinisme i aleatorietat
L’Estadística: una eina al servei delconeixement
Isaac Newton
“Philosophiae Naturalis PrincipiaMathematica”, 1687.El paradigma del determinisme científic.
El moviment dels planetes, les marees.Les lleis físiques, els principis i les prediccions.
El mètode científic.Altres tipus de veritats: El testimoni.
2
m MF GR
=
2
m Mmg GR
=
El sistema solar conegut el 1770
J D Titus i J E Bode (1770)
Els sis planetes coneguts segueixen la seriede distàncies al Sol:
( ) ( ) ( ) ( ) ( ) ( ) ( )1 4 3 4 6 4 12 4 24 4 48 4 96 4, , , , , ,
10 10 10 10 10 10 10+ + + + + + +
( )0.5 0.7 1 1.6 2.8 5.2 10− − − − − −
Carl Fredr. Gauss
Gener 1801 Piazzi descobreix Ceres a 2.8 !Al febrer es posa malalt.Ceres passa darrera el Sol.Gauss: prediu la posició.
Inventa els mínims quadrats.Mesures amb errors.
Olbers el localitza.
La llei dels errors
Distribució normal de probabilitats
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0,350
0,400
0,450
-5 -4 -3 -2 -1 0 1 2 3 4 5
21 exp22x
π −
La llei dels errors
Distribució normal de probabilitats
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0,350
0,400
0,450
-5 -4 -3 -2 -1 0 1 2 3 4 5
21 exp22x
π −
95%
Gauss arriba als bitllets de Banc
2. L’Estadística i l’Evolució
L’Estadística: una eina al servei delconeixement
“On the Origin of Species by Means of the Natural Selection...” (1859).
Els organismes competeixen pels recursos, els que tenen un avantatge innat prosperen i eltransmeten als descendents.
G.Mendel el 1865 explica el mecanisme.L’ADN de Crick i Watson (1953).
Charles Darwin
Galton, Pearson i Fisher
Galton, el cosí de Darwin.La recta de regressió.
K. Pearson (1900).El test X2.
Els 20 del segle XX.R. Fisher (1920).
Genètica de poblacions.Disseny d’experiments.
Recollida d’informacióCodi Edat (anys) Gènere Pes Alçada Tabac
1 20 f 61 170 12 20 f 65 171 03 19 f 55 166 04 20 f 63 170 15 18 f 56 170 16 18 f 59 160 07 16 f 58 165 08 20 f 57 169 19 20 f 58 165 110 20 f 50 153 111 18 m 90 171 112 18 m 60 168 113 19 m 61 172 114 22 m 72 187 015 21 m 65 170 0
Evolució de les freqüènciesCodi Tabac Acumulades F. Relatives
1 1 1 1.0002 0 1 0.5003 0 1 0.3334 1 2 0.5005 1 3 0.6006 0 3 0.5007 0 3 0.4298 1 4 0.5009 1 5 0.556
10 1 6 0.60011 1 7 0.63612 1 8 0.66713 1 9 0.69214 0 9 0.64315 0 9 0.600
•Variable Tabac:•Freqüencies relatives
•Freqüencies absolutes
Frequències relativesEvolució de la freqüencia relativa dels fumadors (Tabac)Tabac
Fre. Relativa1.0000.5000.3330.5000.6000.5000.4290.5000.5560.6000.6360.6670.6920.6430.600
Fre. Relativa
0.000
0.200
0.400
0.600
0.800
1.000
1.200
0 2 4 6 8 10 12 14 16
Límit de les freqüènciesFeqüència de fumadors en una mostra de 931 persones
Freq_relativa
0.000
0.200
0.400
0.600
0.800
1.000
1.200
0 100 200 300 400 500 600 700 800 900 1000
La llei dels errors
Distribució normal de probabilitats
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0,350
0,400
0,450
-5 -4 -3 -2 -1 0 1 2 3 4 5
21 exp22x
π −
95%
Distància Probabilitat-Freqüència
Amb un 95% de confiança
1nf p
n− <
931, 0.448, ?nn f p= = =
0.415 0.481p≤ ≤
Estudi de dues variable
Dues variables contínues:Recta de regressió.
Dues variables discretes:Taules de contingència.Test Xi-quadrat de Pearson.
Una discreta i una contínua:Proves t de comparació de grups.Anàlisi de la variancia.
Relació pes i alçada
Recta de regressió
0
20
40
60
80
100
120
150 160 170 180 190 200
Alçada (cm)
Pes
(Kg)
Relació pes i alçada
Recta de regressió
0
20
40
60
80
100
120
150 160 170 180 190 200
Alçada (cm)
Pes
(Kg)
Índex de massa corporal
Classificació de la OMS:
Index de massa corporal:Normal: de 18.5 a 24.5Sobrepes: de 24.5 a 27Obesitat: més de 27
( )2 2
Pes(Kg)Alçada
IMCm
=
3. Test X2n de Pearson
L’Estadística: una eina al servei delconeixement
Recollida d’informacióCodi Edat (anys) Gènere Pes Alçada Tabac
1 20 f 61 170 12 20 f 65 171 03 19 f 55 166 04 20 f 63 170 15 18 f 56 170 16 18 f 59 160 07 16 f 58 165 08 20 f 57 169 19 20 f 58 165 110 20 f 50 153 111 18 m 90 171 112 18 m 60 168 113 19 m 61 172 114 22 m 72 187 015 21 m 65 170 0
Hi ha relació gènere-Tabac ?Homes Dones Total
Fumador 217 200 417No_Fuma 244 270 514Total 461 470 931
( ) ( )( )
( ) ( )( )
217 0.471461
200 0.426470
f H Ff F H
f H
f F Df F D
f D
∩= = =
∩= = =
Suposant independènciaHomes Dones Total
Fumador E11 E12 417No_Fuma E21 E22 514Total 461 470 931
( )
( )11
461 417( ) ( )931 931
206.48461 417931
P H F P H P F
E n P H F
∩ = ⋅ = ⋅
⋅= ⋅ ∩ = =
Comparem les dues taules
Observats Homes Dones TotalFumador 217 200 417No_Fuma 244 270 514Total 461 470 931
Esperats Homes Dones TotalFumador 206.48 210.52 417No_Fuma 254.52 259.48 514Total 461 470 931
Test X2n de Pearson
Un dels 20 descobriments més importants del Segle XX
( )22
, 1
3.84ij ij
i j ij
E OE=
−≤∑
En el 95% dels casos, si hi ha independència
No hi ha evidència de diferències
Observat Esperat X2
217 206.48 0.54244 254.52 0.43200 210.52 0.53270 259.48 0.43
p-valor = 0.1657 1.92
( )22
, 1
1.92 3.84ij ij ns
i j ij
E OE=
−= ≤∑
Test X2n de Pearson
Hacking (1984). “Trial by number”. Science, 84, 69-70.
Cita de: C.R.Rao, “Estadística y verdad”. PPU. Barcelona, 1994.
Fumar provoca càncer ?Cancer Altres Total
Fumador 348 3152 3500No_Fuma 82 1418 1500Total 430 4570 5000
( ) ( )( )
( ) ( )( )
348 0.0993500
92 0.0551500
f C Ff C F
f F
f C Ff C F
f F
∩= = =
∩= = =
Fumar provoca càncer ?Observats Càncer Altres TotalFumador 348 3152 3500No_Fuma 82 1418 1500Total 430 4570 5000
Esperats Càncer Altres TotalFumador 3500No_Fuma 1500Total 430 4570 5000
Fumar provoca càncer ?Observats Càncer Altres TotalFumador 348 3152 3500No_Fuma 82 1418 1500Total 430 4570 5000
Esperats Càncer Altres TotalFumador 301 3199 3500No_Fuma 129 1371 1500Total 430 4570 5000
Sí, el tabac provoca càncer !Observat Esperat X2
348 301 7.3482 129 17.12
3152 3199 0.691418 1371 1.61
p-valor 2.29801E-07 26.76
( )22
**
, 1
26,76 3.84ij ij
i j ij
E OE=
−= >∑
Què és un fet estrany ?
Estrany, estadísticament: Allò que passa un 1 cop de cada 20.
Molt estrany: Allò que passa un 1 cop de cada 100.
Si no és estrany, en direm “normal”.
1/ 20 0.05p = =
1/100 0.01p = =
No hi ha evidència de diferències
Observat Esperat X2
217 206.48 0.54244 254.52 0.43200 210.52 0.53270 259.48 0.43
p-valor = 0.1657 1.92
( )22
, 1
1.92 3.84ij ij ns
i j ij
E OE=
−= ≤∑
Sí, el tabac provoca càncer !Observat Esperat X2
348 301 7.3482 129 17.12
3152 3199 0.691418 1371 1.61
p-valor 2.29801E-07 26.76
( )22
**
, 1
26,76 3.84ij ij
i j ij
E OE=
−= >∑
Podem controlar l’Atzar
Sabem mesurar la variabilitat produida per l’atzar.És possible saber la veritat i és fàcil detectar mentides.Podem fixar un nivell de confiança per a les nostres afirmacions.
En biologia el nivell habitual és: 95% - 99%.
Assaig clínic
Fase I: de 20-80 individus.Seguretat, dosis terapèutica, efectes adversos.
Fase II: de 100 a 300 individus.Eficàcia i seguretat.
Fase III: de 1000 a 3000 individus.Confirmar l’eficàcia, comparar amb el millor.
Fase IV: Ja comercialitzat.
Un control a doble cec
Tractament i control (efecte placebo).Repartits aleatòriament, només l’ordinador coneix la clau. Els pacients no ho saben, els terapeutes tampoc (metges, infermeres, farmacèutics).Tots els informes escrits i segellats.Ser-ne partidari o contrari no canvia el resultat.