Introdução à AnáliseEstatísticacom
Modelos de probabilidade.Inferência Estatística: Intervalos de Confiança
e Testes de Hipóteses
Aulas 4 e 5
Manuela Neves - Setembro/2012
Manuela Neves - ISA/Setembro 2012 – p. 1/81
SumárioProbabilidade. Modelos de Probabilidade
Modelos discretos e contínuos.
Funções em para os modelos mais usuais.
Inferência Estatística (introdução):
Distribuições de amostragem.
Intervalos de Confiança e Testes de Hipóteses
Testes Paramétricos a valores médios, variâncias e
proporções (uma população e duas populações).
Testes Não Paramétricos: testes de ajustamento; testes do
qui-quadrado; testes sobre medidas de localização central.
Exemplos vários
Manuela Neves - ISA/Setembro 2012 – p. 2/81
Probabilidade
Os conceitos de aleatoriedade e probabilidade são centrais em
Estatística.
Pensar em dados como valores extraídos de uma população
(modelo) é fundamental para compreender os procedimentos
estatísticos.
Veremos procedimentos básicos em probabilidade: - como
efectuar amostragem aleatória; como aceder e usar funções
que o ambiente tem definidas, etc.
Podemos usar aquelas funções para calcular uma
probabilidade, um quantil ou gerar números pseudo-aleatórios
de acordo com a lei de probabilidade (fundamental em
simulação).
Manuela Neves - ISA/Setembro 2012 – p. 3/81
A função sample( )A função sample - permite criar uma amostra aleatória a partir
dos elementos de um vector, com ou sem reposição -> a omissão
é “sem reposição”, com probabilidades iguais ou não.
>sample(1:20,15)
Selecciona aleatoriamente 15 números de 1 a 20 sem reposição
>sample(1:20,15,rep=T)
Selecciona com reposição com probabilidades iguais
Para seleccionar, com reposição, de acordo com uma lei de
probabilidade, fazer, por exemplo:
>pb<-c(rep(0.1,3),.2,.3,.2);pb
>sample(1:6,30,rep=T,prob=pb)
Nota: para gerar sempre a mesma sucessão fazer >set.seed( )
Manuela Neves - ISA/Setembro 2012 – p. 4/81
O conceito de vari avel aleat oria
Quando se realiza uma experiência aleatória, pode associar-se a
cada resultado um (ou mais) valores reais - diz-se que temos uma
variável aleatória ou (um vector aleatório).
Uma variável aleatória costuma representar-se por X.
Um variável aleatória pode ser:
discreta - por exemplo o número de sementes germinadas; o
registo, a intervalos regulares, do número de pessoas em fila
de espera na caixa de um supermercado;
contínua - por exemplo o peso de um indivíduo; a largura, o
comprimento de um folha.
Manuela Neves - ISA/Setembro 2012 – p. 5/81
Vari avel aleat oria - probabilidade
Associadas a cada variável aleatória existem:
uma função massa de probabilidade, se X discreta, ou uma
função densidade, se X contínua.
uma função real F , a que se chama função distribuição
cumulativa tal que
F (x) = P [X ≤ x]
Exemplos de cálculo de uma probabilidade:
1. P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a);
2. P (X = a) = F (a) − F (a−) onde F (a−) = limx→a−F (x)
3. P (a < X < b) = P (X < b) − P (X ≤ a) = F (b−) − F (a);
Manuela Neves - ISA/Setembro 2012 – p. 6/81
Principais modelos discretos
A distribuição uniforme discreta
Definição Uma v.a. X diz-se ter distribuição uniforme discreta se
toma os valores x1, ..., xk com probabilidades 1/k, ..., 1/k, i.e.
P (X = xi) = 1/k, i = 1, ..., k.
Caso particular X =
1 2 · · · n
1/n 1/n · · · 1/n
Valor m edio e vari ancia
E[X] = n+12
; V ar[X] = n2−1
12
Instrução no para simular > sample(v,size,rep=T)v vector com os valores que a variável pode tomar
Manuela Neves - ISA/Setembro 2012 – p. 7/81
Exemplo
> par(mfrow=c(2,2))
> x1<-sample(1:6,30,rep=T);x1
> dist1<-table(x1);dist1
> plot(dist1)
Repetir para 300, 3000 e 30000. Ver diagramas obtidos no slide
seguinte.
Nota: Outra forma de proceder no seria definir uma função, por
exemplo:
> dado<-function(n) sample(1:6,n,replace=T)
> d1<-dado(30);table(d1)
> table(dado(30)) # Haver a alguma diferenca?
> dado(300);dado(3000)
Manuela Neves - ISA/Setembro 2012 – p. 8/81
Graficos de v arios lancamentos
01
23
45
6
x1
dist1
1 2 3 4 5 6
010
3050
x2
dist2
1 2 3 4 5 6
010
030
050
0
x3
dist3
1 2 3 4 5 6
020
0040
00
x4
dist4
1 2 3 4 5 6
Manuela Neves - ISA/Setembro 2012 – p. 9/81
A distribuic ao binomial
Quando se realizam n provas de Bernoulli independentes, a
variável que conta o número de sucessos que ocorrem diz-se ter
distribuição binomial e representa-se por X ⌢ Binom(n, p),
sendo p a probabilidade de sucesso.
X toma os valores x = 0, 1, 2, ..., n com probabilidades
P [X = x] =(nx
)px (1 − p)n−x
Valor m edio e vari ancia
E[X] = np; V ar[X] = npq
Para determinar o valor daquelas probabilidades, quantis ou a
função distribuição cumulativa o possui funções já definidas.
Manuela Neves - ISA/Setembro 2012 – p. 10/81
Func oes no para alguns modelos
dfunção (x, ...) - permite obter a função massa de
probabilidade (modelo discreto) ou a função densidade
(modelo contínuo) em x;
pfunção(q, ...) - permite obter a função de distribuição
cumulativa, i.e., devolve a probabilidade de a variável ser
menor ou igual a q;
qfunção (p, ...) - permite calcular o quantil associado à
probabilidade p;
rfunção (n, ...) - permite gerar uma amostra de n números
pseudo-aleatórios do modelo especificado.
Significado:
density, probability, quantile, random
Manuela Neves - ISA/Setembro 2012 – p. 11/81
Exemplos
Exercício Vamos experimentar a utilização das funções d, p, q, r.
Considere-se uma Binom(n = 10, p = 0.2).
> x<- 0:10
> dbinom(x,size=10,prob=0.2)
> pbinom(3,size=10,prob=0.2,lower.tail = TRUE) #d a P[X<=3]
> qbinom(0.75, size=10, prob=0.2, lower.tail = TRUE)
#da o quantil de probabilidade 0.75
> rbinom(5, size=10, prob=0.2)
> pbinom(3, size=10, prob=0.2, lower.tail = F) #d a P[X>3]
Nota O quantil é definido como o menor valor x tal que F (x) ≥ p,
sendo F a função distribuição cumulativa.
> par(mfrow=c(1,2))
> plot(x,dbinom(x,size=10,prob=0.2),type="h")
> plot(x,dbinom(x,size=10,prob=0.4),type="h")
Manuela Neves - ISA/Setembro 2012 – p. 12/81
Exemplos (continuac ao)
Para exemplificar a distribuição binomial teórica e simulada
(geração de números pseudo-aleatórios)
> par(mfrow=c(1,3))
> n<-5;p<-0.25
> x<-rbinom(100,n,p) # 100 random numbers
> ni<-table(x);ni
> fi<-ni/sum(ni);fi
> dbinom(0:n,size=5,prob=0.25)
> plot(fi,type = "h", col = "red",lwd=3,
+ main="Binom(n=5,p=0.25)",
> ylim=c(0,.5))
> xvals<-0:n;points(xvals,dbinom(xvals,n,p),type="h" ,lwd=3)
> points(xvals,dbinom(xvals,n,p),type="p",lwd=3)
... Repetir com n=15, n=50.
Manuela Neves - ISA/Setembro 2012 – p. 13/81
Exemplos (continuac ao)
0 2 4 6 8 10
0.00
0.15
0.30
x
dbino
m(x
, size
= 1
0, p
rob
= 0.
2)
0 2 4 6 8 10
0.00
0.10
0.20
x
dbino
m(x
, size
= 1
0, p
rob
= 0.
4)
0.0
0.1
0.2
0.3
0.4
0.5
Binom(n=5,p=0.25)
x
fi
0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
0.5
Binom(n=15,p=0.25)
x
fi
0 1 2 3 4 5 6 7 8
0.0
0.1
0.2
0.3
0.4
0.5
Binom(n=50,p=0.25)
x
fi
4 6 8 11 14 17 22
Manuela Neves - ISA/Setembro 2012 – p. 14/81
A distribuic ao Binomial Negativa
Num esquema de provas de Bernoulli considere-se fixo o
número de "sucessos", k.
Considere-se a seguinte interpretação (muito usada em ecologia):
- pretende-se contar o número de insucessos necessários até
obter aqueles k “sucessos”
A variável X assim definida, diz-se ter distribuição BinomialNegativa e é costume representar-se por X ⌢ BN(k, p)
p é a probabilidade constante de "sucesso"de prova para prova
k é o número de "sucessos"que se pretende obter.
Manuela Neves - ISA/Setembro 2012 – p. 15/81
A distribuic ao Binomial Negativa
Caracterização da v.a. X ⌢ BN(k, p):
Valores x = 0, 1, 2, ...
Probabilidades P [X = x] =(x+k−1
x
)pkqx
0 < p < 1, q = 1 − p
Valor m edio e vari ancia de X ⌢ BN(k, p)
E[X] = k qp
V ar[X] = kqp2
Exemplo de uma das funções em
> x <- 0:15 #vector de valores da vari avel
> dnbinom(x,size=6, prob= 0.4) #probabilidade de se
verificarem 0 a 15 insucessos at e haver 6 sucessos
#outra parametrizac ao que usa o valor m edio indicado acima
> dnbinom(x, mu = 9, size = 6)
Manuela Neves - ISA/Setembro 2012 – p. 16/81
A distribuic ao Geom etrica
Se k = 1, isto é, se pretendemos determinar o número de
insucessos até obter o 1o¯ sucesso, a variável X diz-se ter
distribuição Geométrica e é costume representar-se por
X ⌢ Geo(p)
> Ni <- rgeom(20, prob = 1/4)
> g1<-table(factor(Ni, 0:max(Ni)))
> plot(g1)
01
23
45
67
g1
0 1 2 3 4 5 6 7 8 9
Manuela Neves - ISA/Setembro 2012 – p. 17/81
A distribuic ao de Poisson
Definic ao A v.a X que conta o número de sucessos que ocorrem
num dado intervalo de tempo ou domínio ( independentemente do
número que ocorre em qualquer outro intervalo ou domínio
disjunto) diz-se ter distribuição de Poisson.
Depende apenas do parâmetro λ −→ número médio de sucessos
que ocorrem no intervalo de tempo ( ou na região especificada).
Representa-se por X ⌢ P (λ) e a lei de probabilidade é:
P [X = x] = e−λ λx
x! , x = 0, 1, 2....
Valor m edio e vari ancia E[X] = λ V ar[X] = λ.
> diff(ppois(c(47, 50), lambda = 50)) # P[47 < X <=50]
> ppois(50,50)-ppois(47,50) # verificar que e o mesmo
Manuela Neves - ISA/Setembro 2012 – p. 18/81
Modelos Contınuos
A distribuição normal ou de Gauss
Tem um papel fulcral nas Probabilidades e Estatística, porque:
muitas variáveis biométricas têm uma distribuição muito próxima danormal;
por vezes uma variável que não é normal pode ser transformada deum modo simples numa outra com distribuição normal;
a parte central de muitos modelos não normais é por vezesrazoavelmente bem aproximada por uma distribuição normal.
Uma v.a. contínua X diz-se ter distribuic ao normal com parâmetros
µ e σ e representa-se por X ⌢ N (µ, σ) se a sua f.d.p. é da forma:
f(x) = 1√
2π σexp
[−1
2
(x−µ
σ
)2]
−∞ < x < +∞, −∞ < µ < +∞, 0 < σ < +∞
Manuela Neves - ISA/Setembro 2012 – p. 19/81
A distribuic ao normal ou de Gauss
Propriedades da curva densidade da distribuic ao normal
1. É simétrica relativamente a µ.
2. É uma curva unimodal, a moda é µ.
3. Tem pontos de inflexão em µ + σ e µ − σ.
Se µ = 0 e σ = 1 a variável aleatória com distribuição N (0, 1)
chama-se normal reduzida Z ⌢ N (0, 1)
−5 0 5
0.0
0.2
0.4
f. densidade da N(0,1)
x
−5 0 5
0.0
0.2
0.4
f. densidade da N(0,2)
x
−5 0 5
0.0
0.2
0.4
f. densidade da N(2,2)
xGraficos da func ao densidade normal para alguns valores de µ e σ.
Manuela Neves - ISA/Setembro 2012 – p. 20/81
A distribuic ao normal ou de Gauss
#c alculos e graficos com a normal
> pnorm(1.96)
> pnorm(-1.96)
> pnorm(3,mean=5,sd=2)
> qnorm(0.75,mean=5,sd=1)
> qnorm(0.75,mean=5,sd=1,lower.tail=T)
> qnorm(0.25,mean=5,sd=1,lower.tail=F)
#graficos
> par(mfrow=c(1,2))
> x<-seq(-7,7,.01)
> plot(x,dnorm(x,0,1),type="l",ylim=c(0,.8),lwd=5)
> lines(x,dnorm(x,0,.6),col="red",lwd=3)
> lines(x,dnorm(x,0,2),col="blue",lwd=3)
> lines(x,dnorm(x,1,.6),col="green",lwd=3)
Manuela Neves - ISA/Setembro 2012 – p. 21/81
A distribuic ao normal (gr aficos)
# gerar valores (continuac ao do exerc ıcio)
> y<-rnorm(1000,mean=3,sd=1)
> hist(y,freq=F,ylim=c(0,0.5),
+ main="valores gerados+curva",col=gray(.9))
> curve(dnorm(x,mean=3,sd=1),add=T,lwd=3)
−6 −2 0 2 4 6
0.0
0.4
0.8
x
dn
orm
(x, 0
, 1
)
valores gerados+curva
y
De
nsi
ty
0 1 2 3 4 5 6
0.0
0.2
0.4
Manuela Neves - ISA/Setembro 2012 – p. 22/81
Outras distribuic oes contınuas
Distribuição uniforme e exponencial
> u<-runif(100)
> hist(u,freq=F,col=gray(.9),main="uniforme")
> curve(dunif(x),add=T,lwd=3)
# exponencial de valor m edio 2500
> x<-rexp(100,1/2500)
> hist(x,probability=TRUE,col=gray(.9),main="Exponen cial
com media 2500")
> curve(dexp(x,1/2500),add=T)
uniforme
u
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
1.2
Exponencialcom média 2500
x
Dens
ity
0 5000 10000 15000
0.00
000
0.00
015
Manuela Neves - ISA/Setembro 2012 – p. 23/81
A distribuic ao normal ou de Gauss
Resultados importantes:
Seja X ⌢ N (µ, σ) então a v.a.X − µ
σtem distribuição normal
reduzida, i.e., Z =X − µ
σ⌢ N (0, 1).
Sejam Xi n v.a. normais independentes e semelhantes, i.e.,
tendo todas o mesmo valor médio µ e a mesma variância σ2.
As variáveis aleatórias soma e média, definidas
respectivamente como
Sn =∑n
i=1 Xi e Xn = 1n
∑ni=1 Xi
têm distribuição normal assim definida
Sn ⌢ N (nµ, σ√
n) e Xn ⌢ N (µ, σ/√
n).
Manuela Neves - ISA/Setembro 2012 – p. 24/81
O Teorema Limite Central
Vimos que a soma de normais independentes é ainda uma normal.
Mas a distribuição aproximada da soma de n variáveis aleatórias
independentes e identicamente distribuídas, sob certas condições
é também normal.
Teorema limite central
Sejam X1, ...,Xn variáveis aleatórias independentes e
identicamente distribuídas, com valor médio µ e variância σ2
(finita). Se n ‘grande’ a v.a. Sn =∑n
i=1 Xi, verifica:
Sn − nµ
σ√
n∼ N (0, 1) e também se tem
Xn − µ
σ/√
n∼ N (0, 1).
Manuela Neves - ISA/Setembro 2012 – p. 25/81
Aplicac oes do Teorema Limite Central
> # Populac ao Uniforme(0,5)
> par(mfrow=c(2,2))
> am<-500
> vec.med<-c(rep(0,am))
> n<-c(2,3,10,30)
> for(j in 1:4)
+ {for(i in 1:am)
+ {x<-runif(n[j],0,5)
+ vec.med[i]<-mean(x)}
+ qqnorm(vec.med,main=paste("Q-QPlot Normal, n =",n[j],
+ "\n","M edias Pop. U(0,5),"),xlab="",
+ col="red")
+ qqline(vec.med,col="darkred")}
Manuela Neves - ISA/Setembro 2012 – p. 26/81
Aplicac oes do Teorema Limite Central
−3 −2 −1 0 1 2 3
01
23
45
Q−QPlot Normal, n = 2 Médias Pop. U(0,5),
Sam
ple
Qua
ntile
s
−3 −2 −1 0 1 2 3
12
34
Q−QPlot Normal, n = 3 Médias Pop. U(0,5),
Sam
ple
Qua
ntile
s
−3 −2 −1 0 1 2 3
1.0
1.5
2.0
2.5
3.0
3.5
Q−QPlot Normal, n = 10 Médias Pop. U(0,5),
Sam
ple
Qua
ntile
s
−3 −2 −1 0 1 2 3
2.0
2.5
3.0
Q−QPlot Normal, n = 30 Médias Pop. U(0,5),
Sam
ple
Qua
ntile
s
Manuela Neves - ISA/Setembro 2012 – p. 27/81
Aplicac oes do Teorema Limite Central
Seja X uma v.a. com distribuição binomial com valor médio µ = np
e variância σ2 = npq. Então quando n → ∞ ,
X − np√npq
∼ N (0, 1)
Regra prática Se na distribuição binomial np > 5 e nq > 5 =⇒a aproximação pela distribuição normal é boa.
Mais convergências
Se na distribuição binomial n → ∞ e p pequeno (digamos
p < 0.05 e n > 20) já se pode considerar boa a aproximação
X ⌢ B(n, p) ∼ P (np)
Seja X ⌢ P (λ). Quando λ → ∞ entãoX − λ√
λ∼ N (0, 1).
Manuela Neves - ISA/Setembro 2012 – p. 28/81
RESUMO de algumas distribuic oes noNome da distribuição no Função Argumentos
Beta beta shape1, shape2
Binomial binom size, prob
Cauchy cauchy location, scale
Chisquare chisq df
Exponential exp rate
FDist f df1, df2
GammaDist gamma shape, scale
Geometric geom prob
Hypergeometric hyper m, n, k
Lognormal lnorm meanlog, sdlog
Logistic logis location, scale
NegBinomial nbinom size, prob
Normal norm mean, sd
Poisson pois lambda
TDist t df
Uniform unif min,max
Weibull weibull shape, scaleManuela Neves - ISA/Setembro 2012 – p. 29/81
Mais umas dicas sobre distribuic oes no
Existem packages que apresentam facilidades no estudo de
modelos de probabilidade, ver detalhes em Kerns (2010).
Necessitamos da instalação dos packages distr e distrEx
>library(distr); library(distrEx)
>X <- Binom(size = 3, prob = 1/2);X #Vamos definir
Distribution Object of Class: Binom
size: 3
prob: 0.5
>E(X)
>var(X)
[1] 1.5
[1] 0.75
Manuela Neves - ISA/Setembro 2012 – p. 30/81
A Infer encia Estatıstica
Parâmetros populacionais. Estimadores e Estimativas.
Distribuições por amostragem - a distribuição Normal,
t-Student, qui-quadrado e F.
Intervalos de confiança e testes de hipóteses paramétricos.
Nível de significância e potência do teste.
Testes de hipóteses não paramétricos: o teste de Wilcoxon.
Testes de ajustamento. Testes de normalidade.
Manuela Neves - ISA/Setembro 2012 – p. 31/81
Introduc ao a Teoria da Amostragem
Seja X a população em estudo.
Na teoria da amostragem consideram-se procedimentos de
recolha de uma amostra da população.
Já vimos no como gerar distribuições conhecidas, vamos aqui
simular uma distribuição.
Vamos também considerar a Reamostragem Bootstrap. O
Bootstrap é um procedimento que consiste em reamostrar a partir
de uma amostra, para:
simular a distribuição de uma estatística de interesse;
estudar propriedades de um estimador - estimar viés,
variância e intervalos de confiança para o parâmetro.
Manuela Neves - ISA/Setembro 2012 – p. 32/81
Introduc ao a Teoria da Amostragem
> par(mfrow=c(1,2))
> Pr<-c(0.20,0.16,0.25,0.39)
> N<-c ("A", "C", "G", "U")
> barplot(Pr,names=N,ylab="Probabilidade", main="DNA" )
> am1<-sample(N,100,rep=T,prob=Pr);am1
> dist1<-table(am1);dist1
> freq<-dist1/sum(dist1)
> barplot(freq)
A C G U
DNA
Prob
abilid
ade
0.0
0.2
A C G U
0.00
0.15
0.30
Manuela Neves - ISA/Setembro 2012 – p. 33/81
Introduc ao a Teoria da Amostragem
> par(mfrow=c(2,2))
>data(faithful) # dados no R
>names(faithful) # d a os nomes vari aveis
>eruptions<-faithful$eruptions #ou attach e detach faith ful
>#eruptions <-faithful[[’eruptions’]] # outra alternati va
>hist(eruptions,breaks=25)
## vamos fazer o bootstrap da amostra
>hist(sample(eruptions,100,replace=TRUE),main="Boot strap",
breaks=25)
Histogram of eruptions
eruptions
Freq
uenc
y
1.5 2.5 3.5 4.5
05
1015
20
Bootstrap
sample(eruptions, 100, replace = TRUE)
Freq
uenc
y
1.5 2.5 3.5 4.5
02
46
810
Manuela Neves - ISA/Setembro 2012 – p. 34/81
Topicos de Estimac ao
Seja x1, x2, · · · xn uma amostra de n observações da
característica, obtidas após um processo de amostragem.
Cada um daqueles valores é uma realização de n variáveis que
são “cópias” da variável X. Sejam
X1, X2, · · · Xn
A Inferência Estatística pretende responder a dois grandes
problemas:
calcular valores aproximados (estimativas) e obter intervalos
de confiança para parâmetros desconhecidos da população.
formular hipóteses e verificar se há concordância entre o que
se supõe e os factos – testes de hipóteses
Manuela Neves - ISA/Setembro 2012 – p. 35/81
Topicos de Estimac ao
Parâmetros que vamos referir , seus estimadores e estimativas
Parâmetro a estimar Estimador Estimativa
µ X =∑n
i=1 Xi
n x =∑n
i=1 xi
n
σ2 S2 =∑n
i=1(Xi−X)2
n−1 s2 =∑n
i=1(xi−x)2
n−1
p P = X(a)
n p = x(b)
n
µ1 − µ2 X1 − X2 x1 − x2
σ21 / σ2
2 S21 / S2
2 s21 / s2
2
p1 − p2 P1 − P2 p1 − p2
(a) X - v.a. que conta ... e ˜ (b) x - número observado de sucessos na amostra de
dimensão n.
Manuela Neves - ISA/Setembro 2012 – p. 36/81
Topicos de Estimac ao
Para construir ...
Intervalos de confiança
Testes (paramétricos) de hipóteses estatísticas.
... é necessário conhecer a distribuição - exacta ou
aproximada - do estimador (ou qualquer expressão dele).
Manuela Neves - ISA/Setembro 2012 – p. 37/81
Distribuic oes por amostragem (uma amostra)
Estimador Condições Variável Distribuição
X Xi ⌢ N(µ, σ)X − µ
σ/√
nN(0, 1)
σ conhecido
X Xi ⌢ N(µ, σ)X − µ
S/√
nt(n−1)
σ desconhecido
X Xi qualquerX − µ
s/√
n∼ N(0, 1)
n “grande”
S2 Xi ⌢ N(µ, σ)(n − 1)S2
σ2χ2
(n−1)
P X ⌢ B(n, p)(a) X
n∼ N(0, 1)
n “grande”(a) X o n. de sucessos em n provas de Bernoulli.
Manuela Neves - ISA/Setembro 2012 – p. 38/81
Distribuic oes por amostragem (duas amostras)
Estimador Condições Variável Distribuição
S21/S2
2 Xi ⌢ N(µ1, σ1)S2
1/σ21
S22/σ2
2
F(n1−1,n2−1)
Yi ⌢ N(µ2, σ2)
Xi, i = 1, · · ·n1 e
Yi, i = 1, · · · n2 são amostras aleatórias independentes.
Definição Chama-se intervalo de confiança ao intervalo que
resulta da concretização do intervalo (aleatório) e é portanto um
intervalo (a, b), onde a e b são números reais e a < b.
Manuela Neves - ISA/Setembro 2012 – p. 39/81
Intervalos de confianca
Intervalo de confiança a (1 − α) × 100% para µ
X ⌢ N(µ, σ)
Se σ conhecido
x − zα/2σ
√
n< µ < x + zα/2
σ√
n
(zα/2 → valor da v.a. Z tal que P (Z > zα/2) = α/2)
Se σ desconhecido
x − tα/2,(n−1)s
√n
< µ < x + tα/2,(n−1)s
√n
Observac oes: Chama-se precis ao da estimativa à semi-amplitude do intervalo de confiança econfianca ou grau de confianca a (1 − α) × 100%
Quanto maior for o intervalo, maior é o grau de confiança, mas menor a precisão da
estimativa.
Manuela Neves - ISA/Setembro 2012 – p. 40/81
Intervalo de confianca (exemplo)
Exemplo de construção de um I.C. no , para o valor médio de
uma normal com variância conhecida (caso académico!)
Exemplo 1 Dada a amostra referente a 10 alturas, admita-se queos erros de medição são normais de média 0 e desvio padrão 1.5.
> x<-c(175,176, 173, 175, 174, 173, 173, 176, 173, 179)
## definir uma func ao
> simple.z.test <-function(x,sigma,conf.level=0.95) {
n <-length(x);xbar<-mean(x)
alpha <- 1 - conf.level
zstar <- qnorm(1-alpha/2)
SE <- sigma/sqrt(n)
xbar + c(-zstar * SE,zstar * SE) }
> simple.z.test(x,1.5) # basta fazer isto
Obteve-se o I.C a 95% para µ ]173.7703; 175.6297[Manuela Neves - ISA/Setembro 2012 – p. 41/81
Intervalos de confianca
Intervalo de confiança a (1 − α) × 100% para µ
Se X tem dist. qualquer não normal
É necessário dispor de uma amostra de dimensão elevada, i.e., n
grande −→ aplicação do Teorema Limite CentralX − µ
σ/√
n∼ N (0, 1) se σ conhecido
Ou, que é o caso mais frequente,X − µ
s/√
n∼ N (0, 1) se σ desconhecido
Intervalo a (1 − α) × 100% de confiança para µ
x − zα/2s
√n
< µ < x + zα/2s
√n
Manuela Neves - ISA/Setembro 2012 – p. 42/81
Intervalos de confianca
Intervalo a (1 − α) × 100% de confiança para σ2 numa população
normal
(n−1)s2
χ2α/2,(n−1)
< σ2 < (n−1)s2
χ21−α/2,(n−1)
Intervalo de confiança (1 − α) × 100% para p
p − zα/2
√p(1−p)
n< p < p + zα/2
√p(1−p)
n
onde X tem distribuição binomial de parâmetros (n, p) e n grande
Manuela Neves - ISA/Setembro 2012 – p. 43/81
Intervalos de confianca - duas populac oes
Intervalos de confiança a (1 − α) × 100% para µ1 − µ2 com
X1 ⌢ N (µ1, σ1) e X2 ⌢ N (µ2, σ2) e (amostras independentes)
se variâncias conhecidas
(x1 − x2) − zα/2
√σ2
1
n1
+σ2
2
n2
< µ1 − µ2 < (x1 − x2) + zα/2
√σ2
1
n1
+σ2
2
n2
se variâncias desconhecidas mas se pode admitir variâncias
iguais.
(x1 − x2) − tα/2 sp
√1
n1
+ 1n2
< µ1 − µ2 < (x1 − x2) + tα/2 sp
√1
n1
+ 1n2
tα/2 ≡ tα/2,(n1+n2−2) e s2p =
(n1−1)s2
1+(n2−1)s2
2
n1+n2−2
Manuela Neves - ISA/Setembro 2012 – p. 44/81
Intervalos de confianca - duas populac oes
Intervalo de confiança a (1 − α) × 100% para µ1 − µ2 (amostras
independentes) mas n1, n2 grandes (neste caso não é necessário
ter-se normalidade)
(x1 − x2) − zα/2
√s2
1
n1
+s2
2
n2
< µ1 − µ2 < (x1 − x2) + zα/2
√s2
1
n1
+s2
2
n2
Intervalo de confiança a (1 − α) × 100% paraσ2
1
σ22
s21
s22 fα/2;(n1−1,n2−1)
<σ2
1
σ22
<s21 fα/2;(n2−1,n1−1)
s22
Manuela Neves - ISA/Setembro 2012 – p. 45/81
Intervalos de confianca (amostras emparelhadas)
Intervalos de confiança para µ1 − µ2 (amostras emparelhadas)
Se numa dada experiência as observações estão relacionadas, i.e,
emparelhadas pelo indivíduo - surge aqui o conceito de bloco .
Consideremos a amostra emparelhada (Xi, Yi) (i = 1, ..., n)
Seja
D1 = X1 − Y1; D2 = X2 − Y2; ... Dn = Xn − Yn, isto é,
seja (D1,D2, ...,Dn) a amostra aleatória das diferenças
Manuela Neves - ISA/Setembro 2012 – p. 46/81
Intervalos de confianca (amostras emparelhadas)
Se D1, D2, ..., Dn são variáveis aleatórias provenientes de uma lei
normal com µD = µX − µY −→ valor médio e
variância σ2D, desconhecida tem-se
D − µD
SD/√
n⌢ t(n−1)
Intervalo de confiança a (1 − α) × 100% para µD
d − tα/2,(n−1)sD√
n< µD < d + tα/2,(n−1)
sD√
n
Se não for possível admitir Di normais, mas se tenha n ‘grande’ ointervalo de confiança (1 − α) × 100% para µD
d − zα/2sD√
n< µD < d + zα/2
sD√
n
Manuela Neves - ISA/Setembro 2012 – p. 47/81
Intervalos de confianca para p1 − p2
Sejam X1 e X2 variáveis aleatórias tais que
X1 ⌢ B(n1, p1) e X2 ⌢ B(n2, p2).
n1 e n2 dimensões de amostras aleatórias independentes
Intervalo de confiança a (1 − α) × 100% para p1 − p2 quando as
dimensões das amostras são elevadas
(p1 − p2) − zα/2
√p1 q1
n1
+ p2 q2
n2
< p1 − p2 < (p1 − p2) + zα/2
√p1 q1
n1
+ p2 q2
n2
Manuela Neves - ISA/Setembro 2012 – p. 48/81
Testes de Hip oteses
Os testes de hipóteses têm como objectivo decidir, com base na
informação fornecida pelos dados de uma amostra, se podemos
aceitar ou não uma dada hipótese.
Testes paramétricos – supõe-se conhecida, pelo menos aprox., a
forma da distribuição e as hipóteses a formular dizem respeito
ao(s) parâmetros(s)
Testes não paramétricos – neste caso pretende-se estabelecer
algo sobre forma da distribuição ou então para o estudo dos
parâmetros não se admite o conhecimento da distribuição.
Manuela Neves - ISA/Setembro 2012 – p. 49/81
Testes de Hip oteses
O procedimento num teste de hipóteses consiste em formular duas
hipóteses:
hipótese nula H0 é aqui que se especifica o valor do parâmetro ou
a distribuição a verificar
hipótese alternativa H1
A resposta num teste de hipóteses é dada na forma rejeição de H 0
ou não rejeição de H 0
Mas .... a tomada de decisões possui riscos (i.e. podem
cometer-se erros)
P(erro de 1a espécie)=P(Rejeitar H 0| H0 verdadeira)= α
P(erro de 2 espécie)=P(Não rejeitar H 0| H0 falsa) = β
Manuela Neves - ISA/Setembro 2012 – p. 50/81
Testes de Hip oteses
Então como se decide?
define-se uma variável aleatória – estatística do teste
define-se uma região de valores da variável que permite
decidir – região crítica ou região de rejeição – RC (os
valores restantes constituem a região de aceitação)
face a uma amostra observada calcula-se o valor da
estatística do teste
Se o valor calculado ∈ RC rejeita-se H 0
Se o valor calculado ∈ RC não se rejeita H 0
Manuela Neves - ISA/Setembro 2012 – p. 51/81
Testes de Hip oteses
A indicação do valor observado da estatística do teste, seguido da
consulta de uma tabela para a procura de um valor crítico, de modo
a tirar conclusões tem sido recentemente “substituído” pelo cálculo
de
– a probabilidade de se observar um valor igual ou mais extrem o do que o
observado, se a hip otese nula e verdadeira – chama-se a isto valor de
prova; valor p ( p-value )
Manuela Neves - ISA/Setembro 2012 – p. 52/81
Testes de Hip oteses
Interpretação: - valor de prova ; valor p ( p-value )é a medida do grau de concordância entre os dados e H 0;
AssimQuanto menor for o p-value, menor é a consistência entre osdados e a hipótese nula
Habitualmente adopta-se como regra de decisão:
rejeitar H0 se p-value ≤ α
Manuela Neves - ISA/Setembro 2012 – p. 53/81
Exemplo 2
Os dados seguintes referem-se à concentração total de azoto (ppm) naágua de um lago que é utilizado como fonte de abastecimento urbano.
0.042 0.023 0.049 0.036 0.045 0.025
0.048 0.035 0.048 0.043 0.044 0.055
0.045 0.052 0.049 0.028 0.025 0.039
0.023 0.045 0.038 0.035 0.026 0.059
a) Determine um intervalo de confiança para µ (a 99% de confiança).
b) Para ser aceitável como fonte de água potável, o conteúdo médio deazoto deve ser inferior a 0.07 ppm. Acha que os dados sãocompatíveis com aquele critério?
Manuela Neves - ISA/Setembro 2012 – p. 54/81
Resoluc ao do Exemplo (inıcio)
> azoto<-c(0.042,0.048,0.045,0.023,0.023,0.035,0.052 ,
+ 0.045,0.049,0.048,0.049,0.038,0.036,0.043, 0.045,
+ 0.025, 0.044, 0.055, 0.028, 0.025, 0.039,
+ 0.035, 0.026, 0.059)
> qqnorm(azoto)# este e um grafico para uma
#primeira pesquisa da normalidade
> qqline(azoto)
Histogram of azoto
azoto
Freq
uenc
y
0.02 0.04 0.06
01
23
45
6
−2 −1 0 1 2
0.02
50.
040
0.05
5
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple Q
uant
iles
Manuela Neves - ISA/Setembro 2012 – p. 55/81
Resoluc ao do Exemplo (continuac ao)> t.test(azoto,mu=0.0,conf.level=0.99) #alinea a)
One Sample t-test
data: azoto
t = 18.5066, df = 23, p-value = 2.606e-15
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
0.03382623 0.04592377
sample estimates:
mean of x
0.039875
> t.test(azoto, alternative=’less’, mu=0.07) #alinea b)
One Sample t-test
data: azoto
t = -13.9815, df = 23, p-value = 4.944e-13
alternative hypothesis: true mean is less than 0.07
95 percent confidence interval:
-Inf 0.04356776
sample estimates:
mean of x
0.039875
Manuela Neves - ISA/Setembro 2012 – p. 56/81
Exemplo 3
Um estudo pretende comparar um tipo de semente melhorada com o tipo de sementetradicional, usado anteriormente. A semente melhorada passará a ser utilizada se, emmédia, o crescimento das plantas após 20 dias fôr superior ao das sementes tradicionais.São criadas 15 diferentes situações laboratoriais, variando temperatura e humidade. Emcada situação semeia-se uma semente de cada tipo e obtêm-se os seguintes resultadospara o crescimento (em cms) das plantas após 20 dias :
Situação 1 2 3 4 5 6 7 8
‘novas’ sementes 3.46 3.48 2.74 2.83 4.00 4.95 2.24 6.92
‘velhas’ sementes 3.18 3.67 2.92 3.10 4.10 4.86 2.21 6.91
Situação 9 10 11 12 13 14 15
‘novas’ sementes 6.57 6.18 8.30 3.44 4.47 7.59 3.87
‘velhas’ sementes 6.83 6.19 8.05 3.46 4.18 7.43 3.85
Deverá passar a usar-se o novo tipo de sementes? Responda justificando e explicitando
quaisquer hipóteses adicionais que seja necessário impôr.
Manuela Neves - ISA/Setembro 2012 – p. 57/81
Exemplo 4
Pretende-se avaliar se um certo adubo A aumenta a produção de determinada cultivar docereal T . Para tal efeito um experimentador plantou 2 talhões com a referida cultivar, tendoaplicado o adubo A só num deles. De cada talhão foram então amostradas 12 áreas de1m2. Em cada uma destas áreas foram colhidas todas as plantas e pesado o grão. Osdados obtidos, expressos em gramas foram os seguintes:
Talhão 422 460 455 466 475 472 465 456 452 430 458 470
c/ adubo
Talhão 470 437 429 447 432 457 422 425 432 474 452 442
s/ adubo
1. Estabeleça as hipóteses a testar.
2. Teste as hipóteses da alínea anterior, para α = .05. O que decidiria quanto àutilização do adubo?
Manuela Neves - ISA/Setembro 2012 – p. 58/81
Intervalos de confianca e testes de hip oteses
Na resolução dos exemplos anteriores é necessário considerar
intervalos de confiança e testes de hipóteses para comparar os
valores médios de duas populações
>t.test(x, y ,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)
Realiza um teste e I.C. para amostras independentes, usando o t
de Welch-Satterthwaite para obter uma aproximação ao no¯ de
graus de liberdade.
Nota: Por omissão o t.test considera paired = FALSE,
var.equal = FALSE .
Manuela Neves - ISA/Setembro 2012 – p. 59/81
Intervalos de confianca e testes de hip oteses
Intervalo de confiança e teste de hipóteses para comparar 2
variâncias de populações que se admitem normais
>var.test(x, y, ratio = 1,
alternative = c("two.sided", "less",
"greater"),conf.level = 0.95, ...)
Intervalo de confiança e teste de hipóteses para comparar duas
proporções
>prop.test(x, n, p = 0.4, alternative = "less",
conf.level = 0.99, correct = FALSE)
Trata-se de um teste a p = 0.4 sem correcção de continuidade. É
obtido o intervalo a 99% de confiança.
Manuela Neves - ISA/Setembro 2012 – p. 60/81
Testes N ao Param etricos
Pode pensar-se em dois tipos de testes não paramétricos:
Testes de Ajustamento ou “goodness-of-fit tests” que têm
como objectivo decidir se a nossa amostra se pode considerar
proveniente de uma população com uma distribuição
especificada.
Destes têm particular interesse os testes de ajustamento à
normalidade
Testes não paramétricos designados por “distribution free
tests” que não requerem pressupostos sobre a distribuição
subjacente aos dados.
Note-se, por exemplo, que o uso do teste t necessitava da
hipótese da normalidade da população subjacente.
Manuela Neves - ISA/Setembro 2012 – p. 61/81
Testes de Ajustamento
Seja X1,X2, ...,Xn uma amostra aleatória de uma população X
com função distribuição F desconhecida e F0 a função distribuição
proposta. Pretende-se testar
H0: F (x) = F0(x) H1: F (x) 6= F0(x)
Vamos começar com um teste muito importante nas nossas
aplicações. Permite averiguar se um dado conjunto de
observações se pode considerar proveniente de uma população
com distribuição normal – é um teste de normalidade - o Testede Shapiro-Wilk
Manuela Neves - ISA/Setembro 2012 – p. 62/81
O Teste de Shapiro-Wilk
Sendo X uma característica em estudo numa população, o teste de
Shapiro e Wilk (1956) consiste em testar as hipóteses:
H0: X tem distribuição normal
H1: X não tem distribuição normal
Nota: não rejeitar H0 significa que a distribuição normal é uma
distribuição possível para X
rejeitar H0 significa que a distribuição normal não é possível
Manuela Neves - ISA/Setembro 2012 – p. 63/81
O Teste de Shapiro Wilk
Calcula-se o valor da estatística do teste
Wcal =b2
n∑i=1
(xi − x)2
Valores pequenos de Wcal indicam não normalidade, i.e.
RC: Wcal < Wα
Wα − valor crítico a consultar numa tabela.
Outro modo de decidir consiste, como se sabe, em utilizar o p-value
Manuela Neves - ISA/Setembro 2012 – p. 64/81
Ainda o exemplo que ficou por concluir
Como realizar o teste de normalidade de Shapiro-Wilk?
Comando no
>shapiro.test(nome da vari avel)
> shapiro.test(azoto)
Shapiro-Wilk normality test
data: azoto
W = 0.944, p-value = 0.2001
Manuela Neves - ISA/Setembro 2012 – p. 65/81
Outros testes de Ajustamento
Consideremos agora um teste muito usado baseado em
contagens - é o teste do Qui-quadrado (K. Pearson).
Considere-se os valores possíveis da característica repartidos em
k classes, A1, A2, ..., Ak , mutuamente exclusivas. Seja
ni o no de observações ou frequência absoluta observada da
classe Ai;∑k
i=1 ni = n
pi a probabilidade desconhecida de obter uma observação na
classe Ai;
p0i a probabilidade de obter uma observação na classe Ai
supondo que a observação foi extraída de uma população com
a distribuição especificada em H0, i.e. p0i = P (Ai|H0).
Manuela Neves - ISA/Setembro 2012 – p. 66/81
O Teste do Qui-Quadrado
Hipóteses
H0 : pi = pi0 i = 1, 2, ...k v.s. H1 : pelo menos um dos pi 6= pi0
A Estatística do teste é
X2 =
k∑
i=1
(ni − npi0)2
npi0
isto é, é uma medida de afastamento entre os dados e a hipótese.
Quanto menor for X2 mais plausível é a hipótese H0. Tem-se, se
H0 verdadeira
X2 ∼ χ2(k−1)
i.e., a distribuição é assintótica - válida para dimensões de
amostra elevada.
Manuela Neves - ISA/Setembro 2012 – p. 67/81
Teste do Qui-quadrado
Que dimensão deverá ter a amostra para ser válido usar esta
distribuição?
Sugestão de Cochran (1954): - em distribuições unimodais pode
haver classes com frequência esperada = 1 desde que 80% das
classes apresente frequência esperada não inferior a 5.
Se as frequências de algumas classes forem inferiores a 1,
agrupam-se classes adjacentes para atingir a frequência mínima
desejada.
Se houver necessidade de estimar parâmetros a estatística passa
a ter assintoticamente distribuição χ2(k−p−1), onde p é o número de
parâmetros estimados.
Manuela Neves - ISA/Setembro 2012 – p. 68/81
Exemplo 5
A descendência originada pelo cruzamento de dois dados tipos de plantas pode serqualquer um dos três genótipos que representaremos por A, B e C. Um modelo teórico desucessão genética indica que os tipos A, B e C devem aparecer na razão 1:2:1. Paraverificação experimental obtiveram-se 90 plantas pelo cruzamento dos tais dois tipos. A suaclassificação genética foi registada na tabela:
Genótipos A B C Total
18 44 28 90
Estão estes dados de acordo com o modelo genético?
Comandos no
>gen_obs<-c(18,44,28)
>pval<-c(0.25,0.5,0.25)
>chisq.test(gen_obs, p = pval)
Chi-squared test for given probabilities
data: gen_obs
X-squared = 2.2667, df = 2, p-value = 0.3220
Manuela Neves - ISA/Setembro 2012 – p. 69/81
Exemplo 6 - Resoluc ao no
Na tabela seguinte estão representados os resultados de um estudo experimental sobre oefeito do gorgulho Azuki do feijão. Introduziram-se larvas desse orgulho nos feijões que asalimentaram. As crisálidas sairam através de um buraco feito no feijão e, como tal, o n. deburacos por feijão indica-nos o n. de adultos que saíram. Observados 100 feijõesobtiveram-se os seguintes resultados:
n. de gorgulhos saídos de 1 feijão 0 1 2 3 4
frequência observada 60 22 10 5 3
Será o no. de gorgulhos por feijão uma v.a. com distribuição de Poisson?
>num<-c(0,1,2,3,4)
>freq<-c(60,22,10,5,3)
>lambda_est<-sum(num * freq)/100;lambda_est
>probs<-c(c(dpois(num[-5],lambda_est)),ppois(3,lamb da_est,lower.tail=F))
>probs;sum(probs)
>chisq.test(freq, p = probs)
>par(mfrow=c(1,2)) #vamos s o visualizar
>plot(num,freq/100,type="h", ylim=c(0,.6),lwd=3)
>plot(num,probs,type="h",ylim=c(0,0.6),lwd=3)
Manuela Neves - ISA/Setembro 2012 – p. 70/81
Tabelas de conting encia
Se os indivíduos de uma amostra são classificados de acordo com
dois critérios A e B (qualitativos ou quantitativos) é costume
apresentar as frequências observadas numa tabela a que se
chama tabela de contingênciaConsideremos r níveis do critério A e c níveis do critério B. O
aspecto formal de uma tabela de contingência é:
B1 · · · Bj · · · Bc
A1 O11 · · · O1j · · · O1c O1.
A2 O21 · · · O2j · · · O2c O2.
. . . . . . .
Ar Or1 · · · Orj · · · Orc Or.
O.1 · · · O.j · · · O.c
Manuela Neves - ISA/Setembro 2012 – p. 71/81
Tabelas de conting encia
Na tabela anterior tem-se
r∑
i=1
c∑
j=1
Oij = n
e Oij representa o número de elementos da amostra classificados
nas categorias Ai e Bj . O objectivo do estudo de uma tabela de
contingência, como a apresentada, é tentar inferir sobre a
existência ou não de alguma associação entre os dois atributos A e
B, ou seja pretende-se testar
H0: A e B são independentes
H1: A e B não são independentes
Manuela Neves - ISA/Setembro 2012 – p. 72/81
Tabelas de conting encia
A estatística do teste de independência é
X2 =
r∑
i=1
s∑
j=1
(Oij − eij)2
eij,
onde eij representa a estimativa da frequência esperada, isto é
eij =oi.o.j
n
Sob H0 verdadeira, a estatística X2 tem distribuição assintótica
Qui-quadrado com (r − 1)(s − 1) graus de liberdade.
Rejeita-se a hipótese H0 se X2cal > χ2
α,(r−1)(s−1)
Manuela Neves - ISA/Setembro 2012 – p. 73/81
Notas
Também aqui há pressupostos a verificar:
as frequências esperadas em cada classe não devem ser
inferiores a 5, quando o número total de observações é ≤ 20;
se n > 20 não deverá existir mais do que 20% das células com
frequências esperadas inferiores a 5, nem deverá existir
nenhuma com frequência esperada inferior a 1.
se nos casos anteriores as condições não se verificarem
deve-se juntar linhas ou colunas (tendo em conta se tal junção
tem significado).
a realização de um teste de independência não deve terminar
com a rejeição da hipótese nula. Deve analisar-se a
contribuição de cada célula para o valor de X2.
Manuela Neves - ISA/Setembro 2012 – p. 74/81
Exemplo 7
Submeteram-se ramos florais da macieira “Golden Delicious”, emnúmeros sensivelmente iguais, a quatro tratamentos e contou-se onúmero de frutos produzidos em cada caso, a fim de verificar se existe ounão uma relação entre os diferentes tratamentos e a frutificação.Vejamos os resultados no seguinte quadro:
Tratamentos N. de frutos Totais
0 1 2ou 3
A 203 150 6 359
B 266 112 1 379
C 258 126 2 386
D 196 168 17 381
Pretendemos testar a hipótese nula , de que não há relação entre ostratamentos e a frutificação, ou seja, que são independentes.
Manuela Neves - ISA/Setembro 2012 – p. 75/81
Exemplo 7 -
>frutos<-matrix(c(203,150,6,266,112,1,258,126,2,196 ,168,17),
nc=3,byrow=T,
dimnames=list(c("T_A", "T_B", "T_C","T_D"),c("0", "1", "2/3")))
>frutos
>chisq.test(frutos)
>chisq.test(frutos)$expected
>barplot(frutos,names=c("0","1","2/3"),col=c(4,7,3, 2),
cex.names=1,beside=T)
>legend("topright",c("T_A","T_B","T_C","T_D"),fill= c(4,7,3,2))
0 1 2/3
050
100
150
200
250
T_AT_BT_CT_D
Manuela Neves - ISA/Setembro 2012 – p. 76/81
Testes N ao Param etricos
Se a normalidade falhar devemos recorrer a testes não
paramétricos −→ não requerem pressupostos sobre o tipo de
distribuição subjacente aos dados.
Os testes não paramétricos que vamos considerar são baseados
nas ordens das observações, ou seja, na posição de cada
observação na amostra ordenada.
Evitando as suposições paramétricas e considerando apenas as
ordens das observações perdemos a informação sobre a
magnitude das diferenças.
Mas enquanto os testes paramétricos exigem que as variáveis em
causa sejam quantitativas, os testes não paramétricos que vamos
usar podem aplicar-se também a variáveis qualitativas, desde que
as elas sejam ordinais.
Manuela Neves - ISA/Setembro 2012 – p. 77/81
Testes N ao Param etricos
Os testes não paramétricos que vamos estudar são:
teste de Wilcoxon
teste de Wilcoxon-Mann-Whitney para duas amostras
independentes
Observação: Se se verificarem os pressupostos de um testeparamétrico, devem usar-se estes porque são mais potentes.
Manuela Neves - ISA/Setembro 2012 – p. 78/81
Exemplo 8
A tabela seguinte dá a percentagem de concentração de zinco,determinada por dois métodos diferentes, em 8 amostras de comida:
Amostra EDTA tritation Espectrometria atómica
1 7.2 7.6
2 6.1 6.8
3 5.2 4.6
4 5.9 5.7
5 9.0 9.7
6 8.5 8.7
7 6.6 7.0
8 4 4.7
Poder-se-á afirmar que existe uma diferença significativa entre os
resultados dos dois métodos?
Manuela Neves - ISA/Setembro 2012 – p. 79/81
O Teste de Wilcoxon e o Teste de Mann-Whitney
Teste de Wilcoxon - teste não paramétrico para o estudo da
mediana de uma população ou para comparar as medianas em
duas amostras emparelhadas
Teste de Wilcoxon-Mann-Whitney - teste não paramétrico
adequado à comparação em duas amostras independentes
Procedimento do .
wilcox.test(A,B) realiza o teste que atrás chamámos de
Wilcoxon-Mann-Whitney para as duas amostras independentes A e
B.
wilcox.test(A,B,paired=T) realiza o teste que atrás chamámos
de Wilcoxon para as duas amostras A e B, mas agora
consideradas emparelhadas.
Manuela Neves - ISA/Setembro 2012 – p. 80/81
Refer encias Bibliogr aficas
Kerns, G.J. (2010) - Introduction to Probability and Statistics using. First Edition. Disponível on-line
Monteiro, L.R. (2006) - Introdução à Biometria utlizandoDisponível on-line
Neves, M. M. (2008) - Introdução à Estatística e à Probabilidade.Apontamentos de Apoio à U.C. Estatística.
Pestana, D.D. e Velosa, S.F. (2008) - Introdução à Probabilidade e àEstatística . Fundação Calouste Gulbenkian
Torgo, L. (2006). Introdução à Programação em R . Disponívelon-line
Verzani, J. (2002) ) - Using for Introductory Statistics. Disponívelon-line
Manuela Neves - ISA/Setembro 2012 – p. 81/81