Introdução à Análise Estatística com · Num esquema de provas de Bernoulli considere-seﬁxo o...

Introdução à AnáliseEstatísticacom

Modelos de probabilidade.Inferência Estatística: Intervalos de Confiança

e Testes de Hipóteses

Aulas 4 e 5

Manuela Neves - Setembro/2012

Manuela Neves - ISA/Setembro 2012 – p. 1/81

SumárioProbabilidade. Modelos de Probabilidade

Modelos discretos e contínuos.

Funções em para os modelos mais usuais.

Inferência Estatística (introdução):

Distribuições de amostragem.

Intervalos de Confiança e Testes de Hipóteses

Testes Paramétricos a valores médios, variâncias e

proporções (uma população e duas populações).

Testes Não Paramétricos: testes de ajustamento; testes do

qui-quadrado; testes sobre medidas de localização central.

Exemplos vários


Probabilidade

Os conceitos de aleatoriedade e probabilidade são centrais em

Estatística.

Pensar em dados como valores extraídos de uma população

(modelo) é fundamental para compreender os procedimentos

estatísticos.

Veremos procedimentos básicos em probabilidade: - como

efectuar amostragem aleatória; como aceder e usar funções

que o ambiente tem definidas, etc.

Podemos usar aquelas funções para calcular uma

probabilidade, um quantil ou gerar números pseudo-aleatórios

de acordo com a lei de probabilidade (fundamental em

simulação).


A função sample( )A função sample - permite criar uma amostra aleatória a partir

dos elementos de um vector, com ou sem reposição -> a omissão

é “sem reposição”, com probabilidades iguais ou não.

>sample(1:20,15)

Selecciona aleatoriamente 15 números de 1 a 20 sem reposição

>sample(1:20,15,rep=T)

Selecciona com reposição com probabilidades iguais

Para seleccionar, com reposição, de acordo com uma lei de

probabilidade, fazer, por exemplo:

>pb<-c(rep(0.1,3),.2,.3,.2);pb

>sample(1:6,30,rep=T,prob=pb)

Nota: para gerar sempre a mesma sucessão fazer >set.seed( )


O conceito de vari avel aleat oria

Quando se realiza uma experiência aleatória, pode associar-se a

cada resultado um (ou mais) valores reais - diz-se que temos uma

variável aleatória ou (um vector aleatório).

Uma variável aleatória costuma representar-se por X.

Um variável aleatória pode ser:

discreta - por exemplo o número de sementes germinadas; o

registo, a intervalos regulares, do número de pessoas em fila

de espera na caixa de um supermercado;

contínua - por exemplo o peso de um indivíduo; a largura, o

comprimento de um folha.


Vari avel aleat oria - probabilidade

Associadas a cada variável aleatória existem:

uma função massa de probabilidade, se X discreta, ou uma

função densidade, se X contínua.

uma função real F , a que se chama função distribuição

cumulativa tal que

F (x) = P [X ≤ x]

Exemplos de cálculo de uma probabilidade:

1. P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a);

2. P (X = a) = F (a) − F (a−) onde F (a−) = limx→a−F (x)

3. P (a < X < b) = P (X < b) − P (X ≤ a) = F (b−) − F (a);


Principais modelos discretos

A distribuição uniforme discreta

Definição Uma v.a. X diz-se ter distribuição uniforme discreta se

toma os valores x1, ..., xk com probabilidades 1/k, ..., 1/k, i.e.

P (X = xi) = 1/k, i = 1, ..., k.

Caso particular X =

1 2 · · · n

1/n 1/n · · · 1/n

Valor m edio e vari ancia

E[X] = n+12

; V ar[X] = n2−1

12

Instrução no para simular > sample(v,size,rep=T)v vector com os valores que a variável pode tomar


Exemplo

> par(mfrow=c(2,2))

> x1<-sample(1:6,30,rep=T);x1

> dist1<-table(x1);dist1

> plot(dist1)

Repetir para 300, 3000 e 30000. Ver diagramas obtidos no slide

seguinte.

Nota: Outra forma de proceder no seria definir uma função, por

exemplo:

> dado<-function(n) sample(1:6,n,replace=T)

> d1<-dado(30);table(d1)

> table(dado(30)) # Haver a alguma diferenca?

> dado(300);dado(3000)


Graficos de v arios lancamentos

01

23

45

6

x1

dist1

1 2 3 4 5 6

010

3050

x2

dist2

1 2 3 4 5 6

010

030

050

0

x3

dist3

1 2 3 4 5 6

020

0040

00

x4

dist4

1 2 3 4 5 6


A distribuic ao binomial

Quando se realizam n provas de Bernoulli independentes, a

variável que conta o número de sucessos que ocorrem diz-se ter

distribuição binomial e representa-se por X ⌢ Binom(n, p),

sendo p a probabilidade de sucesso.

X toma os valores x = 0, 1, 2, ..., n com probabilidades

P [X = x] =(nx

)px (1 − p)n−x

Valor m edio e vari ancia

E[X] = np; V ar[X] = npq

Para determinar o valor daquelas probabilidades, quantis ou a

função distribuição cumulativa o possui funções já definidas.


Func oes no para alguns modelos

dfunção (x, ...) - permite obter a função massa de

probabilidade (modelo discreto) ou a função densidade

(modelo contínuo) em x;

pfunção(q, ...) - permite obter a função de distribuição

cumulativa, i.e., devolve a probabilidade de a variável ser

menor ou igual a q;

qfunção (p, ...) - permite calcular o quantil associado à

probabilidade p;

rfunção (n, ...) - permite gerar uma amostra de n números

pseudo-aleatórios do modelo especificado.

Significado:

density, probability, quantile, random


Exemplos

Exercício Vamos experimentar a utilização das funções d, p, q, r.

Considere-se uma Binom(n = 10, p = 0.2).

> x<- 0:10

> dbinom(x,size=10,prob=0.2)

> pbinom(3,size=10,prob=0.2,lower.tail = TRUE) #d a P[X<=3]

> qbinom(0.75, size=10, prob=0.2, lower.tail = TRUE)

#da o quantil de probabilidade 0.75

> rbinom(5, size=10, prob=0.2)

> pbinom(3, size=10, prob=0.2, lower.tail = F) #d a P[X>3]

Nota O quantil é definido como o menor valor x tal que F (x) ≥ p,

sendo F a função distribuição cumulativa.

> par(mfrow=c(1,2))

> plot(x,dbinom(x,size=10,prob=0.2),type="h")

> plot(x,dbinom(x,size=10,prob=0.4),type="h")


Exemplos (continuac ao)

Para exemplificar a distribuição binomial teórica e simulada

(geração de números pseudo-aleatórios)

> par(mfrow=c(1,3))

> n<-5;p<-0.25

> x<-rbinom(100,n,p) # 100 random numbers

> ni<-table(x);ni

> fi<-ni/sum(ni);fi

> dbinom(0:n,size=5,prob=0.25)

> plot(fi,type = "h", col = "red",lwd=3,

+ main="Binom(n=5,p=0.25)",

> ylim=c(0,.5))

> xvals<-0:n;points(xvals,dbinom(xvals,n,p),type="h" ,lwd=3)

> points(xvals,dbinom(xvals,n,p),type="p",lwd=3)

... Repetir com n=15, n=50.


Exemplos (continuac ao)

0 2 4 6 8 10

0.00

0.15

0.30

x

dbino

m(x

, size

= 1

0, p

rob

= 0.

2)

0 2 4 6 8 10

0.00

0.10

0.20

x

dbino

m(x

, size

= 1

0, p

rob

= 0.

4)

0.0

0.1

0.2

0.3

0.4

0.5

Binom(n=5,p=0.25)

x

fi

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

0.5

Binom(n=15,p=0.25)

x

fi

0 1 2 3 4 5 6 7 8

0.0

0.1

0.2

0.3

0.4

0.5

Binom(n=50,p=0.25)

x

fi

4 6 8 11 14 17 22


A distribuic ao Binomial Negativa

Num esquema de provas de Bernoulli considere-se fixo o

número de "sucessos", k.

Considere-se a seguinte interpretação (muito usada em ecologia):

- pretende-se contar o número de insucessos necessários até

obter aqueles k “sucessos”

A variável X assim definida, diz-se ter distribuição BinomialNegativa e é costume representar-se por X ⌢ BN(k, p)

p é a probabilidade constante de "sucesso"de prova para prova

k é o número de "sucessos"que se pretende obter.


A distribuic ao Binomial Negativa

Caracterização da v.a. X ⌢ BN(k, p):

Valores x = 0, 1, 2, ...

Probabilidades P [X = x] =(x+k−1

x

)pkqx

0 < p < 1, q = 1 − p

Valor m edio e vari ancia de X ⌢ BN(k, p)

E[X] = k qp

V ar[X] = kqp2

Exemplo de uma das funções em

> x <- 0:15 #vector de valores da vari avel

> dnbinom(x,size=6, prob= 0.4) #probabilidade de se

verificarem 0 a 15 insucessos at e haver 6 sucessos

#outra parametrizac ao que usa o valor m edio indicado acima

> dnbinom(x, mu = 9, size = 6)


A distribuic ao Geom etrica

Se k = 1, isto é, se pretendemos determinar o número de

insucessos até obter o 1o¯ sucesso, a variável X diz-se ter

distribuição Geométrica e é costume representar-se por

X ⌢ Geo(p)

> Ni <- rgeom(20, prob = 1/4)

> g1<-table(factor(Ni, 0:max(Ni)))

> plot(g1)

01

23

45

67

g1

0 1 2 3 4 5 6 7 8 9


A distribuic ao de Poisson

Definic ao A v.a X que conta o número de sucessos que ocorrem

num dado intervalo de tempo ou domínio ( independentemente do

número que ocorre em qualquer outro intervalo ou domínio

disjunto) diz-se ter distribuição de Poisson.

Depende apenas do parâmetro λ −→ número médio de sucessos

que ocorrem no intervalo de tempo ( ou na região especificada).

Representa-se por X ⌢ P (λ) e a lei de probabilidade é:

P [X = x] = e−λ λx

x! , x = 0, 1, 2....

Valor m edio e vari ancia E[X] = λ V ar[X] = λ.

> diff(ppois(c(47, 50), lambda = 50)) # P[47 < X <=50]

> ppois(50,50)-ppois(47,50) # verificar que e o mesmo


Modelos Contınuos

A distribuição normal ou de Gauss

Tem um papel fulcral nas Probabilidades e Estatística, porque:

muitas variáveis biométricas têm uma distribuição muito próxima danormal;

por vezes uma variável que não é normal pode ser transformada deum modo simples numa outra com distribuição normal;

a parte central de muitos modelos não normais é por vezesrazoavelmente bem aproximada por uma distribuição normal.

Uma v.a. contínua X diz-se ter distribuic ao normal com parâmetros

µ e σ e representa-se por X ⌢ N (µ, σ) se a sua f.d.p. é da forma:

f(x) = 1√

2π σexp

[−1

2

(x−µ

σ

)2]

−∞ < x < +∞, −∞ < µ < +∞, 0 < σ < +∞


A distribuic ao normal ou de Gauss

Propriedades da curva densidade da distribuic ao normal

1. É simétrica relativamente a µ.

2. É uma curva unimodal, a moda é µ.

3. Tem pontos de inflexão em µ + σ e µ − σ.

Se µ = 0 e σ = 1 a variável aleatória com distribuição N (0, 1)

chama-se normal reduzida Z ⌢ N (0, 1)

−5 0 5

0.0

0.2

0.4

f. densidade da N(0,1)

x

−5 0 5

0.0

0.2

0.4


x

−5 0 5

0.0

0.2

0.4


xGraficos da func ao densidade normal para alguns valores de µ e σ.



#c alculos e graficos com a normal

> pnorm(1.96)

> pnorm(-1.96)

> pnorm(3,mean=5,sd=2)

> qnorm(0.75,mean=5,sd=1)

> qnorm(0.75,mean=5,sd=1,lower.tail=T)

> qnorm(0.25,mean=5,sd=1,lower.tail=F)

#graficos

> par(mfrow=c(1,2))

> x<-seq(-7,7,.01)

> plot(x,dnorm(x,0,1),type="l",ylim=c(0,.8),lwd=5)

> lines(x,dnorm(x,0,.6),col="red",lwd=3)

> lines(x,dnorm(x,0,2),col="blue",lwd=3)

> lines(x,dnorm(x,1,.6),col="green",lwd=3)


A distribuic ao normal (gr aficos)

# gerar valores (continuac ao do exerc ıcio)

> y<-rnorm(1000,mean=3,sd=1)

> hist(y,freq=F,ylim=c(0,0.5),

+ main="valores gerados+curva",col=gray(.9))

> curve(dnorm(x,mean=3,sd=1),add=T,lwd=3)

−6 −2 0 2 4 6

0.0

0.4

0.8

x

dn

orm

(x, 0

, 1

)

valores gerados+curva

y

De

nsi

ty

0 1 2 3 4 5 6

0.0

0.2

0.4


Outras distribuic oes contınuas

Distribuição uniforme e exponencial

> u<-runif(100)

> hist(u,freq=F,col=gray(.9),main="uniforme")

> curve(dunif(x),add=T,lwd=3)

# exponencial de valor m edio 2500

> x<-rexp(100,1/2500)

> hist(x,probability=TRUE,col=gray(.9),main="Exponen cial

com media 2500")

> curve(dexp(x,1/2500),add=T)

uniforme

u

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

1.2

Exponencialcom média 2500

x

Dens

ity

0 5000 10000 15000

0.00

000

0.00

015



Resultados importantes:

Seja X ⌢ N (µ, σ) então a v.a.X − µ

σtem distribuição normal

reduzida, i.e., Z =X − µ

σ⌢ N (0, 1).

Sejam Xi n v.a. normais independentes e semelhantes, i.e.,

tendo todas o mesmo valor médio µ e a mesma variância σ2.

As variáveis aleatórias soma e média, definidas

respectivamente como

Sn =∑n

i=1 Xi e Xn = 1n

∑ni=1 Xi

têm distribuição normal assim definida

Sn ⌢ N (nµ, σ√

n) e Xn ⌢ N (µ, σ/√

n).


O Teorema Limite Central

Vimos que a soma de normais independentes é ainda uma normal.

Mas a distribuição aproximada da soma de n variáveis aleatórias

independentes e identicamente distribuídas, sob certas condições

é também normal.

Teorema limite central

Sejam X1, ...,Xn variáveis aleatórias independentes e

identicamente distribuídas, com valor médio µ e variância σ2

(finita). Se n ‘grande’ a v.a. Sn =∑n

i=1 Xi, verifica:

Sn − nµ

σ√

n∼ N (0, 1) e também se tem

Xn − µ

σ/√

n∼ N (0, 1).


Aplicac oes do Teorema Limite Central

> # Populac ao Uniforme(0,5)

> par(mfrow=c(2,2))

> am<-500

> vec.med<-c(rep(0,am))

> n<-c(2,3,10,30)

> for(j in 1:4)

+ {for(i in 1:am)

+ {x<-runif(n[j],0,5)

+ vec.med[i]<-mean(x)}

+ qqnorm(vec.med,main=paste("Q-QPlot Normal, n =",n[j],

+ "\n","M edias Pop. U(0,5),"),xlab="",

+ col="red")

+ qqline(vec.med,col="darkred")}



−3 −2 −1 0 1 2 3

01

23

45

Q−QPlot Normal, n = 2 Médias Pop. U(0,5),

Sam

ple

Qua

ntile

s

−3 −2 −1 0 1 2 3

12

34


Sam

ple

Qua

ntile

s

−3 −2 −1 0 1 2 3

1.0

1.5

2.0

2.5

3.0

3.5


Sam

ple

Qua

ntile

s

−3 −2 −1 0 1 2 3

2.0

2.5

3.0


Sam

ple

Qua

ntile

s



Seja X uma v.a. com distribuição binomial com valor médio µ = np

e variância σ2 = npq. Então quando n → ∞ ,

X − np√npq

∼ N (0, 1)

Regra prática Se na distribuição binomial np > 5 e nq > 5 =⇒a aproximação pela distribuição normal é boa.

Mais convergências

Se na distribuição binomial n → ∞ e p pequeno (digamos

p < 0.05 e n > 20) já se pode considerar boa a aproximação

X ⌢ B(n, p) ∼ P (np)

Seja X ⌢ P (λ). Quando λ → ∞ entãoX − λ√

λ∼ N (0, 1).


RESUMO de algumas distribuic oes noNome da distribuição no Função Argumentos

Beta beta shape1, shape2

Binomial binom size, prob

Cauchy cauchy location, scale

Chisquare chisq df

Exponential exp rate

FDist f df1, df2

GammaDist gamma shape, scale

Geometric geom prob

Hypergeometric hyper m, n, k

Lognormal lnorm meanlog, sdlog

Logistic logis location, scale

NegBinomial nbinom size, prob

Normal norm mean, sd

Poisson pois lambda

TDist t df

Uniform unif min,max

Weibull weibull shape, scaleManuela Neves - ISA/Setembro 2012 – p. 29/81

Mais umas dicas sobre distribuic oes no

Existem packages que apresentam facilidades no estudo de

modelos de probabilidade, ver detalhes em Kerns (2010).

Necessitamos da instalação dos packages distr e distrEx

>library(distr); library(distrEx)

>X <- Binom(size = 3, prob = 1/2);X #Vamos definir

Distribution Object of Class: Binom

size: 3

prob: 0.5

>E(X)

>var(X)

[1] 1.5

[1] 0.75


A Infer encia Estatıstica

Parâmetros populacionais. Estimadores e Estimativas.

Distribuições por amostragem - a distribuição Normal,

t-Student, qui-quadrado e F.

Intervalos de confiança e testes de hipóteses paramétricos.

Nível de significância e potência do teste.

Testes de hipóteses não paramétricos: o teste de Wilcoxon.

Testes de ajustamento. Testes de normalidade.


Introduc ao a Teoria da Amostragem

Seja X a população em estudo.

Na teoria da amostragem consideram-se procedimentos de

recolha de uma amostra da população.

Já vimos no como gerar distribuições conhecidas, vamos aqui

simular uma distribuição.

Vamos também considerar a Reamostragem Bootstrap. O

Bootstrap é um procedimento que consiste em reamostrar a partir

de uma amostra, para:

simular a distribuição de uma estatística de interesse;

estudar propriedades de um estimador - estimar viés,

variância e intervalos de confiança para o parâmetro.



> par(mfrow=c(1,2))

> Pr<-c(0.20,0.16,0.25,0.39)

> N<-c ("A", "C", "G", "U")

> barplot(Pr,names=N,ylab="Probabilidade", main="DNA" )

> am1<-sample(N,100,rep=T,prob=Pr);am1

> dist1<-table(am1);dist1

> freq<-dist1/sum(dist1)

> barplot(freq)

A C G U

DNA

Prob

abilid

ade

0.0

0.2

A C G U

0.00

0.15

0.30



> par(mfrow=c(2,2))

>data(faithful) # dados no R

>names(faithful) # d a os nomes vari aveis

>eruptions<-faithful$eruptions #ou attach e detach faith ful

>#eruptions <-faithful[[’eruptions’]] # outra alternati va

>hist(eruptions,breaks=25)

## vamos fazer o bootstrap da amostra

>hist(sample(eruptions,100,replace=TRUE),main="Boot strap",

breaks=25)

Histogram of eruptions

eruptions

Freq

uenc

y

1.5 2.5 3.5 4.5

05

1015

20

Bootstrap

sample(eruptions, 100, replace = TRUE)

Freq

uenc

y

1.5 2.5 3.5 4.5

02

46

810


Topicos de Estimac ao

Seja x1, x2, · · · xn uma amostra de n observações da

característica, obtidas após um processo de amostragem.

Cada um daqueles valores é uma realização de n variáveis que

são “cópias” da variável X. Sejam

X1, X2, · · · Xn

A Inferência Estatística pretende responder a dois grandes

problemas:

calcular valores aproximados (estimativas) e obter intervalos

de confiança para parâmetros desconhecidos da população.

formular hipóteses e verificar se há concordância entre o que

se supõe e os factos – testes de hipóteses



Parâmetros que vamos referir , seus estimadores e estimativas

Parâmetro a estimar Estimador Estimativa

µ X =∑n

i=1 Xi

n x =∑n

i=1 xi

n

σ2 S2 =∑n

i=1(Xi−X)2

n−1 s2 =∑n

i=1(xi−x)2

n−1

p P = X(a)

n p = x(b)

n

µ1 − µ2 X1 − X2 x1 − x2

σ21 / σ2

2 S21 / S2

2 s21 / s2

2

p1 − p2 P1 − P2 p1 − p2

(a) X - v.a. que conta ... e ˜ (b) x - número observado de sucessos na amostra de

dimensão n.



Para construir ...

Intervalos de confiança

Testes (paramétricos) de hipóteses estatísticas.

... é necessário conhecer a distribuição - exacta ou

aproximada - do estimador (ou qualquer expressão dele).


Distribuic oes por amostragem (uma amostra)

Estimador Condições Variável Distribuição

X Xi ⌢ N(µ, σ)X − µ

σ/√

nN(0, 1)

σ conhecido

X Xi ⌢ N(µ, σ)X − µ

S/√

nt(n−1)

σ desconhecido

X Xi qualquerX − µ

s/√

n∼ N(0, 1)

n “grande”

S2 Xi ⌢ N(µ, σ)(n − 1)S2

σ2χ2

(n−1)

P X ⌢ B(n, p)(a) X

n∼ N(0, 1)

n “grande”(a) X o n. de sucessos em n provas de Bernoulli.


Distribuic oes por amostragem (duas amostras)

Estimador Condições Variável Distribuição

S21/S2

2 Xi ⌢ N(µ1, σ1)S2

1/σ21

S22/σ2

2

F(n1−1,n2−1)

Yi ⌢ N(µ2, σ2)

Xi, i = 1, · · ·n1 e

Yi, i = 1, · · · n2 são amostras aleatórias independentes.

Definição Chama-se intervalo de confiança ao intervalo que

resulta da concretização do intervalo (aleatório) e é portanto um

intervalo (a, b), onde a e b são números reais e a < b.


Intervalos de confianca

Intervalo de confiança a (1 − α) × 100% para µ

X ⌢ N(µ, σ)

Se σ conhecido

x − zα/2σ

√

n< µ < x + zα/2

σ√

n

(zα/2 → valor da v.a. Z tal que P (Z > zα/2) = α/2)

Se σ desconhecido

x − tα/2,(n−1)s

√n

< µ < x + tα/2,(n−1)s

√n

Observac oes: Chama-se precis ao da estimativa à semi-amplitude do intervalo de confiança econfianca ou grau de confianca a (1 − α) × 100%

Quanto maior for o intervalo, maior é o grau de confiança, mas menor a precisão da

estimativa.


Intervalo de confianca (exemplo)

Exemplo de construção de um I.C. no , para o valor médio de

uma normal com variância conhecida (caso académico!)

Exemplo 1 Dada a amostra referente a 10 alturas, admita-se queos erros de medição são normais de média 0 e desvio padrão 1.5.

> x<-c(175,176, 173, 175, 174, 173, 173, 176, 173, 179)

## definir uma func ao

> simple.z.test <-function(x,sigma,conf.level=0.95) {

n <-length(x);xbar<-mean(x)

alpha <- 1 - conf.level

zstar <- qnorm(1-alpha/2)

SE <- sigma/sqrt(n)

xbar + c(-zstar * SE,zstar * SE) }

> simple.z.test(x,1.5) # basta fazer isto

Obteve-se o I.C a 95% para µ ]173.7703; 175.6297[Manuela Neves - ISA/Setembro 2012 – p. 41/81


Intervalo de confiança a (1 − α) × 100% para µ

Se X tem dist. qualquer não normal

É necessário dispor de uma amostra de dimensão elevada, i.e., n

grande −→ aplicação do Teorema Limite CentralX − µ

σ/√

n∼ N (0, 1) se σ conhecido

Ou, que é o caso mais frequente,X − µ

s/√

n∼ N (0, 1) se σ desconhecido

Intervalo a (1 − α) × 100% de confiança para µ

x − zα/2s

√n

< µ < x + zα/2s

√n



Intervalo a (1 − α) × 100% de confiança para σ2 numa população

normal

(n−1)s2

χ2α/2,(n−1)

< σ2 < (n−1)s2

χ21−α/2,(n−1)

Intervalo de confiança (1 − α) × 100% para p

p − zα/2

√p(1−p)

n< p < p + zα/2

√p(1−p)

n

onde X tem distribuição binomial de parâmetros (n, p) e n grande


Intervalos de confianca - duas populac oes

Intervalos de confiança a (1 − α) × 100% para µ1 − µ2 com

X1 ⌢ N (µ1, σ1) e X2 ⌢ N (µ2, σ2) e (amostras independentes)

se variâncias conhecidas

(x1 − x2) − zα/2

√σ2

1

n1

+σ2

2

n2

< µ1 − µ2 < (x1 − x2) + zα/2

√σ2

1

n1

+σ2

2

n2

se variâncias desconhecidas mas se pode admitir variâncias

iguais.

(x1 − x2) − tα/2 sp

√1

n1

+ 1n2

< µ1 − µ2 < (x1 − x2) + tα/2 sp

√1

n1

+ 1n2

tα/2 ≡ tα/2,(n1+n2−2) e s2p =

(n1−1)s2

1+(n2−1)s2

2

n1+n2−2


Intervalos de confianca - duas populac oes

Intervalo de confiança a (1 − α) × 100% para µ1 − µ2 (amostras

independentes) mas n1, n2 grandes (neste caso não é necessário

ter-se normalidade)

(x1 − x2) − zα/2

√s2

1

n1

+s2

2

n2

< µ1 − µ2 < (x1 − x2) + zα/2

√s2

1

n1

+s2

2

n2

Intervalo de confiança a (1 − α) × 100% paraσ2

1

σ22

s21

s22 fα/2;(n1−1,n2−1)

<σ2

1

σ22

<s21 fα/2;(n2−1,n1−1)

s22


Intervalos de confianca (amostras emparelhadas)

Intervalos de confiança para µ1 − µ2 (amostras emparelhadas)

Se numa dada experiência as observações estão relacionadas, i.e,

emparelhadas pelo indivíduo - surge aqui o conceito de bloco .

Consideremos a amostra emparelhada (Xi, Yi) (i = 1, ..., n)

Seja

D1 = X1 − Y1; D2 = X2 − Y2; ... Dn = Xn − Yn, isto é,

seja (D1,D2, ...,Dn) a amostra aleatória das diferenças


Intervalos de confianca (amostras emparelhadas)

Se D1, D2, ..., Dn são variáveis aleatórias provenientes de uma lei

normal com µD = µX − µY −→ valor médio e

variância σ2D, desconhecida tem-se

D − µD

SD/√

n⌢ t(n−1)

Intervalo de confiança a (1 − α) × 100% para µD

d − tα/2,(n−1)sD√

n< µD < d + tα/2,(n−1)

sD√

n

Se não for possível admitir Di normais, mas se tenha n ‘grande’ ointervalo de confiança (1 − α) × 100% para µD

d − zα/2sD√

n< µD < d + zα/2

sD√

n


Intervalos de confianca para p1 − p2

Sejam X1 e X2 variáveis aleatórias tais que

X1 ⌢ B(n1, p1) e X2 ⌢ B(n2, p2).

n1 e n2 dimensões de amostras aleatórias independentes

Intervalo de confiança a (1 − α) × 100% para p1 − p2 quando as

dimensões das amostras são elevadas

(p1 − p2) − zα/2

√p1 q1

n1

+ p2 q2

n2

< p1 − p2 < (p1 − p2) + zα/2

√p1 q1

n1

+ p2 q2

n2


Testes de Hip oteses

Os testes de hipóteses têm como objectivo decidir, com base na

informação fornecida pelos dados de uma amostra, se podemos

aceitar ou não uma dada hipótese.

Testes paramétricos – supõe-se conhecida, pelo menos aprox., a

forma da distribuição e as hipóteses a formular dizem respeito

ao(s) parâmetros(s)

Testes não paramétricos – neste caso pretende-se estabelecer

algo sobre forma da distribuição ou então para o estudo dos

parâmetros não se admite o conhecimento da distribuição.



O procedimento num teste de hipóteses consiste em formular duas

hipóteses:

hipótese nula H0 é aqui que se especifica o valor do parâmetro ou

a distribuição a verificar

hipótese alternativa H1

A resposta num teste de hipóteses é dada na forma rejeição de H 0

ou não rejeição de H 0

Mas .... a tomada de decisões possui riscos (i.e. podem

cometer-se erros)

P(erro de 1a espécie)=P(Rejeitar H 0| H0 verdadeira)= α

P(erro de 2 espécie)=P(Não rejeitar H 0| H0 falsa) = β



Então como se decide?

define-se uma variável aleatória – estatística do teste

define-se uma região de valores da variável que permite

decidir – região crítica ou região de rejeição – RC (os

valores restantes constituem a região de aceitação)

face a uma amostra observada calcula-se o valor da

estatística do teste

Se o valor calculado ∈ RC rejeita-se H 0

Se o valor calculado ∈ RC não se rejeita H 0



A indicação do valor observado da estatística do teste, seguido da

consulta de uma tabela para a procura de um valor crítico, de modo

a tirar conclusões tem sido recentemente “substituído” pelo cálculo

de

– a probabilidade de se observar um valor igual ou mais extrem o do que o

observado, se a hip otese nula e verdadeira – chama-se a isto valor de

prova; valor p ( p-value )



Interpretação: - valor de prova ; valor p ( p-value )é a medida do grau de concordância entre os dados e H 0;

AssimQuanto menor for o p-value, menor é a consistência entre osdados e a hipótese nula

Habitualmente adopta-se como regra de decisão:

rejeitar H0 se p-value ≤ α


Exemplo 2

Os dados seguintes referem-se à concentração total de azoto (ppm) naágua de um lago que é utilizado como fonte de abastecimento urbano.

0.042 0.023 0.049 0.036 0.045 0.025

0.048 0.035 0.048 0.043 0.044 0.055

0.045 0.052 0.049 0.028 0.025 0.039

0.023 0.045 0.038 0.035 0.026 0.059

a) Determine um intervalo de confiança para µ (a 99% de confiança).

b) Para ser aceitável como fonte de água potável, o conteúdo médio deazoto deve ser inferior a 0.07 ppm. Acha que os dados sãocompatíveis com aquele critério?


Resoluc ao do Exemplo (inıcio)

> azoto<-c(0.042,0.048,0.045,0.023,0.023,0.035,0.052 ,

+ 0.045,0.049,0.048,0.049,0.038,0.036,0.043, 0.045,

+ 0.025, 0.044, 0.055, 0.028, 0.025, 0.039,

+ 0.035, 0.026, 0.059)

> qqnorm(azoto)# este e um grafico para uma

#primeira pesquisa da normalidade

> qqline(azoto)

Histogram of azoto

azoto

Freq

uenc

y

0.02 0.04 0.06

01

23

45

6

−2 −1 0 1 2

0.02

50.

040

0.05

5

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple Q

uant

iles


Resoluc ao do Exemplo (continuac ao)> t.test(azoto,mu=0.0,conf.level=0.99) #alinea a)

One Sample t-test

data: azoto

t = 18.5066, df = 23, p-value = 2.606e-15

alternative hypothesis: true mean is not equal to 0

99 percent confidence interval:

0.03382623 0.04592377

sample estimates:

mean of x

0.039875

> t.test(azoto, alternative=’less’, mu=0.07) #alinea b)

One Sample t-test

data: azoto

t = -13.9815, df = 23, p-value = 4.944e-13

alternative hypothesis: true mean is less than 0.07

95 percent confidence interval:

-Inf 0.04356776

sample estimates:

mean of x

0.039875


Exemplo 3

Um estudo pretende comparar um tipo de semente melhorada com o tipo de sementetradicional, usado anteriormente. A semente melhorada passará a ser utilizada se, emmédia, o crescimento das plantas após 20 dias fôr superior ao das sementes tradicionais.São criadas 15 diferentes situações laboratoriais, variando temperatura e humidade. Emcada situação semeia-se uma semente de cada tipo e obtêm-se os seguintes resultadospara o crescimento (em cms) das plantas após 20 dias :

Situação 1 2 3 4 5 6 7 8

‘novas’ sementes 3.46 3.48 2.74 2.83 4.00 4.95 2.24 6.92

‘velhas’ sementes 3.18 3.67 2.92 3.10 4.10 4.86 2.21 6.91

Situação 9 10 11 12 13 14 15

‘novas’ sementes 6.57 6.18 8.30 3.44 4.47 7.59 3.87

‘velhas’ sementes 6.83 6.19 8.05 3.46 4.18 7.43 3.85

Deverá passar a usar-se o novo tipo de sementes? Responda justificando e explicitando

quaisquer hipóteses adicionais que seja necessário impôr.


Exemplo 4

Pretende-se avaliar se um certo adubo A aumenta a produção de determinada cultivar docereal T . Para tal efeito um experimentador plantou 2 talhões com a referida cultivar, tendoaplicado o adubo A só num deles. De cada talhão foram então amostradas 12 áreas de1m2. Em cada uma destas áreas foram colhidas todas as plantas e pesado o grão. Osdados obtidos, expressos em gramas foram os seguintes:

Talhão 422 460 455 466 475 472 465 456 452 430 458 470

c/ adubo

Talhão 470 437 429 447 432 457 422 425 432 474 452 442

s/ adubo

1. Estabeleça as hipóteses a testar.

2. Teste as hipóteses da alínea anterior, para α = .05. O que decidiria quanto àutilização do adubo?


Intervalos de confianca e testes de hip oteses

Na resolução dos exemplos anteriores é necessário considerar

intervalos de confiança e testes de hipóteses para comparar os

valores médios de duas populações

>t.test(x, y ,

alternative = c("two.sided", "less", "greater"),

mu = 0, paired = FALSE, var.equal = FALSE,

conf.level = 0.95, ...)

Realiza um teste e I.C. para amostras independentes, usando o t

de Welch-Satterthwaite para obter uma aproximação ao no¯ de

graus de liberdade.

Nota: Por omissão o t.test considera paired = FALSE,

var.equal = FALSE .


Intervalos de confianca e testes de hip oteses

Intervalo de confiança e teste de hipóteses para comparar 2

variâncias de populações que se admitem normais

>var.test(x, y, ratio = 1,

alternative = c("two.sided", "less",

"greater"),conf.level = 0.95, ...)

Intervalo de confiança e teste de hipóteses para comparar duas

proporções

>prop.test(x, n, p = 0.4, alternative = "less",

conf.level = 0.99, correct = FALSE)

Trata-se de um teste a p = 0.4 sem correcção de continuidade. É

obtido o intervalo a 99% de confiança.


Testes N ao Param etricos

Pode pensar-se em dois tipos de testes não paramétricos:

Testes de Ajustamento ou “goodness-of-fit tests” que têm

como objectivo decidir se a nossa amostra se pode considerar

proveniente de uma população com uma distribuição

especificada.

Destes têm particular interesse os testes de ajustamento à

normalidade

Testes não paramétricos designados por “distribution free

tests” que não requerem pressupostos sobre a distribuição

subjacente aos dados.

Note-se, por exemplo, que o uso do teste t necessitava da

hipótese da normalidade da população subjacente.


Testes de Ajustamento

Seja X1,X2, ...,Xn uma amostra aleatória de uma população X

com função distribuição F desconhecida e F0 a função distribuição

proposta. Pretende-se testar

H0: F (x) = F0(x) H1: F (x) 6= F0(x)

Vamos começar com um teste muito importante nas nossas

aplicações. Permite averiguar se um dado conjunto de

observações se pode considerar proveniente de uma população

com distribuição normal – é um teste de normalidade - o Testede Shapiro-Wilk


O Teste de Shapiro-Wilk

Sendo X uma característica em estudo numa população, o teste de

Shapiro e Wilk (1956) consiste em testar as hipóteses:

H0: X tem distribuição normal

H1: X não tem distribuição normal

Nota: não rejeitar H0 significa que a distribuição normal é uma

distribuição possível para X

rejeitar H0 significa que a distribuição normal não é possível


O Teste de Shapiro Wilk

Calcula-se o valor da estatística do teste

Wcal =b2

n∑i=1

(xi − x)2

Valores pequenos de Wcal indicam não normalidade, i.e.

RC: Wcal < Wα

Wα − valor crítico a consultar numa tabela.

Outro modo de decidir consiste, como se sabe, em utilizar o p-value


Ainda o exemplo que ficou por concluir

Como realizar o teste de normalidade de Shapiro-Wilk?

Comando no

>shapiro.test(nome da vari avel)

> shapiro.test(azoto)

Shapiro-Wilk normality test

data: azoto

W = 0.944, p-value = 0.2001


Outros testes de Ajustamento

Consideremos agora um teste muito usado baseado em

contagens - é o teste do Qui-quadrado (K. Pearson).

Considere-se os valores possíveis da característica repartidos em

k classes, A1, A2, ..., Ak , mutuamente exclusivas. Seja

ni o no de observações ou frequência absoluta observada da

classe Ai;∑k

i=1 ni = n

pi a probabilidade desconhecida de obter uma observação na

classe Ai;

p0i a probabilidade de obter uma observação na classe Ai

supondo que a observação foi extraída de uma população com

a distribuição especificada em H0, i.e. p0i = P (Ai|H0).


O Teste do Qui-Quadrado

Hipóteses

H0 : pi = pi0 i = 1, 2, ...k v.s. H1 : pelo menos um dos pi 6= pi0

A Estatística do teste é

X2 =

k∑

i=1

(ni − npi0)2

npi0

isto é, é uma medida de afastamento entre os dados e a hipótese.

Quanto menor for X2 mais plausível é a hipótese H0. Tem-se, se

H0 verdadeira

X2 ∼ χ2(k−1)

i.e., a distribuição é assintótica - válida para dimensões de

amostra elevada.


Teste do Qui-quadrado

Que dimensão deverá ter a amostra para ser válido usar esta

distribuição?

Sugestão de Cochran (1954): - em distribuições unimodais pode

haver classes com frequência esperada = 1 desde que 80% das

classes apresente frequência esperada não inferior a 5.

Se as frequências de algumas classes forem inferiores a 1,

agrupam-se classes adjacentes para atingir a frequência mínima

desejada.

Se houver necessidade de estimar parâmetros a estatística passa

a ter assintoticamente distribuição χ2(k−p−1), onde p é o número de

parâmetros estimados.


Exemplo 5

A descendência originada pelo cruzamento de dois dados tipos de plantas pode serqualquer um dos três genótipos que representaremos por A, B e C. Um modelo teórico desucessão genética indica que os tipos A, B e C devem aparecer na razão 1:2:1. Paraverificação experimental obtiveram-se 90 plantas pelo cruzamento dos tais dois tipos. A suaclassificação genética foi registada na tabela:

Genótipos A B C Total

18 44 28 90

Estão estes dados de acordo com o modelo genético?

Comandos no

>gen_obs<-c(18,44,28)

>pval<-c(0.25,0.5,0.25)

>chisq.test(gen_obs, p = pval)

Chi-squared test for given probabilities

data: gen_obs

X-squared = 2.2667, df = 2, p-value = 0.3220


Exemplo 6 - Resoluc ao no

Na tabela seguinte estão representados os resultados de um estudo experimental sobre oefeito do gorgulho Azuki do feijão. Introduziram-se larvas desse orgulho nos feijões que asalimentaram. As crisálidas sairam através de um buraco feito no feijão e, como tal, o n. deburacos por feijão indica-nos o n. de adultos que saíram. Observados 100 feijõesobtiveram-se os seguintes resultados:

n. de gorgulhos saídos de 1 feijão 0 1 2 3 4

frequência observada 60 22 10 5 3

Será o no. de gorgulhos por feijão uma v.a. com distribuição de Poisson?

>num<-c(0,1,2,3,4)

>freq<-c(60,22,10,5,3)

>lambda_est<-sum(num * freq)/100;lambda_est

>probs<-c(c(dpois(num[-5],lambda_est)),ppois(3,lamb da_est,lower.tail=F))

>probs;sum(probs)

>chisq.test(freq, p = probs)

>par(mfrow=c(1,2)) #vamos s o visualizar

>plot(num,freq/100,type="h", ylim=c(0,.6),lwd=3)

>plot(num,probs,type="h",ylim=c(0,0.6),lwd=3)


Tabelas de conting encia

Se os indivíduos de uma amostra são classificados de acordo com

dois critérios A e B (qualitativos ou quantitativos) é costume

apresentar as frequências observadas numa tabela a que se

chama tabela de contingênciaConsideremos r níveis do critério A e c níveis do critério B. O

aspecto formal de uma tabela de contingência é:

B1 · · · Bj · · · Bc

A1 O11 · · · O1j · · · O1c O1.

A2 O21 · · · O2j · · · O2c O2.

. . . . . . .

Ar Or1 · · · Orj · · · Orc Or.

O.1 · · · O.j · · · O.c



Na tabela anterior tem-se

r∑

i=1

c∑

j=1

Oij = n

e Oij representa o número de elementos da amostra classificados

nas categorias Ai e Bj . O objectivo do estudo de uma tabela de

contingência, como a apresentada, é tentar inferir sobre a

existência ou não de alguma associação entre os dois atributos A e

B, ou seja pretende-se testar

H0: A e B são independentes

H1: A e B não são independentes



A estatística do teste de independência é

X2 =

r∑

i=1

s∑

j=1

(Oij − eij)2

eij,

onde eij representa a estimativa da frequência esperada, isto é

eij =oi.o.j

n

Sob H0 verdadeira, a estatística X2 tem distribuição assintótica

Qui-quadrado com (r − 1)(s − 1) graus de liberdade.

Rejeita-se a hipótese H0 se X2cal > χ2

α,(r−1)(s−1)


Notas

Também aqui há pressupostos a verificar:

as frequências esperadas em cada classe não devem ser

inferiores a 5, quando o número total de observações é ≤ 20;

se n > 20 não deverá existir mais do que 20% das células com

frequências esperadas inferiores a 5, nem deverá existir

nenhuma com frequência esperada inferior a 1.

se nos casos anteriores as condições não se verificarem

deve-se juntar linhas ou colunas (tendo em conta se tal junção

tem significado).

a realização de um teste de independência não deve terminar

com a rejeição da hipótese nula. Deve analisar-se a

contribuição de cada célula para o valor de X2.


Exemplo 7

Submeteram-se ramos florais da macieira “Golden Delicious”, emnúmeros sensivelmente iguais, a quatro tratamentos e contou-se onúmero de frutos produzidos em cada caso, a fim de verificar se existe ounão uma relação entre os diferentes tratamentos e a frutificação.Vejamos os resultados no seguinte quadro:

Tratamentos N. de frutos Totais

0 1 2ou 3

A 203 150 6 359

B 266 112 1 379

C 258 126 2 386

D 196 168 17 381

Pretendemos testar a hipótese nula , de que não há relação entre ostratamentos e a frutificação, ou seja, que são independentes.


Exemplo 7 -

>frutos<-matrix(c(203,150,6,266,112,1,258,126,2,196 ,168,17),

nc=3,byrow=T,

dimnames=list(c("T_A", "T_B", "T_C","T_D"),c("0", "1", "2/3")))

>frutos

>chisq.test(frutos)

>chisq.test(frutos)$expected

>barplot(frutos,names=c("0","1","2/3"),col=c(4,7,3, 2),

cex.names=1,beside=T)

>legend("topright",c("T_A","T_B","T_C","T_D"),fill= c(4,7,3,2))

0 1 2/3

050

100

150

200

250

T_AT_BT_CT_D



Se a normalidade falhar devemos recorrer a testes não

paramétricos −→ não requerem pressupostos sobre o tipo de

distribuição subjacente aos dados.

Os testes não paramétricos que vamos considerar são baseados

nas ordens das observações, ou seja, na posição de cada

observação na amostra ordenada.

Evitando as suposições paramétricas e considerando apenas as

ordens das observações perdemos a informação sobre a

magnitude das diferenças.

Mas enquanto os testes paramétricos exigem que as variáveis em

causa sejam quantitativas, os testes não paramétricos que vamos

usar podem aplicar-se também a variáveis qualitativas, desde que

as elas sejam ordinais.



Os testes não paramétricos que vamos estudar são:

teste de Wilcoxon

teste de Wilcoxon-Mann-Whitney para duas amostras

independentes

Observação: Se se verificarem os pressupostos de um testeparamétrico, devem usar-se estes porque são mais potentes.


Exemplo 8

A tabela seguinte dá a percentagem de concentração de zinco,determinada por dois métodos diferentes, em 8 amostras de comida:

Amostra EDTA tritation Espectrometria atómica

1 7.2 7.6

2 6.1 6.8

3 5.2 4.6

4 5.9 5.7

5 9.0 9.7

6 8.5 8.7

7 6.6 7.0

8 4 4.7

Poder-se-á afirmar que existe uma diferença significativa entre os

resultados dos dois métodos?


O Teste de Wilcoxon e o Teste de Mann-Whitney

Teste de Wilcoxon - teste não paramétrico para o estudo da

mediana de uma população ou para comparar as medianas em

duas amostras emparelhadas

Teste de Wilcoxon-Mann-Whitney - teste não paramétrico

adequado à comparação em duas amostras independentes

Procedimento do .

wilcox.test(A,B) realiza o teste que atrás chamámos de

Wilcoxon-Mann-Whitney para as duas amostras independentes A e

B.

wilcox.test(A,B,paired=T) realiza o teste que atrás chamámos

de Wilcoxon para as duas amostras A e B, mas agora

consideradas emparelhadas.


Refer encias Bibliogr aficas

Kerns, G.J. (2010) - Introduction to Probability and Statistics using. First Edition. Disponível on-line

Monteiro, L.R. (2006) - Introdução à Biometria utlizandoDisponível on-line

Neves, M. M. (2008) - Introdução à Estatística e à Probabilidade.Apontamentos de Apoio à U.C. Estatística.

Pestana, D.D. e Velosa, S.F. (2008) - Introdução à Probabilidade e àEstatística . Fundação Calouste Gulbenkian

Torgo, L. (2006). Introdução à Programação em R . Disponívelon-line

Verzani, J. (2002) ) - Using for Introductory Statistics. Disponívelon-line


Date post:	24-May-2020
Category:	Documents
Upload:	others
View:	4 times
Download:	0 times

Introdução à Análise Estatística com · Num esquema de provas de Bernoulli considere-seﬁxo o...

Documents