BioestatısticaParte I
Profa Dra Alcione Miranda dos Santos
Universidade Federal do MaranhaoPrograma de Pos-Graduacao em Saude Coletiva
email:[email protected]
Abril, 2011
1 / 57
Sumario
IntroducaoEstatıstica: O que e?Divisao da estatıstica
Conceitos basicos de estatısticaPopulacao e amostraParametro e estatıstica
Tipos de variaveis
Analise descritiva dos dadosTabelas e GraficosAnalise BivariadaMedidas Descritivas
AssimetriaCoeficiente de Assimetria de PearsonCoeficiente Quartil de Assimetria
2 / 57
Estatıstica: O que e?
I Estatıstica pode ser pensada como a ciencia de aprendizagema partir de dados.
I Em linhas gerais, a Estatıstica fornece metodos que auxiliam oprocesso de tomada de decisao.
I A Estatıstica esta presente em todas as areas da ciencia queenvolvam a coleta e analise de dados.
I Bioestatıstica e a aplicacao de estatıstica ao campo biologicoe medico. Ela e essencial ao planejamento, coleta, avaliacao einterpretacao de todos os dados obtidos em pesquisa na areabiomedica.
3 / 57
Divisao da estatıstica
A Estatıstica esta compreendida em duas partes:
I Estatıstica Descritiva: Reune um conjunto de tecnicas parasumarizar os dados (tabelas, graficos) e medidas descritivas quepermitem tirar muitas informacoes contidas nos dados.
I Estatıstica Indutiva: Consiste em obter e generalizar con-clusoes. Isto e, inferir propriedades para o todo (populacao)com base na amostra. E tratada atraves de tecnicas e metodosque se fundamentam na Teoria das Probabilidades.
4 / 57
Conceitos basicos de estatıstica
A finalidade da pesquisa e coletar dados para obter informacoes.
I Dados: observacoes de uma ou mais variaveis.
I Variavel: aquilo que se deseja observar para se tirar algum tipode conclusao, por exemplo, idade, sexo, peso.
I Dados usualmente provem de uma amostra, a qual representauma populacao de interesse.
5 / 57
Conceitos basicos de estatıstica
I Populacao: E o conjunto de indivıduos (ou objetos) que apre-sentam pelo menos uma caracterıstica em comum, cujo com-portamento deseja-se analisar ou inferir.
I Exemplo: Estudo sobre a ocorrencia de sobrepeso em criancasde 7 a 12 anos no Municıpio de Sao Luıs.
I Populacao de estudo: criancas matriculadas em escolas.
I Amostra: E um subconjunto da populacao.
6 / 57
Conceitos basicos de estatıstica
I Parametro: uma medida numerica que descreve alguma ca-racterıstica de uma populacao.
I Frequentemente desconhecido e denotado por letras gregas.I Exemplo: Peso medio ao nascer de criancas que nascem no
municıpio de Sao Luıs.
I Estatıstica: uma medida numerica que descreve alguma ca-racterıstica de uma amostra.
I E habitualmente representada por letras latinas.I Exemplo: Peso medio ao nascer, calculado em uma amostra de
120.000 criancas nascidas no Municıpio de Sao Luıs.
7 / 57
Conceitos basicos de estatıstica
I Parametro: uma medida numerica que descreve alguma ca-racterıstica de uma populacao.
I Frequentemente desconhecido e denotado por letras gregas.I Exemplo: Peso medio ao nascer de criancas que nascem no
municıpio de Sao Luıs.
I Estatıstica: uma medida numerica que descreve alguma ca-racterıstica de uma amostra.
I E habitualmente representada por letras latinas.I Exemplo: Peso medio ao nascer, calculado em uma amostra de
120.000 criancas nascidas no Municıpio de Sao Luıs.
7 / 57
Tipos de variaveis
As variaveis podem ser categoricas ou numericas.
I Variaveis categoricas (ou qualitativas)
X Variaveis categoricas nominais
Exemplos: Sexo, estado civil, tipo sanguıneo, cor da pele, etc.
X Variaveis categoricas ordinais
Exemplos: Grau de instrucao (1o grau, 2o grau, grau superior),classe social (alta, media, baixa), pressao sanguınea (baixa, nor-mal, alta), etc.
8 / 57
Tipos de variaveis
I Variaveis numericas (ou quantitativas)
X Variaveis numericas discretas
Exemplos: Numero de filhos, numero de consultas medicas emum determinado perıodo, numero de cirurgias, etc.
X Variaveis numericas contınuas
Exemplos: Altura, idade, peso, altura, pressao sanguınea, taxade colesterol,etc.
9 / 57
Analise descritiva dos dados
I A analise descritiva consiste basicamente na organizacao e des-cricao dos dados.
I A organizacao e apresentacao de dados consiste em:
I Tabelas de frequencias;I Graficos;I Medidas descritivas (por exemplo, media e desvio padrao).
I Comecaremos a analise descritiva com apenas uma variavel emestudo.
10 / 57
Tabelas de Frequencias
I As tabelas de frequencias indicam cada valor distinto de umavariavel, juntamente com uma contagem do numero de vezesque esse valor ocorre.Esta contagem e conhecida por frequenciasimples ou absoluta.
I Juntamente com as frequencias simples, a tabela podera aindaincluir:
X Frequencias relativasX Frequencias acumuladasX Frequencias relativas acumuladas.
11 / 57
Tipos de Frequencias
I Frequencia relativa: percentagem relativa a frequencia sim-ples.
I Frequencia acumulada: numero de vezes que uma variavelassume um valor inferior ou igual a esse valor.
I Frequencia relativa acumulada: percentagem relativa a fre-quencia acumulada.
12 / 57
Elementos essenciais de uma tabela
I Tıtulo: uma indicacao que precede a tabela e que expliquetudo referente a tabela.
I Corpo: corresponde ao conjunto de colunas e de linhas quecontem informacoes sobre o fenomeno estudado.
I Cabecalho: colocado na parte superior da tabela, tem porfinalidade especificar o conteudo das colunas.
13 / 57
Elementos complementares de uma tabela
I Fonte: indicacao do orgao ou entidade responsavel pelo forne-cimento dos dados ou pela sua elaboracao.
I Notas: sao informacoes destinadas a esclarecer ou conceituaro conteudo das tabelas, ou indicar a metodologia adotada.
I Chamadas: sao informacoes de natureza especıfica sobre de-terminada parte da tabela, destinada a conceituar ou esclarecerdados.
14 / 57
Elementos essenciais de um grafico
I Todo grafico deve ter tıtulo, escala e fonte de dados, de formaa dispensar qualquer esclarecimento adicional.
I A numeracao dos graficos e feita utilizando-se algarismos arabicos.
I As escalas devem crescer da esquerda para a direita e de baixopara cima.
I As distancias que indicam as unidades devem ser rigorosamenteuniformes.
Agora, veremos como representar as variaveis qualitativas e asquantitativas por meio de tabelas e graficos.
15 / 57
Tabelas e graficos: variavel qualitativa
I Podemos sumarizar a variavel qualitativa em:
I Tabelas: usando contagens ou porcentagens.
I Grafico de Barras ou Grafico de Setores.
16 / 57
Tabelas de Frequencias: variavel qualitativa
Tabela: Tipo de parto em nascidos vivos de parto unico. Sao Luıs- MA,1997/98
Tipo de parto Frequencia %
Vaginal 1.619 66, 27Cesareo 824 33, 73
Total 2.443 100, 00
Fonte: Silva et al. (2001)
17 / 57
Tabelas de Frequencias: variavel qualitativa
Tabela: Estado civil dos residentes em Sao Luıs, no perıodo de 10 deagosto a 31 de dezembro de 2005
Estado civil Frequencia %
Solteiro 281 38, 97Casado 197 27, 32Separado 87 12, 07Divorciado 56 7, 77Viuvo 54 7, 49Uniao estavel 46 6, 38
Total 721 100, 00
Fonte: Dados Fictıcios
18 / 57
Graficos de barras
Figura: Dados sobre as doencas mais comuns ocorridas no Estado de SaoPaulo.
19 / 57
Graficos de setores
Figura: Dados sobre as doencas mais comuns ocorridas no Estado de SaoPaulo.
20 / 57
Tabelas de frequencias: variavel quantitativa
Quando analisamos uma variavel discreta que assume poucos valores, os
dados sao organizados na forma de uma tabela de frequencias, analoga a
construıda para o caso de variaveis qualitativas. Entretanto, em vez das
categorias apresentamos os valores distintos da variavel.
Tabela: Numero de filhos por famılias no municıpio de Sao Luıs, Marco,2009.
Numero de Filhos Frequencias %0 3 0, 101 4 13, 332 6 20, 003 10 33, 344 7 23, 33
Total 30 100,00Fonte: Fictıcia.
21 / 57
Tabelas de frequencias: variavel quantitativa
I Em geral, as variaveis contınuas assumem muitos valores dis-tintos. Assim, costuma-se descrever as variaveis contınuas pormeio de tabelas de frequencias agrupadas em classes.
I Para construcao da tabela precisamos calcular:i) Numero de classes:
k = 1 + 3, 3× log(n) , sendo n o tamanho da amostra.
ii) Amplitude de classes:
a =At
k, com At a diferenca entre o valor maximo e o minimo
da variavel em estudo.
22 / 57
Tabelas de frequencias: variavel quantitativa
I Exemplo: O tempo de coagulacao (em minutos) de 30 provas decoagulacao, encontrados em exames hematologicos de pacientes doHospital Universitario Materno Infantil sao apresentados abaixo.
4 5 6 7 6 9 8 4 10 127 10 14 5 4 6 4 12 7 95 6 9 5 10 8 8 5 7 6
I Temos quei) Numero de classes:
k = 1 + 3, 3× log(30) = 5, 87 ' 6
ii) Amplitude de classes:
a =14− 4
6= 1, 67 ' 2.
23 / 57
Tabelas de frequencias: variavel quantitativa
I Para os dados anterior, a tabela de frequencia e dada por
Tabela: Tempo de coagulacao (em minutos) de 30 provas de coagulacao,encontrados em exames hematologicos de pacientes do HospitalUniversitario Materno Infantil.
Tempo Frequencias Porcentagens4 ` 6 9 30, 06 ` 8 9 30, 08 ` 10 6 20, 010 ` 12 3 10, 012 ` 14 2 7, 014 ` 16 1 3, 0Total 30 100, 0Fonte:Fictıcia.
24 / 57
Histograma
Figura: Pressao arterial sistolica dos estudantes da UFMA
25 / 57
Box Plot
I O Boxplot tambem e conhecido como diagrama de Box e Whisker.
I Por meio dele, obtemos um sumario completo dos dados deforma simples.
I Podemos identificar a mediana, a dispersao, a assimetria eoutliers de um conjunto de dados.
I A maior importancia desse tipo de grafico esta na identificacaode possıveis outliers no conjunto de dados.
I Outliers: observacoes que apresentam um grande afastamentodas restantes ou sao inconsistentes com elas. Estas observacoessao tambem designadas por observacoes atıpicas ou aber-rantes.
26 / 57
Box Plot
I A construcao do boxplot exige que tenhamos o valor mınimo, oprimeiro quartil, a mediana, o terceiro quartil e o valor maximo.
I Tambem devemos calcular o limite inferior (LI ) e o limite su-perior (LS), os quais sao dados por:
LI = Q1 − 1, 5(Q3 − Q1)
LS = Q3 + 1, 5(Q3 − Q1)
27 / 57
Box Plot
28 / 57
Box Plot
Figura: Nıvel de Hemoglobina glicosilada segundo grupo de gestantes
29 / 57
Graficos de linhas
I Quando as observacoes sao feitas ao longo do tempo, os dados saodenominados temporais ou longitudinais. Uma representacao ade-quada para este tipo de dados e o grafico de linhas.
Figura: Mortalidade Infantil no municıpio de Sao Luıs-MA 1970-1980dados fictıcios
30 / 57
Analise Bivariada
I A analise bivariada consiste em examinar simultaneamente asduas variaveis, com o objetivo de avaliar associacao entre elas.
I Podemos construir tabelas de frequencia com dupla entradaou graficos de dispersao. Essas tabelas de dados cruzados saoconhecidas por tabelas de contingencia.
I As tabelas de contingencia sao utilizadas para estudar a asso-ciacao entre duas variaveis categoricas.
31 / 57
Analise Bivariada: variaveis qualitativas
I Suponhamos que temos duas variaveis: tipo de parto (vaginale cesareo) e categoria de internacao (publica, privada).
I Observamos os valores de ambas as variaveis em uma amostrade 2.443 mulheres.
I Uma tabela de contingencia pode ser usada para expressar aassociacao entre tais variaveis.
I Vamos construir a tabela de contingencia para os dados acima.
32 / 57
Analise Bivariada: variaveis quantitativas
I Caracterısticas: Relaciona duas variaveis quantitativas.
Exemplos:
X Estatura x idade.
X Consumo de dieta x Ganho ponderal.
X Idade x Peso.
I Questoes a serem respondidas na analise:
X Existe uma relacao entre as variaveis ?
X Relacao linear positiva ou negativa ?
X Se existe, quao forte ela e ?
X Qual a probabilidade da relacao ser verdadeira ? (p-valor)
33 / 57
Grafico da Dispersao
34 / 57
Medidas Descritivas
I Medidas de Tendencia Central
I Medidas Separatrizes
I Medidas de Dispersao ou Variabilidade
35 / 57
Medidas de tendencia central
I Servem para termos uma ideia acerca dos valores medios davariavel em estudo.
I Sao usadas para sintetizar em um unico numero os dados ob-servados.
I Sao exemplos de medidas de tendencia central: Media, Modae Mediana.
I A escolha de qual medida usar, depende...
36 / 57
Media aritmetica
I A medida de tendencia central mais comumente usada paradescrever resumidamente um conjunto de dados.
I E definida como a soma das observacoes dividida pelo numerodelas. Denotada por x .
I Sejam x1, x2, . . . , xn os n valores da variavel X , obtidos pelopesquisador. A media aritmetica e definida por:
x =x1 + x2 + ...+ xn
n
sendo n o total de observacoes.
37 / 57
Media aritmetica
I Exemplo: Considere os dados relativos as idades (em anos) deonze pacientes:
10 12 11 17 21 18 16 17 20 15 27.
Determine a media de idade.
I A media de idade sera dada por:
x =10 + 12 + 11 + ...+ 27
11=
198
11= 18
I Portanto, a media de idade e 18 anos.
38 / 57
Mediana
I Exemplo 1: Retornemos aos dados relativos as idades (em anos)de onze pacientes. Determine a idade mediana.
10 12 11 17 21 18 16 17 20 15 27.
I Ordenando os valores, tem-se:
10 11 12 15 16 17 17 18 20 21 27
I Logo, a idade mediana neste caso e 17 anos.
I Acrescentando-se mais uma idade ao conjunto de dados, tem-se:
10 11 12 14 15 16 17 17 18 20 21 27.
Portanto, a mediana sera a media aritmetica do 6o e 7o ele-mentos:
Md =16 + 17
2= 16, 5 anos
39 / 57
Moda
I Valor que ocorre com maior frequencia.
I Obtida por inspecao da tabela de distribuicao de frequencias.
I Ao contrario do que acontece com a mediana e a media, umaamostra pode possuir mais do que uma moda.
40 / 57
Moda
I Exemplo: Considere os dados relativos as idades (em anos) deonze pacientes. Determine a idade modal.
10 12 11 17 21 18 16 17 20 15 27.
I Temos que a idade modal e igual a 17 anos, pois este valor serepetiu em maior numero de vezes.
41 / 57
Media ou Mediana?
I Considere a idade (em meses) de 7 indivıduos em diferentesamostras (A e B).
Total Media MedianaA 10 20 30 40 50 60 70 280 40 40B 10 20 30 40 50 60 350 560 80 40
I Deve-se notar que
X O valor da media e igual ao da mediana na amostra A.X As medianas sao iguais em ambas as amostras.X Em B, a media foi 80, sendo superior a maioria dos valores
individuais.X Observando os valores individuais da amostra, verifica-se que o
numero 40 melhor representa a distribuicao global da idade naamostra do que o numero 80.
X Assim, quando o valor da mediana e muito diferente da media,e aconselhavel considerar sempre a mediana para representar osdados, pois a media e bastante sensıvel a valores discrepantes.
42 / 57
Medidas Separatrizes
I Medidas que separam a distribuicao em partes iguais.
X Quartis
X Decis
X Percentis
43 / 57
Quartis
I Os quartis dividem a base de dados em 4 partes.
I Precisamos portanto de 3 quartis para dividir a base de dadosem quatro partes iguais.
I Sao representados pelo 1oquartil(Q1), 2oquartil(Q2) e 3oquartil(Q3)quartil.
I O 2o(Q2) quartil indica que abaixo existem 50% da distribuicao,logo, acima estao os outros 50% dos dados.
I Observe que Q2 = mediana.
44 / 57
Como calcular os quartis?
I O metodo mais pratico e utilizar o princıpio do calculo da me-diana para os 3 quartis.
I Exemplo 1: Considere novamente os dados relativos as idades(em anos) de onze pessoas. Vamos determinar os quartis.
I Ordenando os valores, tem-se:
10 11 12 15 16 17 17 18 20 21 27
I Vimos que a mediana e igual 17 anos, que sera igual a Q2.
I Temos agora {10, 11, 12, 15, 16} e {17, 18, 20, 21, 27} como sen-do os dois grupos de valores iguais proporcionados pela mediana(Q2).
I Para o calculo do Q1 e Q3 basta calcular as medianas das partesiguais provenientes da mediana. Portanto, temos que Q1 = 12e Q3 = 20.
45 / 57
Decis
I Precisamos de 9 decis para dividirmos a base de dados em 10partes iguais.
I Sao representados por D1,D2,D3, ... e D9.
I O 1o decil (D1) de um conjunto de dados informa que abaixoestao localizados 10% dos dados e, assim sendo, acima estaoos 90% restantes.
I Os outros decis sao interpretados de forma semelhante.
I Observe que o 5o decil (D5) e igual ao valor mediano (Md).
46 / 57
Precentis ou centis
I Denominamos percentis ou centis como sendo os noventa enove valores que separam uma serie em 100 partes iguais.
I Indicamos por P1,P2, ...,P99.
I E evidente que P50 = Md , P25 = Q1 e P75 = Q3.
I O calculo dos percentis segue a mesma tecnica do calculo damediana.
47 / 57
Medidas de Variabilidade
I Medidas de tendencia central sao descritores insuficientes deuma amostra.
I Sao necessarias medidas que reflitam a variacao dentro de umconjunto de dados (medidas de variabilidade).
I Essas medidas serao pequenas se os dados forem proximos egrandes se eles estiverem muito espalhados.
I Alem disso, tais medidas devem permitir comparar amostrasde diferentes tamanhos e determinar se uma amostra e maisvariavel (ou heterogenea) que a outra.
48 / 57
Medidas de Variabilidade
I Amplitude Total
I Variancia e desvio padrao
I Coeficiente de variacao
49 / 57
Amplitude total
I E a diferenca entre o maior e o menor valor observado. Isto e,
At = maior valor observado − menor valor observado
I Vantagem: facil de ser calculada.
I Inconveniente: muito afetada pelos valores extremos, porqueno seu calculo nao sao consideradas todas as observacoes.
50 / 57
Variancia
I E um indicativo da dispersao de um conjunto de dados emrelacao a media.
I A variancia populacional e denotada por σ2. Usualmente σ2 edesconhecida.
I A variancia amostral e denotada por S2, sendo obtida da seguinteforma:
S2 =
n∑i=1
(xi − x)2
n − 1=
n∑i=1
x2i − nx2
n − 1
I Desvantagem: nao e expressa na unidade de medida dos dadosoriginais. Por exemplo, caso estejamos avaliando com o pesocorporal de indivıduos, tomados em kg, a variancia destes pesose expressa em kg2.
51 / 57
Desvio padrao
I Corresponde a raiz quadrada da variancia, tendo portanto amesma unidade da variavel que esta sendo estudada.
I O desvio padrao sera denotado por S .
I E a medida mais usada na comparacao de diferencas entre gru-pos.
I Fornece um numero que permite especificar quao acima ou quaoabaixo da media esta um determinado valor.
I Quanto maior o desvio-padrao, maior a variabilidade dos dados.
52 / 57
Coeficiente de variacao
I Avalia a homogeneidade dos dados
I Vantagem: caracteriza a dispersao dos dados em termos rela-tivos a seu valor medio.
I Quanto menor o valor, mais homogeneo sera o conjunto dedados.
I o Coeficiente de variacao (CV) e dado por:
CV =S
X
I Como o CV e uma medida que exprime a variabilidade relativaa media, algumas vezes, o CV e ainda multiplicado por 100,passando a ser expresso como percentagem.
I Para efeitos praticos, costuma-se considerar que o CV supe-rior a 50% indica alto grau de dispersao e, consequentemente,pequena representatividade da media.
53 / 57
Medidas de assimetria
I A assimetria e o quanto a distribuicao de frequencia se desviaou afasta da posicao simetrica.
I Podemos caracterizar as distribuicoes de frequencia em:
X Assimetria nula ou simetrica (x = Md = Mo)X Assimetrica a direita ou positiva (x > Md > Mo).X Assimetrica a esquerda ou negativa (x < Md < Mo)
I O grau de assimetria de uma distribuicao de frequencias podeser calculado pelo:
X Coeficiente de assimetria de PearsonX Coeficiente quartil de assimetria
54 / 57
Coeficiente de Assimetria de Pearson
I Coeficiente de Pearson (AS)
AS =3(x −Md)
S
I Interpretacao:
X Se AS = 0, a distribuicao e simetrica.
X Se AS > 0, a distribuicao e assimetrica positiva.
X Se AS < 0, a distribuicao e assimetrica negativa.
55 / 57
Coeficiente quartil de assimetria
I Util quando nao for possıvel empregar o desvio-padrao comomedida de dispersao.
I Coeficiente quartil de assimetria (EQ)
EQ =Q3 − 2Md + Q1
Q3 − Q1
I O coeficiente quartil de assimetria assume valores entre −1 e+1.
56 / 57
Utilizacao das medidas de tendencia central
a) Escolha da media:
i) quando a distribuicao dos dados e aproximadamente simetrica;ii) quando for necessario obter posteriormente outros parametros
que podem depender da media, como por exemplo a variancia,o desvio padrao, etc.
b) Escolha da mediana
i) quando ha valores extremos;ii) quando desejamos conhecer o ponto central da distribuicao;iii) quando a distribuicao dos dados e muito assimetrica.
c) Escolha da moda
i) quando a medida de interesse e o ponto mais tıpico ou populardos dados;
ii) quando precisamos apenas de uma rapida ideia sobre a tendenciacentral dos dados.
57 / 57