Pràctica 2
REPRESENTACIONS GRÀFIQUES I
NUMÈRIQUES
DE VARIABLES ESTADÍSTIQUES
Objectius:
En aquesta pràctica utilitzarem el programa SPSS per a descriure numèrica i
gràficament les dades d’una mostra. Es representaran gràficament conjunts de dades
utilitzant les possibilitats del programa. S’analitzarà la relació lineal entre dues
variables.
Índex:
1. Taules de freqüències.
2. Gràfiques d’una variable: diagrames de barres i gràfics de sectors, histogrames,
diagrames de tija i fulles, diagrames de caixa i bigots.
3. Anàlisi exploratori.
4. Gràfiques de dues variables: diagrames de dispersió.
5. Relació lineal: coeficient de correlació lineal i regressió per mínims quadrats.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 2
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
1. Taules de freqüències
Una de les formes més simples de resumir la informació d’un conjunt de dades és
mitjançant una taula de freqüències, que consisteix en calcular per a cada valor d’una
variable el nombre (freqüència) de casos en què apareix.
Una taula de freqüències ha d’indicar el nom de la variable en el seu encapçalament, els
valors que pren la variable, la freqüència de cadascun d’ells i la suma de totes les
freqüències, que coincidirà amb el nombre total de casos vàlids. També és aconsellable
calcular les freqüències relatives, o proporcions, que resulten al dividir cada freqüència
per la suma total. SPSS genera taules de freqüències de forma automàtica.
En primer lloc necessitem obrir un banc de dades, per exemple el de l’arxiu Glucosa.sav
A continuació, amb el menú Analizar/Estadísticos descriptivos/Frecuencias es pot
obtindre la taula de freqüències associada a qualsevol de las variables:
En aquest quadre, a més de seleccionar
les variables per a les quals es volen
obtindre les taules de freqüències,
podem accedir a les següents opcions:
Estadísticos: proporciona les mesures de
localització i dispersió habituals.
Gráficos: Diagrames de Barres, de
Sectors i Histogrames.
Formato: per a la presentació de les
dades.
La taula para la variable cod_g1an obtinguda per SPSS és la següent:
cod_g1an
Frecuencia Porcentaje Porc. válido Porc. acumulado
Válidos bajo 8 10,0 10,0 10,0
medio 52 65,0 65,0 75,0
alto 17 21,3 21,3 96,3
muy alto 3 3,8 3,8 100,0
Total 80 100,0 100,0
A més de les freqüències, la taula ens indica que hi ha 80 casos vàlids i cap perdut, que
la variable cod_g1an té quatre valors possibles: baix, mitjà, alt i mol alt (en realitat
són les etiquetes associades als valors 1, 2, 3 i 4, respectivament).
Exercici 1.
1. Genera a partir de g1des la variable codificada cod_g1des, de forma idèntica a
com es va generar cod_g1an i la seua taula de freqüències.
2. Obtindre la taula de freqüències de la variable g1antes. Quina utilitat té aquesta
última taula? Raona la seua conveniència en aquest cas.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 3
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
SPSS també compta amb el menú Analizar/Tablas/Tablas personalizadas que
possibilita alterar el format del resultat.
A continuació anem a veure l’obtenció amb SPSS dels diferents estadístics associats a
una variable numèrica.
Recordem que els estadístics són valors calculats a partir de les dades d’una variable
quantitativa i que mesuren alguna de les característiques de la distribució mostral. Les
principals característiques són: tendència central, localització i dispersió.
Mesures/Estadístics de tendència central
S’utilitzen per a saber al voltant de quin valor central es distribueixen els valors d’una
variable. Les mesures més habituals són:
Mitjana: és la suma de totes les observacions dividida per la grandària de la
mostra.
Mediana: és el valor que divideix la mostra ordenada en dos meitats amb el
mateix nombre de dades.
Mitjana retallada: és una mitjana calculada després d’eliminar algunes dades
extremes. És més robusta que la mitjana ja que no té en compte els valors extrems.
Moda: és la dada que té la major freqüència. En cas d’empats poden haver-hi
diverses modes.
Mesures/Estadístics de localització
Són les que indiquen el valor que ocupa una determinada posició en una distribució.
La mesura més simple de localització és la mediana, que també és una mesura de
tendència central, ja que el 50% de les dades són menors o iguals que ella i l’altre 50%
són majors o iguals.
Els quartils Q1,Q2 i Q3, són tres valors que divideixen la distribució en quatre parts
iguals. El primer quartil té un 25% de casos menors o iguals que ell; el segon quartil
coincideix amb la mediana i el tercer quartil deixa un 25% de valors superiors o iguals a
ell. Per a obtindre’ls, es calcula primer les posicions dels quartils p(Q1) i p(Q3) i a partir
d’elles s’extrauen els valors corresponents. Les posicions del primer i tercer quartil (el
segon coincideix amb la mediana) són: p(Q1)=(n+1)/4 y p(Q3)=3(n+1)/4. Obtingudes
les posicions, si són senceres, es busquen els valors que les ocupen en la mostra
ordenada. Si p(Qx) dóna un valor decimal s’utilitza la fórmula següent:
fi vv )1(
on és la part fraccionària de p(Qx) i vi, vf els valors mostrals que ocupen les posicions
més pròximes per defecte i per excés a p(Qx), respectivament.
Els percentils divideixen la distribució en cent parts iguals. La forma de càlcul és
similar a la dels quartils.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 4
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
Mesures/Estadístics de dispersió
Les més utilitzades són:
Rang o amplària, que és la diferència entre el major i el menor valor de la
mostra.
Rang interquartílic, que és la diferència Q3-Q1. L’interval interquartílic, [Q1,Q3],
conté al 50% central dels valors de la mostra.
Variància (s2), que mesura la distància al quadrat de cada observació respecte de
la mitjana. La seua definició analítica és:
i
i
i
i xnxn
xxn
s )(1
1)(
1
1 2222
Desviació típica o estàndard (s), que és l’arrel quadrada positiva de la variància i
per tant té les mateixes unitats que la variable.
Per a obtindre els estadístics amb SPSS s’utilitzen fonamentalment dos menús. El
primer és molt bàsic Analizar/Estadísticos descriptivos/Descriptivos on s’ha de
seleccionar la variable o variables d’interès i després cal seleccionar Opciones per a
triar els estadístics que interessen (per defecte apareixen seleccionats la mitjana,
desviació típica, el mínim i el màxim. Tanmateix, amb aquest menú no es poden
obtindre els percentils. Per a obtindre’ls s’ha d’utilitzar el menú molt més complet
Analizar/Estadísticos descriptivos/Frecuencias i entrar en l’opció Estadísticos on es
seleccionen els percentils desitjats, aquest menú calcula per defecte les taules de
freqüències de totes les variables seleccionades.
Exercici 2.
Calcula la mitjana, rang, desviació estàndard, els quartils, rang interquartílic i els
percentils 30 i 80 de totes les variables de Glucosa.sav. Comenta els resultats, són tots
interessants? Quant val el rang interquartílic de la variable g1antes?
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 5
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
2. Gràfiques d’una variable: diagrames de barres i gràfics de sectors,...
La utilització de gràfiques és necessària en Estadística. Es pretén resumir la informació
de la mostra de forma gràfica amb objectius de clarificació o per a emfatitzar i descobrir
determinades característiques que d’altra forma seria molt difícil apreciar. D’altra
banda, una gràfica sempre és més fàcil de comprendre que un conjunt d’estadístics. Per
exemple, podem donar una matriu de distàncies entre un conjunt de ciutats però encara
que tinguem aquesta precisa informació serà difícil que ens imaginem la seua
distribució geogràfica si no s’adjunta una gràfica.
Les gràfiques adequades per a representar variables discretes o categòriques són
diferents de les de les contínues i per tant separarem el seu estudi.
2.1 Gràfiques de variables discretes i categòriques
Les gràfiques més utilitzades en Estadística per a representar variables discretes o
categòriques són les gràfiques de sectors i els diagrames de barres.
Gràfiques de sectors
Una gràfica de sectors o gràfic de pastís consisteix en un cercle dividit en sectors de
grandària proporcional a la freqüència de cada valor de la variable. S’utilitzen quan hi
ha pocs valors que representar.
Per a obtindre una gràfica de sectors amb SPSS utilitzarem el menú Gráficos/Cuadros
de dialogo antiguos/Sectores i apareixerà el quadre de diàleg següent:
les opcions del qual passem a comentar.
Resúmens per a grups de casos
Genera una gràfica en la qual cada sector correspon a un valor de la variable
seleccionada. Després de polsar el botó Definir del quadre anterior sorgeix un quadre
de diàleg en el que apareix l’opció Los sectores representan, que determina com es
calcula la grandària de cada sector, i la variable seleccionada s’introdueix en el camp
Definir sectores por.
Per exemple, suposem que volem representar els valors de la variable cod_g1an en un
diagrama de sectors on els sectors representen el nombre de casos de cada categoria. La
gràfica de sectors seria:
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 6
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
muy alto
alto
medio
bajo
cod_g1an
En la majoria de les gràfiques tenim la possibilitat d’utilitzar paneles (una quadrícula de
subgràfiques) per a facilitar la comparació de les dades de diversos grups. Les
subgràfiques pertanyen al mateix tipus de gràfica i comparteixen eixos, però cadascuna
d’elles correspon a un grup diferent d’una o més variables categòriques.
Així, per exemple, si volem comparar els
nivells de cod_g1an de las dones
embarassades amb els de les no
embarassades introduiríem la variable
cod_g1an en el camp Definir sectores
por i la variable embarazo en el camp
Panel por, per exemple en Filas:
El resultat és:
No
Si
em
ba
razo
: ¿e
stá
em
ba
raza
da
?
muy alto
alto
medio
bajo
cod_g1an
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 7
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
Exercici 3.
Compara, utilitzant dues gràfiques de sectors, la variable cod_g1des, d’acord amb si
estan o no embarassades. Utilitza panel per columnes.
També és possible que els sectors representen el % de casos o la Suma de una variable
quantitativa per a cada valor de la variable en Definir sectores por:. Per exemple,
utilitzaríem aquesta última possibilitat si volem que els sectors representen la suma dels
valores de g1des en cada nivell de cod_g1an.
Es pot també editar la gràfica fent doble clic sobre ella, amb la possibilitat de canviar
colors, trames, separar sectors, etc., utilitzant els menús que apareixen a la finestra o al
fer clic amb el botó dret del ratolí. Així podríem obtindre:
33,75%
1721,25%
5265,0%
810,0%
muy alto
alto
medio
bajo
cod_g1an
Resúmens per a diverses variables
Permet que els sectors representen variables en compte de grups de casos. Cada sector
representa la suma dels valors dels seus casos.
Per exemple, les puntuacions de 10 alumnes a tres professors d’Estadística han sigut les
següents:
Prof1 Prof2 Prof3
7,5 6,3 8,1
6,8 5,5 7,9
6,5 5,0 7,0
9,5 7,0 8,5
6,0 4,2 5,0
8,1 6,8 7,0
5,0 3,5 5,0
8,3 7,5 8,5
6,0 6,5 8,0
5,5 4,0 6,0
Podem representar gràficament amb un diagrama de sectors la suma de les puntuacions
a aquests tres professors per a veure si difereixen molt i per a veure el suport relatiu.
Després d’introduir les dades en SPSS i triar l’opció que estem tractant, hem obtingut
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 8
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
l’anterior gràfica de sectors, on s’observa, per exemple, que la suma de les puntuacions
al Prof2 és de 56,3 i que representen un 28,65% de la suma de totes les puntuacions (és
a dir el seu suport relatiu).
Valors individuals dels casos
Es resumeix una única variable, i els casos ja són valors agrupats de la variable. Cada
sector representa el valor d’un cas individual.
Amb
Gráficos/Cuadros_de
diálogo_antiguos/Inte
ractivas/Sectores podem obtindre
representacions amb
efectes més cridaners
com la que apareix a la
dreta on s’ha utilitzat
l’opció 3D.
Diagrames de barres
La construcció d’un diagrama de barres és molt simple:
A l’eix horitzontal es representen els valors d’una variable discreta o categòrica i
sobre cada valor s’alça un rectangle vertical, la base del qual està separada de les
contigües.
A l’eix vertical es representa una característica numèrica de la variable com el
nombre de casos, o bé una altra funció resum, que pot estar associada amb una altra
variable.
Els diagrames de barres permeten utilitzar un major nombre de valors que les gràfiques
de sectors. Són més flexibles que les gràfiques de sectors i, com elles, també es poden
aconseguir efectes especials com 3D, girs i il·luminacions.
Per a generar un diagrama de barres amb SPSS s’utilitzen els menús:
Gráficos/Cuadros_de_diálogo_antiguos/Barras o
Gráficos/Cuadros_de_diálogo_antiguos/Interactivas/Barras.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 9
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
Exercici 4.
Construeix un diagrama de barres associat a la variable cod_g1an com el de la figura
següent.
Les gràfiques de sectors i els diagrames de barres són els idonis per a representar
variables categòriques o discretes. Per a representar gràficament variables contínues
s’utilitzen diversos tipus de gràfiques: Histogrames, Diagrames de tija i fulla i
Diagrames de caixa i bigots. Estudiarem també els Diagrames de dispersió per a
representar conjuntament dues variables contínues.
2.2 Gràfiques de variables contínues
Histogrames
Semblants, en la forma, als diagrames de barres, però atenció: el seu ús es restringeix
únicament a les variables contínues. Els histogrames representen freqüències agrupades
d’una variable contínua. A diferència dels diagrames de barres, els histogrames
dibuixen rectangles units entre sí, indicant que existeix una continuïtat en la variable.
Els valors es representen en l’eix horitzontal el qual es divideix en intervals d’amplària
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 10
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
constant (SPSS no permet alterar aquesta característica), sobre els quals s’alcen
rectangles d’altura proporcional a la seua freqüència. Per tant, les àrees dels rectangles
són proporcionals a les freqüències que representen.
Els histogrames es poden editar fent doble clic amb el botó esquerre del ratolí,
permetent alterar el nombre de classes, la seua amplària, etc. La gràfica d’un histograma
no és molt robusta i pot ser molt diferent per a les mateixes dades, simplement variant el
nombre d’intervals, i per tant l’elecció del nombre d’intervals ha de fer-se amb cura.
En la figura següent, l’histograma de l’esquerra s’ha obtingut amb el nombre d’intervals
fixat per defecte per SPSS. L’histograma de la dreta només té 10 intervals (fixats per
l’usuari). En ambdós casos s’ha superposat una corba normal amb mitjana i desviació
típica coincidents amb les de la mostra per a veure com s’ajusten.
Per a obtindre un histograma amb SPSS s’utilitzen els menús
Gráficos/Cuadros_de_diálogo_antiguos/Histograma o
Gráficos/Cuadros_de_diálogo antiguos/Interactivas/Histograma.
Podem utilitzar
paneles per a
comparar.
Així, per exemple, si
volem comparar els
nivells de g1des en
els dos grups de dones,
introduirem la variable
g1des en el camp
Variable i la variable
embarazo en el camp
Panel por, per exemple
en Filas, obtenim:
Diagrames de tija i fulles
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 11
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
Es tracta de gràfiques construïdes amb números. Consten de dos elements: la tija i les
fulles. La tija està formada pel primer o primers dígits dels valors de la variable. Les
fulles estan formades pels dígits no representats en la tija i apareixen ordenades de
menor a major valor. D’aquesta forma, cada dada té associada una tija (compartida
possiblement per altres dades) i exactament una fulla. Les tijes amb més fulles
destacaran gràficament sobre les que en tenen menys. Ja que no hi ha regles definides,
ni fórmules, anem a fer un exemple amb unes quantes dades. Suposem que els valors
d’una variable pes representen el pes en kg de 20 individus:
68, 82, 70, 79, 101, 83, 95, 70, 88, 69, 78, 85, 92, 73, 82, 70, 84, 68, 82, 74
Agafant com fulla el dígit de les unitats i com tija les desenes, podríem construir el
diagrama següent:
tija|fulla
6 | 889
7 | 0003489
8 | 2223458
9 | 25
10 | 1
Diagrama de tija i fulles (pes).
A diferència de l’histograma, les dades
individuals no desapareixen. Així, és fàcil
veure que en la mostra hi ha només una
persona que supera els 100 kg i tres que
no arriben als 70 kg.
SPSS construeix gràfiques de tija i fulles amb el menú Analizar/Estadísticos
descriptivos/Explorar. La figura següent mostra un diagrama de tija i fulla de la
variable g1antes associat a les dones no embarassades
Els casos extrems són advertits per la
gràfica, hi ha dos casos extrems: un amb
valor menor o igual a 45 i un altre amb valor
major o igual a 106. També observem que
algunes tijes han sigut dividides en diverses
files (rangs 0-4 i 5-9). L’usuari no pot alterar
aquesta gràfica que, per eixe motiu, és més
robusta que l’histograma. Observem en la
llegenda que la tija (stem) té una amplària
(width) que val 10,0 en aquest cas, açò vol
dir que les tijes cal multiplicar-les per eixe
valor i sumar després la fulla per a obtindre
el valor original.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 12
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
Diagrames de caixa i bigots
A diferència de les altres gràfiques ja vistes, els diagrames de caixa i bigots fan èmfasi
en les mesures de posició. Són molt útils per a fer comparacions entre mostres de
diverses poblacions.
Un diagrama de caixa i bigots consisteix en un rectangle la longitud del qual és el rang
interquartílic, dividit per un segment al nivell de la mediana i complementat amb dues
línies (anomenades bigots) que ixen del centre dels extrems del rectangle i intenten
arribar als valors mínim i màxim observats. La longitud màxima d’un bigot és de 1,5
vegades el rang interquartílic i si hi ha valors que disten més de la caixa (anomenats
valors extrems/atípics o outliers), el bigot corresponent s’estén únicament fins al valor
més allunyat de la caixa que no siga extrem. Els valors extrems s’han de representar
aïlladament separats dels bigots. Per obtindre un diagrama de caixa directament amb
SPSS se selecciona el menú Gráficos/Cuadros_de_diálogo_antiguos/Diagrama de
cajas. Per exemple:
Cada grup de dones està representat per una caixa que mostra els nivells de g1des.
Es poden observar diferències en quant a la situació de la mediana i a la dispersió. Per
exemple, s’observa que en les dones no embarassades els nivells de g1des són
inferiors als de les dones embarassades i que presenten menor dispersió.
Observem aquí un cas extrem (representat per un punt negre), entre les dones no
embarassades, correspon al cas número 31. El gràfic també ens dona una idea de la
simetria de les dades. Per exemple, una mediana descentrada -dins del rectangle- ens
indicaria una asimetria. En aquest exemple podem dir que les distribucions són bastant
simètriques en els dos casos.
El diagrama de caixa pot ser editat per a la seua modificació, fent doble clic sobre els
seus elements. Es pot alterar títol, peu, anotacions, llegenda i els valors i etiquetes dels
eixos; els eixos, les línies de referència, l’escala, el color i trama de la caixa i els casos
extrems.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 13
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
Exercici 5.
Construeix dos histogrames de la variable g1antes, un per a les embarassades i un
altre per a les no embarassades.
Construeix un diagrama de tija i fulles de la variable g1des. Identifica els casos
extrems i els seus valors.
Construeix un diagrama de caixa de les sis variables contínues juntes. Interpreta els
resultats.
Construeix un diagrama de caixa de les sis variables contínues juntes i utilitzant com a
factor la variable embarazo. Interpreta els resultats.
Realitza histogrames, diagrames de tija i fulles i diagrames de caixa de dada parella de
variables: g1antes i g1des, g2antes i g2des, g3antes i g3des,
medantes i meddes, per als grups definits per la variable embarazo.
3. Anàlisi exploratori.
És possible analitzar exhaustivament les característiques de diverses variables utilitzant
la instrucció Analizar/Estadísticos_Descriptivos/Explorar. Per exemple amb l’arxiu
Glucosa.sav, podem analitzar les variables g1antes i g1des separant d’acord amb la
variable embarazo. Per a obtindre l’anàlisi en el quadre que s’obri:
Ara posem g1antes i g1des en la
llista de variables dependents i en la
llista de factors posem la variable
embarazo.
Notem que està sel·leccionada, per
defecte, l’opció Ambos, és a dir
obtindrem Estadístics i Gràfics.
El resultat és massa gran per a reportar-ho aquí, simplement comentar que cadascuna de
les variables dependents s’analitza per separat depenent de si la persona està
embarassada o no, obtenim gràfics de caixa i bigots com aquests:
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 14
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
I tota mena d’estadístics. A més a més és possible generar més gràfics amb proves de
normalitat i histogrames sel·leccionant-ho amb el botó Gráficos. L’opció
Estadísticos serveix per a seleccionar alguns descriptius més..
4. Gràfiques de dues variables: Diagrames de dispersió
Quan tenim diverses variables contínues és interessant estudiar la possible relació entre
elles. Per exemple, es pot estudiar la relació entre pes i altura d’un determinat grup
d’individus, la renda per càpita i l’índex de mortalitat infantil per a un grup de països,
l’índex de sulfats en les aigües subterrànies i la producció agrícola d’una regió, etc.
La forma més senzilla d’observar com varien conjuntament dues variables contínues és
mitjançant una gràfica de dispersió o núvol de punts. Es representen ambdues variables
en un sistema de coordenades, amb una variable X en abscisses i l’altra Y en ordenades.
Per cada cas es representa el valor (X,Y) mitjançant un símbol que pot ser un cercle, un
quadrat, una estrella, etc. Els punts generen un núvol que gràficament pot revelar algun
tipus de relació com la lineal (si els punts tendeixen a posar-se al voltant d’una línia
recta), o d’altre tipus. El programa SPSS genera diagrames de dispersió triant
Gráficos/Cuadros_de_diálogo_antiguos/Dispersión/Puntos/Dispersión simple (hi ha
altres possibilitats), on apareix un quadre de diàleg en el qual es pot triar quina variable
ocuparà l’eix X i quina l’altre eix Y. Per exemple, les variables g1antes (en abscisses) i
g1des (en ordenades) de l’arxiu Glucosa.sav produeixen el següent diagrama de
dispersió:
Per aconseguir distingir, per
color, les dones embarassades de
les que no ho estan hem utilitzat
l’opció “Establecer marcas
por:” on hem triat la variable
embarazo.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 15
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
5. Relació lineal: coeficient de correlació lineal i regressió per mínims
quadrats.
Ja hem vist com generar una gràfica de dispersió, ara farem un ajust lineal per mínims
quadrats. Obrim l’arxiu Cerebros.sav on tenim 28 casos i tres variables: animal,
cerebro i cuerpo que indiquen, respectivament, el nom dels animals adults que
intervenen en l’estudi, el pes del seu cervell en grams i el pes del seu cos en quilograms.
Volem comparar el pes del cervell amb el pes del cos, per a la qual cosa generem una
gràfica de dispersió amb, per exemple, el pes del cos en abscisses.
No sembla que hi haja una bona relació lineal entre les 2 variables, podem fer un ajust
lineal amb Analizar/Regresión Lineal, obtenint entre altres coses:
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ.
de la estimación
1 ,005a ,000 -,038 1360,3393
a. Variables predictoras: (Constante), peso del cuerpo en Kg.
b. Variable dependiente: peso del cerebro en g.
Coeficientesa
Modelo
Coeficientes
no estandarizados Coeficientes tipificados
t Sig. B Error típ. Beta
1 (Constante) 576,372 265,912 2,168 ,040
peso del cuerpo en Kg. ,000 ,016 -,005 -,027 ,978
a. Variable dependiente: peso del cerebro en g.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 16
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
La taula Resumen del modelo ens diu que el coeficient de correlació lineal de Pearson
és 0,005 i el de determinació és inferior a una milésima. La recta ajustada per mínims
quadrats ens la dona la taula Coeficientes: El terme constant val 576,372 i el pendent
(coeficient de la variable “peso del cuerpo en Kg”) val 0,000, és a dir la recta que millor
s’ajusta a les dades és pràcticament horitzontal i talla a l’eix d’ordenades en el valor
576,372 gr.
Mirant la gràfica de dispersió observem que hi ha tres animals que podríem dir que són
atípics, d’una banda el Braquiosaurio té un pes descomunal i més encara si el
comparem juntament amb el pes del cervell, d’altra banda el dos elefants tenen un pes
del cervell exagerat comparat amb la resta d’animals. Anem a eliminar-los amb
Datos/Seleccionar casos i un filtre adequat (hi ha molts vàlids), per exemple “cerebro
<= 3000 & cuerpo <= 40000”. Tornem a fer l’anàlisi ara només amb 25 animals.
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
1 ,132a ,017 -,025 310,5060
a. Variables predictoras: (Constante), peso del cuerpo en Kg.
b. Variable dependiente: peso del cerebro en g.
Coeficientesa
Modelo
Coeficientes
no estandarizados
Coeficientes
tipificados
t Sig. B Error típ. Beta
1 (Constante) 237,746 65,405 3,635 ,001
peso del cuerpo en Kg. -,014 ,022 -,132 -,636 ,531
a. Variable dependiente: peso del cerebro en g.
Com veiem la qualitat de l’ajust és millor que abans però no massa: r = 0,132 i r2
=
0,017. Si observem el diagrama de dispersió d’aquests 25 punts, veiem que qualsevol
recta s’allunya bastant del núvol.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 17
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
Veiem que ara tenim dos
casos clarament atípics per pes
del cos, són els dinosauris
Triceratops i el
Diplodoco, també el
Hombre és un cas atípic pel
pes del cervell. Anem a
excloure als animals
prehistòrics i deixem al
Hombre. Apliquem un filtre
adequat per eliminar-los i
quedar-nos amb 23 casos.
Tornem a generar una gràfica
de dispersió.
El resultat obtingut és:
L’escala ha variat i per això
sembla que les dades són
diferents, però només ho
sembla.
L’anàlisi de regressió resulta en:
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ.
de la estimación
1 ,542a ,294 ,261 271,7717
a. Variables predictoras: (Constante), peso del cuerpo en Kg.
b. Variable dependiente: peso del cerebro en g.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 18
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
Coeficientesa
Modelo
Coeficientes
no estandarizados
Coeficientes
tipificados
t Sig. B Error típ. Beta
1 (Constante) 129,516 67,684 1,914 ,069
peso del cuerpo en Kg. 1,009 ,341 ,542 2,958 ,008
a. Variable dependiente: peso del cerebro en g.
La regressió lineal encara no és de bona qualitat tenim un coeficient de determinació r2
= 0,294 és a dir només el 29,4% de la variabilitat en el pes del cervell és explicat per la
regressió. L’últim intent és llevar el cas Hombre, què és un cas atípic i veure el que
passa amb la resta (22 casos únicament).
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ.
de la estimación
1 ,882a ,778 ,767 103,9922
Coeficientesa
Modelo
Coeficientes
no estandarizados
Coeficientes
tipificados
t Sig. B Error típ. Beta
1 (Constante) 68,659 26,472 2,594 ,017
peso del cuerpo en Kg. 1,096 ,131 ,882 8,380 ,000
Ara tenim un coeficient de correlació r = 0,882 i de determinació r2 = 0,778. És a dir per
als 22 mamífers que hem deixat podem dir que hi ha una bona correlació lineal entre les
dues variables analitzades.
Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 19
Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València
La recta de mínims quadrats és
Y = 68,659+1,096·X on Y és el
pes el cervell en grams i X és pes
del cos en quilograms. Per tant a
un increment de 1 quilogram en
el pes del cos correspon
aproximadament 1 gram
d’increment en el pes del cervell.
La predicció sobre el pes del
cervell d’un animal que pesara
300 Kg, com una zebra, seria
68,659 1,096 300 397,46y
grams aproximadament. Per
contra, no seria vàlid intentar
donar una predicció sobre el pes
del cervell d’un animal que
pesara 2000 kg, per exemple, ja
que eixiríem fóra del rang de
valors analitzats.
Exercici 6.
Amb l’arxiu Cerebros.sav original:
Calcula les variables lcuerpo i lcerebro com els logarismes decimals de les
variables cuerpo i cerebro. Construeix el núvol de punts d’aquestes noves
variables. Comenta la gràfica obtinguda i compara-la amb l’anterior. A quins animals
representen els punts atípics d’aquesta gràfica?
Elimina les dades relatives als dinosaures i fes de nou la gràfica anterior (utilitzant
únicament mamífers). Comenta-la i compara-la amb les gràfiques anteriors.
Obtín una descripció numèrica de les dues variables transformades. Què pots dir sobre
les mesures de localització d’aquestes dues variables? I de les seues mesures de
dispersió?