+ All Categories
Home > Documents > Adquisición de datos

Adquisición de datos

Date post: 30-Jun-2015
Category:
Upload: glocos-reyes
View: 732 times
Download: 4 times
Share this document with a friend
60
Adquisición de datos La adquisición de datos o adquisición de señales, consiste en la toma de muestras del mundo real (sistema analógico) para generar datos que puedan ser manipulados por un ordenador u otras electrónicas (sistema digital). Consiste, en tomar un conjunto de señales físicas, convertirlas en tensiones eléctricas y digitalizarlas de manera que se puedan procesar en una computadora o PAC. Se requiere una etapa de acondicionamiento, que adecua la señal a niveles compatibles con el elemento que hace la transformación a señal digital. El elemento que hace dicha transformación es el módulo de digitalización o tarjeta de Adquisición de Datos (DAQ). Contenido [ocultar] 1 Proceso de adquisición de datos 2 ¿Cómo se adquieren los datos? 3 Tiempo de conversión 4 La etapa de acondicionamiento de la señal 5 Ejemplo 6 Ventajas 7 Un tipo de ejercicio de adquisición 8 Véase también 9 Bibliografía 10 Enlaces externos [editar]Proceso de adquisición de datos Definiciones Dato: Representación simbólica (numérica, alfabética...), atributo o característica de un valor. No tiene sentido en sí mismo, pero convenientemente tratado (procesado) se puede utilizar en la relación de cálculos o toma de decisiones.
Transcript
Page 1: Adquisición de datos

Adquisición de datosLa adquisición de datos o adquisición de señales, consiste en la toma de muestras del mundo

real (sistema analógico) para generar datos que puedan ser manipulados por un ordenador u otras

electrónicas (sistema digital). Consiste, en tomar un conjunto de señales físicas, convertirlas en

tensiones eléctricas y digitalizarlas de manera que se puedan procesar en una computadora

o PAC. Se requiere una etapa de acondicionamiento, que adecua la señal a niveles compatibles

con el elemento que hace la transformación a señal digital. El elemento que hace dicha

transformación es el módulo de digitalización o tarjeta de Adquisición de Datos (DAQ).

Contenido

 [ocultar]

1 Proceso de adquisición de datos

2 ¿Cómo se adquieren los datos?

3 Tiempo de conversión

4 La etapa de acondicionamiento de la señal

5 Ejemplo

6 Ventajas

7 Un tipo de ejercicio de adquisición

8 Véase también

9 Bibliografía

10 Enlaces externos

[editar]Proceso de adquisición de datos

Definiciones

Dato: Representación simbólica (numérica, alfabética...), atributo o característica de un valor. No

tiene sentido en sí mismo, pero convenientemente tratado (procesado) se puede utilizar en la

relación de cálculos o toma de decisiones.

Adquisición: Recogida de un conjunto de variables físicas, conversión en voltaje y digitalización

de manera que se puedan procesar en un ordenador.

Sistema: Conjunto organizado de dispositivos que interactúan entre sí ofreciendo prestaciones

más completas y de más alto nivel. Una vez que las señales eléctricas se transformaron en

digitales, se envían a través del bus de datos a la memoria del PC. Una vez los datos están en

memoria pueden procesarse con una aplicación adecuada, archivarlas en el disco duro,

visualizarlas en la pantalla, etc...

Page 2: Adquisición de datos

Bit de resolución: Número de bits que el convertidor analógico a digital (ADC) utiliza para

representar una señal.

Rango: Valores máximo y mínimo entre los que el sensor, instrumento o dispositivo funcionan bajo

unas especificaciones.

Teorema de Nyquist: Al muestrear una señal, la frecuencia de muestreo debe ser mayor que dos

veces el ancho de banda de la señal de entrada, para poder reconstruir la señal original de forma

exacta a partir de sus muestras. En caso contrario, aparecerá el fenómeno del aliasing que se

produce al infra-muestrear. Si la señal sufre aliasing, es imposible recuperar el original. Velocidad

de muestreo recomendada:

–2*frecuencia mayor (medida de frecuencia)

–10*frecuencia mayor (detalle de la forma de onda)

Los componentes de los sistemas de adquisición de datos, poseen sensores adecuados que

convierten cualquier parámetro de medición de una señal eléctrica, que se adquiriere por el

hardware de adquisición de datos. Los datos adquiridos se visualizan, analizan, y almacenan en un

ordenador, ya sea utilizando el proveedor de software suministrado u otro software. Los controles y

visualizaciones se pueden desarrollar utilizando varios lenguajes de programación de propósito

general como VisualBASIC, C++, Fortran, Java, Lisp, Pascal. Los lenguajes especializados de

programación utilizados para la adquisición de datos incluyen EPICS, utilizada en la construcción

de grandes sistemas de adquisición de datos, LabVIEW, que ofrece un entorno gráfico de

programación optimizado para la adquisición de datos, y MATLAB. Estos entornos de adquisición

proporcionan un lenguaje de programación además de bibliotecas y herramientas para la

adquisición de datos y posterior análisis.

De la misma manera que se toma una señal eléctrica y se transforma en una digital para enviarla al

ordenador, se puede también tomar una señal digital o binaria y convertirla en una eléctrica. En

este caso el elemento que hace la transformación es una tarjeta o módulo de Adquisición de Datos

de salida, o tarjeta de control. La señal dentro de la memoria del PC la genera un programa

adecuado a las aplicaciones que quiere el usuario y, luego de procesarla, es recibida por

mecanismos que ejecutan movimientos mecánicos, a través de servomecanismos, que también

son del tipo transductores.

Un sistema típico de adquisición utiliza sensores, transductores, amplificadores, convertidores

analógico - digital (A/D) y digital - analógico (D/A), para procesar información acerca de un sistema

físico de forma digitalizada.

[editar]¿Cómo se adquieren los datos?

Page 3: Adquisición de datos

La adquisición de datos se inicia con el fenómeno físico o la propiedad física de un objeto (objeto

de la investigación) que se desea medir. Esta propiedad física o fenómeno podría ser el cambio de

temperatura o la temperatura de una habitación, la intensidad o intensidad del cambio de una

fuente de luz, la presión dentro de una cámara, la fuerza aplicada a un objeto, o muchas otras

cosas. Un eficaz sistema de adquisición de datos pueden medir todos estos diferentes propiedades

o fenómenos.

Un sensor es un dispositivo que convierte una propiedad física o fenómeno en una señal eléctrica

correspondiente medible, tal como tensión, corriente, el cambio en los valores de resistencia o

condensador, etc. La capacidad de un sistema de adquisición de datos para medir los distintos

fenómenos depende de los transductores para convertir las señales de los fenómenos físicos

mensurables en la adquisición de datos por hardware. Transductores son sinónimo de sensores

en sistemas de DAQ. Hay transductores específicos para diferentes aplicaciones, como la

medición de la temperatura, la presión, o flujo de fluidos. DAQ también despliega diversas técnicas

de acondicionamiento de Señales para modificar adecuadamente diferentes señales eléctricas en

tensión, que luego pueden ser digitalizados usando CED.

Las señales pueden ser digitales (también llamada señales de la lógica) o analógicas en función

del transductor utilizado.

El acondicionamiento de señales suele ser necesario si la señal desde el transductor no es

adecuado para la DAQ hardware que se utiliza. La señal puede ser amplificada o desamplificada, o

puede requerir de filtrado, o un cierre patronal, en el amplificador se incluye para

realizardemodulación. Varios otros ejemplos de acondicionamiento de señales podría ser el puente

de conclusión, la prestación actual de tensión o excitación al sensor, el aislamiento, linealización,

etc. Este pretratamiento del señal normalmente lo realiza un pequeño módulo acoplado al

transductor.

DAQ hardware son por lo general las interfaces entre la señal y un PC. Podría ser en forma de

módulos que pueden ser conectados a la computadora de los puertos (paralelo, serie, USB, etc...)

o ranuras de las tarjetas conectadas a (PCI, ISA) en la placa madre. Por lo general, el espacio en

la parte posterior de una tarjeta PCI es demasiado pequeño para todas las conexiones necesarias,

de modo que una ruptura de caja externa es obligatorio. El cable entre este recuadro y el PC es

cara debido a los numerosos cables y el blindaje necesario y porque es exótico. Las tarjetas DAQ a

menudo contienen múltiples componentes (multiplexores, ADC, DAC, TTL-IO, temporizadores de

alta velocidad, memoria RAM). Estos son accesibles a través de un bus por un micro controlador,

que puede ejecutar pequeños programas. El controlador es más flexible que una unidad lógica

Page 4: Adquisición de datos

dura cableada, pero más barato que una CPU de modo que es correcto para bloquear con simples

bucles de preguntas.

Driver software normalmente viene con el hardware DAQ o de otros proveedores, y permite que el

sistema operativo pueda reconocer el hardware DAQ y dar así a los programas acceso a las

señales de lectura por el hardware DAQ. Un buen conductor ofrece un alto y bajo nivel de acceso.

Ejemplos de Sistemas de Adquisición y control: · DAQ para recoger datos(datalogger)

medioambientales (energías renovables e ingeniería verde). · DAQ para audio y vibraciones

(mantenimiento, test). · DAQ + control de movimiento(corte con laser). · DAQ + control de

movimiento+ visión artificial (robots modernos).

[editar]Tiempo de conversión

Es el tiempo que tarda en realizar una medida el convertidor en concreto, y dependerá de la

tecnología de medida empleada. Evidentemente nos da una cota máxima de la frecuencia de la

señal a medir.

Este tiempo se mide como el transcurrido desde que el convertidor recibe una señal de inicio de

"conversión" (normalmente llamada SOC, Start of Conversión) hasta que en la salida aparece un

dato válido. Para que tengamos constancia de un dato válido tenemos dos caminos:

Esperar el tiempo de conversión máximo que aparece en la hoja de características.

Esperar a que el convertidor nos envíe una señal de fin de conversión.

Si no respetamos el tiempo de conversión, en la salida tendremos un valor, que dependiendo de la

constitución del convertidor será:

Un valor aleatorio, como consecuencia de la conversión en curso

El resultado de la última conversión

[editar]La etapa de acondicionamiento de la señal

Con más detalle, en una etapa de acondicionamiento podemos encontrar estas etapas, aunque no

todas están siempre presentes:

Amplificación

Excitación

Filtrado

Multiplexado

Aislamiento

Page 5: Adquisición de datos

Linealización

Amplificación  Es el tipo más común de acondicionamiento. Para conseguir la mayor precisión

posible la señal de entrada debe ser amplificada de modo que su máximo nivel coincida con la

máxima tensión que el convertidor pueda leer.

Aislamiento - Otra aplicación habitual en el acondicionamiento de la señal es el aislamiento

eléctrico entre el transductor y el ordenador, para proteger al mismo de transitorios de alta tensión

que puedan dañarlo. Un motivo adicional para usar aislamiento es el garantizar que las lecturas del

convertidor no son afectadas por diferencias en el potencial de masa o por tensiones en modo

común.

Cuando el sistema de adquisición y la señal a medir están ambas referidas a masa pueden

aparecer problemas si hay una diferencia de potencial entre ambas masas, apareciendo un "bucle

de masa", que puede devolver resultados erróneos.

Multiplexado - El multiplexado es la conmutación de las entradas del convertidor, de modo que

con un sólo convertidor podemos medir los datos de diferentes canales de entrada. Puesto que el

mismo convertidor está midiendo diferentes canales, su frecuencia máxima de conversión será la

original dividida por el número de canales muestreados. Se aconseja que los multiplexores se

utilizen antes del conversor y después del condicionamiento del señal, ya que de esta manera no

molestará a los aislantes que podamos tener.

Filtrado - El fin del filtro es eliminar las señales no deseadas de la señal que estamos observando.

Por ejemplo, en las señales cuasi-continuas, (como la temperatura) se usa un filtro de ruido de

unos 4 Hz, que eliminará interferencias, incluidos los 50/60 Hz de la red eléctrica.

Las señales alternas, tales como la vibración, necesitan un tipo distinto de filtro, conocido como

filtro antialiasing, que es un filtro pasabajo pero con un corte muy brusco, que elimina totalmente

las señales de mayor frecuencia que la máxima a medir, ya que se si no se eliminasen aparecerían

superpuestas a la señal medida, con el consiguiente error.

Excitación - La etapa de acondicionamiento de señal a veces genera excitación para algunos

transductores, como por ejemplos las galgas "extesométricas", "termistores" o "RTD", que

necesitan de la misma, bien por su constitución interna, (como el termistor, que es una resistencia

variable con la temperatura) o bien por la configuración en que se conectan (como el caso de las

galgas, que se suelen montar en un puente de Wheatstone).

Linealización - Muchos transductores, como los termopares, presentan una respuesta no lineal

ante cambios lineales en los parámetros que están siendo medidos. Aunque la linealización puede

Page 6: Adquisición de datos

realizarse mediante métodos numéricos en el sistema de adquisición de datos, suele ser una

buena idea el hacer esta corrección mediante circuitería externa.

[editar]Ejemplo

A veces el sistema de adquisición es parte de un sistema de control, y por tanto la información

recibida se procesa para obtener una serie de señales de control. En este diagrama podemos ver

los bloques que componen nuestro sistema de adquisición de datos:

Como vemos, los bloques principales son estos:

Transductor

El acondicionamiento de señal

El convertidor analógico-digital

La etapa de salida (interfaz con la lógica)

El transductor es un elemento que convierte la magnitud física que vamos a medir en una señal de

salida (normalmente tensión o corriente) que puede ser procesada por nuestro sistema. Salvo que

la señal de entrada sea eléctrica, podemos decir que el transductor es un elemento que convierte

energía de un tipo en otro. Por tanto, el transductor debe tomar poca energía del sistema bajo

observación, para no alterar la medida.

El acondicionamiento de señal es la etapa encargada de filtrar y adaptar la señal proveniente del

transductor a la entrada del convertidor analógico / digital. Esta adaptación suele ser doble y se

encarga de:

Adaptar el rango de salida del transductor al rango de entrada del convertidor.(Normalmente en

tensión).

Page 7: Adquisición de datos

Acoplar la impedancia de salida de uno con la impedancia de entrada del otro.

La adaptación entre los rangos de salida del convertidor y el de entrada del convertidor tiene como

objetivo el aprovechar el margen dinámico del convertidor, de modo que la máxima señal de

entrada debe coincidir con la máxima que el convertidor (pero no con la máxima tensión admisible,

ya que para ésta entran en funcionamiento las redes de protección que el convertidor lleva

integrada).

Por otro lado, la adaptación de impedancias es imprescindible ya que los transductores presentan

una salida de alta impedancia, que normalmente no puede excitar la entrada de un convertidor,

cuya impedancia típica suele estar entre 1 y 10 k.

El convertidor analógico/digital es un sistema que presenta en su salida una señal digital a partir de

una señal analógica de entrada, (normalmente de tensión) realizando las funciones de

cuantificación y codificación.

La cuantificación implica la división del rango continuo de entrada en una serie de pasos, de modo

que para infinitos valores de la entrada la salida sólo puede presentar una serie determinada de

valores. Por tanto la cuantificación implica una pérdida de información que no podemos olvidar.

La codificación es el paso por el cual la señal digital se ofrece según un determinado código

binario, de modo que las etapas posteriores al convertidor puedan leer estos datos

adecuadamente. Este paso hay que tenerlo siempre en cuenta, ya que puede hacer que

obtengamos datos erróneos, sobre todo cuando el sistema admite señales positivas y negativas

con respecto a masa, momento en el cual la salida binaria del convertidor nos da tanto la magnitud

como el signo de la tensión que ha sido medida.

La etapa de salida es el conjunto de elementos que permiten conectar el s.a.d con el resto del

equipo, y puede ser desde una serie de buffers digitales incluidos en el circuito convertidor, hasta

una interfaz RS-232, RS-485 o Ethernet para conectar a un ordenador o estación de trabajo, en el

caso de sistemas de adquisición de datos comerciales.

[editar]Ventajas

Flexibilidad de procesamiento, posibilidad de realizar las tareas en tiempo real o en análisis

posteriores (a fin de analizar los posibles errores), gran capacidad de almacenamiento, rápido

acceso a la información y toma de decisión, se adquieren gran cantidad de datos para poder

analizar, posibilidad de emular una gran cantidad de dispositivos de medición y activar varios

instrumentos al mismo tiempo, facilidad de automatización, etc.

Page 8: Adquisición de datos

Se utiliza en la industria, la investigación científica, el control de máquinas y de producción, la

detección de fallas y el control de calidad entre otras aplicaciones.

[editar]Un tipo de ejercicio de adquisición

Ejemplo 1

Tenemos 300 señales a monitorizar. Todas ellas de 4 bytes y queremos guardar la

información de todo el proceso cada segundo.¿qué capacidad ha de tener el disco duro del PC

servidor para tener un histórico de todo un año?

300segundos * 4bytes = 1200bytes * segundo

3600 * 24 * 365 = 31536000

1200 * 31536000 = 37,8GB

Tendríamos que tener una capacidad de 37,8 GB. Pero teniendo en cuenta que siempre se tiene

que tener una copia de seguridad, esta capacidad la tendremos que multiplicar por dos y eso nos

daría 75,7 GB.

Ejemplo 2

En un sistema de adquisición de datos entran 210 señales por segundo, de 8 bytes cada

una. ¿qué capacidad ha de tener el disco duro del PC servidor para tener un histórico de todo un

mes?

210segundo * 8bytes = 1680bytes * segundo

3600 * 24 * 30 = 2592000

1680 * 2592000 = 4,35gigabytes

[editar]Véase también

Procesamiento de señales

Análisis de datos

Dispositivos de entrada:

Escáner 3D

Conversión analógica-digital

Hardware:

PXI

Software:

LabVIEW

Page 9: Adquisición de datos

Measurement Studio para Visual Studio

LabWindows/CVI para Lenguaje C

MATLAB

[editar]Bibliografía

Texas Instruments: "Understanding Data Converters Application Report", 1997, ref nº

SLAA013.

Pallás Areny, Ramón: "Adquisición y Distribución de Señales". Editorial Marcombo.

Loveday, G. C.: "Diseño de Hardware Electrónico". Editorial Paraninfo.

I) INTRODUCCION

La estadística o los métodos estadísticos, como se llama algunas veces, desempeña un papel cada vez más importante en casi todas las áreas del quehacer humano. Aunque en un principio tenía que ver solamente con asuntos de Estado, a lo que debe su nombre, en la actualidad la influencia de la estadística se ha extendido a la agricultura, la biología, el comercio, la química, la comunicación, la economía, la educación, la electrónica, la medicina, la física, las ciencias políticas, la psicología, la sociología y a muchos otros campos de la ciencia y de la ingeniería.

La palabra Estadística tiene varias acepciones para cada persona. Así para el gerente de de una central de energía eléctrica, la estadística puede ser la información sobre la cantidad de contaminantes que están siendo emitidos hacia la atmósfera. Para el director de una escuela, es la información acerca del ausentismo, las calificaciones de los alumnos y los sueldos del profesorado. Y para un universitario, la estadística son las calificaciones logradas entonos los problemas de un curso del semestre. Todas estas personas están empleando correctamente el término estadística y sin embrago cada una le da un significado ligeramente diferente y la usa para un propósito un poco distinto. Hoy la estadística y el análisis estadístico están presentes en casi todas las profesiones. Se han convertido, en especial para los gerentes, en una herramienta de suma utilidad.

El propósito de este curso es presentar una introducción a los principios generales de la estadística, que le será útil a todos los individuos sin importar su campo de especialización; será

Page 10: Adquisición de datos

también de gran valor como referencia para todos aquellos que estén aplicando la estadística en su campo de investigación particular.

1. DEFINICION

ESTADISTICA

Se ocupa de los métodos científicos para recolectar, organizar, resumir, presentar y analizar datos, así como de sacar conclusiones válidas y tomar decisiones con base en este análisis.

2. ESTADISTICA DESCRIPTIVA.- También llamada Estadística Deductiva, es la que busca únicamente describir y analizar un grupo determinado, sin sacar conclusiones o inferencias acerca de un grupo mas grande.

3. ESTADISTICA INDUCTIVA.- Ó Estadística Inferencial, es aquella que a partir de una muestra representativa de una población se pueden inferir conclusiones importantes; debido a que tales inferencias no llegan a ser precisas por completo, para sacar conclusiones se usa el lenguaje de Probabilidad.

4. POBLACION Y MUESTRA

Población.- También llamado universo, se refiere a un grupo de individuos u objetos, por ejemplo, las alturas y los pesos de los estudiantes de una universidad o la cantidad de piezas defectuosas y no defectuosas producidas en una fábrica un día determinado. La población puede ser finita ó infinita. Por ejemplo, la población que comprende todas las piezas producidas en un día determinado en una fábrica es finita, mientras que la población que consta de todos los resultados posibles (cara o cruz) en lanzamientos sucesivos de una moneda es infinita.

Muestra.- Pequeña parte de la población en estudio.

Page 11: Adquisición de datos

5. VARIABLES DISCRETAS Y CONTINUAS

Una variable es un símbolo, como X, H, Y, x o B, que puede tomar cualquiera de los valores de un conjunto predeterminado llamado dominio de la variable. Si la variable solo toma un valor, entonces a esta variable se le llama constante.

A una variable que, teóricamente, toma cualquier valor entre dos valores dados, se le llama variable continua. Si no es así, se denomina variable discreta.

Ejemplo 1

El número N de niños en una familia, que puede tomar cualquiera de los valores 0, 1, 2, 3, …, pero no 2.5 o 3.842, es una variable discreta.

Ejemplo 2

La altura H de un individuo, que puede ser de 62 pulg., 63.8 pulg. O 65.8341 pulg., dependiendo de la exactitud de las mediciones, es una variable continua.

A los datos que se pueden describir mediante una variable discreta o continua se les llama datos discretos o continuos, respectivamente. El número de hijos en cada una de 1,000 familias es un ejemplo de datos discretos, mientras que las alturas de 100 estudiantes universitarios son un ejemplo de datos continuos. En general, las mediciones dan lugar a datos continuos, mientras que las enumeraciones o los conteos dan lugar a datos discretos.

6. REDONDEO DE DATOS

El resultado de redondear un número, por ejemplo 72.8 a la unidad mas cercana, es 73, ya que 72.8 está mas cerca de 73 que de 72. De manera semejante, 72.8146 redondeado a la centésima más cercana (o a dos decimales) es 72.81, ya que 72.8146 está más cerca de 72.81 que de 72.82.

Al redondear 72.465 a la centésima más cercana se tiene un dilema, puesto que 72.465 está exactamente igual de lejos de 72.46 que de 72.47. En estos casos se acostumbra redondear al entero par anterior al 5. De manera que 72.465 se redondea a 72.46, 183.575 se redondea a 183.58, y 116 500 000 redondeado al millón mas cercano es 116 000 000. Esta práctica es

Page 12: Adquisición de datos

especialmente útil para minimizar errores de redondeo acumulados cuando se tiene un gran número de operaciones.

7. REPRESENTACION TABULAR

Para que los datos sean útiles, hemos de organizar nuestras observaciones de manera que podamos seleccionar tendencias y llegar a conclusiones lógicas.

Colección de Datos

• Representar a todos los grupos. Los estadísticos seleccionan sus observaciones de manera que todos los grupos relevantes estén representados en los datos. Para determinar el mercado potencial de un nuevo producto, los analistas podrían estudiar a 100 consumidores que viven en cierta zona geográfica. Y deben cerciorarse de que el grupo contenga una gran diversidad de personas que representen variables como nivel de ingresos, raza, escolaridad y barrio.

• Obtener datos de observaciones o registros. Los datos provienen de observaciones reales o de documentos que se conservan para usos ordinarios. Por ejemplo, los hospitales tienen expedientes con el número de pacientes que usan los servicios de rayos X, pues esta información ayuda a preparar los informes de los médicos y a hacer la facturación.

• Utilizar los datos referentes al pasado para tomar decisiones sobre el futuro. Los datos ayudan a los encargados de la toma de decisiones a hacer conjeturas bien fundamentadas acerca de las causas y, por tanto, sobre los efectos probables de ciertas características en algunas situaciones. Ejemplo, si los expedientes del hospital indican que más pacientes usaron los servicios de rayos X en Junio que en Enero, el departamento de personal habrá de determinar si ese fenómeno se dio sólo en el presente año o si es una indicación de una tendencia constante. De ser así, habrá de ajustar su programa de contrataciones y vacaciones para tenerla en cuenta.

Cuando los datos se organizan en forma compacta y útil, los encargados de la toma de decisiones consiguen información confiable del ambiente y se valen de ella para llegar a decisiones inteligentes. En la actualidad las computadoras permiten a los estadísticos reunir enormes volúmenes de observaciones y condensarlas instantáneamente en tablas, gráficas y números. Se

Page 13: Adquisición de datos

trata de formas compactas y utilizables, pero cabe preguntar, ¿son confiables? No olvide que la exactitud de los datos que salen de la computadora depende de los que entran en ella; “¡Entra basura, sale basura!”. Para poder confiar en la interpretación de unos datos cualesquiera, antes se prueban formulando las siguientes preguntas:

¿De dónde proceden los datos?

¿Apoyan o contradicen los datos la otra evidencia con que se cuenta?

¿Existen datos que ignoramos y que nos harían llegar a una conclusión diferente?

¿Cuántas observaciones tenemos?

¿Es lógica la conclusión?

Hay muchas maneras de clasificar los datos. Podemos simplemente reunirlos y conservarlos en orden. Si las observaciones se miden en números, también podemos listar los puntos de datos por orden ascendente de valor numérico. Pero si los datos son trabajadores calificados (digamos carpinteros, albañiles ó electricistas) que se necesitan en los sitios de construcción, si son diferentes tipos de automóviles fabricados por todas las empresas automotrices o si son los diversos colores de abrigos fabricados por determinada compañía, necesitaremos organizarlos de modo diferente. Tendremos que representar los puntos graficados (observaciones) de datos por orden alfabético o por algún otro principio organizador. Una forma útil de hacerlo consiste en dividir los datos en categorías o clases similares y luego contar el número de observaciones que caen dentro de cada categoría. Este método da origen a una distribución de frecuencia y se explica mas adelante.

La finalidad de organizar los datos es permitirnos ver rápidamente todas las características posibles de los datos que hemos recabado. Buscamos cosas como el intervalo (los valores máximos y mínimos), las tendencias notorias, aquello en torno a lo cual los datos tienden a agruparse, que valores aparecen con mayor frecuencia y otros aspectos. Cuanto mas abundante sea la información de este tipo que obtengamos de la muestra, mejor conoceremos la población de donde proviene y mejores serán las decisiones que tomemos.

II) DISTRIBUCIONES DE FRECUENCIA

1. DEFINICION

Page 14: Adquisición de datos

Datos Sueltos. Se les llama Datos Sueltos a los datos que no han sido organizados numéricamente. Un ejemplo es el conjunto de estaturas de 100 estudiantes hombres, obtenidas del registro universitario, que está ordenado en forma alfabética.

Ordenación. Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente de magnitud. A la diferencia entre el número mayor y el menor se le conoce como rango de los datos. Por ejemplo, si la estatura mayor de los 100 estudiantes es 74 pulg y la menor es 60, el rango es 74-60= 14 pulg.

2. ORDENAMIENTO DE DATOS

Si se reúnen grandes cantidades de datos sueltos es útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada categoría, a lo que se le llama frecuencia de clase. A una disposición tabular de los datos por clases, con sus correspondientes frecuencias de clase, se le conoce como distribución de frecuencias o tabla de frecuencias.

Ejemplo.- Tabla 2-1 Estaturas de 100 estudiantes hombres de la universidad XYZ

|Estatura |Número de |

|(pulg) |Estudiantes |

|60-62 |5 |

|63-65 |18 |

|66-68 |42 |

|69-71 |27 |

|72-74 |8 |

| |Total 100 |

La primera clase (o categoría), por ejemplo, comprende las estaturas entre 60 y 62 pulg y se indica en el rango 60-62. Como hay cinco estudiantes en esta clase, la correspondiente frecuencia de clase es 5.

Page 15: Adquisición de datos

A los datos así organizados y reunidos en clases, como en la anterior distribución de frecuencias, se les llama datos agrupados. Aunque el proceso de agrupamiento generalmente quita detalles originales de los datos, es muy ventajosa pues proporciona una visión amplia y clara, además de que se obtienen relaciones evidentes.

3. CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA

a) Intervalos de Clase y Límites de Clase

El símbolo que define una clase, como el 60-62 de la tabla 2-1, se llama intervalo de clase. A los números 60 y 62 se les conoce como límites de clase; el número más pequeño (60) es el límite inferior de clase, mientras que el número más grande (62) es el límite superior de clase. Se acostumbra usar los términos clase e intervalo de clase indistintamente, aunque el intervalo de clase es en realidad un símbolo de la clase.

b) Fronteras de Clase

Si se miden estaturas con exactitud de 1 pulg, en teoría el intervalo de clase 60-62 incluye todas las medidas desde 59.5000 hasta 62.5000. Estos números, indicados brevemente por los números exactos 59.5 y 62.5 se llaman fronteras de clase o límites verdaderos de clase, el número menor (59.5) es la frontera inferior de clase y el número mayor (62.5), la frontera superior de clase.

En la práctica, las fronteras de clase se obtienen promediando los límites superior e inferior de un intervalo de clase.

c) Tamaño o Amplitud de un Intervalo de Clase

El tamaño o la amplitud de un intervalo de clase es la diferencia entre las fronteras de clase inferior y superior y se le conoce como amplitud, tamaño o longitud de clase. Si todos los intervalos de una distribución de frecuencia son de la misma amplitud, a esta amplitud común se le denota por c. En tal caso, c es igual a la diferencia entre dos límites inferiores (o superiores) de

Page 16: Adquisición de datos

clases sucesivas. Para los datos de la tabla 2-1, por ejemplo, la amplitud del intervalo de clase es c=62.5-59.5=65.5-62.5=3.

d) Marca de Clase

La marca de clase, que es el punto medio del intervalo de clase, se obtiene promediando los límites inferior y superior de clase. De este modo, la marca de clase del intervalo 60-62 es (60+62)/2=61. A la marca de clase también se le denomina punto medio de la clase.

Reglas Generales para Construir Distribuciones de Frecuencia

• Determinar el número mayor y el menor en los datos sueltos con el fin de especificar el rango (la diferencia entre ambos).

• Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño. Si esto no es posible, usar intervalos de clase de distintos tamaños o intervalos de clase abiertos. Se suelen tomar entre 5 y 20 intervalos de clase, según los datos. Los intervalos de clase se eligen también de modo tal que las marcas de clase (o puntos medios) coincidan con los datos realmente observados.

• Determinar el número de observaciones que corresponden a cada intervalo de clase; es decir, hallar las frecuencias de clase.

4. DISTRIBUCION DE FRECUENCIA RELATIVA

La frecuencia relativa de una clase es su frecuencia dividida entre la frecuencia total de todas las clases y se expresa generalmente como un porcentaje. Por ejemplo, la frecuencia relativa de la clase 66-68 de la tabla 2-1 es 42/100=42%.

Si se sustituyen las frecuencias de la tabla 2-1 por las correspondientes frecuencias relativas, a la tabla resultante se le llama distribución de frecuencias relativas, distribución de frecuencias o tabla de frecuencias relativas.

5. DISTRIBUCION DE FRECUENCIA ACUMULADA

Page 17: Adquisición de datos

La frecuencia total de todos los valores menores que la frontera de clase superior de un intervalo de clase dado se conoce como frecuencia acumulada hasta ese intervalo de clase, inclusive. Por ejemplo, la frecuencia acumulada, incluyendo hasta el intervalo de clase 66-68 de la tabla 2-1, es 5+18+42=65, lo que significa que 65 estudiantes tienen estaturas por debajo de 68.5 pulg.

Una tabla que presenta tales frecuencias acumuladas se llama distribución de frecuencias acumuladas, tabla de frecuencias acumuladas o, brevemente, una distribución acumulada.

6. REPRESENTACION GRAFICA DE DISTRIBUCION DE FRECUENCIA

a) Construcción de Histogramas

Los histogramas y los polígonos de frecuencias son dos representaciones gráficas de las distribuciones de frecuencias.

Un histograma o histograma de de frecuencias consiste en un conjunto de rectángulos que tienen a) sus bases en el eje X horizontal, sus centros en las marcas de clase y longitudes iguales a los tamaños de los intervalos de clase, y b) áreas proporcionales a las frecuencias de clase. Si todos los intervalos de clase son del mismo tamaño, las alturas de los rectángulos son proporcionales a las frecuencias de clase.

b) Construcción de Polígonos de Frecuencia

Un polígono de frecuencia es una gráfica de línea de las frecuencias de clase dibujada con respecto a la marca de clase. Puede obtenerse uniendo los puntos medios de las partes superiores de los rectángulos del histograma.

[pic]

Figura 2-1

Page 18: Adquisición de datos

c) Ojivas y Ojivas Porcentuales

Una gráfica que recoja las frecuencias acumuladas por debajo de cualquiera de las fronteras de clase superiores respecto de dicha frontera es denominada un polígono de frecuencias acumuladas u ojiva; en la figura 2-2 se ilustra esta gráfica para la distribución de estaturas de los estudiantes de la tabla 2-1.

Para ciertos propósitos, es deseable considerar una distribución de frecuencias acumuladas de todos los valores mayores o iguales que la frontera de clase inferior de cada intervalo de clase. Como de este modo se obtienen estaturas de 59.5 pulg o más, de 62.5 pulg o más, etcétera, se le suele conocer como una distribución acumulada “o mas”, mientras que la antes considerada es una distribución acumulada “menor que”. Las correspondientes ojivas se conocen, entonces, como ojivas “o más” y “menores que”. Siempre que se hable de distribuciones acumuladas u ojivas, sin especificar el tipo, se estará mencionando el caso “menor que”.

[pic]

Figura 2-2

7. OTROS GRAFICOS

a) De Pastel

[pic]

b) Piramidal

[pic]

Page 19: Adquisición de datos

c) Tipos de Curvas de Frecuencia

Las curvas de frecuencia que aparecen, en la práctica adoptan ciertas formas características, como se ilustra en la figura 2-3.

[pic]

• Las curvas de frecuencia simétricas o en forma de campana se caracterizan porque las observaciones equidistantes del máximo central tienen la misma frecuencia.

• En las curvas de frecuencia moderadamente asimétricas, o sesgadas, la cola de la curva a un lado del máximo es mas larga que al otro lado.

• En una curva en forma de J o de J invertida hay un máximo en un extremo.

• Una curva de frecuencia en forma de U tiene máximos en ambos extremos.

• Una curva de frecuencias bimodal tiene dos máximos.

• Una curva de frecuencias multimodal tiene más de dos máximos

8. CONSTRUCCION DE GRAFICAS POR COMPUTADORA

Remitirse al archivo Graficación.ppt.

III) MEDIDAS DE TENDENCIA CENTRAL

1. Interpretación de Tendencia Central

En el capítulo anterior aprendimos a construir tablas y gráficas donde se usaban datos brutos. Las “Representaciones” resultantes de las distribuciones de frecuencia nos permitieron discernir las tendencias y patrones de los datos. ¿Pero que sucedería si necesitáramos medidas mas exactas de un conjunto de datos? En ese caso, podríamos servirnos de números individuales,

Page 20: Adquisición de datos

llamados estadísticos resumidos, para describir ciertas características de dicho conjunto. A partir de ellos lograremos una comprensión mas precisa de los datos de la que podríamos conseguir con nuestras tablas y gráficas. Y estos números nos permitirán tomar decisiones más rápidas y satisfactorias, ya que no tendremos necesidad de consultar nuestras observaciones iniciales.

Igual que los promedios, las medidas de tendencia central nos indican el punto medio o típico de datos que cabe esperar. También reciben el nombre de medidas de localización.

Notación de índices

Denotemos por [pic] (léase “X sub j”) cualquiera de los [pic] valores [pic] que toma una variable [pic]. La letra j en [pic], que puede valer 1, 2, 3,… N se llama subíndice.

Notación de sumatoria

El símbolo [pic]denota la suma de todos los [pic] desde j=1 hasta j=N, por definición,

[pic]

Cuando no ocasione confusión, se denotará esa suma simplemente con [pic]

2. Media Aritmética

La media aritmética, ó simplemente media, de un conjunto de N números [pic] se denota por [pic] (léase “X barra”) y se define por

[pic] (1)

Ejemplo 1

La media aritmética de los números 8, 3, 5, 12 y 10 es

Page 21: Adquisición de datos

[pic]

Si los números [pic] ocurren [pic] veces, respectivamente (es decir, con frecuencias [pic]), la media aritmética es

[pic] (2)

donde [pic] es la frecuencia total (es decir, el número total de casos).

Ejemplo 2

Si 5, 8, 6 y 2 ocurren con frecuencias 3, 2, 4 y 1, en ese orden, su media aritmética es

[pic]

Cuando los datos se presentan en una distribución de frecuencias, todos los valores que caen dentro de un intervalo de clase dado se consideran iguales a la marca de clase, o punto medio del intervalo.

3. Media Geométrica

La media geométrica G de un conjunto de N números positivos [pic] es la raíz N-ésima del producto de esos números:

[pic]

Ejemplo 3

La media geométrica de los números 2, 4 y 8 es [pic]

Page 22: Adquisición de datos

4. Mediana y Moda para datos agrupados

La Mediana

La mediana de un conjunto de números ordenados en magnitud es el valor central o la media de los dos valores centrales.

Ejemplo 4

El conjunto de números 3, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6

Ejemplo 5

El conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana

[pic]

Para datos agrupados, la mediana obtenida por interpolación, está dada por

[pic]

donde:

|[pic] |frontera inferior de la clase de la mediana (es decir, la clase que contiene a la mediana) |

|[pic] |número de datos (es decir, la frecuencia total) |

|[pic] |suma de las frecuencias de las clases inferiores a la clase de la mediana |

|[pic] |frecuencia de la clase de la mediana |

|[pic] |tamaño del intervalo de clase de la mediana |

Page 23: Adquisición de datos

Geométricamente, la mediana es el valor X (abscisa), que corresponde a la recta vertical que divide un histograma en dos partes de área igual. Ese valor de X suele denotarse por [pic]

La Moda

La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el valor más frecuente. La moda puede no existir e incluso no ser única.

Ejemplo 6

El conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12 y 18 tiene moda 9.

Ejemplo 7

El conjunto 3, 5, 8, 10, 12, 15 y 16 carece de moda.

Ejemplo 8

El conjunto 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, y 9 cuenta con dos modas, 4 y 7, y se le conoce como bimodal.

La distribución con una sola moda se llama unimodal.

En el caso de datos agrupados donde se haya construido una curva de frecuencias, para ajustar los datos, la moda será(n) el (los) valor(es) de X correspondiente(s) al(os) máximo(s) de la curva. Ese valor de X se denota por [pic].

La moda llega a obtenerse de una distribución de frecuencias o de un histograma a partir de la fórmula:

[pic]

donde:

Page 24: Adquisición de datos

|[pic] |Frontera inferior de la clase de la clase modal (clase que contiene a la moda) |

|[pic] |Diferencia de la frecuencia modal con la frecuencia de la clase inferior inmediata |

|[pic] |Diferencia de la frecuencia modal con la frecuencia de la clase superior inmediata |

|[pic] |tamaño del intervalo de la clase modal |

5. Cuartiles, Deciles y Percentiles

Si un conjunto de datos se ordena de acuerdo con su magnitud, el valor central (o la media aritmética de los dos valores centrales) que divide al conjunto en dos partes iguales es la mediana. Extendiendo esta idea, es posible considerar los valores que dividen al conjunto en cuatro partes iguales. Estos valores, denotados por [pic]y [pic], se denominan como primero, segundo y tercer cuartiles respectivamente, donde [pic] es igual a la mediana.

De forma similar los valores que dividen los datos en 10 partes iguales son llamados deciles, los cuales se denotan por [pic], mientras que los valores que dividen a los datos en 100 partes iguales se conocen como percentiles y se indican con [pic]. El quinto decil y el 50º percentil coinciden con la mediana.

IV) MEDIDAS DE DISPERSION

1. Dispersión o Variación

La dispersión o variación de los datos es el grado en que los datos numéricos tienden a esparcirse alrededor de un valor promedio.

2. El Rango

Page 25: Adquisición de datos

El rango de un conjunto de números es la diferencia entre el número mayor y el menor del conjunto.

Ejemplo1

El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12-2=10

3. La Desviación Media

La desviación media o la desviación promedio de un conjunto de N números [pic] se abrevia DM y se define como:

[pic] (1)

donde [pic] es la media aritmética de los números y [pic] es el valor absoluto de la desviación de [pic] respecto de [pic]. (El valor absoluto de un número es el número sin el signo asociado y se indica con dos líneas verticales colocadas a los lados del número; así [pic], [pic], [pic] y [pic]).

Ejemplo 2

Calcule la desviación media del conjunto 2, 3, 6, 8, 11.

Media aritmética [pic]

[pic]

Si [pic] ocurren con frecuencias [pic] respectivamente, la desviación media puede expresarse

Page 26: Adquisición de datos

[pic] (2)

donde [pic]. Esta forma es útil para datos agrupados, donde las [pic] representan las marcas de clase y las [pic] son las frecuencias de clase correspondientes.

En ocasiones la desviación media se define en términos de desviaciones absolutas con respecto a la mediana u otro promedio, en lugar de hacerlo en relación con la media. Una propiedad interesante de la suma [pic] radica en que es mínima cuando [pic] es mínima (es decir, la desviación media con referencia a la mediana es mínima).

4. Desviación Cuartílica

El rango semiintercuartilar o desviación intercuartilar de un conjunto de datos se denota por [pic] y se define como

[pic] (3)

donde [pic] y [pic] son el primer y el tercer cuartiles de los datos. Algunas veces se usa el rango intercuartilar [pic], aunque el rango semiintercuartilar es más común como medida de dispersión.

5. Rango entre Percentiles 10-90

El rango percentilar de un conjunto de datos se define como

Rango Percentilar [pic] (4)

Donde [pic] y [pic] son los percentiles 10º y 90º de los datos.

6. La Desviación Estándar

Page 27: Adquisición de datos

La desviación estándar o típica de un conjunto de N números [pic]

se denota por [pic] y se define como:

[pic] (5)

donde [pic] representa las desviaciones de cada uno de los números [pic], respecto de la [pic]. Por lo tanto [pic] es la media cuadrática de las desviaciones en relación con la media o, como se le llama en forma común, desviación de la media cuadrática.

Si [pic] ocurren con frecuencias [pic] respectivamente, la desviación estándar suele expresarse

[pic] (6)

donde [pic]. De esta forma, es útil para datos agrupados.

Algunas veces la desviación estándar de los datos de una muestra se define con (N-1), reemplazando N en los denominadores de las expresiones de las ecuaciones (5) y (6), ya que el valor resultante representa un mejor estimado de la desviación estándar de la población original. Para los valores grandes de N (de modo preciso N>30), prácticamente no existe diferencia entre las dos definiciones. Además cuando se necesita el mejor estimado, siempre podemos obtenerlo multiplicando la desviación estándar, calculada de acuerdo con la primera definición, por [pic]. Por lo tanto, se usarán las formas (5) y (6).

7. La Varianza

La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar, por lo tanto, se representa como [pic] en las ecuaciones (5) y (6). Cuando es necesario distinguir la desviación estándar de una población de la desviación estándar de una muestra obtenida de dicha población, con frecuencia se utiliza el símbolo [pic] para esta última y [pic] (sigma griega

Page 28: Adquisición de datos

minúscula) para la primera. Por lo tanto [pic] y [pic] representan la varianza de una muestra y la varianza de una población, respectivamente.

• Métodos Cortos para Calcular la Desviación Estándar

Las ecuaciones (5) y (6) pueden expresarse, respectivamente, en las formas equivalentes:

[pic] (7)

[pic] (8)

donde [pic] denota la media de los cuadrados de los distintos valores de [pic], mientras que [pic] denota el cuadrado de la media de los distintos valores de [pic].

Si [pic] son las desviaciones de [pic] con respecto a una constante arbitraria [pic], los resultados de (7) y (8) se convierten, respectivamente en

[pic] (9)

[pic] (10)

Cuando los datos se encuentran agrupados en una distribución de frecuencias, cuyos intervalos de clase son del mismo tamaño c, se tiene [pic] o [pic] y el resultado (10) se convierte en

[pic] (11)

Esta fórmula ofrece un método muy breve para calcular la desviación estándar y debe utilizarse siempre para datos agrupados cuando el tamaño de los intervalos de clase sea igual.

Page 29: Adquisición de datos

Propiedades de la Desviación Estándar

A. La desviación estándar puede definirse como

[pic]

donde [pic] es un promedio cercano a la media aritmética. De todas las desviaciones estándar, la mínima es aquella en que [pic], esta propiedad proporciona una razón importante para definir la desviación estándar como se hizo antes.

B. En distribuciones normales:

a) 68.27% de los casos están incluidos entre [pic] y [pic] (es decir, una desviación estándar a cada lado de la media)

b) 95.45% de los casos están incluidos entre [pic] y [pic] (es decir, dos desviaciones estándar a cada lado de la media)

c) 99.73% de los casos están incluidos entre [pic] y [pic] (es decir, tres desviaciones estándar a cada lado de la media)

[pic]

C. Suponga que dos conjuntos con [pic] y [pic] números (o dos distribuciones de frecuencia con frecuencias totales [pic] y [pic]) tiene varianzas dadas por [pic] y [pic], respectivamente, y la misma media [pic]. Entonces la varianza combinada de ambos conjuntos (o dos distribuciones de frecuencias) estará dada por

[pic]

Obsérvese que se trata de una media aritmética ponderada de las varianzas. El resultado puede generalizarse a tres o más conjuntos.

Page 30: Adquisición de datos

8. Dispersión Absoluta y relativa

La variación real o dispersión, determinada a partir de la desviación estándar u otra medida de dispersión, se denomina dispersión absoluta. Sin embargo, una variación (o dispersión) de 10 pulg, al medir una distancia de 1,000 pies, tiene un efecto muy diferente si la misma variación de 10 pulg se presenta en una distancia de 20 pies. Una medida de este efecto es sustituida por la dispersión relativa, que se define como

[pic]

si la dispersión absoluta es la desviación estándar [pic] y el promedio es la media [pic], entonces la dispersión relativa se denomina coeficiente de variación o coeficiente de dispersión; la misma se denota por [pic] y está dada por

Coeficiente de variación [pic]

que por lo general se expresa en forma de porcentaje. Obsérvese que el coeficiente de variación es independiente de las unidades usadas. Por este motivo es útil para comparar distribuciones con unidades diferentes. Una desventaja del coeficiente de variación es que no sirve cuando la media es cercana a cero.

V) MOMENTO SESGO Y CURTOSIS

1. Momentos

Si [pic] son los [pic] valores de la variable [pic], se define la cantidad

[pic] (1)

Page 31: Adquisición de datos

llamada el r-ésimo momento. El primer momento con [pic] es la media aritmética [pic]. El r-ésimo momento respecto de la media [pic], se define como:

[pic] (2)

Si [pic] entonces [pic]; si [pic], entonces [pic] es la varianza. El r-ésimo momento respecto de cualquier origen A se define como:

[pic] (3)

donde [pic] son las desviaciones de [pic] respecto de [pic]. Si [pic], la ecuación (3) se reduce a la ecuación (1). Por eso la ecuación (1) se le llama el r-ésimo momento con respecto a cero.

2. Momentos para Datos Agrupados

Si [pic] ocurren con las frecuencias [pic], respectivamente, los momentos anteriores están dados por

[pic] (4)

[pic] (5)

[pic] (6)

donde [pic]. Las fórmulas son adecuadas para calcular momentos a partir de datos agrupados.

Page 32: Adquisición de datos

3. Asimetría

La asimetría es el sesgo o la distorsión de la simetría de una distribución. Si la curva de frecuencias de una distribución tiene una cola mas larga hacia la derecha del máximo central, que hacia la izquierda, se dice que está sesgada hacia la derecha o que es de asimetría positiva. Si sucede lo contrario se considera que está sesgada hacia la izquierda o que es de asimetría negativa.

En las distribuciones asimétricas, la media tiende a caer en el mismo lado de la moda y en el de la cola más larga. Por lo tanto una mediada de la asimetría está dada por la diferencia: media-moda. Esta puede hacerse adimensional si se divide entre una medida de dispersión tal como la desviación estándar, lo que lleva a la definición

[pic]

4. Curtosis

La curtosis mide que tan puntiaguda es una distribución, por lo general, comparada con una distribución normal. Una distribución con un pico relativamente alto, se denomina leptocúrtica, mientras que la curva que es achatada, recibe el nombre de platocúrtica. La distribución normal que no es muy picuda ni muy achatada, se define como mesocúrtica.

[pic]

Una medida de la curtosis utiliza el cuarto momento con respecto a la media, expresado en forma adimensional y está dado por

Coeficiente momento de curtosis [pic]

que con frecuencia se denota como [pic]. Para la distribución normal, [pic]. Por esto, se define a la curtosis como [pic], que es positiva en una distribución leptocúrtica, negativa en una distribución platocúrtica e igual a cero en la distribución normal.

Page 33: Adquisición de datos

Cuando se requiere distinguir los momentos, las medidas de asimetría y las medidas de curtosis de una muestra, para determinada población, con frecuencia se acostumbra usar símbolos latinos para las muestras y símbolos griegos para las poblaciones. Así, si los momentos se denotan como [pic] y [pic], los símbolos griegos correspondientes serían [pic] y [pic]. Los subíndices siempre son símbolos latinos.

De manera similar, si las medidas de asimetría y curtosis de la muestra se denotan por [pic] y [pic], respectivamente, entonces la asimetría y la curtosis de la población serían [pic] y [pic].

-----------------------

Sesgada a la derecha

(sesgo positivo)

Sesgada a la izquierda

(sesgo negativo)

En forma de J

En forma de J invertida

En forma de U

Bimodal

Simétrica o en forma de campana

Multimodal

Page 34: Adquisición de datos

68.27%

[pic]

[pic]

[pic]

[pic]

95.45%

[pic]

[pic]

99.73%

a) Mesocúrtica

a) Platocúrtica

a) Leptocúrtica

REPRESENTACIÓN  GRÁFICA  DE DATOS 

Page 35: Adquisición de datos

Las tablas estadísticas representan toda la información de modo esquemático y están preparadas para los cálculos posteriores. Los gráficos estadísticos nos transmiten esa información de modo más expresivo, nos van a permitir, con un sólo golpe de vista, entender de que se nos habla, observar sus caracteícticas más importantes, incluso sacar alguna conclusión sobre el comportamiento de la muestra donde se esta realizando el estudio.

Los gráficos estadísticos son muy útiles para comparar distintas tablas de frecuencia.

Los gráficos estadísticos  más usuales son:

DIAGRAMA DE BARRAS. 

Se utiliza para la representación de variables cuantitativas discretas, cada valor de la variable se representa por un punto sobre el eje OX y sobre él se dibuja una barra de longitud igual o proporcinal a su  frecuencia absoluta. Si la frecuencia absoluta que se utiliza es la acumulativa, el diagrama de barras que se obtiene es: diagrama de barras acumulativo

HISTOGRAMA.

Se utiliza para la representación de variables cuantitativas continuas, cada intervalo se representa sobre el eje OX , este será la base del rectángulo  que se dibuja sobre él con altura igual o proporcional a su frecuencia absoluta. Como los intervalos son consecutivos, los rectángulos quedan adosados. Si se utilizarán rectángulos de amplitud diferente, el área del rectángulo es la que tendría que ser proporcional a la frecuencia absoluta correspondiente a ese intervalo. Histograma acumulativo, si se utiliza la frecuencia absoluta acumulativa.

POLÍGONO DE FRECUENCIAS.

Se utilizan para variables estadísticas cuantitativas, discretas o continuas.

Para una variable discreta, el polígono de frecuencias se obtiene uniendo por una poligonal,  los extremos superiores de las barras.

Para una variable continua, el poligono de fecuencias se obtiene uniendo por una poligonal los puntos medios de la base superior de los poligonos del histograma.

Las escalas utilizadas para representar los polígonos de frecuencias influyen mucho por el impacto visual de los mismos.

DIAGRAMA DE SECTORES.

    Se utiliza para todo tipo de variable estadística, cuantitativa o cualitativa. Consiste en dibujar sectores sobre un círculo, siendo la amplitud de los sectores proporcional a su frecuencia absoluta, cada sector se rellena con un color diferente.

El cálculo de la amplitud en grados sexagesimales del sector correspondiente se realiza así:  ángulo = frecuencia relativa*360

Ejemplo 2.- Hemos preguntado a 20 personas por el número medio de días que practican deporte a la semana y hemos obtenido las siguientes respuestas:

Page 36: Adquisición de datos

Nº  días  (xi) fr. absoluta (ni)

0 1

1 2

2 4

3 7

4 1

5 1

6 3

7 1

Total 20

Realiza en tu cuaderno el diagrama de barras, el poligono de frecuencias y el diagrama de sectores correspondiente, y comprueba en la escena los resultados.

Con el pulsador de "gráfico" puedes, al variar su valor, elegir diferente representación gráfica: 1 para diagrama de barrasde frecuencia y 3 para el diaframa de sectores. 

Puedes cambiar los valores de las frecuencias absolutas y observar su imfluencia en el correspondiente gráfico.

Ejemplo 3.- En un preconocimiento médico realizado a 30 niños, uno de los datos que se han tomado ha sido el peso, en kilogramos, de cada uno,  los resultados obtenidos se reflejan en la siguiente tabla:

Intervalo marca clase (xi) fr. absoluta (ni)

[20 , 24) 22 3

[24 , 28) 26 6

[28 , 32) 30 10

[32 , 36) 34 8

[36 , 40) 38 3

Total     30

Realiza en tu cuaderno el Histograma, el poligono de frecuencias y el diagrama de sectores correspondiente, y comprueba en la escena los resultados.

Con el pulsador de "gráfico" puedes, al variar su valor, elegir diferente representación gráfica: 1 para Histograma

Page 37: Adquisición de datos

frecuencia y 3 para el diaframa de sectores. 

Puedes cambiar los valores de las frecuencias absolutas y observar su imfluencia en el correspondiente gráfico.

 

Actividad 4.- Un aparato de radar instalado a la entrada de una población (velocidad máxima permitida, 60Km./h) ha registrado la siguiente" estadística" de infracciones.

De más de 60 a 70 Km./h  ...................................     30 vehículosEntre 70 y 80 Km./h  ...........................................      40   "Entre 80 y 90 Km./h  ...........................................       90   "Entre 90 y 100 Km./h  ...........................................     80   "Entre 100 y 110 Km./h  ...........................................   60   "Entre 110 y 120 Km./h  ...........................................   10   "

Dibuja un Histograma que refleje estos valores.

Actividad 5.-  Utilizando la encuesta que has realizado en la actividad 2, construye la tabla de frecuencias, para cada variable estadística que has considerado, y representa la correspondiente tabla de frecuencias, en el gráfico más adecuado.

Representación gráfica en el Análisis de DatosAutores:  Pértega Díaz S., Pita Fernández S.Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña (España)Cad Aten Primaria (Pendiente de publicación)

 

Actualizada el 02/04/2001.

 Tabla de contenidos:  

  Análisis descriptivo

 Comparación de dos o más grupos

 Relación entre dos variables numéricas

Otros gráficos

Imprimir documento [¿Problemas con PDF?]

Tablas y Figuras

Fig. 1. Diagrama de sectores

Fig. 2. Diagrama de barras

Tabla I. Distribución de frecuencias: edad en 100 pacientes

Fig. 3. Histograma

Fig. 4. Polígono de frecuencias

Page 38: Adquisición de datos

  Bibliografía Fig. 5. Diagrama de caja

Fig. 6. Gráfico P-P

Fig. 7. Diagrama de barras agrupadas

Fig. 8. Diagrama de barras de error

Fig. 9. Gráfico de líneas

Fig. 10. Diagrama de dispersión

Fig. 11. Diagramas de líneas superpuestos

Fig. 12. Diagrama de dispersión (regresión logística)

Fig. 13. Curvas ROC

La realización de los estudios clínico-epidemiológicos implica finalmente emitir unos resultados cuantificables de dicho estudio o experimento. La claridad de dicha presentación es de vital importancia para la comprensión de los resultados y la interpretación de los mismos. A la hora de representar los resultados de un análisis estadístico de un modo adecuado, son varias las publicaciones que podemos consultar1. Aunque se aconseja que la presentación de datos numéricos se haga habitualmente por medio de tablas, en ocasiones un diagrama o un gráfico pueden ayudarnos a representar de un modo más eficiente nuestros datos. 

En este artículo se abordará la representación gráfica de los resultados de un estudio, constatando su utilidad en el proceso de análisis estadístico y la presentación de datos. Se describirán los distintos tipos de gráficos que podemos utilizar y su correspondencia con las distintas etapas del proceso de análisis.

 Análisis descriptivo.

Cuando se dispone de datos de una población, y antes de abordar análisis estadísticos más complejos, un primer paso consiste en presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y resumida. Los datos que nos interesan dependen, en cada caso, del tipo de variables que estemos manejando2.

Para variables categóricas3, como el sexo, estadio TNM, profesión, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría. Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o diagramas de sectores. En losgráficos de sectores, también conocidos como diagramas de "tartas", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la Figura 1. Como se puede observar, la información que se debe mostrar en cada sector hace referencia al número de casos dentro de cada categoría y al porcentaje del total que estos representan. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase (Figura 2). Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman pocos valores (número de hijos, número de recidivas, etc.).

Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos. Como ejemplo, la Tabla I muestra la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 años. Si se divide este rango en intervalos de dos años, el primer tramo está comprendido entre los 18 y 19 años,

Page 39: Adquisición de datos

entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera barra tendrá altura proporcional a 4. Procediendo así sucesivamente, se construye el histograma que se muestra en la Figura 3. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la Figura 4.

Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediante diagramas de cajas4,5. LaFigura 5 muestra un gráfico de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.

Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Si la variable seleccionada coincide con la distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de la variable respecto a los cuantiles de la distribución normal. En la Figura 6se muestra el gráfico P-P correspondientes a los datos de la Tabla I que sugiere, al igual que el correspondiente histograma y el diagrama de cajas, que la distribución de la variable se aleja de la normalidad.

 Comparación de dos o más grupos.

Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación, dependen del tipo de variables que estemos manejando.

Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la frecuencia de sujetos que padecen una enfermedad coronaria es más frecuente en aquellos que tienen algún familiar con antecedentes cardiacos. A partir de dicha muestra podemos representar, como se hace en la Figura 7, dos grupos de barras: uno para los sujetos con antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes. En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el gráfico podría resultar engañoso.

Por otro lado, la comparación de variables continuas en dos o más grupos se realiza habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este caso resulta muy útil undiagrama de barras de error, como en la Figura 8. En él se compara el índice de masa corporal en una muestra de hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos.

Page 40: Adquisición de datos

Por último, señalar que también en esta situación pueden utilizarse los ya conocidos gráficos de barras, representando aquí como altura de cada barra el valor medio de la variable de interés. Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo (Figura 9). No son más que una serie de puntos conectados entre sí mediante rectas, donde cada punto puede representar distintas cosas según lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en cada grupo, etc).

 Relación entre dos variables numéricas.

Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis adecuado es el estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la relación entre el peso y la talla de un sujeto. Partiendo de una muestra arbitraria, podemos construir el diagrama de dispersión de laFigura 10. En él puede observarse claramente como existe una relación directa entre ambas variables, y valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de variables cuando se ajusta un modelo de regresión lineal.

 Otros gráficos.

Los tipos de gráficos mostrados hasta aquí son los más sencillos que podemos manejar, pero ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados en múltiples situaciones, incluso para representar los resultados obtenidos por métodos de análisis más complicados. Podemos utilizar, por ejemplo, dos diagramas de líneas superpuestos para visualizar los resultados de un análisis de la varianza con dos factores (Figura 11). Un diagrama de dispersión es el método adecuado para valorar el resultado de un modelo de regresión logística (Figura 12). Existen incluso algunos análisis concretos que están basados completamente en la representación gráfica. En particular, la elaboración de curvas ROC (Figura 13) y el cálculo del área bajo la curva constituyen el método más apropiado para valorar la exactitud de una prueba diagnóstica.

Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos estadísticos y epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La creciente utilización de distintos programas informáticos hace especialmente sencillo la obtención de las mismas. La mayoría de los paquetes estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen grandes posibilidades en este sentido. Además de los gráficos vistos, es posible elaborar otros gráficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de exportación a otros programas para presentar finalmente los resultados del estudio.

Figura 1. Ejemplo de gráfico de sectores.  Distribución de una muestra de pacientes según el hábito de fumar.

Page 41: Adquisición de datos

Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el cáncer gástrico.

Page 42: Adquisición de datos

Tabla I. Distribución de frecuenciasde la edad en 100 pacientes.

Edad Nº de pacientes

18 119 320 421 722 523 824 1025 826 927 628 629 430 331 432 533 334 235 336 137 238 339 141 142 1

Figura 3.  Ejemplo de un histograma correspondiente a los datos de la Tabla I.

Page 43: Adquisición de datos

Figura 4. Polígono de frecuencias para los datos de la Tabla I.

Page 44: Adquisición de datos

Figura 5.  Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I.

Figura 6. Gráfico P-P de normalidad para los datos de la Tabla I.

Page 45: Adquisición de datos

Figura 7. Diagrama de barras agrupadas.  Relación entre la presencia de alguna enfermedad coronaria y los antecedentes cardiacos familiares en una muestra. 

Page 46: Adquisición de datos

Figura 8. Barras de error.  Variación en el índice de masa corporal según el sexo. 

Page 47: Adquisición de datos

Figura 9. Gráfico de líneas.  Número de pacientes trasplantados renales en el Complexo Hospitalario "Juan Canalejo" durante el periodo 1981-1997.

Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos.

Page 48: Adquisición de datos

Figura 11. Dos diagramas de líneas superpuestos.  Variación en el peso medio de una muestra de recién nacidos según el control ginecológico del embarazo y el hábito de fumar de la madre.

Page 49: Adquisición de datos

Figura 12. Diagrama de dispersión (regresión logística).  Probabilidad de padecer cirrosis hepática, según un modelo de regresión logística ajustando por el % de protrombina y el presentar o no hepatomegalia.

Page 50: Adquisición de datos

Figura 13. Curva ROC para el porcentaje de protrombina en la predicción de cirrosis.

Page 51: Adquisición de datos

 Bibliografía

1. Lang TA, Secic M. How to report statistics in medicine. Annotated Guidelines for authors, Editors, and reviewers. Philadelphia: Port City Press; 1997.

2. Altman DG, Bland JM. Statistics Notes: Presentation of numerical data. BMJ 1996; 312: 572. [Medline] [Texto completo]

3. Singer PA, Feinstein AR. Graphical display of categorical data. J Clin Epidemiol 1993; 46(3): 231-6. [Medline]

4. Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for biomedical publications. Am Heart J 1988; 116 (6 Part 1): 1663-5. [Medline]

5. Williamson DF, Parker RA, Kendrick JS. The box plot: a simple visual method to interpret data. Ann Intern Med 1989; 110 (11): 916-21. [Medline]

6. Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997.


Recommended