Unidad 5 La Curva Normal

5. Distribución normal: Dios ama la curva normal. La estadística es una ciencia según la cual todas las mentiras se tornan cuadros.

Pitigrilli, escritor italiano.

Introducción. Antes de poder comenzar con esta unidad te pedimos que realices dos ejercicios.

Resuelve el ejercicio 1 antes de continuar leyendo

5.1. ¿Qué es la distribución normal?

Cuando graficamos una variable en forma de histogramas o polígonos de frecuencias y observamos que los datos parecieran asemejar o tener una “forma de campana” entonces podríamos pensar que la distribución de dicha variable se aproxima a una “distribución matemática” precisa e importante denominada distribución normal o, simplemente, curva normal.

Objetivo de la Unidad:

Identificar el comportamiento y distribución de los datos a través de los conceptos básicos de la curva normal y sus derivados.

La curva normal puede ser representada como:

¡Importante!

Te presentamos la ecuación únicamente para que conozcas que existe una base matemática. No te preocupes tratando de descifrar qué significa (al menos para este curso).

1 /

√2

La curva normal se define cómo:

Una distribución teórica de los datos de una población (Pagano, 2008). Es una curva en forma de campana que puede ser descrita con la siguiente ecuación:

La distribución normal se define cómo:

La distribución de datos de cualquier variable que asemejen la forma de una curva normal.

Ahora reflexiona un momento. ¿Porqué el título de la unidad se titula “Dios ama la curva normal”? ¿Para qué estaremos estudiando la unidad? ¡Porque casi todas las variables que puedan ser graficadas en un histograma (en la naturaleza y en el comportamiento del hombre) se distribuyen de esta forma! Pero ¿por qué la curva normal es tan común en la naturaleza?

La respuesta a esa pregunta quizá no exista. Sin embargo es curioso cómo es que prácticamente cualquier cosa que pueda ser medida tiene esta tendencia: La estatura de las personas, su peso, su IQ, las calificaciones de un examen, el tamaño los árboles de la cuadra, la cantidad de nubes que observo al día, el número de hojas de un arbusto, el número de cabellos de una persona, las graduaciones de los lentes de las personas, etcétera (y la lista podría continuar).

Para tratar de explicarlo a detalle tomemos, por ejemplo, la cantidad de letras elegidas al azar que determinada persona puede recordar. En algunas pruebas, la cantidad de letras recordadas puede ser alta, en otras, baja, y en la mayoría, las cantidades serán intermedias. Es decir, es probable que la cantidad de letras elegidas al azar que una persona pueda recordar en diversas pruebas siga aproximadamente la forma de una curva normal.

Sin embargo, en alguna prueba en particular, el número real recordado se verá afectado por diversas circunstancias, tales como ruido en la habitación, estado de ánimo de la persona en ese momento, una combinación de letras confundidas inconscientemente con algún nombre familiar, una secuencia de letras elegidas al azar que resulta ser casi siempre la misma letra, etc.

Así, en general, la persona recuerda una cantidad media, una cantidad en la que todas las circunstancias contrapuestas se cancelan entre sí, y por eso son mucho menos comunes las cantidades muy altas o muy bajas de letras recordadas.

Esto crea una distribución que es unimodal, es decir, la mayoría de los casos están cerca del medio y los menos están en los extremos. También crea una distribución que es simétrica, porque cualquier valor puede estar tanto por arriba como por debajo del medio (la podemos doblar por la mitad y ambos lados serían idénticos).

Las características que debe poseer una distribución de datos para formar una curva normal es:

a. Unimodalidad: Sólo existe una sola moda. No hay más de una puntuación más frecuente.

b. Simétrica: Si partiésemos a la mitad la curva, ambos lados son idénticos.

c. Mesocúrtica: La curva no es ni muy aplanada ni muy puntiaguda.

d. Asintótica: Los dos extremos de la curva jamás tocan el eje de las X. Esto permite que

siempre existe la posibilidad de toparnos con un valor más alto o más bajo.

e. La media, la mediana y la moda poseen los mismos valores y se encuentran al centro de la curva (la dividen en dos).


5.2. La desviación estándar y la varianza.

Imaginemos un montículo de arena:

Ahora pensemos en la cantidad de arena que existe. Conforme más nos acercamos al centro de este más alto es y, mientras nos alejamos más del centro y nos vamos a las orillas la cantidad de arena disminuye y tiene menor altura. Si dijéramos que el montículo de arena mide de punta a punta 1 metro podríamos afirmar lo siguiente: Si extrajésemos 30 centímetros de arena del centro del montículo y extrajéramos 30 centímetros de un extremo del montículo y pesáramos ambas muestras, veríamos que la cantidad de arena sería muy diferente; la arena del centro pesaría mucho más que la poca arena extraída de la orillas.

De igual forma que con la arena, la altura de una distribución de datos indicaría la cantidad de casos que obtuvieron un determinado valor. Entre más nos acerquemos al centro de la curva, más

casos encontraremos y viceversa; entre más nos alejemos del centro de la curva, menos casos existirán.

Sin dejar a un lado la analogía de la arena podríamos decir que en lugar de hablar de “centímetros”, para la distribución de datos existen “desviaciones estándares”. Las desviaciones estándares serían los “centímetros” a partir del centro del montículo de arena…

En SPSS la desviación estándar se calcula:

a. Ingresar los datos de una variable y dar formato. b. Dar clic en “analizar”, “estadística descriptiva”, “frecuencias”. c. Seleccionar las variables en las que se calculará la desviación estándar

al cuadro de “variables”. d. Dar clic en el submenú “estadísticas” y seleccionar “desviación

estándar” y “varianza”. e. Dar clic en aceptar.

1

La desviación estándar se define cómo:

La medida empleada para indicar “qué tan lejos está el dato en bruto con respecto a la media de su distribución” (Pagano, 2008).

La desviación es representada por una “s” en el caso de que sea calculada para la muestra y una “sigma” (δ) en el caso de una población.

La fórmula de la distribución estándar (para muestras) es:

Donde “n” es el total de sujetos y “x” es el valor de una variable para cada sujeto.

Observa la siguiente figura:

En la imagen anterior se ha dibujado una “curva normal”. En este caso se trata de una curva que representa datos obtenidos de una población1. La media está ubicada al centro de la curva (µ) y las líneas dibujadas a cada lado son los “centímetros” con respecto a la media. Es posible afirmar que la línea del extremo izquierdo es la media menos una desviación estándar y la línea del extremo derecho es la media más una desviación estándar. Ahora surge la pregunta… ¿Para qué sirve esto?

1 Esto lo sabemos porque los símbolos son griegos y por tanto aluden a parámetros y no a estadísticos, recuerda la unidad sobre los conceptos básicos de la estadística.


Observa las siguientes imágenes:

Si nuevamente empleáramos la analogía del montículo de arena e imagináramos que toda la arena pesa 100 gramos entonces podríamos decir que a una desviación estándar a la derecha del centro del montículo encontraríamos 34 gramos de arena (observa los porcentajes de la imagen anterior), si pesáramos la arena de una a dos desviaciones estándares encontraríamos 14 gramos de arena y

si pesáramos la arena de dos a tres desviaciones estándares encontraríamos 2 gramos aproximadamente.

Si recordamos la propiedad de simetría de la curva normal (un lado es idéntico al otro) podríamos pensar que del lado izquierdo del montículo de arena habría las mismas distribuciones de la arena. Nota como si sumamos los porcentajes de un solo lado del montículo de arena encontramos 50 gramos de la arena de un lado y 50 gramos del otro lado (entre los dos lados suman 100 gramos que es lo que originalmente pesaba nuestro montículo).

Si lo trasladáramos a cualquier distribución de datos diríamos algo similar… A más o menos 1 desviación estándar se encontrarían el 34% de los casos; de más o menos 1 a 2 desviaciones estándar estarían cerca del 14% de los datos y de más o menos 2 a 3 desviaciones estándar estarían aproximadamente el 2% de los casos.

De igual forma podemos hacer combinaciones con los porcentajes que conocemos:

68%

72%

84%

98%

Asimismo será necesario definir dos conceptos que son muy mencionados entre los investigadores de las ciencias sociales que responden a las siguientes preguntas: ¿Entre qué rango de la escala es fácil que encuentre a los sujetos de mi muestra (sujetos típicos o normales)? ¿Entre qué rango de la escala es difícil o infrecuente encontrar a sujetos de mi muestra (casos atípicos o anormales?

Los casos típicos se definen cómo:

• Los casos que se encuentran a una desviación estándar de la media.

• El rango de casos típicos se obtienen de sumar y restar una vez la desviación estándar a la media.

• Los casos típicos son aquellos que se encuentran en un rango que abarque al 68% se los sujetos (±1s).


¿Y qué es eso de varianza? Generalmente no se encontrarán en los reportes de cualquier investigación el término de varianza (cuando se trata de medidas de dispersión). La varianza simplemente es el resultado de elevar al cuadrado la desviación estándar.

¡Importante!

La varianza no puede ser interpretada como medida de dispersión de los datos. La existencia de la varianza se debe a dos motivos principales:

a. Permite que algunas fórmulas estadísticas sean más exactas (cosa de matemáticos).

b. La varianza es útil en análisis estadísticos más complejos que buscan explicar una variable A a través de una B.

Los casos atípicos se definen cómo:

• Los casos que se encuentran más de tres desviaciones estándar de la media.

• El rango de casos típicos se obtienen de sumar y restar tres veces la desviación estándar a la media. Todos los casos que se encuentren afuera de este rango son casos atípicos o no normales.

• Los casos atípicos son aquellos se muestran fuera de un rango que abarque el 99.9% de los casos (±3s) (recuerda que la curva es asintótica, siempre hay posibilidad de un valor menor o mayor en la escala; a pesar de que los porcentajes de las gráficas mostradas sumen 100% siempre puede escaparse algún sujeto).

5.3. Nociones del teorema de Chevichev.

Pafnuti Chebyshov, Tchebychev, Tchebycheff, Tschebyscheff o Čebišev era el nombre del personaje que observamos en la imagen anterior. El hecho de que tenga tantos nombres se debe a que cada uno es un intento de traducción de su apellido del ruso (Пафнутий Львович Чебышёв). Sin embargo, la complejidad del apellido no es lo que nos interesa. Lo interesante de este matemático es el teorema que propuso que en resumen dice lo siguiente:

El fin de mencionar este teorema es únicamente el hacer notar que existen diferentes teorías y propuestas sobre el número de datos que se encuentran a n desviaciones estándar cuando éstos (los datos) se comportan de cómo una distribución normal. Si comparáramos los porcentajes antes estudiados y los del teorema de Chevichev veríamos que son muy similares.

El teorema de Chevichev indica que cuando los datos se comportan como una distribución normal:

a. Aproximadamente el 68% de la población está dentro de ±1s. b. Aproximadamente el 95% de la población está dentro de ±2s. c. Aproximadamente el 99% de la población está dentro de ±3s.

5.4. Las puntuaciones estandarizadas.

Para finalizar con esta unidad es necesario revisar el concepto de “puntuaciones estandarizadas” que también son conocidas como “puntajes Z”.

Cuando nosotros queremos determinar de forma más exacta a cuántas desviaciones estándar se encuentra un sujeto esto nos permite compararlo contra “la norma” (contra todos los sujetos que fueron analizados). Podemos decir que un sujeto se encuentra a más o menos n número de desviaciones estándar de la media.

De igual forma que con lo revisado en los subtemas anteriores, que un sujeto se encuentre a menos de ±1s indicaría que es un caso típico. Si un sujeto se encuentra a ±1s entonces es un caso menos frecuente y si el sujeto se encuentra a ±3s es un caso atípico. En síntesis la utilidad de las puntuaciones Z es el permitirnos precisar exactamente a cuántas desviaciones estándar se encuentra un dato de la media. Por ejemplo…

El caso del profesor barco y el profesor estricto…

Imaginemos que estamos comparando las calificaciones de los estudiantes. En una materia con un profesor “barco” podría pensarse que todos los alumnos obtienen altas calificaciones mientras que en una materia con un profeso “estricto” existiría mucha diversidad. Con el fin de ejemplificar diremos que la materia con un profesor “barco” es Historia mientras que el profesor “estricto” es el que imparte Literatura.

Para transformar un dato a puntuaciones estándares se aplica la siguiente fórmula (Pagano, 2008):

Donde “x” es el dato que queremos convertir, la media se obtiene de la población o muestra estudiada y la “s” es la desviación estándar de la población o muestra estudiada.

Una puntuación estándar o puntaje Z se define cómo:

“Un dato transformado que indica a cuántas unidades de desviación estándar por encima o por debajo de la media, se encuentra un dato en bruto” (Pagano, 2008).

El caso del profesor barco y el profesor estricto (continuación)…

Así, si en Historia todos los alumnos obtienen más de 9 de calificación no sería apropiado comparar la calificación de esta materia contra otra las de Literatura; donde menos de la mitad de los estudiantes obtienen 6. Sin embargo, las puntuaciones estandarizadas sí nos permiten comparar las dos calificaciones puesto que no se compara a maestro, la dificultad de los contenidos o la forma de la evaluación. Simplemente se compara al alumno contra el desempeño de sus compañeros:

No es posible decir: Pedro sacó 9 en la Historia pero sacó 7 en la Literatura. Por tanto Pedro es un excelente alumno de la Historia y un pésimo alumno en Literatura.

Sí es posible decir: Pedro se encuentra a ‐0.8 desviaciones estándar del promedio en la Historia y se encuentra a +1.7 desviaciones estándar de la media en la Literatura. Por tanto Pedro es muy buen estudiante en la materia de Literatura a comparación de sus alumnos pero necesita mejorar en la Historia.

Ahora bien, también es posible a través del uso de las puntuaciones estándar, identificar los rangos precisos en los que se encuentra el X% de una muestra. Observa la siguiente tabla2…

Si observas a detalle, para cada valor Z existe un porcentaje. Si vamos al valor Z de “‐2.00” el porcentaje indicado es de 0.022753. Esto indicaría que de menos infinito desviaciones estándar a menos dos desviaciones estándar se encuentra el 2.27% de los sujetos. De igual forma, si buscamos el valor Z de “+1.00” el porcentaje indicado es de 0.841344 que indica que el 84.13% de los sujetos se encuentras de menos infinito desviaciones estándar a más una desviación estándar.

2 Obtenida de http://www.uv.es/~meliajl/Docencia/Tablas/ZColaIzq.PDF 3 Marcado con un aro azul en la tabla. 4 Marcado con un aro verde en la tabla.

Si yo quisiera conocer el porcentaje de sujetos que se encuentra entre dos valores Z, simplemente resto al porcentaje mayor el menor: para conocer el porcentaje de sujetos que se encuentran entre “‐2.00” y “+1.00” desviaciones sólo habría que restar 84.13%‐2.27% que daría 81.86%.


Date post:	11-Jun-2015
Category:	Education
Upload:	luis-medina-gual
View:	38,551 times
Download:	7 times

Unidad 5 La Curva Normal

Education