An Lisis Cluster PGM

Indice

20 Ago 2001

1. 2. 3. 4. 5. 6. 7.

Planteamiento del problema Evaluacin de la aplicabilidad del Anlisis Cluster Anlisis Cluster Exploratorio o Jerrquico Formulacin de la Hiptesis Nula Estudio de los Perfiles de los Clusters Anlisis Cluster de K-Medias con 3 Clusters Estudio de la Asociacin entre las 2 variables Cluster

27 Ago 2001 03 Sep 2001

1. Planteamiento del problemaEste estudio tiene las siguientes seis variables, que miden la actitud de los clientes cuando salen de compras. Se pidi a los entrevistados que expresaran su grado de acuerdo (en una escala de 7 puntos: 1 = en desacuerdo, 7 = de acuerdo) con las siguientes afirmaciones: n 1 2 3 4 5 6 pregunta Salir de compras es divertido Salir de compras afecta el presupuesto Combino la salida de compras con la comida fuera de casa Cuando salgo de compras, trato de hacer las mejores No me importa salir de compras Puede ahora ahorrar mucho dinero si compara los precios futura variable divertid presupu combino bestbuy noimport ahorro

Como primera parte del trabajo a realizar en este estudio de mercado, se crear el fichero de datos en SPSS. Figura 2 - Vista del Fichero de Datos

2. Evaluacin de la aplicabilidad del Anlisis ClusterPara empezar un Anlisis Cluster, se debe siempre demostrar que existen fuertes ligazones entre las variables que van a configurar el perfil de los clusters. Este proceso de comprobacin se realiza mediante el Anlisis de Correlaciones que, en SPSS, recibe el nombre de procedimiento CORRELATIONS. Figura 3 - Cuadro de dilogo Correlaciones Bivariadas

Figura 4 - Sintaxis del procedimiento CORRELATIONS

CORRELATIONS /VARIABLES=divertid presupu combino bestbuy noimport ahorro /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE .Nota: En color amarillo, los valores de las altas (superiores a 0,5) y significativas correlaciones (con el nivel de significacin inferior a 0.05). Para que SPSS realice este resalte, se debe habilitar la macro automtica correspondiente (ver el manual de Macros en SPSS). Figura 5 - Tabla de Correlaciones

En esta matriz de correlaciones se observa que existe un significativo apoyo a nuestras tesis iniciales:

las variables que indican un comportamiento ldico (combino y divertid) se hallan fuertemente correlacionadas (positivamente) entre s y fuertemente correlacionadas (negativamente) con las que indican un comportamiento nihilista (noimport), y muy poco correlacionadas con las que indican un comportamiento pesetero. las variables que indican un comportamiento economizador (ahorro, presupu y bestbuy) correlacionan fuertemente entre s y muy poco con las variables del comportamiento ldico y las que indican un comportamiento nihilista, y muy poco correlacionadas con las que indican un comportamiento pasota.

Si no se observasen fuertes correlaciones entre las variables que formarn parte del Anlisis Cluster se podra entender que no tendra sentido realizar un proceso de Clustering.

3. Anlisis Cluster Exploratorio o JerrquicoA continuacin, se deber realizar la eleccin de un Procedimiento de Agrupacin, es decir, optar por un procedimiento jerrquico (o exploratorio) o no jerrquico (tambin llamado confirmatorio, de k-medias o de optimizacin). En el clustering, siempre se debe empezar por un procedimiento de clustering exploratorio y, despus, otro, confirmatorio. As pues, la primera fase de todo proceso de agrupacin es un Anlisis Cluster Exploratorio, para estudiar cul es el nmero ptimo de clusters para este fichero de datos. La primera fase de todo proceso de agrupacin es un anlisis exploratorio, para estudiar cul es el nmero ptimo de clusters para este fichero de datos. El Anlisis Cluster Exploratorio se conoce tambin como Anlisis Cluster Jerrquico (HCA, desde ahora), debido a que crea relaciones jerrquicas entre las observaciones, de modo que, una vez que dos observaciones entran a formar parte de un cierto cluster, no pueden salir de l. El HCA recibe el nombre de Exploratorio porque tiene como misin el verificar (todava de un modo intuitivo) que la mejor solucin, respecto del nmero de clusters, es la que se haba pensado de antemano (tres clusters, en este caso). Figura 6 - Cuadro de dilogo HCA

Por ello, se va a solicitar una solucin de cluster abierta, es decir, con un rango de soluciones de 2 a 8 clusters en la pertenencia al cluster (Cluster Membership). Figura 7 - Cuadro de dilogo HCA: Statistics

La mejor forma de ver cmo se llev a cabo el proceso de agrupacin es mediante la visualizacin de un grfico llamado dendrograma. Se aconseja, por tanto, solicitarlo. Tambin resulta interesante el grfico de carmbanos (Icicle). No obstante, en las versiones del SPSS posteriores a la 6.0 se ha cambiado la forma

del grfico de carmbanos (que tena la forma que se muestra en el artculo Anlisis de Conglomerados, llamado grfico de baja resolucin (Low-Res Chart) por un grfico menos visual (llamado High-Res Chart). Si se desea que SPSS cambie el grfico de carmbanos a uno de baja resolucin, se debe crear una macro (ver el manual de Macros en SPSS). Figura 8 - Cuadro de dilogo HCA: Plots

Para proceder a la seleccin de una Medida de Similitud, se debe acudir a una consideracin del nivel de medida (escala) de las variables del clustering (ver el artculo de Segmentacin de Mercados). Como en este caso las variables son de tipo escalar (que vamos a considerar continuas), se asumir que la escala de medida de las variables es intervalar. As pues, se utilizar la Medida de Similitud de Intervalo (la predeterminada por el procedimiento HCA). Se supondr que todas y cada una de las variables del agrupacin son mtricas (tienen una medida); es decir, son variables continuas o cuantitativas. Por ello, el mejor mtodo de agrupacin es el Relacin Entre-Grupos (Between-Groups Linkage, llamado en espaol Promedio Entre-Grupos) que, en la sintaxis de comandos de SPSS recibe el nombre de BAVERAGE. Figura 9 - Cuadro de dilogo HCA: Method

El procedimiento CLUSTER permite guardar las variables del proceso de agrupacin, es decir, las variables que definirn los perfiles de los sujetos y se incorporarn posteriormente al fichero de datos. Figura 10 - Cuadro de dilogo HCA: Save New...

Figura 11 - Sintaxis del procedimiento HCA

CLUSTER

divertid presupu combino bestbuy noimport ahorro /METHOD BAVERAGE /MEASURE= SEUCLID /PRINT SCHEDULE CLUSTER(2,8) /PLOT DENDROGRAM VICICLE /SAVE CLUSTER(2,8) .

A continuacin, se muestran las variables del agrupacin, es decir, las variables que definirn los perfiles de los sujetos, ya incorporadas al fichero de datos. Figura 12 - Vista del Fichero de Datos

A continuacin, se muestra el esquema de aglomeracin (Agglomeration Schedule), que expone el proceso de agrupacin. Si se desea informacin sobre este esquema, consultar los libros antes recomendados. Figura 13 - Esquema de Aglomeracin

La Tabla de Pertenencia a los Clusters muestra el proceso de asignacin de cada caso a uno de los clusters que se ha solicitado crear. Como se ha optado por crear una solucin abierta, se deben ver cada una de las columnas (donde se halla la solucin de cada uno de los clusters) y comprobar que el proceso de clustering asigna un nmero homogneo y consistente de casos a cada cluster. Por ejemplo, en este caso, se ve que el cluster nmero 4 (columna 4 Clusters) asigna slo un caso al cluster nmero 4, y el resto distribuye los casos de modo homogneo, lo que parece contraproducente. Por el contrario, la distribucin del cluster 3 (columna 3 Clusters) es mucho ms homognea. Figura 14 - Tabla de pertenencia a Clusters

Figura 15 - Dendrograma

A la vista de lo observado en este dendrograma, se desprende que existen 3 clusters bien diferenciados:

Cluster 1 - casos: 14, 16, 10, 4, 19 y 18 Cluster 2 - casos: 2, 13, 5, 11, 9 y 20 Cluster 3 - casos: 3, 8, 6, 7, 12, 21, 1, 17 y 15

4. Formulacin de la HiptesisHemos demostrado la existencia de correlaciones entre las variables y, con ello, la procedencia de aplicar el Anlisis Cluster al fichero de datos en cuestin. Hemos ejectuado el Anlisis Cluster Exploratorio solicitando 7 soluciones diferentes: de 2 a 8 clusters, para ver cul es el nmero ptimo de clusters para este fichero de datos. Dado que el fichero de datos tiene tanto pocos casos y como pocas variables, los datos obtenidos permiten especular que el nmero ptimo de clusters es 3 e, incluso, podemos proponer una descripcin de las personas que pertenecen a estos:

1. 2. 3.

Personas que manifiestan una actitud ldica frente al hecho (actividad) de ir a la compra. Este comportamiento, caracterizado por una alta puntuacin en tems como diversin y combinacin de compra con comida fuera de casa. Personas que manifiestan una actitud nihilista hacia el hecho (actividad) de ir a la compra. Este comportamiento est caracterizado por una alta puntuacin en tems como noimport. Personas que manifiestan una actitud economizadora frente al hecho de ir a la compra. Este comportamiento est caracterizado por una alta puntuacin en tems como bestbuy, ahorro y presupu.

Figura 1 - Hiptesis que se pretende demostrar

5. Estudio de los Perfiles de los ClustersSe ha explorado el fichero de datos y se ha propuesto una posible solucin. Concretamente:

1. 2. 3. 4.

Se ha planteado el problema. Se ha demostrado la existencia de correlaciones entre las variables y, con ello, la procedencia de la aplicacin del Anlisis Cluster al fichero de datos en cuestin. Se ha ejectuado el Anlisis Cluster Exploratorio solicitando 7 soluciones diferentes: de 2 a 8 clusters, para ver cul es el nmero ptimo de clusters para este fichero de datos. A la vista de los datos obtenidos en el Anlisis Cluster Exploratorio, se ha supuesto que el nmero ptimo de clusters es 3 e, incluso, se ha aventurado una descripcin de las personas que pertenecen a estos clusters.

Se va a estudiar la consistencia estadstica de la solucin propuesta:

1. 2.

Se va a verificar que las solucin propuesta de 3 clusters es razonable y estadsticamente significativa. Se va a describir con detalle cmo son las personas que pertenecen a cada uno de los 3 clusters.

Para acometer esta tarea, se utilizarn los siguientes tres procedimientos: 1. 2. 3. Tablas de Frecuencias Grfico de Lneas Medias

5.1. Tablas de FrecuenciasEl procedimiento Tablas de Frecuencias permite ver el nmero de individuos asignados a cada uno de los clusters (ver el manual de Trabajo con Tablas). Figura 16 - Cuadro de dilogo Tables of Frequencies

La sintaxis de procedimiento Tablas de Frecuencias, configurado segn el cuadro de dilogo anterior, tiene el siguiente aspecto: Figura 17 - Sintaxis del procedimiento Tables of Frequencies

TABLES /FORMAT BLANK MISSING('.') /TABLES (LABELS) BY ( clu8_1 + clu7_1 + clu6_1 + clu5_1 + clu4_1 + clu3_1 + clu2_1 ) /STATISTICS COUNT ((F5.0) 'Count' ) .Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas: Figura 18 - Tabla de Frecuencias

Una solucin HCA de calidad debe tener como resultado una distribucin homognea de los tamaos de los clusters y, adems, ser consecuente con los perfiles de los mismos. Es decir, el perfil tiene que significar algo razonable y comprensible para el investigador. Estudiando esta tabla de derecha a izquierda (de menos a ms clusters), se observa que al pasar de la solucin de 3 a 4 clusters aparece un nuevo cluster con un solo miembro. Esto resulta poco convincente, dado que un distribucin ms razonable sera 5-6-5-6, por ejemplo. As, la nica solucin que tiene estas caractersticas es la de 3 clusters (9-6-6) y, si bien algo menos uniforme, la de 2 clusters (9-12). As pues, parece ser que de la solucin del HCA se deduce una confirmacin de que la agrupacin ptima es de 3 clusters, que es lo que se pretende demostrar.

5.2. Grfico de LneasEl segundo procedimiento til para estudiar los perfiles de los clusters es el grfico de lneas mltiples. Este permite representar de un modo visual los valores medios de los perfiles de los 3 clusters sobre las variables originales (las que intervienen en el proceso de agrupacin).

El Grfico de Lneas es otro apoyo, ya que permite ver de un modo ms grfico el nmero de casos asignados a cada cluster. Se aconseja un Grfico de Mltiples Lneas, de Variables Separadas. El objetivo es ver todas las variables en un mismo grfico. El resultado se puede ver en la Figura 22. Figura 19 - Cuadro de dilogo Line Charts

Figura 20 - Cuadro de dilogo Define Multiple Line: ...

Las lneas representan las puntuaciones medias de las variables originales y el eje de categoras representa a la variable de pertenencia a los clusters para la solucin de 3. La sintaxis de procedimiento GRAPH, configurado segn los cuadros de dilogo anteriores, tiene el siguiente aspecto: Figura 21 - Sintaxis del procedimiento GRAPH

GRAPH /LINE(MULTIPLE)=MEAN(divertid) MEAN(presupu) MEAN(combino) MEAN(bestbuy) MEAN(noimport) MEAN(ahorro) BY clu3_1 /MISSING=LISTWISE REPORT.Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas: Figura 22 - Puntuaciones Medias

El grfico de lneas obtenido directamente (Figura 22) no es fcil de interpretar. Por ello, para ver las Puntuaciones Medias desde una perspectiva ms comprensible, se deber proceder a realizar una trasposicin del grfico. Para ello:

Hacer doble clic en el grfico de lneas mltiples en la ventana de salidas de SPSS. Abrir el men Series/Traspose Data (Series/Trasponer Datos).

El grfico traspuesto (que no quiere decir pachucho, por cierto) que podemos ver en la Figura 23 tiene una fcil interpretacin:

Lnea roja - las puntuaciones de las variables originales promediadas por los casos que pertenecen al primer cluster. Lnea verde - las puntuaciones de las variables originales promediadas por los casos que pertenecen al segundo cluster. Lnea azul - las puntuaciones de las variables originales promediadas por los casos que pertenecen al tercer cluster.

Figura 23 - Puntuaciones Medias Traspuesto

En este grfico se aprecia (ver el manual de Grficas con SPSS) que:

los casos del cluster 1 tienen valores altos en las variables divertid, combino, medios en las variables presupu, bestbuy, ahorro y bajo en noimport. los casos del cluster 2 tienen valores altos slo en la variables noimport, medios en las variables presupu, bestbuy, ahorro y bajo en divertid, combino. los casos del cluster 3 tienen valores altos en las variables presupu, bestbuy, ahorro, medios en las variables divertid, combino, noimport y no tiene valores bajos.

Por tanto, se ha obtenido de este grfico una nueva constatacin para creer que existen 3 y slo 3 clusters. El primero de ellos estara caracterizado por un comportamiento que hemos llamado ldico (cachondos). El segundo lo estara por un comportamiento nihilista (pasotas). El ltimo lo estara por un comportamiento tacao (peseteros).

5.3. MediasHasta ahora se tiene:

Tablas de Frecuencias nos asegura que la solucin ptimas es la de 3 clusters. Grficos de lneas mltiples nos permite describir el perfil de cada unos de estos 3 clusters.

Ahora, mediante el procedimiento Means (Medias), intentaremos corroborar (o descartar) estadsticamente la hiptesis de nuestra investigacin: que la divisin de los casos del fichero de datos en 3 clusters tiene sentido. Para configurar el procedimiento Means hay que especificar qu variables se consideran independientes y qu dependientes. En este caso, es bastante obvio:

la variable independiente es la variable clu3_1 (por fuerza categrica); variables dependientes son las 6 variables originales (por fuerza numricas continuas);

Figura 24 - Cuadro de dilogo Means

La aportacin ms importante del comando Means es el clculo del coeficiente Eta y el test de linealidad, que son los que se solicitan en el cuadro de dilogo Options. Figura 25 - Cuadro de dilogo Means: Options

El coeficiente Eta mide el grado de asociacin entre las variables dependientes y la variable independiente. Dicho de otro modo, nos dice hasta que punto tiene sentido esta agrupacin en 3 clusters. Tiene valores entre 0 y 1, donde el 0 indica la ausencia de la asociacin (los grupos creados no tienen sentido) y 1 que indica la plena procedencia de este agrupamiento. Por su parte, el test de linealidad realiza una comparacin de los grupos en funcin de los valores de las variables dependientes. La sintaxis de procedimiento MEANS, configurado segn los cuadros de dilogo anteriores, tiene el siguiente aspecto: Figura 26 - Sintaxis del procedimiento Means

MEANS TABLES=divertid presupu combino bestbuy noimport ahorro BY clu3_1 /CELLS MEAN COUNT STDDEV /STATISTICS ANOVA LINEARITY .Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas: Figura 27 - Informe de Medias

La tabla de la Figura 27 se ha obtenido de la siguiente forma:

haciendo doble click en la tabla original Informe de Medias de SPSS, seleccionando la opcin Pivot Table en la barra de men, pasando los estadsticos a Layers (Capas) en el cuadro de dilogo resultante, seleccionando la capa Means (Medias).

Figura 28 - Tabla ANOVA


haciendo doble click en la tabla original Tabla ANOVA de SPSS, seleccionando la opcin Pivot Table en la barra de men, pasando los estadsticos a Layers (Capas) en el cuadro de dilogo resultante, seleccionando la capa Between Groups Linearity (Linealidad Entre Grupos).

El test de linealidad es un anlisis de la varianza (ANOVA) que contrasta la hiptesis nula de que los k grupos (3, en este caso) se distribuyen homogneamente, es decir, que no existen diferencias lineales entre ellos. Si no se pudiese rechazar esta hiptesis nula significara que nuestro HCA no ha tenido xito. Se podr rechazar la hiptesis nula si la(s) variables dependientes analizadas tienen una significacin menor que 0,05 (columna Sig.) de la tabla ANOVA. En este caso, todas las variables estudiadas tienen una significacin menor que 0,05, por lo que todas ellas son variables significativas. Es decir, todas las variables originales contribuyen de un modo significativo al proceso de agrupacin (ver el manual de Estadstica Inferencial). Figura 29 - Medidas de Asociacin

La tabla de la Figura 29 - Medidas de Asociacin muestra a las variables del cluster de personas divertidas (divertid y combino) correlacionadas negativamente y a las de las variables del cluster de personas cicateras correlacionadas positivamente con la variable clu3_1 (que posee valores de 1 a 3). Esto debe interpretarse como que el valor de los sujetos Cachondos debera ser el 1, el valor de los Pasotas, el 2 y, por ltimo, el de los Peseteros, el 3. La tabla de medidas de asociacin permite obtener para cada variable valores que ayudan a constatar el apoyo de cada variable a la definicin del perfil de cada cluster. Por ejemplo, el valor del coeficiente de correlacin lineal R (-0,573), de la variable divertid, indica que esta variable corresponde a personas que tienen un valor muy bajo en la variable de agrupamiento (clu3_1); es decir, de los 3 valores de esta variable sera el nmero 1. Dicho de otro modo, los individuos de cluster 1 tendran un comportamiento caracterizado por la variable divertid. Anlogamente, el valor 0,609 de la variable presupu, hace

suponer que esta variable corresponde a personas que tienen un valor muy alto en la variable de agrupamiento. La prxima semana (20010903) se buscar directamente una solucin de 3 clusters mediante el Anlisis Cluster Confirmatorio (de K-Medias) y se contrastarn estadsticamente las dos soluciones para ver hasta qu punto son diferentes

6. Anlisis Cluster de K-Medias con 3 ClustersEl Mtodo No Jerrquico de Agrupacin (K-Medias, desde ahora KMCA) recibe tambin el nombre de Clustering de Confirmacin o de Optimizacin. Este mtodo debe, pues, partir del nmero de clusters que hemos considerado ptimo (3). ste ser el valor a introducir en la casilla Number of Clusters (Nmero de Clusters). Figura 30 - Cuadro de dilogo KMCA

Ser importante activar las opciones Save (Guardar) y Options (Opciones). Figura 31 - Cuadro de dilogo KMCA: Save New...

Figura 32 - Cuadro de dilogo KMCA: Options

Si se pulsa el botn Paste (Pegar), se podr ver la sintaxis del procedimiento KMCA. Como puede verse, KMCA recibe el nombre de QUICK CLUSTER en el lenguaje de comandos. Figura 33 - Sintaxis del procedimiento Quick Cluster

QUICK CLUSTER divertid presupu combino bestbuy noimport ahorro

/MISSING=LISTWISE /CRITERIA= CLUSTER(3) MXITER(10) CONVERGE(0) /METHOD=KMEANS(NOUPDATE) /SAVE CLUSTER /PRINT INITIAL ANOVA.Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas: Figura 34 - Centro Finales de Clusters

Los Centros Finales de Clusters asignan altos valores en el cluster 1 a las variables del perfil pesetero, altos en el cluster 2 a las variables del perfil pasota y, por ltimo, altos valores en el cluster 3 a las variables del perfil cachondo. En esto coincide perfectamente con los resultados del HCA, pero justo a la inversa. Figura 35 - Tabla de ANOVA

En la tabla ANOVA se realiza una prueba de comparacin de grupos. Esta prueba consiste en enfrentar los tres clusters (grupos) respecto de las variables que han intervenido en el proceso de agrupamiento (KMCA). La hiptesis que pretendemos contrastar en esta prueba es la de que los 3 clusters son significativamente iguales entre s respecto de todas y cada una de las variables. Esta hiptesis se llama hiptesis nula, y se rechaza si el nivel de significacin (columna Sig.) de la prueba es menor de 0,05. En este caso, al tener todas las variables una significacin menor que 0,05, resulta que todas ellas son significativas (es decir, crean diferencias importantes entre los 3 clusters comparados). Por otro lado, una vez comprobada la significatividad de todas las variables, queda por determinar el grado de contribucin de cada una de ellas al proceso de agrupamiento. Esta medida de la contribucin de cada variable recibe el nombre de valor F (en honor al estadstico de la distribucin de Fisher). Cuanto mayor sea el valor F, mayor ser la contribucin de la variable. En este caso, al tener las variables divertid y combino los valores F mayores, resulta que el hecho que ms contribuye al proceso de agrupamiento es el grado de "cachondez" (con perdn), es decir, la intensidad de la visin de la compra como esparcimiento es la que ms diferencia a la gente de este fichero de datos. Figura 36 - Nmero de Casos en Cada Cluster de KMCA

Esta tabla muestra el nmero de sujetos asignados a cada cluster. Estos resultados deben ser acordes con los obtenidos mediante el algoritmo HCA (Anlisis Cluster Exploratorio), es decir, que estos resultados

deben confirmar los anteriores. Para comodidad, a continuacin se reproduce al Tabla de Frecuencias de HCA de la semana anterior. Figura 18 - Tabla de Frecuencias de HCA

La penltima columna recoge los resultados del procedimiento HCA para 3 clusters. Como se puede apreciar, los resultados, si bien hay el mismo nmero de sujetos en cada cluster, no se dan en el mismo orden que en KMCA. No obstante, queda por averiguar si esta diferencia en el orden afecta a la interpretacin de los perfiles de los clusters. Es decir, si los mismos nueve sujetos que definieron el cluster 1 (por ejemplo, como cachondos) de HCA, pertenecen al cluster de cachondos del procedimiento KMCA. Por supuesto, habra que hacer la misma comprobacin para los dems clusters.

6.1. Etiquetado de las variables de ClusterAntes de proceder con el anlisis comparativo de los dos clusters, hay que etiquetar los valores de las variables para que luego puedan ser fcilmente identificados dentro de las tablas. Este paso, que se tiene que realizar con las dos variables de agrupamiento tanto la de HCA (para la solucin de 3 clusters) como la de KMCA, se har mediante la sintaxis de SPSS. Para ello, si no se hubiese abierto antes, hay que abrir ahora una ventana de sintaxis. Para ello, seleccionar File/New/Syntax. La sintaxis de etiquetado de la variable de agrupamiento de HCA tiene el siguiente aspecto: Figura 37 - Sintaxis del etiquetado de la variable cluster

RENAME VARIABLES clu3_1 = CLUSTER. EXECUTE. VARIABLE LABEL CLUSTER 'Clusters Jerrquicos'. EXECUTE. VALUE LABELS CLUSTER 1 'Cachondos' 2 'Pasotas' 3 'Peseteros'. EXECUTE.La sintaxis de etiquetado de la variable de agrupamiento de KMCA tiene el siguiente aspecto: Figura 38 - Sintaxis del etiquetado de la variable cluster2

RENAME VARIABLES qcl_1 = CLUSTER2. EXECUTE. VARIABLE LABEL CLUSTER2 'Clusters de K-Medias'. EXECUTE. VALUE LABELS CLUSTER2 1 'Peseteros' 2 'Pasotas' 3 'Cachondos'. EXECUTE.Los resultados de este "embellecimiento" de las variables de agrupamiento se observan a continuacin: Figura 39 - Vista del Fichero de Datos

7. Estudio de la Asociacin entre las 2 variables ClusterUna vez creadas, y debidamente etiquetadas, las dos variables de agrupamiento, es el momento de estudiar la relacin (asociacin) entre las mismas. Este estudio se lleva a cabo con el objetivo de comprobar la coincidencia entre los resultados del HCA y del KMCA. Si se diese una plena coincidencia (representada por el valor 1 del coeficiente de asociacin), significara que se ha realizado un buen proceso de agrupamiento. En la medida en que esta coincidencia se vaya alejando del valor 1, significara que el proceso carecera de validez y de interpretabilidad. Para evaluar la validez de los clusters, el mtodo ms adecuado es cruzar las variables resultantes del HCA y del KMCA mediante el procedimiento CROSSTABS. Figura 40 - Cuadro de dilogo Crosstabs

Es importante solicitar la opcin Display clustered bar charts (Mostrar grficos de barras agrupadas). Este grfico permite comprobar visualmente el grado de adecuacin entre los valores de las dos variables. Figura 41 - Cuadro de dilogo Crosstabs: Statistics

Dado que las dos variables, objeto del anlisis de la asociacin, son de tipo nominal, es decir, no poseen caractersticas de orden ni mtrica, los nicos estadsticos que resulta pertinente solicitar son el estadstico Chi-square (chi-cuadrado), Contingency coefficient (coeficiente de contingencia) y Somers' d (la d de Somers). Para una exhaustiva explicacin del significado de estos estadsticos el manual de Estadstica Descriptiva. El estadstico que mide el grado de asociacin entre las variables recibe el nombre de Coeficiente de contingencia (Contingency coefficient). Este coeficiente toma valores entre -1 y 1. El valor 1 indica una situacin de plena asociacin directa entre los valores de ambas variables, el valor 0 indica la ausencia de toda asociacin y, por ltimo, el valor -1 indica una situacin de plena asociacin, pero inversa. Figura 42 - Cuadro de dilogo Crosstabs: Cell Display

En este cuadro de dilogo se debe solicitar la visualizacin en las tablas de contingencia, resultantes de la aplicacin de procedimiento CROSSTABS, al menos las siguientes celdas:

celdas Observed (Observadas) y Expected (Esperadas) en el cuadro Counts (Frecuencias). celdas Rows (Filas), Columns (Columnas) y Total en el cuadro Percentages (Porcentajes). celda Unstandardized (No Estandarizados) en el cuadro Residuals (Residuales).

La sintaxis de procedimiento CROSSTABS, configurado segn los cuadros de dilogo anteriores, tiene el siguiente aspecto: Figura 43 - Sintaxis del procedimiento Crosstabs

CROSSTABS /TABLES=cluster BY cluster2 /FORMAT= AVALUE TABLES /STATISTIC=CHISQ CC D /CELLS= COUNT EXPECTED ROW COLUMN

/BARCHART .Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas: Figura 44 - Cuadro de dilogo Pivoting Trays


haciendo doble click en la tabla original, seleccionando la opcin Pivot Table en la barra de men, pasando los estadsticos a Layers (Capas) en el cuadro de dilogo Pivoting Trays (ver Figura 44), seleccionando la capa Count (Frecuencias).

Figura 45 - Clusters Jerrquicos x Clusters de K-Medias

En la Figura 45 hay que observar si los valores de las dos variables coinciden, es decir, si los sujetos etiquetados como peseteros en el HCA son clasificados como tales tambin el KMCA, y as sucesivamente para el resto de los grupos (clusters). Como puede observarse, en los 3 grupos hay una perfecta sincrona en este aspecto, lo que hace albergar buenas esperanzas de grado de asociacin. Figura 46 - Test de Chi-Cuadrado

En el test de Chi-cuadrado se pretende contrastar la hiptesis nula de la independencia de las dos variables o, lo que es lo mismo, la ausencia de la asociacin entre ellas. Este test mide el grado de significatividad (probabilidad de rechazo de la hiptesis nula) mediante dos estadsticos importante:

Pearson Chi-square (Chi-cuadrado de Pearson) El estadstico Chi-cuadrado de Pearson tiene un valor que oscila de 0 a infinito en la curva de la distribucin chi-cuadrado. No obstante, para estudiar su importancia su valor (que aqu es 42,000) debe combinarse con el nmero de grados de libertad (columna df). Esto permitira evaluar la significatividad de la hiptesis nula. Asymp. Sig. (Significacin Asinttica) El mtodo de la significacin asinttica consiste en comprobar si el valor de esta es menor que 0,05 (nivel de significacin terica umbral). Si el valor de la significacin de la prueba fuese menor que 0,05, existiran razones slidas para rechazar tal hiptesis nula. Como en este caso la significacin asinttica es 0,000, la hiptesis nula tiene que rechazarse, lo que nos lleva a la conclusin de que existe una asociacin entre las dos variables de agrupamiento.

El test de chi-cuadrado ha permitido rechazar la hiptesis nula de la independencia de las variables, pero no da ninguna medida de la asociacin existente entre las mismas. Se dispone de dos medidas de asociacin: medidas direccionales y medidas simtricas, cuyos valores se pueden ver en las siguientes dos figuras. Figura 47 - Medidas Direccionales

Las medidas direccionales expresan el grado de asociacin entre dos variables con escalas ordinales y la direccin de esta asociacin. El estadstico que mejor representa a las medidas direccionales es la d de Somers que tiene valores entre 1 (asociacin directa) y -1 (asociacin inversa). Este estadstico pertenece a la familia de los estadsticos de la Reduccin Proporcional del Error. En este caso, dado que las dos variables son nominales (no ordinales), el estadstico de la d de Somers no resulta muy aplicable, pero apoya de manera significativa el contraste de la hiptesis. Como el valor de la d de Somers es -1, resulta evidente que existe una asociacin plena negativa o inversa. Para contrastar la hiptesis nula de la significativdad de la d de Somers se dispone un estadstico de Aprox. Sig. (Significacin Aproximada). Si el valor de esta significacin fuese menor de 0,05, se podra rechazar la hiptesis nula de que la d de Somers tiene un valor despreciable (cercano a 0). Como en este caso, la significacin aproximada es 0,000, la hiptesis nula tiene que rechazarse, lo que nos lleva a la conclusin de que existe una asociacin entre las dos variables de agrupamiento. Figura 48 - Medidas Simtricas

Las medidas simtricas permiten conocer el grado de asociacin entre las variables, pero no expresan la direccin de la misma (positiva o negativa). Todas las medidas simtricas poseen un valor entre 0 (asociacin nula) y 1 (asociacin plena). El estadstico de medida simtrica ms importante es el coeficiente de contingencia. Como el valor de este estadstico es 0,816, se puede suponer que 81,6% de los valores de ambas variables coinciden o, lo que es lo mismo, que si tendremos un grado de acierto del 81,6% al suponer que ambas variables estan asociadas. Al igual que en test de la d de Somers, se dispone tambin de una significacin para este test - Aprox. Sig. (Significacin Aproximada). Si el valor de esta significacin fuese menor de 0,05, se podra rechazar la hiptesis nula de que el coeficiente de contingencia tiene un valor despreciable (cercano a 0). Como en este caso, la significacin aproximada es 0,000, la hiptesis nula tiene que rechazarse, lo que nos lleva a la conclusin de que existe una asociacin entre las dos variables de agrupamiento. Figura 49 - Clusters Jerrquicos x Clusters de K-Medias

A la vista del grfico de barras agrupadas, resulta evidente que tanto los 3 clusters resultantes del HCA (Clusters Jerrquicos) como los 3 resultantes KMCA (Clusters de K-Medias) son exactamente iguales, pero estn dispuestos en orden inverso. Es decir, el cluster de los individuos peseteros definido por el KMCA tiene el valor 1, mientras que el HCA asigna a estos mismos individuos el valor 3. Anlogamente, los individuos definidos como cachondos reciben el valor 3 por el KMCA y el valor 1 por el HCA, mientras que los individuos definidos como pasotas reciben el mismo valor 2 por ambos procedimientos de agrupamiento. De esta forma, el procedimiento CROSSTABS confirma sin lugar a dudas que el proceso de agrupacin coincide con la hiptesis planteada en el punto 4: El fichero de datos estudiado presenta tres perfiles de personas bien marcados:

1. 2. 3.

Personas que manifiestan una actitud ldica frente al hecho (actividad) de ir a la compra. Este comportamiento, caracterizado por una alta puntuacin en tems como diversin y combinacin de compra con comida fuera de casa. Personas que manifiestan una actitud nihilista hacia el hecho (actividad) de ir a la compra. Este comportamiento est caracterizado por una alta puntuacin en tems como noimport. Personas que manifiestan una actitud economizadora frente al hecho de ir a la compra. Este comportamiento est caracterizado por una alta puntuacin en tems como bestbuy, ahorro y presupu.

Figura 1 - Hiptesis que se pretenda demostrar

ResumenComo resumen, se presenta un esquema de los pasos realizados durante estas tres semanas y que nos llevaron a la conclusin que se acaba de formular. Figura 50 - Esquema del proceso de agrupamiento seguido

Date post:	19-Jul-2015
Category:	Documents
Upload:	sarai-garcia
View:	47 times
Download:	0 times

An Lisis Cluster PGM

Documents