Aplicación de técnicas de análisis multivariante a los...

Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles

E Raúl Rubio Aranda 1

2 Escuela Técnica Superior de Ingenieros Industriales (UPM)

AGRADECIMIENTOS

Para mi maravillosa familia; Sonia, mi mujer, y mis tres hijos Lucas, Nicolás y Julia.

Especial agradecimientos a mi tutor D. José Manuel Mira McWilliams por su inestimable

ayuda en la elaboración de este trabajo.



CITA

Pero yo estaba pensando una

manera de multiplicar por diez, y

siempre, en la respuesta, obtener de

nuevo el problema.

Lewis Carroll


RESUMEN EJECUTIVO

Habitualmente en la vida real se tiende a tomar el máximo número de variables posible, sin

tener en cuenta si las nuevas que incorporamos están o no relacionadas con las anteriores.

En caso de duda, sobre si la información que proporciona una nueva variable o ratio es útil,

preferiblemente se introduce en el procesamiento, lo que hace que las cosas sean algo más

complicadas en el manejo y tratamiento posteriores.

A veces es inmanejable procesar una enorme cantidad de datos, que por otra parte,

generalmente no necesitamos, otras veces imposible realizar un análisis profundo de todos los

valores obtenidos.

Las técnicas para obtener estos datos se han desarrollado enormemente durante los últimos

años y con las nuevas tecnologías y el “Big Data”, cada vez hay más y más información

disponible.

Ahora bien, no solo se trataría de recoger y procesar grandes cantidades de datos,

indiscriminadamente, sino de saber cuáles interesan en cada caso. Se hace necesario ser

selectivos para ser eficientes y por ende, tomar así las decisiones empresariales adecuadas de

la manera más ágil.

La clave es encontrar el número de variables óptimo que expliquen la información que

realmente necesitemos. Por ejemplo para un modelo de 40 variables habría que considerar

780 posibles coeficientes de correlación entre ellas, cuando lo normal es que éstas estén

relacionadas entre sí y midan lo mismo, o cosas muy parecidas, desde diferentes puntos de

vista.

En este trabajo lo que se intenta es establecer el mecanismo para la reducción de la

dimensionalidad del análisis, seleccionando un número de componentes que resuma todas las

40 variables en unas pocas dimensiones latentes (quizá 4 ó 5), procurando que la información

perdida no sea de mucha importancia o, mejor, que la información obtenida sea

suficientemente útil.

Las empresas, por tanto, deben ser ahora más eficientes que nunca en el trato de toda esa

información: Sólo si descartamos la información que no necesitamos, o que es redundante,

lograremos centrar nuestra atención en aquello que nos es vital.



ÍNDICE

1. INTRODUCCIÓN

1.1 Descripción del problema …………………..………… 5

2. OBJETIVOS ………………………………………….. 6

3. METODOLOGÍA

3.1 Análisis de Componentes Principales ………………. 7

3.2 Diferencia con Análisis Factorial ………………. 10

3.3 Análisis de Conglomerados ……………………... 10

4. RESULTADOS

4.1. Datos objeto del Análisis ……………………… 12

4.2. Reducción inicial de los Datos de la Plantilla ………… 13

4.3. Resumen estadístico de las variables ……………….. 14

4.4. Calculo de los Componentes principales para la matriz de 38

variables.

4.4.1. Análisis Normalizado ……………………… 21

4.5. Análisis de Conglomerados sobre los componentes obtenidos. 36

5. CONCLUSIONES ……………………….......... 38

6. BIBLIOGRAFÍA …………………………….. 39

7. PLANIFICACIÓN TEMPORAL

7.1 Diagrama de Gantt …………………………….. 40

7.2 Presupuesto …………………………….. 41

8. ANEXOS …………………………….. 42


1. INTRODUCCIÓN

1.1. Descripción del problema:

En el caso del seguimiento por parte de un fabricante de automóviles a la actividad de su Red

de distribución (Red de concesionarios) es habitual encontrar cuadros de mando complejos

que incluyen un número de variables elevado.

Los propios planes de acción comercial de los fabricantes, esto es, el Bonus, (hoy en día

necesario para la salud financiera del concesionario), incluyen decenas de ratios sobre los que

el concesionario debe estar diariamente pendiente para no verse afectado finalmente en sus

cuentas.

Muchos de estos ratios están relacionados entre sí, y podrían darnos la misma información

desde perspectivas diferentes.



2. OBJETIVOS

Si somos capaces de describir con precisión los valores de p variables por un pequeño

subconjunto r<p de componentes, construidas como combinaciones lineales de las variables

originales, se habrá reducido la dimensión del problema a costa de una pequeña pérdida de

información.

El objetivo de este trabajo es fundamentalmente evaluar si esta técnica es útil para el

monitoreo, a través de un cuadro de mando reducido, de la actividad de una red de

concesionarios de automóviles y por extensión, interpretar las componentes derivadas del

análisis.


3. METODOLOGÍA

3.1. Análisis de componentes principales (ACP)

Se dispone de una matriz [X]= nxp, que representa p variables, medidas para n

concesionarios, en un determinado instante de tiempo, en este caso, a cierre de ejercicio 2017.

v1 v2 v3 … vp

n1 . . . . .

n2 . . . . .

n3 . . . . .

… . . . . .

n . . . . .

El análisis de componentes principales permite transformar las variables originales, en general

correladas, en nuevas variables incorreladas que podrían facilitar la interpretación de los

datos.

En variables con alta dependencia es frecuente que un pequeño número de las nuevas

variables incorreladas (menos del 20% de las originales) expliquen la mayor parte (más del

80%) de la variabilidad total, lo que permitiría reducir la dimensionalidad del problema.

Según un enfoque descriptivo, se trata de encontrar un subespacio de dimensión menor que p

tal que al proyectar sobre él los puntos conserven su estructura con la menor distorsión

posible.

En la nube de puntos del plano de la figura 1, se trata de que la recta pase cerca de la mayoría

de los puntos o, de otra manera, exigiendo que las distancias entre los puntos y sus

proyecciones sobre la recta sean lo más pequeñas posibles.

Fig. 1



Así, el vector que define la primera componente principal sigue la dirección en la que las

observaciones varían más (línea roja de la Fig. 2). La proyección de cada observación sobre

esa dirección equivale al valor de la primera componente para dicha observación.

Fig. 2

Fig. 3

La segunda componente sigue la segunda dirección en la que los datos muestran mayor

varianza y que no está correlacionada con la primera componente. La condición de no

correlación entre componentes principales equivale a decir que sus direcciones son

perpendiculares/ortogonales (Fig. 3).


En varias dimensiones tendremos elipsoides, y la mejor aproximación en dos dimensiones es

la proyección sobre el plano de los dos ejes mayores del elipsoide y considerar los ejes del

elipsoide como nuevas variables supone pasar de variables correladas a variables ortogonales

o incorreladas (Fig. 4).

Fig.4

Las componentes principales intentan pues representar la mayor parte de la información con

un número menor de variables de las iniciales y construidas como combinaciones lineales de

ellas.

Esto es, la mejor predicción lineal con r variables, de las variables originales se obtiene

utilizando las r primeras componentes principales.

La reducción de datos no es en términos de cuántos datos tienen que ser recogidos, porque las

p variables se necesitan para formar las componentes principales, es en términos de cuantas

variables nuevas son retenidas para análisis posteriores.

La menor pérdida de información de los datos conlleva utilizar la máxima variabilidad.

La suma de las varianzas de las nuevas variables no usadas para representar los datos es una

medida de la pérdida de información.

Estas nuevas variables no observadas, darían cuenta de conceptos no observables

directamente, que engloban o tienen en común las variables originales observadas. En este

sentido, ACP sería el primer paso para identificar las posibles variables latentes o no

observadas que generan los datos.



3.2. Diferencia con otros tipos de análisis (AFC)

En ACP se considera la varianza total de la serie de variables observadas y el propósito es

maximizar la proporción total de la varianza explicada.

Por el contrario, el AFC está orientado al análisis de la covarianza, no de la varianza total.

Así, el AFC es una técnica de reducción de datos que sirve para encontrar grupos homogéneos

de variables que se forman con las variables que correlacionan mucho entre sí.

En palabras sencillas, en el AFC los factores explican las variables y en el ACP las variables

explican los factores.

3.3. Análisis de Conglomerados.

El objetivo del análisis Cluster o de Conglomerados es agrupar los elementos (observaciones

y también variables) en grupos, en función de las similitudes entre ellos, tratando de lograr la

máxima homogeneidad (mínima varianza) en cada grupo y la mayor diferencia entre los

grupos (máxima varianza).

En los método de partición, como el K-means, usado en este trabajo, las varianzas de las

variables en los grupos son claramente una media de la heterogeneidad de la clasificación y al

minimizarlas (o lo que es lo mismo, minimizar las distancias al cuadrado entre los puntos y

sus centros de grupo) obtendremos grupos más homogéneos.

Cómo funciona el algoritmo?

Primero elegimos un número de Clusters

Establecemos aleatoriamente la media del cluster (centroide)

Cada observación es asignada al centroide más cercano

Se recalcula el centroide

Recalculamos las distancias a los nuevos centroides hasta que no haya reasignación

entre clusters

Algunos datos a tener en cuenta:

1. El algoritmo K-means, usa distancia euclídea para alocar los datos en los clusters. Esto

requiere que las variables tengan aproximadamente la misma escala. Esto es, este

método no es invariante ante cambios de escala


2. El resultado del algoritmo depende de la asignación inicial y del orden de los

elementos. Por eso conviene repetir el algoritmo con distintos valores iniciales y

permutando los elementos de la muestra,



4. RESULTADOS DE LA APLICACIÓN DE ACP:

4.1. Datos objeto del análisis:

La Plantilla objeto de estudio está compuesta por las 64 variables siguientes, que representan

un típico cuadro de mando para el seguimiento de la actividad de una Red de Concesionarios

de automoción (59 concesionarios en este caso) y corresponden al resultado de cierre de un

ejercicio completo (2017):

Unidades Retail

VN

UV Tot.Direct Exp.

(%)

SERVICE Turnover Gross

Margin %

TOT BUS. AREAS

Direct Benefit (CIII)

Cumplimentación

Objetivo Ventas

UV Direct Benefit

(CIII) SERVICE Sem.Var.Exp

TOT BUS. AREAS

Direct Benefit (CIII) (%)

Sgm+ Share

TOTAL

UV Direct Benefit

(CIII) (%) SERVICE Tot.Direct Exp.

TOT BUS. AR.

Tot.Indirect Exp.

Sgm+ Share SIN

RAC Uds.UV

SERVICE Tot.Direct Exp.

(%)

TOT BUS. AR.

Tot.Indirect Exp. (%)

Sgm+ Share

PARTICULAR %UV/NV

SERVICE Direct Benefit

(CIII) BAI

NV Turnover Existencias

SERVICE Direct Benefit

(CIII) (%) BAI (%)

NV Gross Margin Meses vta(1)

Cumplimentación Objetivo

Posventa FAS

NV Gross

Margin(%) SPARE&P. Turnover Facturación por orden SOLVENCIA

NV Tot.Direct Exp.

SPARE&P Gross

Margin Fidelidad LIQUIDITY

NV Tot.Direct

Exp.(%)

SPARE&P Gross

Margin (%)

TOT BUS. AREAS

Turnover

BAI+AMORTIZACION

ES

NV Direct Benefit

(CIII)

SPARE&P.

Tot.Direct Exp.

TOT BUS. AREAS

Turnover Gross Margin

BAI+AMORTIZACION

ES (%)

NV Direct Benefit

(CIII)(%)

SPARE&P.

Tot.Direct Exp. (%)

TOT BUS. AREAS

Turnover Gross Margin (%) EBITDA

UV Turnover

SPARE&P. Direct

Benefit (CIII)

TOT BUS. AREAS

Variable Exp. EBITDA (%)

UV Gross Margin

SPARE&P. Direct

Benefit (CIII) (%)

TOT BUS. AREAS

Sem.Var.Exp Satisfacción de ventas

UV Gross Margin

(%) SERVICE Turnover

TOT BUS. AREAS

Tot.Direct Exp. Satisfacción de Posventa

UV Tot.Direct Exp.

SERVICE Turnover

Gross Margin

TOT BUS. AREAS

Tot.Direct Exp. (%) Reclamaciones Posventa


4.2. Reducción inicial de las variables de la plantilla.

Se maneja por tanto una matriz 59 Concesionarios y 64 Variables

Es usual disponer del valor de una misma variable en valor absoluto pero, debido a lo

interesante desde un punto de vista comparativo, también en porcentaje respecto a la

facturación.

Así por ejemplo, la experiencia nos dice que el TOT BUS. AREAS Turnover Gross Margin

(%), que es el margen bruto total del concesionario, debe estar por encima de 10%, o que el

TOT BUS. AREAS Tot.Direct Exp. (%), que es el % total de gastos directos sobre la

facturación total, no debe superar el 8% sobre la facturación total del concesionario, en

condiciones normales.

Debido a que la motivación de este proyecto es la de reducir la dimensión del problema,

vamos a realizar una primera prueba admitiendo que la información que aporta el valor

absoluto de una variable y su porcentaje sobre la facturación total podría ser similar, así, en

una primera reducción, eliminamos los conceptos que se repiten expresados en valor absoluto

y en % sobre la facturación.

Posteriormente evaluaremos si esta decisión ha sido correcta.

Éste el caso de NV Gross Margin, NV Tot.Direct Exp. y NV Direct Benefit (CIII) que se

repiten también en % para los diferentes departamentos (NV, UV, SPARE&P. y SERVICE)

así como para el total de áreas (TOT BUS. AREAS).

Obtenemos entonces 59 Concesionarios y 45 Variables

En una segunda reducción eliminamos las variables que se obtienen como combinación de

otras de la plantilla de forma evidente. Este es el caso de los Direct Benefit (CIII), esto es, los

beneficios directos de los diferentes departamentos, que se obtienen como resta directa de los

márgenes brutos menos los gastos directos.

Ahora tenemos 59 Concesionarios y 40 Variables.



4.3. Resumen estadístico de las variables a analizar

El este trabajo se emplea el programa estadístico R, que bajo el comando summary nos

proporciona el resumen estadístico de las variables obtenidas después de la reducción.

A simple vista, se ve que se trata de variables con diferentes escalas. Por ejemplo, “Unidades

Retail VN” representa el número de unidades de vehículo nuevo vendidas por el

concesionario, mientras que “Sgm+ Share PARTICULAR” representa la cuota en el segmento

de marcas premium en su área de influencia y en el canal particular, y que se mide en %.

Este será un datos importante a tener en cuenta posteriormente pues parece claro que

deberemos normalizar las variables. Profundizaremos después en este aspecto.


Sin embargo, el coeficiente de correlación lineal mide la relación lineal entre las variables,

independientemente de la escala. Por lo que se analiza para obtener una primera fotografía de

las variables:

Se aprecian unas altas correlaciones aunque sólo entre determinadas variables.

Estas relaciones lineales nos permitirían establecer patrones que unan las variables para crear

unas nuevas que nos describan de forma más simple el conjunto de datos con el que estamos

trabajando.

Veamos algunos ejemplos:

1. Liquidez y Solvencia presentan un índice de correlación alto (de 0,783) lo que indica que

los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de

la otra. Esto es, al aumentar los valores de Solvencia, lo hacen también los de Liquidez y

viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de

causalidad. Conviene resaltar este punto, ya que es un error típico inferir que dos o más

eventos están conectados causalmente por haberse observado una correlación estadística entre

ellos.

Es un error inferir que una variable A causa otra B ya que podría ser que B cause A, o

también podría ser que un tercer evento cause tanto A como B, explicando así la correlación.

Es posible también, que haya un tercer factor desconocido que sea realmente la causa de la

relación entre A y B, o que la relación sea tan compleja y numerosa que los hechos sean

simples coincidencias.

https://es.wikipedia.org/wiki/Inferencia

https://es.wikipedia.org/wiki/Fen%C3%B3meno

https://es.wikipedia.org/wiki/Causalidad_(filosof%C3%ADa)

https://es.wikipedia.org/wiki/Correlaci%C3%B3n



En este caso particular tiene sentido que un concesionario, que en definitiva es una empresa,

que trabaje de forma congruente, sea solvente y que también disponga de la liquidez

adecuada. Sin embargo, son dos términos totalmente diferentes y de distinta naturaleza: sería

perfectamente posible encontrar situaciones en las que la empresa puede carecer de liquidez,

pero ser muy solvente por tener activos fijos de alto valor que permiten garantizar

razonablemente sus obligaciones de pago.

De esta manera, el hecho de eliminar una de las dos variables del cuadro de mando, nos haría

perder la riqueza de la información.

2. TOT BUS. AREAS Turnover (facturación total del concesionario) y TOT BUS. AR.

Tot.Indirect Exp. (Gastos indirectos totales del concesionario) presentan también un índice de

correlación alto (0,886).

Parece lógico pensar que cuanto mayor sea la suma de la facturación de todas las áreas del

concesionario mayor será el total de gastos indirectos en los que incurrirá (probablemente se

necesitarán instalaciones más grandes de mayores alquileres y gastos de mantenimiento y por

ejemplo, un mayor número de personal de administración). Parece más interesante por la

información adicional que pueda aportar, comparar el % de esos gastos indirectos sobre el

total de la facturación. De esta manera podríamos interpretar si los concesionarios más

grandes tienen por ejemplo la tendencia de sobredimensionar los gastos porcentualmente

sobre el total de la facturación, o al revés.

Vamos a calcular la correlación entre TOT BUS. AREAS Turnover y TOT BUS. AR.

Tot.Indirect Exp., pero ahora ésta última en % respecto a la facturación total del

concesionario.

En este caso, obtenemos una correlación muy baja (y negativa), por lo que podemos

interpretar que no existe relación lineal entre estas dos variables.

Como conclusión de este punto, tenemos que criticar la decisión inicialmente tomada, de

seleccionar las variables absolutas y sustituiremos éstas por los mismos conceptos pero en

término relativo sobre la facturación.

Eliminamos así mismo la variable SERVICE Sem.Var.Exp, que es idéntica a SERVICE

Tot.Direct Exp., debido a que no se deben estar considerando diferencia entre gastos directos

semivariables y variables, y analizaremos el BAI como parámetro absoluto y en porcentaje

para ver si la interpretación es interesante.


Rehacemos entonces el cálculo de la matriz de correlaciones con estas nuevas 40 variables:




1. La variable Existencias está altamente correlacionada con las unidades NV (0,94) y UV

(0,87), así como con la facturación de los diferentes departamentos: NV Turnover (0,91), UV

Turnover (0,87) , Service Turnover (0,89), Spare Parts Turnover (0,85) y con la facturación

global de todos los departamentos (0,93). Resultado aparentemente lógico que pone de

manifiesto que el concesionario de mayor volumen de facturación (y ventas) tiene mayor

stock de existencias.

2. De la misma manera las variables de facturación están altamente correlacionadas entre sí,

ya que un concesionario de gran facturación en VN, aparentemente debe tener alta facturación

en las otras áreas. Por ejemplo, alta facturación en piezas también se relaciona en estos datos

con alta facturación de servicio (mano de obra para el montaje de las piezas).

3. Un resultado interesante puede ser la correlación entre SERVICE.Tot.Direct.Exp (%) y

SERVICE.Turnover.Gross.Margin (%) (0,64) que indica que en general, un concesionario

con alto resultado de margen bruto en el departamento de servicio, tiene alto porcentaje de

gastos directos departamentales. Esto no debería de ser un comportamiento aparentemente

relacionado. Una posible explicación podría ser que se trata de un problema de imputación de

costes, esto es, si el coste erróneamente está soportado como coste directo en lugar de mayor

coste de venta.



4. SPARE.P..Turnover y AMORTIZACIONES están altamente correlacionadas (0,78). La

explicación podría estar en que los concesionarios que más facturan necesitan más equipo y

por tanto la cantidad de amortizaciones sería mayor.

Eliminamos las dos variables expresadas en valor absoluto correspondiente a los gastos

directos (directos e indirectos) y obtenemos finalmente una matriz de 38 variables.

El origen de este proyecto consiste en la reducción de dimensionalidad del problema, debido a

que intuíamos cierta relación entre las variables. Ahora bien, a tenor de los resultados, se

esperaba unas correlaciones mayores de las realmente observadas tras el análisis de la matriz

de correlaciones. Esto nos puede hace pensar que las variables seleccionadas en el cuadro de

mando pueden tener cierto criterio de información no redundante, pero también puede ocurrir

que existan otro tipo de relaciones no lineales, o que no se analice otro factor que cause los

dos que se están comparando, o bien correlaciones canónicas entre cada variable y grupos de

otras.

Profundicemos en este hecho con el análisis de los componentes principales.


4.4. Calculo de los Componentes principales para la matriz de 38 variables

4.4.1 Análisis Normalizado.

El cálculo de componentes principales de una serie de variables depende normalmente de las

unidades de medida empleadas.

En este caso las escalas de medida de las variables son muy distintas y sin una estandarización

previa las variables con valores más grandes tendrían mayor peso.

Adicionalmente si las variabilidades son muy distintas las variables con mayor varianza

tendrán más peso en el primer componente principal. Así, si las varianzas de las variables

fueran informativas convendría no estandarizar.

En este caso, pretendemos que el peso esté más relacionado con las correlaciones entre las

variables por lo que estandarizaremos de forma que la varianza de cada variable es igual y

cada variable contribuirá con el mismo porcentaje a la varianza total. El análisis se basará por

tanto en las variables estandarizadas o lo que es igual, ACP de matriz de correlaciones de

variables sin estandarizar.

Aplicaremos la matriz de correlaciones, por tanto añadiremos cor=TRUE dentro de la función

princomp de R. La estructura de los comandos es la siguiente:

Y los resultados:










Si tipificamos las variables, mediante la secuencia de comandos:

Y después realizamos el análisis de componentes principales, con cor=FALSE, vemos que los

resultados para estas variables Z tipificadas, son idénticos.










Los valores propios o varianzas de los componentes:

La primera componente principal es la primera combinación lineal con el mayor valor propio

y la que mejor resume la información contenida en los datos. Esto es, la primera componente

principal es la combinación lineal de las variables originales que tiene varianza máxima. En

este análisis, la varianza del conjunto de variables observadas proyectada sobre esta primera

dirección es 8,846.

El primer componente principal (Comp. 1) está afectado positivamente principalmente por

variables de volumen, esto es, existencias, Z.NV. Turnover, Z.SERVICE. Turnover,

Z.SPARE.P..Turnover, Z.Uds.UV, Z.Unidades.Retail.VN y Z.UV.Turnover, mientras que

otras variables, en mayor medida el BAI, lo hace negativamente.

Así, el primer componente principal se puede interpretar como una medida de tamaño de

concesionario en el sentido de volúmenes: de facturación, existencias y unidades, al que se

contrapone el resultado económico (BAI).

De hecho, como se comprueba en la matriz de correlaciones vista anteriormente, la variable

BAI.... se correlaciona negativamente con las variables relacionadas con volumen y

facturación.



De la tabla anterior, así como de la gráfica de sedimentación de la figura 6, se extrae que las

11 primeras componentes tienen varianza superior a 1. Estos primeros 11 componentes

capturan una variabilidad total del 82,3%. Como se aprecia también en la figura 7, a partir de

la consideración del veinteavo componente principal, la explicación de la variabilidad

aportada no es importante con la inclusión de cada nueva variable.

Fig. 6

Comp.1 Comp.3 Comp.5 Comp.7 Comp.9

.PC

Va

ria

nce

s

02

46

8


Fig. 7

Esto supone que se puede reducir la dimensionalidad de los datos al pasar de las 38 variables

observadas a trabajar sólo con 11, sin distorsionar demasiado la información original.

Esto es, habrá 17,7% de variabilidad en los datos originales del que las 11 componentes

extraídas no pueden dar cuenta.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

% variabilidad explicada



4.5. Análisis de Conglomerados.

Partimos del análisis de componentes principales para evitar introducir componentes no

relevantes e introducir los datos homogéneos.

Elegimos, como criterio inicial, basado en la experiencia tres conglomerados para iniciar el

análisis.

Los comandos utilizados en R son los siguientes:

La salida indica que habría 25 concesionarios en un conglomerado, 6 en otro y 28 en el

tercero.

Se realiza la representación gráfica en el plano de las dos primeras componentes principales,

según el comando biplot:


Cada punto cae claramente dentro de un Cluster, es decir, los clusters serían capaces de

identificar dimensiones específicas de los datos, subyacentes.

Se puede interpretar que hay un grupo de 6 concesionarios claramente influidos por la primera

componente principal y otros dos grupos de concesionarios en los que se contrapone el efecto

de la segunda componente principal.



5. CONCLUSIONES

La primera técnica de Análisis Multivariante empleada: Análisis de componentes Principales,

es una técnica útil para reducir la dimensionalidad del problema.

Debido a la dependencia entre las variables empleadas en el cuadro de mando de este

fabricante de automóviles, 11 de ellas (esto es, menos de un 30% de las 38 definitivamente

seleccionadas) explican más del 80% de la variabilidad total, lo cual nos permitiría alcanzar el

objetivo inicial del trabajo, consistente en la reducción de la dimensionalidad del problema.

Estas nuevas variables no observadas (los componentes principales) darían cuenta de

conceptos no observables directamente, que engloban o tienen en común las variables

originales observadas.

Sin embargo, la interpretación de los componentes principales obtenidos es muy complicada

y, excepto la primera componente, que hace una clara referencia al volumen de los

concesionarios, el resto de componentes no lo hacen a otros conceptos fácilmente

interpretables.

Por otra parte, la reducción de datos no es en términos de cuántos datos tienen que ser

recogidos, porque las p variables (todas) se necesitan para formar las componentes principales

seleccionadas (estas 11), es en términos de cuantas variables nuevas son retenidas para

análisis posteriores.

En técnicas de este tipo, de análisis no supervisado, no hay etiquetas que categoricen a los

concesionarios en “excellent”, “good” o “por”, sí tenemos características, como las variables

analizadas. El objetivo es usarlas para organizar los datos, en este caso concesionarios, en

grupos similares.

La interpretación de los clusters es subjetiva, sin embargo a menudo es posible asignar un

significado útil.

En este resultado, el número predefinido de tres conglomerados hace una clara división para 6

concesionarios influenciados principalmente por factores de volumen y entre otros dos grupos

donde se contrapone el efecto de la segunda componente principal.


6. BIBLIOGRAFÍA

[1] Applied Multivariate Techniques.

Subhash Sharma. University of South Carolina

[2] Practical Guide to Principal Component Analysis (PCA) in R & Python.

Online

[3] Análisis Multivariante.

Daniel Peña

[4] Introducción a la Estadística para las ciencias Sociales.

Daniel Peña-Juan Romo. Mc Graw Hill.

[5] Machine Learning nade easy with R.

Dr. N.D. Lewis



7. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO

7.1.El diagrama de Gantt:

El siguiente diagrama refleja las actividades consideradas en la Estructura de

descomposición del proyecto.


7.2. Presupuesto:

La principal partida del presupuesto corresponde a los tiempos dedicados por el alumno y

tutor. El total del presupuesto asciende a 3.667 € sin impuestos incluídos.

CONCEPTO UNIDADES COSTE UNITARIO COSTE (€) Alumno 195 horas 15 €/hora 2.925

Tutor 10 horas 40 €/hora 400

Consumo E (W) 225 Kwh 0,148 €/Kwh 33,3

Microsoft Office 1 149 € 149

Amortización equipo 1 60 60

Impresión PFC 1 100 € 100

TOTAL 3.667



8. ANEXO.

Código para variables estandarizadas:


Código para ACP de variables estandarizadas sin matriz de correlaciones

Código para ACP de variables estandarizadas con matriz de correlaciones

Código para análisis Cluster



Date post:	29-May-2020
Category:	Documents
Upload:	others
View:	5 times
Download:	0 times

Aplicación de técnicas de análisis multivariante a los...

Documents