Date post: | 16-Feb-2015 |
Category: |
Documents |
Upload: | fulgencio-fama |
View: | 25 times |
Download: | 1 times |
Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados
Tesis Doctoral presentada porPedro Concejero Cerezo
Dirigida porRosario Martínez Arias
9 de diciembre 2004
Universidad Complutense de Madrid – Departamento de Metodología de las Ciencias del Comportamiento
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x'binormal.dat'
'empiri.dat'
-2
-1
0
1
2
-2 -1 0 1 2
x'zbinor.dat'
'zempiri.dat'
-100
0
100
200
300
400
500
600
700
800
2 3 4 5 6 7 8 9 10 11
<10 pt. 20 pt. 90 pt. 400 pt. 1100 pt. 3000 pt.4900 pt.
8100 pt. 22000
'red1.dat''red0.dat'
-6
-5
-4
-3
-2
-1
0
1
1 2 3 4 5 6 7 8 9 10
'cb11.dat''cb13.dat''cb15.dat''cb17.dat'
2Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Índice
1 ObjetivosIntroducción teórica
2 La fidelización del cliente y el CRM3 Aplicaciones de metodología ROC 4 Metodología de análisis de curvas ROC y
medida de la eficacia diagnósticaInvestigación empírica
5 Hipótesis y predicciones6 Método7 Resultados
Conclusiones
INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
3Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Aplicación de metodología curvas ROC a problema actual de CRM: optimización de la decisión entre clientes fieles /
no fieles, y evaluación de la eficacia global de procedimientos estadísticos de predicción.
Objetivos: curvas ROC en marketing
¿Por qué ROC en marketing? Metodología prácticamente desconocida en marketing. En los últimos 15 años ha encontrado aplicaciones en muchas
áreas con problemas asimilables al diagnóstico (decisiones con sólo dos alternativas: sí / no, enfermo / sano), con aplicaciones muy interesantes para detección rápida,o “screening”.
1ÍNDICE
OBJETIVOS
INTRODUCCIÓNTEÓRICA
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONESEl objetivo de investigación es fuertemente multidisciplinar... Las curvas ROC son una herramienta metodológica con
raíces en la Psicofísica que ha conocido un enorme avance en los campos de diagnóstico médico y psicológico.
... y metodológico: Los métodos de curvas ROC admiten dos enfoques:
paramétrico y no paramétrico. El objetivo es compararlas y poner en práctica todas las posibilidades de esta metodología (evaluación de la eficacia, análisis coste-beneficio, detección rápida, análisis de la capacidad predictiva).
4Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
El problema de la fidelización del cliente en marketing
Paradigma dominante en marketing es CRM (Customer Relationship Management). Aspectos claves son la fidelidad y el abandono de los clientes, y predecirlo.
2INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
Factores en paradigma CRM la importancia del factor tecnológico: el empuje de la “minería
de datos”. ¿Existe una teoría fuerte que explique la fidelidad del
cliente? No, son modelos parciales: Enfoques conductual y actitudinal. Enfoques dirigidos hacia
la predicción en áreas de aplicación específicas. Fidelidad en la práctica es un constructo que hay que definir y
operativizar para el campo de aplicación específico. Tarjetas son herramienta básica para programas de
fidelización: herramienta de relación con la marca, estudio del comportamiento, bonificación del consumo. Muchos tipos: Con o sin método de pago incorporado Con o sin programas de “puntos” Una única marca vs. Multimarca
5Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
El problema de la fidelización del cliente en marketing
2INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
Objetivos del análisis de nuestra tarjeta de fidelización (Travel Club) Operativamente definimos fidelidad como redención de
puntos: si un cliente dispone de suficientes puntos y nunca ha redimido podremos concluir que está en riesgo de abandonar el programa
Detectar clientes que puedan estar en riesgo de abandono del programa
Optimizar reglas de decisión basadas en indicadores conductuales disponibles
¿Tener tarjeta garantiza la fidelización?
La clave del éxito es la adecuada gestión y el análisis
6Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Breve historia de las curvas ROC en diferentes áreas
ROC es acrónimo de “Receiver –o también Relative- Operating Characteristic” y requiere un sustantivo además: curva ROC, análisis ROC.
3INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
Origen en Teoría de Detección de Señales (Tanner, Swets y Green, 1956; Green y Swets, 1966). Técnica clásica y como tal se sigue aplicando en Psicofísica.
En contexto de laboratorio psicofísico se mantienen supuestos fuertes de normalidad.
Desde años 70 se aplican en diagnóstico por la imagen (radiodiagnóstico) y se extienden con mucha rapidez en otras áreas de la medicina.
Fechas importantes en desarrollo de curvas ROC en medicina: Metz (1978) y Swets (1979) en campos de diagnóstico por
imagen (Radiología) Hanley y Mc.Neil (1982 y 1983) DeLong, DeLong y Clarke-Pearson (1988) Swets y Pickett (1982), Swets (1986, 1988)
Como metodología, el análisis ROC se han caracterizado por su desarrollo muy centrado en aplicaciones concretas.
7Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
El análisis ROC para instrumentos de detección temprana
¿Por qué tarda en difundirse en la Psicología? Áreas de aplicación desde años 90:
3INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
1 - Psicología Clínica: Detección temprana de trastornos psicológicos Predicción del uso de los servicios de salud Predicción del reintento de suicidio Detección de adicciones Análisis coste-beneficio en contextos clínicos Predicción del maltrato Algunas aplicaciones en Psicología Educativa
2 - Psicología Forense: Predicción de reincidencia Violación libertad condicional Análisis de decisiones de jurados
3 - Tecnologías de la información4 - Investigación de mercados: muy pocas aplicaciones, en
sectores muy específicos
8Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
El análisis de curvas ROC
Punto de partida es tabla de contingencia, para cada punto de corte:
4INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
Para cada punto de corte:
ROC representación de (1-especificidad) –eje x vs. Sensibilidad –eje y según se varía el punto de corte para la decisión. Permite comparar instrumentos de diagnóstico en eficaciaglobal (indep. de punto de corte)
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x'rocf2.dat'
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x'rocf2.dat'
'rocpsuma.dat'
9Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Análisis ROC paramétricas y no-paramétricas
La importancia de la tasa de prevalencia, valor predictivo positivo y negativo y análisis coste-beneficio
4INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
El área bajo la curva AUC [0.5:1] tiene un significado esencial: Proporciona índice de eficacia diagnóstica puro, independiente de punto de corte
Enfoque no paramétrico La “curva” no es tal: colección de puntos para los puntos de corte del estudio. Estimación AUC y comparación curvas: regla trapezoidal y U de Mann-Whitney Ventajas:
No requiere supuestos de distribuciones de partida, cálculo muy sencillo y directo Desventajas:
Subestima el área bajo la curva, sólo aplicable para comparación de curvas en sensibilidades y especificidades observadas
Enfoque paramétrico (supone binormalidad): Produce efectivamente una curva (estimación de máxima verosimilitud), para todo
el rango de valores posibles Comparación mediante contrastes estadísticos Z Ventajas del enfoque paramétrico
Compara curvas para cualquier sensibilidad y especificidad Desventajas del enfoque paramétrico
Cumplimiento de supuestos puede ser muy difícil, y cálculo complejo
Representación alternativa en caso de ROC “binormales”: recta en puntuaciones típicas normalizadas
-2
-1
0
1
2
-2 -1 0 1 2
x'zbinor.dat'
'zempiri.dat'
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x'binormal.dat'
'empiri.dat'
10Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Medir la precisión o efectividad de un sistema diagnóstico: índices de eficacia
Propiedades de las medidas de un sistema diagnóstico: fidelidad, consistencia, precisión y eficacia.
Swets (1986) expone dos tipos de índices de eficacia: Con umbral fijo De modelo de umbral variable
Swets (1986) muestra que todos los índices se pueden expresar como funciones de curva o punto ROC. La curva ROC es el instrumento de medida de eficacia diagnóstica más general, y: Proporciona índice de eficacia diagnóstica puro, indep de
punto de corte Estima probabilidad de diferentes resultados de tabla de
clasif. Cruzada Proporciona base para decisión sobre punto de corte,
incluyendo probabilidades y costes o utilidades. Alternativas a curva y análisis ROC:
En recuperación de información existen indicadores específicos (precision, cobertura, F –Lewis y Gale, 1994)
El gráfico Lift o de elevación es un concepto con un objetivo similar muy típico en marketing, pero con bases muy diferentes
4INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
11Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Parte empírica5INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES Aplicación de metodología de análisis ROC en una tarjeta multimarca española (Travel Club), usando los dos procedimientos (paramétrico y no paramétrico) para:
Establecer regla “empírica”, mediante procedimientos estadísticos que permitan optimizar la eficacia predictiva, para distinguir clientes de fieles de los que no lo son, a partir de definición operativa establecida anteriormente (basada en redención de puntos).
Evaluar la eficacia de diferentes procedimientos estadísticos de predicción o clasificación de clientes en fieles versus no fieles.
12Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Hipótesis y predicciones
Hipótesis 1: Si las curvas ROC son el mejor método para evaluar la capacidad predictiva de indicadores individuales, entonces
5INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
H1a: Mediante el análisis de curvas ROC sobre las variables de nuestra base de datos, individuales o agregadas de una manera simple, seremos capaces de encontrar un indicador con capacidad predictiva estadísticamente significativa.
H1b: Obtendremos conocimiento sobre la capacidad predictiva de las variables de interés en nuestra base de datos, mediante el cálculo de la curva ROC empírica.
H1c: Una vez calculadas éstas, podremos realizar contrastes estadísticos de significación de la capacidad predictiva de forma no paramétrica.
H1d: Y si obtenemos un indicador cuya distribución sea suficientemente normal, podremos optimizar la estimación de los indicadores de la curva ROC mediante la aplicación del modelo binormal.
H1e: Y a partir de la elección de un modelo de curva ROC de los pasos anteriores, seremos capaces de encontrar puntos de corte óptimos después de un análisis coste-beneficio.
Hipótesis 2: Si es posible estimar un modelo de regresión logística o un modelo de árbol de decisión sobre nuestros datos, entonces H2a: Podremos decidir entre uno u otro para proponerlo en
competición con el indicador individual que hemos encontrado antes. H2b: A partir de su aplicación en la base de datos, podremos realizar
análisis de curvas ROC que nos permitan comparar la capacidad predictiva de las dos aproximaciones (modelo estadístico vs. indicador único).
13Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Método
“Data mart” de 7411 clientes que a la fecha de su confección (enero de 2003) llevaban al menos 1 mes y como máximo 1 año inactivos.
Primer proceso fue la limpieza de la base de datos de partida (datos incorrectos o irrelevantes): base final para el análisis son 6032.
Exploración de datos: 39% varón, 35% mujeres y
resto desconocido 73% con edad conocida
media edad: 43.7 años Sólo 5.88% dados de alta
en web 12.44% tienen tarjeta(s)
adicional(es) Distribución decreciente
de númerode meses inactivo
6
0
5
10
15
20
25
30
35
10 To 20 20 To 30 30 To 40 40 To 50 50 To 60 60 To 70 70 To 80 80 To 90 90 To100
EDAD
Nº de meses inactivo
0
2
4
6
8
10
12
14
16
INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
14Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Método
Clasificaciones propias del negocio(datos elaborados por Travel Club): Perfil de compra (HMLNUM) es
clasificación por frecuencia decompra con criterios puros de negocio
Índice de capacidad adquisitiva, en 5 categorías, mediante procedi-mientos estándar (datos externos,datos estadísticos centralizados)
El más importante resultará el perfil multipatrocinador. El indicador disponible en la basede datos resultará muy pobre
6
67%
27%
6%
1
2
3
11.4714.24
46.6
19.98
7.71
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5
CDICE
71%
24%
5% 0%
0%
0%
1
2
3
4
5
6
INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
15Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Método
Variable de clasificación de perfil multipatrocinador creada a partir de datos de consumo:
6
SEGPMP
39%
14%11%
7%
1%
18%
5%5%
1 - mono-patroc. Eroski
2 - mono-patroc.Repsol
3 - mono-patroc. BBV
4 - mono-patroc.Telefónica
5 - Sólo pequeñospatroc.
6 - 2 patroc. (sinEroski)
7 - 2 patroc (conEroski)
8 - más de dos patroc.
INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
16Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
Transformaciones necesarias en variables de adquisición de puntos para llevarlas a la normalidad y agregar variables separadas en la base de datos (puntos acumulados hasta 2002 y durante 2002):
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
Media de 181 puntos una vez transformada, mediana de 184 puntos en escala directa. Distribución es normal según prueba de Kolmogorov-Smirnov.
0.0
200.0
400.0
600.0
800.0
0.0 3.0 6.0 9.0 12.0
Histogram of lntot3
lntot3
Count
17Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
Variable “redención de puntos” es criterio esencial para tomar decisión: sólo un 9.30% ha redimido puntos en alguna ocasión.
¿Qué variables individuales – por sí mismas- pueden predecir la conducta de rendención de puntos? Realizamos un análisis sistemático mediante curvas ROC empíricas para encontrar aquéllos mejores predictores individuales: Número de meses inactivo tiene alguna capacidad predictiva
significativa Perfil de compra (HMLNUM) tiene alguna capacidad predictiva
significativa, no así el índice de capacidad económica. La edad tiene alguna capacidad predictiva significativa. Observamos también una relación significativa en porcentaje
de redención si el cliente está registrado en la web o no.
La variable que mayor capacidad predictiva ofrece por sí misma es el total de puntos obtenidos históricamente (suma de los históricos más los del año en curso).
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
18Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
Una vez realizada transformaciónlogarítmica tenemos distribuciónglobal normal, pero ¿y si diferen-mos entre los que redimen y los que no?
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
-100
0
100
200
300
400
500
600
700
800
2 3 4 5 6 7 8 9 10 11
<10 pt. 20 pt. 90 pt. 400 pt. 1100 pt. 3000 pt.4900 pt.
8100 pt. 22000
'red1.dat''red0.dat'
El requisito de “binormalidad” es muy difícil de cumplir. Aun así, intentamos el cálculo de la curva ROC mediante los procedimientos paramétricos.
El ajuste es razonablemente bueno,aunque la ganancia en capacidadpredictiva (AUC=0.796) con respecto a procedimiento empírico(AUC=0.791) es muy pequeño.
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x'binormal.dat'
'empiri.dat'
19Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
Análisis coste-beneficio: ¿Podemos establecer una regla que nos permita realizar el
análisis coste-beneficio que permite el hecho de disponer de una curva ROC?
Tendríamos funciones básicas de coste en funciónde razones alternativas de coste/beneficio
6
-6
-5
-4
-3
-2
-1
0
1
1 2 3 4 5 6 7 8 9 10
'cb11.dat''cb13.dat''cb15.dat''cb17.dat'
INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
20Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
Para garantizar una potencia predictiva del 80%, si tenemos una prevalencia del 9% tendremos que establecer un punto de corte en torno a 7600 puntos, mientras que si tenemos una prevalencia del 20% sólo necesitaríamos en torno a 3400 puntos
Conclusión parcial: el análisis ROC nos permite elegir mejor indicador predictivo individual y optimizar punto de corte (Hipótesis 1).
6
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
500 1000 1500 2000 2500 3000 3500 4000 4500 5000
'pp2-09.dat''pp2-20.dat'
0.8
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
4000 6000 8000 10000 12000 14000
'pp2-09.dat''pp2-20.dat'
0.8
INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
El gran efecto de las distintas tasas de prevalencia:
21Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
Comparación de modelos estadísticos de predicción: regresión logística versus árboles de decisión.
Se realizó mediante Enterprise Miner v.4.1. de SAS v. 8.02
Permite la comparación mediante curvas ROC empíricas (procedimiento visual) de los resultados de diferentes procedimientos estadísticos.
La regresión logística ofrece mejor capacidad predictiva global
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
22Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
Los árboles de decisión son una técnica para representar reglas ocultas en los datos
Estructuras jerárquicas, secuenciales, que hacen particiones en los datos de forma recursiva.
Algoritmos como AID, MAID, THAID y CHAID construyen árboles de segmentación binaria
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
23Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
El modelo de regresión logística incluye 6 predictores, 2 de ellos variables a nivel de intervalo (total de puntos transformada y número de meses inactivo) y 4 de categoría (si está registrado online, el perfil de compra y dos “dummy” de la variable de perfil multipatrocinador)
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
24Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Resultados
¿Rinde mejor en capacidad predictiva global el indicador individual total de puntos transformado, o el modelo resultante de la regresión logística? Análisis no paramétrico de curvas ROC permite responder a esta pregunta
6
0.00
0.25
0.50
0.75
1.00
0.00 0.25 0.50 0.75 1.00
ROC Curve of REDIME
1-Specificity
Sensitiv
ity
Criterions
lntotC209
INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
25Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Conclusiones
En cuanto a la hipótesis 1, sobre las curvas ROC y su capacidad de evaluar la capacidad predictiva de indicadores individuales:
(H1a) Análisis ROC permite tomar decisiones sobre la capacidad predictiva de distintas variables de nuestra base de datos, de una manera estándar para todas ellas y con una gran potencia y simplicidad. De este modo hemos sido capaces de identificar un valor agregado (una simple suma de puntos) con una capacidad predictiva muy importante.
(H1b y c) Análisis ROC permite tomar decisiones entre alternativas mediante el enfoque de curva ROC empírica y contrastes estadísticos basados en la ROC no paramétrica.
(H1d) Después de realizar las transformaciones necesarias sobre la variable agregada que hemos identificado como más predictiva, análisis ROC según el modelo binormal permite aumentar la capacidad predictiva, aun cuando tiene la gran limitación de cumplir el supuesto de distribuciones binormales que se solapan, que puede ser muy difícil de cumplir en entornos aplicados, y sobre todo en aquellos casos en que el hecho positivo sea muy raro, puesto que nos será más difícil cumplir este supuesto.
(H1e) Análisis ROC permite establecer un punto de corte que optimice el beneficio esperado. Sin embargo, no hemos sido capaces de estimar suficientemente los costes y beneficios para obtener toda la potencia del modelo, y hemos tenido que realizar simulaciones con varias razones de costes-beneficios.
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
26Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Conclusiones
En cuanto a la hipótesis 2, hemos podido estimar un modelo de regresión logística y un modelo de árbol de decisión y: (H2a) Hemos podido compararlos en capacidad predictiva
utilizando una forma muy básica de curva ROC, según la proporciona el paquete estadístico sobre el que se han estimado tanto la regresión logística como el árbol de decisión. Pero no hemos sido capaces de hacer contraste estadístico entre el área bajo la curva de cada modelo, puesto que esta funcionalidad no la incorpora el programa estadístico. Por tanto, hemos tomado una decisión a partir de la curva ROC dibujada. No hemos podido extraer las puntuaciones probabilísticas a partir del árbol de decisión de tal manera que pudieran ser comparadas con el rendimiento de la variable identificada en el paso 1. Sí que hemos podido hacer con el modelo de regresión logística, y...
(H2b) Hemos comparado el modelo de regresión logística con el modelo de un único predictor identificado en el paso 1, llevando a cabo el contraste de hipótesis estadísticas, pero no hemos podido realizar esta comparación con el modelo binormal, puesto que la salida del modelo de regresión logística no cumple el supuesto de distribuirse normalmente.
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
27Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Discusión
Limitaciones de este estudio Conclusiones sobre modelos de curvas ROC:
Disponibilidad de software hace posible por fin aplicación de metodología de curvas ROC en muchos campos
Resulta necesario disponer al menos de enfoque no paramétrico completo (contraste estadístico entre curvas alternativas)
Modelos de curvas ROC binormales aportan mayor potencia pero imponen requisitos muy estrictos y de difícil cumplimiento en muchos campos aplicados
La gran eficacia y simplicidad del enfoque de “screening” Eficacia predictiva en el mundo real:
No existe una regla simple que permita optimizar la decisión Estimación de costes y beneficios individuales (para cada
caso en la tabla y no sólo para estimar una razón) todavía un problema
El gran efecto de la prevalencia Directrices futuras:
La incorporación de metodología de curvas ROC en procedimientos de minería de datos
6INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
29Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
30Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Ejemplo de salida de tabla completa de sensibilidad y especifidad para cada punto de corte (ejemplo factor 2 de instr. Detección maltrato)
ANEXOS
31Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Figura 4.16. Curvas ROC empíricas para factor 2 y puntuación "suma" del instrumento de detección de maltrato infantil, obtenidas con el programa NCSS 2004
0.00
0.25
0.50
0.75
1.00
0.00 0.25 0.50 0.75 1.00
ROC Curve of GRUPO
1-Specificity
Sensitiv
ity
Criterions
FACTOR2PTOTAL
ANEXOS
32Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Ejemplo de coste beneficio y valores predictivos negativo y positivo
Análisis coste-beneficio.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 20 40 60 80 100
'ppv05.dat''ppn05.dat''ppv07.dat''ppn07.dat''ppv10.dat''ppn10.dat'
-20
-18
-16
-14
-12
-10
-8
-6
-4
-2
0
2
0 20 40 60 80 100 120
'coste05.dat''coste10.dat''coste15.dat'
Necesario tener en cuenta la tasa de prevalencia: valor predictivo positivo y negativo
ANEXOS
33Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Figura 4.14. Valores predictivo positivo y negativo de la escala de abandono o factor 2, para tres tasas de prevalencia de maltrato infantil en la población: 0.05, 0.07 y 0.10.
Las funciones crecientes son el valor predictivo positivo, y las decrecientes el negativo. A su vez, la creciente inferior corresponde a la prevalencia de 0.05, la siguiente a 0.07 y así sucesivamente
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 20 40 60 80 100
'ppv05.dat''ppn05.dat''ppv07.dat''ppn07.dat''ppv10.dat''ppn10.dat'
ANEXOS
34Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Figura 4.13. Funciones de coste según enfoque de Metz y NCSS 2004 de la clasificación en función del punto de corte del factor 2
-20
-18
-16
-14
-12
-10
-8
-6
-4
-2
0
2
0 20 40 60 80 100 120
'coste05.dat''coste10.dat''coste15.dat'
ANEXOS
35Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Figuras 4.17 y 4.18 Representaciones alternativas de curvas ROC binormales (en escala natural de sensibilidad y especificidad y en escala de puntuaciones típicas)
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x'binormal.dat'
'empiri.dat'
-2
-1
0
1
2
-2 -1 0 1 2
x'zbinor.dat'
'zempiri.dat'
ANEXOS
36Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Figura 4.19. Representación de la ROC en el espacio definido por las puntuaciones típicas cuando no se cumple el supuesto de “binormalidad”
-2
-1
0
1
2
-2 -1 0 1 2
x'zf2.dat'
'zptotal.dat'
ANEXOS
37Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Figuras 5.6.-5.8. El gráfico de elevación (lift chart) frente a las curvas ROC
0
0.5
1
1.5
2
2.5
3
3.5
1 2 3 4 5 6 7 8 9 10
Decil
Ele
vaci
ón
Línea base (acum.)
Elevac.
Elevac. Acumulada
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
1 2 3 4 5 6 7 8 9 10
Decil
Po
rcen
taje
(ac
um
ula
do
)
Respuestasacumuladas
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x'rocf2.dat''liftf2.dat'
ANEXOS
38Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Salida del procedimiento árbol de decisiónANEXOS
39Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Salida del procedimiento árbol de decisiónANEXOS
40Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Opciones de ajuste del árbol en SAS (1)ANEXOS
41Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Opciones de ajuste del árbol en SAS (2)ANEXOS
42Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Opciones de ajuste del árbol en SAS (3)ANEXOS
43Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
El análisis ROC para instrumentos de detección temprana
A partir de años 90 se observa crecimiento de aplicaciones en áreas clínicas y aplicadas de la Psicología.
Su mayor difusión se basa en el enfoque no paramétrico: desaparecen supuestos fuertes y se aplica a instrumentos de detección rápida (screening).
Aparecen contrastes estadísticos basados en U Mann-Whitney – Wilcoxon.
Se convierte en herramienta estándar en epidemiología y en áreas de diagnóstico, prevención primaria.
Tarda en aparecer en paquetes estadísticos Macro SAS de DeLong et al. También se desarrollan macros
para S-Plus y lenguajes especializados. Incorporación como herramienta gráfica en SPSS. Aparición de software específico para el análisis no
paramétrico (GraphROC) en ámbito médico. Desarrollo de software específico para modelo paramétrico
(binormal) en Universidad de Chicago. NCSS 2004 es el único software estadístico que incorpora los
dos modelos de forma completa.
3INTRODUCCIÓNTEÓRICA
ÍNDICE
OBJETIVOS
Fidelización y CRM
Aplicacionescurvas ROC
Metodología ROCy eficacia diagn.
INVESTIGACIÓN EMPÍRICA
Hipótesis ypredicciones
Método
Resultados
CONCLUSIONES
44Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Figura 4.15: Elección de p. corte = 45 en factor 2 instr. maltrato
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100 120
'f2-sens.txt''f2-espe.txt'
ANEXOS
45Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento
Figura 4.15: Elección de p. corte en puntuación total maltrato
0
0.2
0.4
0.6
0.8
1
0 50 100 150 200 250 300 350
'pt-sens.txt''pt-espe.txt'
ANEXOS