ANÁLISIS DE EFECTIVIDAD AL
IMPLEMENTAR LA TÉCNICA DE ÁRBOLES
DE DECISIÓN DEL ENFOQUE DE
APRENDIZAJE DE MÁQUINA PARA LA
DETERMINACIÓN DE AVALÚOS MASIVOS
PARA LAS UPZ 79 CALANDAIMA, 65
ARBORIZADORA Y 73 GARCÉS NAVAS
Adriana del Pilar Albancando Robles
Universidad Distrital Francisco José de Caldas
Facultad de Ingeniería, Ingeniería Catastral y Geodesia
Bogotá D.C.
2017
ANÁLISIS DE EFECTIVIDAD AL
IMPLEMENTAR LA TÉCNICA DE ÁRBOLES
DE DECISIÓN DEL ENFOQUE DE
APRENDIZAJE DE MÁQUINA PARA LA
DETERMINACIÓN DE AVALÚOS MASIVOS
PARA LAS UPZ 79 CALANDAIMA, 65
ARBORIZADORA Y 73 GARCÉS NAVAS
Adriana del Pilar Albancando Robles
Monografía de grado presentado como requisito parcial para optar el título de:
Ingeniera Catastral y Geodesta
Director:
Ingeniero Edwin Robert Pérez Carvajal
Universidad Distrital Francisco José de Caldas
Facultad de Ingeniería, Ingeniería Catastral y Geodesia
Bogotá D.C.
2017
III
Dedicatoria
A mi Padre Celestial, a mi mamá
Adriana Robles Salazar, mi papá Edwin
Albancando Cushcagua, mis hermanas
Diana Margarita, Liz Alejandra, Karol
Daniela y mis hermanos Edwin Hared y
José David, quienes han sido el motor y
apoyo constante en cada logro que he
conseguido, así como a cada familiar y
amigo que ha hecho parte de este
proceso.
Adriana del Pilar Albancando Robles
IV
Agradecimientos
De manera solemne expreso gratitud a todos los que estuvieron involucrados en este
proyecto que ahora llega a su culminación.
A Mi Padre Celestial, a quien debo cada fortaleza, a los miembros de mi familia, mis
padres y hermanos, que fueron participantes activos en este proceso, su ejemplo, apoyo,
dedicación y sacrificio dieron paso a que haya sido posible llevar a cabo este cometido,
reconozco su paciencia y confianza, que me llevaron a perseverar en esta labor cada
momento.
A la Universidad Distrital Francisco José de Caldas por haberme permitido participar de
este proyecto curricular y darme las herramientas mediante sus docentes y programas para
desarrollarme como profesional en Ingeniería Catastral y Geodesia.
De manera especial agradezco a mi director, el Ingeniero Edwin Robert Pérez, quien
estuvo al tanto de cada parte del desarrollo de este trabajo, prestando un dedicado apoyo,
constante atención e instrucción oportuna.
Finalmente agradezco a la Unidad Administrativa Especial de Catastro Distrital (UAECD)
y al Observatorio Técnico Catastral por suministrarme la información correspondiente a
las bases de datos para el desarrollo de este proyecto.
V
Resumen
El presente proyecto tiene como fin desarrollar la aplicación del aprendizaje de máquina,
específicamente el método de árboles de decisión, para verificar su efectividad como parte
fundamental del estudio que constituyen los avalúos masivos y mostrar una comparación
con valores observados y el método tradicionalmente empleado, a saber, la regresión
lineal.
Para cumplir con los objetivos propuestos se emplearon métodos de clasificación para
datos numéricos, el M5P, y para datos nominales, el ID3 y el J48, los cuales se evaluaron
por variaciones de los Test Cross Validation (validación cruzada) y Percentage Split
(División de porcentaje), por medio de los que se verificó el clasificador de árboles de
decisión más acertado al obtener resultados semejantes a los observados.
Con el propósito de verificar la efectividad de la aplicación del aprendizaje de máquina en
procesos como los avalúos, se hizo uso de datos proporcionados por la Unidad
Administrativa Especial de Catastro Distrital (UAECD) y el Observatorio Técnico
Catastral, correspondientes a las Unidades de Planeamiento Zonal (UPZ) 65
Arborizadora, 73 Calandaima y 79 Garcés Navas, adicionalmente, para el tratamiento de
los datos se empleó el software libre Weka con sus aplicaciones y opciones para visualizar,
procesar y observar resultados.
Como resultado del análisis realizado, se obtuvo que el aprendizaje de máquina por medio
del método de árboles de decisión es una herramienta útil y efectiva para aplicar dentro del
proceso de los avalúos, su aplicación a los datos es más específica al compararla con el
método de regresión lineal, la claridad de los resultados permite entender cada regla que se
VI
aplica a los grupos de datos y hacer un análisis más específico de las clasificaciones
finales.
Palabras clave: Aprendizaje de Máquina, Árboles de decisión, Unidad de Planeamiento
Zonal, Weka, M5P, J48, ID3, Cross Validation, Percentage Split, Regresión Lineal.
1
Tabla de contenido
Agradecimientos ................................................................................................................................ IV
Lista de figuras .....................................................................................................................................5
Lista de tablas ......................................................................................................................................8
Lista de ecuaciones ........................................................................................................................... 12
Lista de anexos .................................................................................................................................. 13
Introducción ...................................................................................................................................... 18
1. Antecedentes ............................................................................................................................. 20
2. Problema de investigación ........................................................................................................ 28
3. Objetivos ................................................................................................................................... 31
3.1 General ............................................................................................................................. 31
3.2 Específicos ....................................................................................................................... 31
4. Justificación .............................................................................................................................. 32
5. Marco espacial .......................................................................................................................... 34
5.1. UPZ 65 Arborizadora ............................................................................................................ 34
5.2. UPZ 73 Garcés Navas ........................................................................................................... 37
5.3. UPZ 79 Calandaima .............................................................................................................. 41
6. Marco teórico ............................................................................................................................ 44
2
6.1 Inteligencia artificial ........................................................................................................ 44
6.2 Aprendizaje de máquina................................................................................................... 47
6.3 Árboles de decisión .......................................................................................................... 50
6.4 Entropía de la información ............................................................................................... 55
6.5 Ganancia de la información ............................................................................................. 59
6.6 Método ID3 ...................................................................................................................... 64
6.7 Método J48 o C4.5 ........................................................................................................... 65
6.8 Método M5P .................................................................................................................... 68
6.9 Métodos de validación ..................................................................................................... 69
6.10 WEKA.............................................................................................................................. 70
6.10.1 Estadístico Kappa ...................................................................................................... 75
6.10.2 Coeficiente de correlación ........................................................................................ 76
6.10.3 Errores ....................................................................................................................... 77
6.11 Construcción de intervalos ............................................................................................... 79
6.12 Valuación ......................................................................................................................... 79
6.12.1 Valuación estadística........................................................................................................ 81
6.12.2 Avalúos masivos .............................................................................................................. 83
6.12.3 Puntos de investigación económica ................................................................................. 84
6.13 Unidades de Planeamiento Zonal (UPZ).......................................................................... 84
7. Metodología .............................................................................................................................. 86
3
7.1 Definición de zonas de estudio ........................................................................................ 86
7.2 Adquisición de base de datos catastrales de la zona de estudio ....................................... 87
7.3 Selección de métodos basados en árboles de decisión ..................................................... 89
7.4 Estructura preliminar del experimento, clasificación de los datos para el procesamiento en
el software WEKA ....................................................................................................................... 91
7.4.1 Atributo sector........................................................................................................... 95
7.4.2 Atributo uso .............................................................................................................. 96
7.4.3 Atributo pisos ............................................................................................................ 97
7.4.4 Atributo edad ............................................................................................................ 98
7.4.5 Atributo puntaje ........................................................................................................ 99
7.4.6 Atributo estrato ....................................................................................................... 100
7.4.7 Atributo actividad ................................................................................................... 101
7.4.8 Atributo tratamiento ................................................................................................ 101
7.4.9 Atributo área de terreno .......................................................................................... 102
7.4.10 Atributo valor metro cuadrado de terreno ............................................................... 104
7.4.11 Atributo área construida .......................................................................................... 106
7.4.12 Atributo valor metro cuadrado de construcción ...................................................... 108
7.4.13 Generación archivos weka ...................................................................................... 109
8. Análisis de resultados ............................................................................................................. 115
8.1 Resultados UPZ 73 Garcés Navas, Conjunto de datos PH ............................................ 115
4
8.2 Resultados UPZ 73 Garcés Navas, Conjunto de datos NO_PH ..................................... 126
8.3 Resultados UPZ 65 Arborizadora, Conjunto de datos PH ............................................. 137
8.4 Resultados UPZ 65 Arborizadora, Conjunto de datos NO_PH ..................................... 148
8.5 Resultados UPZ 79 Calandaima, Conjunto de datos PH ............................................... 159
8.6 Resultados UPZ 79 Calandaima, Conjunto de datos NO_PH ........................................ 170
9. Conclusiones ....................................................................................................................... 181
10. Recomendaciones ............................................................................................................... 183
11. Anexos ................................................................................................................................ 185
Bibliografía ..................................................................................................................................... 263
5
Lista de figuras
Figura 1. 1 Procedimiento para construir una base de conocimiento para implementar el
método de aprendizaje......................................................................................................... 20
Figura 1. 2 Ejemplo de capas de una imagen para el conjunto de datos de entrenamiento y
el flujo de datos en el subsistema ........................................................................................ 21
Figura 1. 3 Esquema de la definición de las variables ........................................................ 23
Figura 1. 4 Ejemplo de árbol de decisión para iniciación .................................................. 24
Figura 1. 5 Comportamiento del error (ECM) .................................................................... 26
Figura 5.1. 1 División por sectores UPZ 65 Arborizadora ................................................. 35
Figura 5.2. 1 División por Sectores UPZ 73 Garcés Navas ................................................ 39
Figura 5.3. 1 División por sectores UPZ 79 Calandaima ................................................... 42
Figura 6.2. 1 Esquema de la técnica de Aprendizaje de máquina ....................................... 48
Figura 6.3. 1 Ejemplo de árbol de decisión ......................................................................... 52
Figura 6.3. 2 Ejemplo de reglas generadas por un Árbol de Decisión ................................ 53
Figura 6.4. 1 Gráfica de la Función de entropía de una clasificación booleana ................. 58
Figura 6.5. 1 Comparación de resultados de Ganancia de información............................. 64
Figura 6.9. 1 Ejemplo de Validación Cruzada - Cross Validation ...................................... 70
Figura 6.10. 1 Ventana de Inicio. Weka, Versión 3.6.13 .................................................... 71
Figura 6.10. 2 Entorno Explorer del Software WEKA ....................................................... 72
Figura 7. 1 Esquema de metodología .................................................................................. 86
Figura 7.1. 1 Localización de las zonas de estudio ............................................................. 87
Figura 7.4. 1 Proceso de conformar los conjuntos de datos del experimento ..................... 92
6
Figura 7.5. 1 Elaboración del experimento, etapa de entrenamiento y validación ........... 111
Figura 7.5. 2 Elaboración del experimento, etapa de pronóstico ...................................... 112
Figura 8.1. 1 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión M5P Split 66 .......................................................................... 123
Figura 8.1. 2 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y
método Regresión Lineal Cross 20 ................................................................................... 124
Figura 8.1. 3 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión M5P Split 66 y Regresión Lineal Cross 20............................ 125
Figura 8.2. 1 Garcés Navas –NO_PH, Comparación Valor m2 de Construcción Observado
y método Árbol de Decisión M5P Split 80 ....................................................................... 134
Figura 8.2. 2 Garcés Navas - NO_ PH, Comparación Valor m2 de construcción observado y
método regresión lineal Cross 20 ...................................................................................... 135
Figura 8.2. 3 Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión M5P Split 80 y Regresión Lineal Cross 20............................ 136
Figura 8.3. 1 Arborizadora – PH, Comparación Valor m2 de Construcción observado y
método Árbol de Decisión M5P Cross 20......................................................................... 145
Figura 8.3. 2 Arborizadora – PH, Comparación Valor m2 de Construcción Observado y
método Regresión Lineal Split 66 ..................................................................................... 146
Figura 8.3. 3 Arborizadora – PH, Comparación Valor m2 de Construcción Observado,
método árbol de Decisión M5P Cross 20 y Regresión Lineal Split 66 ............................. 147
Figura 8.4. 2 Arborizadora - NO_ PH, Comparación Valor m2 de Construcción Observado
y método Árbol de Decisión M5P Split 80 ....................................................................... 156
7
Figura 8.4. 3 Arborizadora - NO_PH, Comparación Valor m2 de Construcción Observado
y método Regresión Lineal Split 33 .................................................................................. 157
Figura 8.4. 4 Arborizadora - NO – PH, Comparación Valor m2 de construcción observado,
método Árbol de Decisión M5P Split 80 y Regresión Lineal Split 33 ............................. 158
Figura 8.5. 1 Calandaima – PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión M5P Cross 20......................................................................... 167
Figura 8.5. 2 Calandaima – PH, Comparación Valor m2 de Construcción Observado y
método Regresión Lineal Split 66 ..................................................................................... 168
Figura 8.5. 3 Calandaima – PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión M5P Cross 20 y Regresión Lineal Split 66............................ 169
Figura 8.6. 1 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión M5P Split 80 .......................................................................... 178
Figura 8.6. 2 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y
método Regresión Lineal Cross 20 ................................................................................... 179
Figura 8.6. 3 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión M5P Split 80 y Regresión Lineal Cross 20............................ 180
8
Lista de tablas
Tabla 5.1. 1Límites UPZ 65 Arborizadora........................................................................... 34
Tabla 5.1. 2 Extensión UPZ 65 Arborizadora ...................................................................... 35
Tabla 5.1. 3 Vías malla arterial UPZ 65 Arborizadora ........................................................ 36
Tabla 5.1. 4 Usos del Suelo UPZ 65 Arborizadora .............................................................. 37
Tabla 5.1. 5 Distribución de la población por estrato en la UPZ 65 Arborizadora .............. 37
Tabla 5.2. 1 Límites UPZ 73 Garcés Navas ......................................................................... 38
Tabla 5.2. 2 Extensión UPZ 73 Garcés Navas ..................................................................... 38
Tabla 5.2. 3 Vías Malla Arterial UPZ 73 Garcés Navas ...................................................... 40
Tabla 5.2. 4 Usos del Suelo UPZ 73 Garcés Navas ............................................................. 40
Tabla 5.2. 5 Distribución de la población por estrato en la UPZ 73 Garcés Navas ............. 41
Tabla 6.5. 1 Atributos y valores experimento ...................................................................... 61
Tabla 6.10. 1 Descripción de las opciones presentes en el entorno Explorer del Software
WEKA .................................................................................................................................. 73
Tabla 6.10.2. 1 Gráficas de casos de resultados del coeficiente de correlación .................. 77
Tabla 6.10.3. 1 Características de los errores....................................................................... 78
Tabla 7.2. 1 Atributos de información cartográfica ............................................................. 88
Tabla 7.2. 2 Contenido bases de datos catastrales ............................................................... 89
Tabla 7.3. 1 Métodos de entrenamiento y validación .......................................................... 91
Tabla 7.4. 1 Comparación de cantidad de datos por UPZ luego de la depuración .............. 91
Tabla 7.4. 2 Cantidad de datos para entrenamiento, validación y pronóstico según PH y
NO_ PH ................................................................................................................................ 93
9
Tabla 7.4. 3 Atributos seleccionados para procesar ............................................................. 94
Tabla 7.4. 4 Cantidad de datos para conjunto de entrenamiento y validación y conjunto de
pronóstico ............................................................................................................................. 94
Tabla 7.4.2. 1 Atributo uso para predios No PH .................................................................. 96
Tabla 7.4.2. 2 Atributo uso para predios PH ........................................................................ 97
Tabla 7.4.3. 1 Atributo pisos ................................................................................................ 97
Tabla 7.4.4.1 Características de la clasificación: atributo edad ........................................... 98
Tabla 7.4.4.2 Clasificación atributo edad............................................................................. 98
Tabla 7.4.5.1 Características de la clasificación: atributo puntaje ....................................... 99
Tabla 7.4.5. 2 Clasificación atributo puntaje, grupo1 .......................................................... 99
Tabla 7.4.5. 3 Clasificación atributo puntaje, grupo 2 ....................................................... 100
Tabla 7.4.5. 4 Clasificación atributo puntaje, grupo 3 ....................................................... 100
Tabla 7.4.6. 1 Clasificación atributo estrato ...................................................................... 101
Tabla 7.4.7. 1 Clasificación atributo actividad .................................................................. 101
Tabla 7.4.8. 1 Clasificación atributo tratamiento ............................................................... 102
Tabla 7.4.9. 1Características de la clasificación: atributo área de terreno ......................... 103
Tabla 7.4.9. 2 Clasificación atributo área de terreno, grupo 1 ........................................... 103
Tabla 7.4.9. 3 Clasificación atributo área de terreno, grupo 2 ........................................... 104
Tabla 7.4.9. 4 Clasificación atributo área de terreno, grupo 3 ........................................... 104
Tabla 7.4.9. 5 Clasificación atributo área de terreno, grupo 4 ........................................... 104
10
Tabla 7.4.10. 1 Características de la clasificación: atributo valor metro cuadrado de terreno
............................................................................................................................................ 105
Tabla 7.4.10. 2 Clasificación atributo valor metro cuadrado de terreno ........................... 105
Tabla 7.4.11. 1 Características de la clasificación: atributo área construida ..................... 106
Tabla 7.4.11. 2 Clasificación atributo área construida, grupo 1 ........................................ 106
Tabla 7.4.11. 3 Clasificación atributo área construida, grupo 2 ........................................ 107
Tabla 7.4.11. 4 Clasificación atributo área construida, grupo 3 ........................................ 107
Tabla 7.4.11. 5 Clasificación atributo área construida, grupo 4 ........................................ 107
Tabla 7.4.12. 1 Características de la clasificación: valor metro cuadrado de construcción 108
Tabla 7.4.12. 2 Clasificación atributo valor metro cuadrado de construcción, grupo 1 .... 108
Tabla 7.4.12. 3 Clasificación atributo valor metro cuadrado de construcción, grupo 2 .... 109
Tabla 7.4.13. 1 Nombres de archivos .arff, UPZ 73 .......................................................... 110
Tabla 7.4.13. 2 Nombres de archivos .arff, UPZ 65 .......................................................... 110
Tabla 7.4.13. 3 Nombres de archivos .arff, UPZ 79 .......................................................... 110
Tabla 7.5. 1 Resultados obtenidos según método de clasificación .................................... 112
Tabla 8.1. 1 Características experimento: Garcés Navas, PH ID3- J48 - M5P - RL ........ 115
Tabla 8.1. 2 Comparación de errores de la selección de resultados finales, experimento:
Garcés Navas, PH - J48 – M5P - RL ................................................................................. 121
Tabla 8.1. 3 Selección de resultados finales, experimento: Garcés Navas, PH - J48 – M5P -
RL ....................................................................................................................................... 122
Tabla 8.2. 1 Características experimento: Garcés Navas, NO_PH ID3 - J48 - M5P - RL 126
Tabla 8.2. 2 Comparación de errores de la selección de resultados finales, experimento:
Garcés Navas, NO_PH - J48 – M5P - RL .......................................................................... 132
11
Tabla 8.2. 3 Selección de resultados finales, experimento: Garcés Navas, NO_PH - J48 –
M5P - RL ........................................................................................................................... 133
Tabla 8.3. 1. Características experimento: Arborizadora, PH ID3-J48–M5P-RL ............ 137
Tabla 8.3. 2 Comparación de errores de la selección de resultados finales, experimento:
Arborizadora, PH – ID3 - M5P - RL.................................................................................. 143
Tabla 8.3. 3 Selección de resultados finales, experimento: Arborizadora, PH – ID3 – M5P -
RL ....................................................................................................................................... 144
Tabla 8.4. 1. Características experimento: Arborizadora, NO_PH ID3-J48-M5P-RL ..... 148
Tabla 8.4. 2. Comparación de errores de la selección de resultados finales, experimento:
Arborizadora, NO_PH - J48 – M5P - RL .......................................................................... 154
Tabla 8.4. 3 Selección de resultados finales, experimento: Arborizadora, NO_PH J48 - M5P
- RL .................................................................................................................................... 155
Tabla 8.5. 1. Características experimento: Arborizadora, PH ID3- J48 - M5P - RL ........ 159
Tabla 8.5. 2 Comparación de errores de la selección de resultados finales, experimento:
Calandaima, PH – ID3 – M5P - RL ................................................................................... 165
Tabla 8.5. 3 Selección de resultados finales, experimento: Calandaima, PH ID3 – ID3 -
M5P - RL ........................................................................................................................... 166
Tabla 8.6. 1 Características experimento: Calandaima, NO_PH ID3- J48 - M5P - RL ... 170
Tabla 8.6. 2. Comparación de errores de la selección de resultados finales, experimento:
Arborizadora, NO_PH - ID3 - M5P - RL .......................................................................... 176
Tabla 8.6. 3 Selección de resultados finales, experimento: Calandaima, NO_PH – ID3 -
M5P - RL ........................................................................................................................... 177
12
Lista de ecuaciones
Ecuación (6.4. 1) Entropía (S) ............................................................................................. 56
Ecuación (6.4. 2) Entropía general ....................................................................................... 59
Ecuación (6.5. 1) Ganancia de información ......................................................................... 60
Ecuación (6.5. 2) Subconjunto de S ..................................................................................... 60
Ecuación (6.10.1. 1) Estadístico Kappa ............................................................................... 75
Ecuación (6.10.2. 1) Coeficiente de correlación de Pearson................................................ 76
Ecuación (6.10.2.2) Coeficiente de correlación para estadístico muestral .......................... 77
Ecuación (6.11. 1) Regla de Sturges .................................................................................... 79
Ecuación (6.11. 2) Rango ..................................................................................................... 79
Ecuación (6.11. 3) Longitud de un intervalo ....................................................................... 79
13
Lista de anexos
Anexo 1. Resultados, experimento: Garcés Navas, PH-ID3 ............................................. 185
Anexo 2. Selección de resultados, experimento: Garcés Navas, PH - ID3 ....................... 186
Anexo 3. Resultados, experimento: Garcés Navas, PH-J48. ........................................... 187
Anexo 4. Selección de resultados, experimento: Garcés Navas, PH - J48 ...................... 188
Anexo 5. Comparación de selecciones, experimento: Garcés Navas, PH – J48 - ID3 ..... 189
Anexo 6. Resultados experimento: Garcés Navas, PH-M5P ............................................ 190
Anexo 7. Selección de resultados, experimento: Garcés Navas, PH - M5P ..................... 191
Anexo 8. Resultados, experimento: Garcés Navas, PH-RL .............................................. 192
Anexo 9. Selección de resultados, experimento: Garcés Navas, PH - RL ........................ 193
Anexo 10. Comparación de selecciones, experimento: Garcés Navas, PH - M5P-RL ..... 194
Anexo 11. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión M5P Percentage Split 66......................................................... 195
Anexo 12. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y
método Regresión Lineal Cross 20 .................................................................................... 196
Anexo 13. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión Split 66 y Regresión Lineal Cross 20 ..................................... 197
Anexo 14. Resultados, experimento: Garcés Navas, NO_ PH-ID3 .................................. 198
Anexo 15. Selección de resultados, experimento: Garcés Navas, NO_PH - ID3 ............. 199
Anexo 16. Resultados, experimento: Garcés Navas, NO_PH-J48. ................................ 200
Anexo 17. Selección de resultados, experimento: Garcés Navas, NO_PH - J48............. 201
14
Anexo 18. Comparación de selecciones, experimento: UPZ Garcés Navas, NO _PH – J48 -
ID3 ..................................................................................................................................... 202
Anexo 19. Resultados experimento: Garcés Navas, NO_PH-M5P .................................. 203
Anexo 20. Selección de resultados, experimento: Garcés Navas, NO_PH - M5P ........... 204
Anexo 21. Resultados, experimento: Garcés Navas, NO_PH-RL .................................... 205
Anexo 22. Selección de resultados, experimento: Garcés Navas, NO_PH – RL ............. 206
Anexo 23. Comparación de selecciones, experimento: UPZ Garcés Navas, NO_PH - M5P-
RL ....................................................................................................................................... 207
Anexo 24. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión M5P Split 80 ........................................................................... 208
Anexo 25. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado y
Método Regresión Lineal Cross 20 .................................................................................... 209
Anexo 26. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión M5P- Split 80 y Regresión Lineal Cross 20 ........................... 210
Anexo 27. Resultados, experimento: Arborizadora, PH-ID3 ........................................... 211
Anexo 28. Selección de resultados, experimento: Arborizadora, PH - ID3 ..................... 212
Anexo 29. Resultados, experimento: Arborizadora, PH-J48 ........................................... 213
Anexo 30. Selección de resultados, experimento: Arborizadora, PH - J48 ..................... 214
Anexo 31. Comparación de selecciones, experimento: Arborizadora, PH – J48 - ID3 .... 215
Anexo 32. Resultados experimento: Arborizadora, PH-M5P ........................................... 216
Anexo 33. Selección de resultados, experimento: Arborizadora, PH - M5P .................... 217
Anexo 34. Resultados, experimento: Arborizadora, PH-RL............................................. 218
Anexo 35. Selección de resultados, experimento: Arborizadora, PH – RL ...................... 219
15
Anexo 36. Comparación de selecciones, experimento: Arborizadora, PH - M5P-RL ..... 220
Anexo 37. Arborizadora – PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión M5P Cross 20.......................................................................... 221
Anexo 38. Arborizadora – PH, Comparación Valor m2 de Construcción Observado y
método Regresión Lineal Split 66 ...................................................................................... 222
Anexo 39. Arborizadora – PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión M5P Cross 20 y Regresión Lineal Split 66............................. 223
Anexo 40. Resultados, experimento: Arborizadora, NO_PH-ID3 .................................... 224
Anexo 41. Selección de resultados, experimento: Arborizadora, NO_PH - ID3 .............. 225
Anexo 42. Resultados, experimento: Arborizadora, NO_PH-J48. .................................. 226
Anexo 43. Selección de resultados, experimento: Arborizadora, NO_PH - J48 ............. 227
Anexo 44. Comparación de selecciones, experimento: UPZ Arborizadora, NO_PH – J48 -
ID3 ..................................................................................................................................... 228
Anexo 45. Resultados experimento: Arborizadora, NO_PH - M5P ................................. 229
Anexo 46. Selección de resultados, experimento: Arborizadora, NO_PH - M5P ............ 230
Anexo 47. Resultados, experimento: Arborizadora, NO_PH - RL ................................... 231
Anexo 48. Selección de resultados, experimento: Arborizadora, NO_PH – RL .............. 232
Anexo 49. Comparación de selecciones, experimento: UPZ Arborizadora, NO_PH - M5P-
RL ....................................................................................................................................... 233
Anexo 50. Arborizadora – NO_PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión M5P - Split 80 ......................................................................... 234
Anexo 51. Arborizadora – NO_PH, Comparación Valor m2 de Construcción Observado y
Método Regresión Lineal – Split 33 .................................................................................. 235
16
Anexo 52. Arborizadora - NO_PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión M5P - Split 80 y Regresión Lineal - Split 33 ......................... 236
Anexo 53. Resultados, experimento: Calandaima, PH-ID3 .............................................. 237
Anexo 54. Selección de resultados, experimento: Calandaima, PH - ID3 ........................ 238
Anexo 55. Resultados, experimento: Calandaima, PH-J48. ............................................ 239
Anexo 56. Selección de resultados, experimento: Calandaima, PH - J48 ....................... 240
Anexo 57. Comparación de selecciones, experimento: UPZ Calandaima, PH – J48 -
ID3 ..................................................................................................................................... 241
Anexo 58. Resultados experimento: Calandaima, PH-M5P ............................................. 242
Anexo 59. Selección de resultados, experimento: Calandaima, PH - M5P ...................... 243
Anexo 60. Resultados, experimento: Calandaima, PH - RL ............................................. 244
Anexo 61. Selección de resultados, experimento: Calandaima, PH – RL ........................ 245
Anexo 62. Comparación de selecciones, experimento: UPZ Calandaima, PH - M5P-RL 246
Anexo 63. Calandaima – PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión - M5P Cross 20 ...................................................................... 247
Anexo 64. Calandaima – PH, Comparación Valor m2 de Construcción Observado y
método Regresión Lineal – Split 66 ................................................................................... 248
Anexo 65. Calandaima – PH, Comparación Valor m2 de Construcción Observado, método
Árbol de Decisión M5P– Cross 20 y Regresión Lineal – Split 66 ................................... 249
Anexo 66. Resultados, experimento: Calandaima, NO_PH - ID3 .................................... 250
Anexo 67. Selección de resultados, experimento: Calandaima, NO_PH - ID3 ................ 251
Anexo 68. Resultados, experimento: Calandaima, NO_PH-J48. ..................................... 252
Anexo 69. Selección de resultados, experimento: Calandaima, NO_PH - J48................. 253
17
Anexo 70. Comparación de selecciones, experimento: UPZ Calandaima, NO_PH – J48 -
ID3 ..................................................................................................................................... 254
Anexo 71. Resultados experimento: Calandaima, NO_PH-M5P ..................................... 255
Anexo 72. Selección de resultados, experimento: Calandaima, NO_PH - M5P .............. 256
Anexo 73. Resultados, experimento: Calandaima, NO_PH-RL ....................................... 257
Anexo 74. Selección de resultados, experimento: Calandaima, NO_PH – RL ................ 258
Anexo 75. Comparación de selecciones, experimento: UPZ Calandaima, NO_PH - M5P-
RL ....................................................................................................................................... 259
Anexo 76. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y
método Árbol de Decisión – M5P Split 80 ........................................................................ 260
Anexo 77. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y
método Regresión Lineal – Cross 20 ................................................................................. 261
Anexo 78. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado,
método Árbol de Decisión – M5P Split 80 y Regresión Lineal – Cross 20...................... 262
18
Introducción
La Inteligencia artificial, según Marvin Minsky, considerado el padre de la inteligencia
artificial (Bernardo, 2016), se define como la ciencia de construir máquinas que hagan
cosas que, si las hicieran los humanos requerirían inteligencia (Cazorla,M, Alfonso, M,
Escolano, F, Colomina, O, & Lozano, M, 2003). De esta ciencia, se derivan diferentes
campos, entre los cuales se encuentra el aprendizaje de máquina, este consiste en un
conjunto de métodos por los cuales las máquinas pueden detectar automáticamente patrones
en los datos, y luego usar los patrones descubiertos para realizar predicciones (Murphy,K,
2012), uno de estos métodos es el de árbol de decisión, que es de los más populares entre
los algoritmos de inferencia inductiva, en el que por reglas de si – entonces, realiza la
clasificación de los datos (Mitchell, T, 1997).
Valuar consiste en la aplicación de los diferentes enfoques y herramientas para la
estimación del valor de un bien, al relacionarlo con los bienes inmuebles se hace necesario
buscar la forma y herramientas que permitan llegar, de manera técnica y precisa, al
conocimiento del valor del bien, ya sea que se trate de uno, o de varios predios, según
corresponda el caso.
En las técnicas que se requieren en la valuación, se emplean diferentes variables que
identifican el inmueble, por lo que al requerir avalúos de un gran volumen de predios, es
necesario realizar una clasificación, esta se puede desarrollar mediante diversos métodos,
entre los que se encuentran la comparación o el mercado, la capitalización de rentas o
ingresos, costo de reposición y la técnica de desarrollo potencial o método involutivo.
Mediante cada uno de estos métodos, se hace un exhaustivo trabajo y se llega finalmente a
19
determinar el valor de un bien inmueble; en caso de tratarse de varios predios, en Colombia
se ha popularizado el uso de modelos de regresión lineal, no obstante, dadas las
características de algunas variables inherentes a los predios es necesario hacer procesos
para poder identificarlas e instrumentalizarlas en la regresión, o simplemente no
emplearlas.
En este trabajo se presenta una herramienta más a partir de la implementación del algoritmo
de árboles de decisión, del enfoque del aprendizaje de máquina, a los procesos valuatorios
de los bienes inmuebles, mostrando otra alternativa para emplear un proceso de esta índole
en la investigación que involucra un avalúo y verificar su efectividad.
20
1. Antecedentes
Diferentes técnicas derivadas del aprendizaje de máquina han sido implementadas con el
fin de facilitar procesos, entre estas técnicas se encuentran las redes neuronales, algoritmos
genéticos, arboles de decisión, entre otros. Recientemente se han desarrollado proyectos
aplicados a campos empresariales, de inversión y, aunque no en gran cantidad, al
componente “geo” de una comunidad.
A continuación se presentan tres trabajos que se han realizado empleando técnicas de
aprendizaje de máquina para cumplir con sus respectivos objetivos.
Figura 1. 1 Procedimiento para construir una base de conocimiento para implementar el método de
aprendizaje Fuente: (Huang,X & Jensen,J.R, 1997)
En primer lugar, en el año de 1997 se realizó un paper titulado A Machine-Learning
Approach to Automated Knowledge-Base Building for Remote Sensing Image Analysis
with GIs Data (Una evaluación de aprendizaje mecanizado de construcción basado en
21
conocimiento automatizado para el análisis de imágenes de sensor remoto con datos SIG)
por Xueqiao Huang y John R. Jensen.
Al realizar este artículo científico, el objetivo de los autores fue presentar la manera en que
se podía aplicar el enfoque de aprendizaje de máquina, para la clasificación de imágenes
obtenidas mediante sensores remotos.
Figura 1. 2 Ejemplo de capas de una imagen para el conjunto de datos de entrenamiento y el flujo de
datos en el subsistema
Fuente: (Huang,X & Jensen,J.R, 1997)
El proceso que se siguió se dividio entre el trabajo realizado por los humanos expertos y el
trabajo realizado por el aprendizaje de máquina o del programa, como se muestra en la
Figura 1.1, en la parte superior del gráfico (a) se puede apreciar que se parte de una base de
un sistema de información geográfica, seguido a eso los humanos expertos realizan los
procedimientos necesarios para las debidas clasificaciones que conformaran el conjunto de
entrenamiento. Luego, en la parte inferior de la gráfica (b), se presenta, lo que se considera
22
el aprendizaje, mediante el software y la máquina se genera el árbol de decisión y las
respectivas reglas, para obtener finalmente una base de conocimiento.
Este proyecto se desarrolló con imágenes obtenidas de sensores remotos con el fin de hacer
un análisis multitemporal de un área de humedales localizada a los alrededores del rio
Savannah localizado en la frontera entre los estados de Carolina del Sur y Georgia en los
Estados Unidos.
Ilustrado en la Figura 1.2, se explica gráficamente como el pixel de una sola imagen tiene
varios componentes, seis para el ejemplo, que serán los valores que conformarán el
conjunto de datos de entrenamiento para la generación del árbol de decisión y las reglas a
aplicar para finalmente tener una clasificación como resultado.
Como conclusiones del trabajo los autores obtuvieron que el uso del aprendizaje de
máquina facilita en gran manera el proceso de clasificación de las imágenes a comparación
del método empleado convencionalmente, al hacer una selección adecuada del conjunto de
datos de entrenamiento se obtienen resultados de calidad y destacan la facilidad de entender
e interpretar los resultados obtenidos mediante los árboles y las reglas para la posterior
aplicación a los datos de validación (Huang,X & Jensen,J.R, 1997).
En segundo lugar, en el año 2008, se publicó para la Revista Colombiana de Estadística, el
artículo titulado Aplicación de árboles de decisión en modelos de riesgo crediticio por
Paola Andrea Cardona Hernández.
Mediante este trabajo, la autora muestra un marco general de la normatividad del sistema
de administración de riesgo crediticio y la importancia del papel de la estadística en estos
23
estudios, específicamente el método de árboles de decisión para el cálculo de
incumplimiento en crédito presentando sus ventajas y desventajas.
Entendiendo por riesgo de crédito la pérdida potencial para una entidad financiera debido a
la incapacidad del cliente de cumplir con sus obligaciones de pago, se hace necesario, de
parte de las entidades financieras realizar estudios que les permitan conocer si sus clientes
son deudores potenciales, para estos se establece un tiempo de doce meses a futuro y se
estudia la capacidad de pago de los mismos, comúnmente se hace con clientes que
anteriormente han estado en mora, no obstante, mediante otros métodos estadísticos es
posible realizarlo para clientes que no han estado en mora y prever en escenarios futuros su
posible comportamiento respecto sus deudas.
Figura 1. 3 Esquema de la definición de las variables Fuente: (Cardona, A, 2004)
Como se muestra en la Figura 1.3, se establecen como clientes buenos aquellos que no han
estado en mora en los primeros doce meses y como clientes malos aquellos que antes de los
doce meses se han encontrado en estado de mora, y es con esas variables que se generará el
24
árbol de decisión y posteriormente las reglas que permitirán aplicar el modelo generado de
datos de entrenamiento a datos de los posibles clientes.
Figura 1. 4 Ejemplo de árbol de decisión para iniciación Fuente: (Cardona, A, 2004)
Como se observa en este ejemplo de la Figura 1.4, al emplear el método de árboles de
decisión, para este caso se obtienen seis nodos terminales, es decir, 6 categorías con sus
respectivas probabilidades que permiten identificar seis perfiles de riesgo para tomar
decisiones respecto a otorgar o no el crédito a las personas en los diferentes escenarios.
Los requerimientos para el uso de modelos están asociados a tres factores:
Simplicidad: A fin de que diferentes empleados de la entidad financiera puedan
entender el modelo y sus resultados.
Potencia: Mostrando en sus resultados la elegibilidad correcta entre clientes
buenos y clientes malos.
Estabilidad: Que con el paso del tiempo el modelo continúe siendo aplicable.
25
Teniendo en cuenta que el modelo de árboles de decisión cumple con estos requerimientos,
la autora presenta la forma en que se aplican pruebas estadísticas para evaluar la capacidad
del modelo como la prueba F, Kolmogorov-Smirnov para dos muestras (K-S), la curva
ROC (Recive Operative Curve) y el coeficiente Gini y como estas dan buenos resultados.
Concluyendo, la autora se refiere a los árboles de decisión como una herramienta efectiva
al evaluar el riesgo de que exista incumplimiento en las responsabilidades de los posibles
clientes, es estable en el tiempo y útil para planeación de estrategias comerciales, métodos
de cobranza, entre otras. Se aclara que la importancia de un buen modelo radica en que
según las decisiones que se tomen al aceptar o no un cliente afectará directamente las
utilidades de la entidad financiera, permitiéndole aumentar en capital o llegar a la
insolvencia (Cardona, A, 2004).
Para finalizar, en tercer lugar, en el año 2011 fue presentada en la facultad de minas de
Ingeniería de sistemas en la Universidad Nacional, sede Medellín, Colombia, la tesis
titulada Modelo Basado en Aprendizaje de Máquinas para el Manejo de Riesgo de Falla
Durante la Composición de Servicios Web por Byron Enrique Portilla Rosero como
requisito para optar al título de magister en ingeniería de sistemas.
El objetivo de este trabajo estuvo en proponer un modelo basado en el método de
aprendizaje de máquina que permitiera “aprender al sistema” los riesgos que puede
presentar en el servicio web a fin de disminuir el riesgo de falla del mismo.
Para lograr esto el autor estudio las siguientes técnicas:
Arboles de decisión
Programación lógica inductiva (ILP)
26
Razonamiento basado en Casos(CBR)
Aprendizaje por refuerzo
Aprendizaje bayesiano
De estas revisó las ventajas y desventajas de cuatro características específicas, a saber:
Manejo de recursos de memoria, almacenamiento y tiempo de ejecución
Información requerida
Representación
Facilidad de interpretar el resultado por el humano
Figura 1. 5 Comportamiento del error (ECM)
Nota: Comportamiento del ECM del cálculo del riesgo en la métrica de disponibilidad por parte del
aprendizaje para el servicio GetItemInformation para el día martes 11am.
Fuente: (Portilla,B.E., 2011)
27
Llegando a la conclusión que las técnicas que describían mejor estas características y se
aplicaban al objetivo de su proyecto, de adquirir información referente a riesgos de falla de
los servicios durante composiciones web, fueron los árboles de decisión y la programación
lógica inductiva, dado que estas dos técnicas se fusionan en el marco de árboles de
decisión lógicos.
Como se muestra en la Figura 1.5, el comportamiento de los servicios es aprendido de
forma satisfactoria por el modelo de aprendizaje, permitiendo hacer una mejor selección de
los servicios y disminución de las fallas.
Al finalizar el proyecto, se obtuvo que el modelo sugerido muestra solides en el
aprendizaje, capacidad para encontrar asociaciones correctas y el incremento de esa
capacidad mientras existan más observaciones (Portilla,B.E., 2011).
28
2. Problema de investigación
Conocer el valor de la posesiones es una necesidad que se ha generado desde tiempos
remotos, dado el hecho de que existiera un exceso de determinado bien, se hizo importante
saber el valor que este representaba para alguien que careciera del mismo (Caballero, M,
2002); en un principio se empleó el trueque, haciendo el intercambio entre objetos que se
consideraban de valor equivalente debido a la necesidad que se tenía de los mismos, con el
paso del tiempo, luego de la invención del papel moneda como medio de intercambio, se
estableció una forma “imparcial” de valorar las cosas, no obstante el problema de saber a
cuantas unidades monetarias era equivalente un bien, continuaba siendo una necesidad por
satisfacer en los diferentes campos, incluyendo el de los bienes inmuebles.
A fin de dar solución a esta y otras necesidades relacionadas con el área de catastro,
geodesia, geomática, socioeconomía y planeación, en Colombia se creó el pregrado de
Ingeniería Catastral y Geodesia, teniendo como propósito el estudio del recurso tierra con
énfasis en el manejo social (UDFJC, 2016), enseñando también la investigación necesaria
que se requiere para conocer el valor monetario de un bien inmueble, la cual incluye, que
además de conocer de métodos matemáticos se conozca del entorno y se sepa argumentar
cada una de las decisiones que se tomen respecto al valor del bien valuado, ya que el
dinamismo que se presenta en las ciudades a nivel económico, social, arquitectónico,
estructural, de vetustez, entre otros, será un factor importante en el mercado de los
inmuebles.
Ahora bien, el analizar un bien y realizar toda una investigación involucrando diferentes
estudios y métodos matemáticos a fin de llegar a una conclusión de su valor en el mercado,
29
es una tarea que involucra gran trabajo y dedicación, no obstante, este trabajo se multiplica
al hablar de realizar avalúos masivos, por lo que se hace necesario emplear métodos que
faciliten la labor y funcionen como una herramienta más en la toma de decisiones.
El método enseñado y practicado para los avalúos masivos, en la universidad Distrital
Francisco José de Caldas, consiste en la realización de modelos econométricos, en cuyas
ecuaciones normalmente se tiene como variable dependiente el valor de metro cuadrado de
la construcción y como variables independientes, los valores correspondientes a área, edad
de la construcción, estrato, localización, entre otras, según la información con la que se
cuente y la relevancia que tengan las variables dentro del modelo que se realice, luego de
aplicar las diferentes pruebas a un modelo original; este método funciona bien y arroja,
según la calidad de los datos y del modelo establecido, errores pequeños en las
predicciones, lo que hace de este método una buena herramienta para conocer el valor tanto
de un predio como de un gran conjunto de estos.
Aun cuando el método de los regresores lineales en los modelos econométricos permite
obtener una precisión aceptable, se requiere un trabajo significativo en el momento de
trabajar con variables cualitativas, casos en los que se hace necesario crear variables
dicótomas para solucionar en parte el uso necesario de estas que representan las
características de los predios.
Teniendo en cuenta la importancia de la participación de este tipo de variables en el
proceso de valuar una bien inmueble, así como el ánimo de obtener mejores resultados, se
implementó el uso de los árboles de decisión, procesos derivados de la Inteligencia
30
Artificial del enfoque de aprendizaje de máquina, mediante los cuales es posible realizar
predicciones referentes a los predios, acertadas y con mínimos errores, permiten trabajar
con las diferentes variables inherentes a los predios incluyendo características como su
localización y el manejo de grandes volúmenes de información para el caso de avalúos
masivos.
31
3. Objetivos
3.1 General
Realizar un análisis de la efectividad de implementar los enfoques de aprendizaje de
máquina, específicamente los árboles de decisión, en la determinación de avalúos masivos
para los predios ubicados en la ciudad de Bogotá, en los sectores de la localidad 8 de
Kennedy, Unidad de Planeamiento Zonal 79 Calandaima; localidad 19 de Ciudad Bolívar,
UPZ 65 Arborizadora y localidad 10 de Engativá, UPZ 73 Garcés Navas.
3.2 Específicos
Implementar la técnica de árboles de decisión y sus diferentes variaciones en el proceso de
realizar los avalúos.
Determinar de las técnicas de árboles de decisión usadas las que por sus parámetros
permitan llegar a resultados más acertados.
Establecer una comparación del método seleccionado de la técnica de árboles de decisión
con el método tradicionalmente empleado, regresión lineal, para la realización de avalúos
masivos, a fin de validar el uso de esta técnica para el avalúo de bienes inmuebles.
32
4. Justificación
Los avalúos masivos son desarrollados por entidades privadas y gubernamentales según
diferentes necesidades como obras viales, proyectos de renovación urbana, estudios de
costos, entre otras y se efectúan mediante técnicas de modelos de regresión, en estos
procesos están involucradas variables numéricas y cualitativas, el uso de estos modelos se
ve afectado especialmente al involucrar variables del segundo tipo, debido a que se deben
buscar maneras de organizar y procesar los datos a fin de que todas las técnicas que se
empleen estén debidamente ejecutadas, al implementar este método se obtienen resultados
que al compararlos con la realidad son buenas representaciones de esta, no obstante, debido
a que se generaliza una regresión para una gran cantidad de datos, no siempre se ajusta de
una manera óptima para todos; al brindar un método que permita resultados aún más
ajustados a la realidad, las ventajas para las entidades que emplearían estos métodos serían
representativas y notorias en reducciones de costos y una visión más acertada referente a
los predios estudiados
Considerando la manera en que la tecnología permite el continuo avance en diferentes
entornos se optó por hacer uso de la inteligencia artificial, que tiene como uno de sus
enfoques el aprendizaje de máquina, que busca que mediante un sistema la máquina
aprenda una tarea y sea capaz de utilizar la información aprendida para generar
clasificaciones que funcionen para el pronóstico de datos ingresados posteriormente al
sistema. Este método ha sido implementado en campos financieros y del tratamiento de
imágenes, obteniendo excelentes respuestas.
33
Teniendo en cuenta que estos métodos han sido empleados para predicciones en distintos
campos, se plantea como un método para usar en el proceso de realizar avalúos masivos
mediante la clasificación automática que puede llegar a generarse, lo cual, según la calidad
de los resultados, es un método más sumándose al convencional.
Debido a que la necesidad de realizar avalúos es permanente en una sociedad que está en
constante cambio, crecimiento y modernización, el hecho de tener más herramientas que
aporten, faciliten y brinden mejores resultados, son necesarias constantemente y gracias al
continuo avance de la tecnología y la implementación de esta en los procesos valuatorios,
los beneficios a corto plazo del proyecto se verifican en los resultados obtenidos en el
presente proyecto, brindando una herramienta efectiva por su proximidad a los valores
reales, a mediano plazo, permitiendo aplicar esta técnica con valores de proyecciones de
entidades como el DANE y a largo plazo al posibilitar el uso de esta herramienta en
conjunto con muchas otras que hagan el proceso inicial de selección y clasificación de
datos más ágil para el posterior procesamiento y análisis de datos.
34
5. Marco espacial
El proyecto se desarrolló con los datos de predios localizados en la Ciudad de Bogotá en las
localidades 19 de Ciudad Bolívar, 8 de Kennedy y 10 de Engativá en las Unidades de
Planeamiento Zonal, 65 Arborizadora, 73 Garcés Navas y 79 Calandaima,
respectivamente, elegidas por la variabilidad que presentan en las características de los
predios allí localizados, presentando una información de más provecho para el estudio. A
continuación se presenta una descripción general de cada una de estas zonas.
5.1. UPZ 65 Arborizadora
La UPZ 65 Arborizadora cuenta con las siguientes características principales:
Localización: La UPZ Arborizadora está localizada al nororiente de la localidad 19,
Simón Bolívar, en la Ciudad de Bogotá, con un área de 326.97 hectáreas (Alcaldía
Mayor de Bogotá D.C - SDP, 2008), comprendidas entre los límites especificados
en la Tabla 5.1.1.
Tabla 5.1. 1Límites UPZ 65 Arborizadora
Norte Avenida del Ferrocarril del sur (DG 57c Sur)
Límite con la localidad 7, Bosa
Sur Avenida Villavicencio (AC 61 Sur)
Límite con la UPZ 66, San Francisco
Oriente
Río Tunjuelo
Límite con la localidad 6, Tunjuelito
Límite con la localidad 8, Kennedy
Occidente
Avenida Villavicencio (AC 61 Sur)
Límite con la UPZ 69, Ismael Perdomo
Límite con la UPZ 70, Jerusalén
Límite con la UPZ 66, San Francisco
35
Extensión: Su extensión total está dividida como se muestra en la Tabla 5.1.2.,
mostrando que la mayor parte de la unidad se encuentra urbanizada y no cuenta con
áreas protegidas.
Tabla 5.1. 2 Extensión UPZ 65 Arborizadora
Área Total 326,97 hectáreas
Área Urbanizada 275,12 hectáreas
Área sin Urbanizar 51,85 hectáreas
Áreas Protegidas 0 hectáreas
Sectores catastrales y centralidades: La UPZ 65 Arborizadora está conformada
por 10 sectores catastrales, Guadalupe, Rafael Escamilla, Madalena, El Ensueño,
Atlanta, La Coruña, Verona, Arborizadora Baja, El Chircal Sur y Ronda,
distribuidos como se presenta en la Figura 5.1.1.
Figura 5.1. 1 División por sectores UPZ 65 Arborizadora
36
La UPZ Arborizadora hace parte de la Centralidad Delicias – Ensueño, del eje de
integración Sur, que permite buenas condiciones para comercializar diversos bienes y
servicios de la región (Secretaría Distrital de Planeación, 2009) promoviendo el
desarrollo de suelo urbano al hacerlo adecuado para actividades productivas y servicios
complementarios a diferentes escalas (Secretaría general de la Alcaldía Mayor de
Bogotá, 2005).
Sistema de Equipamientos: La UPZ cuenta con equipamientos de escala urbana1,
zonal2 y vecinal
3, entre los más destacados están los destinados a educación, salud y
bienestar y en menor cantidad se encuentran los destinados a culto como las iglesias
y templos, a cultura como salones comunales y a la prestación de otros servicios
como el Centro de Atención Distrital Especializado CADE (Alcaldía Mayor de
Bogotá D.C - SDP, 2008).
Vías de acceso: Los ejes de la malla vial arterial para comunicar, acceder y permitir
la movilidad a través de la UPZ están conformados por las vías presentadas en la
Tabla 5.1.3.
Tabla 5.1. 3 Vías malla arterial UPZ 65 Arborizadora
1 Equipamientos de escala urbana, son los que atienden a un área importante de la ciudad
2 Equipamientos de escala zonal, son los que atienden a un conjunto de barrios
3 Equipamientos de escala vecinal, son los que atienden un solo barrio (Alcaldía Mayor de Bogotá D.C - SDP,
2008)
Vía Sentido de Comunicación
Avenida Ferrocarril del sur Oriente - Occidente
Avenida (autopista) Sur Oriente - Occidente
Avenida Ciudad de Villavicencio Norte - Sur
Avenida Jorge Gaitán Cortés Oriente – Occidente
Avenida Mariscal Sucre Oriente – Occidente
37
Usos del suelo: La UPZ 65 Arborizadora está reglamentada por el Decreto 241 de
2005 estableciendo los usos del suelo como se muestra en la Tabla 5.1.4 (Secretaría
general de la Alcaldía Mayor de Bogotá, 2005):
Tabla 5.1. 4 Usos del Suelo UPZ 65 Arborizadora
Uso Barrios
Vivienda La Coruña y Ronda
Vivienda con algunas zonas de comercio Madelena, Isla del Sol, La Coruña y El Chircal Sur
Vivienda con locales comerciales Arborizadora Baja y Verona
Grandes almacenes y supermercados Guadalupe
Industria Guadalupe y Rafael Escamilla
Zona para usos mixtos (vivienda, comercio,
equipamientos) Atlanta y El Ensueño
Densificación y estratificación: Referente a densificación, la UPZ 65 Arborizadora
tenía una población de 61850 habitantes para el año 2011 según las proyecciones de
población del DANE y una densidad urbana de 202 habitantes por hectárea.
En la UPZ están localizados predios pertenecientes a los estratos socioeconómicos 2
(bajo) y 3 (medio-bajo) (Secretaria Distrital de Planeación, 2011) con una
distribución de la población como se presenta en la Tabla 5.1.5.
Tabla 5.1. 5 Distribución de la población por estrato en la UPZ 65 Arborizadora
5.2. UPZ 73 Garcés Navas
Ubicación: La UPZ 73 Garcés Navas está localizada al occidente de la localidad 10,
Engativá, en la Ciudad de Bogotá, con un área total de 557.43 hectáreas (Alcaldía
Estrato Cantidad de
Habitantes (%) Cantidad de Hogares
Cantidad de Hogares
(%)
Estrato 2 (Bajo) 68.7 12234 68.7
Estrato 3 (Medio – Bajo) 31.1 5534 31.1
38
Mayor de Bogotá D.C - SDP, 2007) comprendidas entre los límites especificados en
la Tabla 5.2.1.
Tabla 5.2. 1 Límites UPZ 73 Garcés Navas
Norte Avenida Medellín (AC 80)
Límite con la UPZ Bolivia
Sur Calle 66ª y el Humedal Jaboque
Límite con la UPZ Álamos
Oriente Avenida Longitudinal de Occidente
Límite con la UPZ Boyacá Real
Occidente Río Bogotá, Límite del Distrito Capital
Extensión: Su extensión total está dividida como se muestra en la Tabla 5.2.2,
mostrando que la mayor parte de la unidad se encuentra urbanizada y no cuenta con
áreas protegidas.
Tabla 5.2. 2 Extensión UPZ 73 Garcés Navas
Área Total 557,43 hectáreas
Área Urbanizada 382,05 hectáreas
Área sin Urbanizar 118,03 hectáreas
Sectores y Centralidades: La UPZ 73 Garcés Navas está conformada por 23
sectores catastrales: El Gaco, Molinos de Viento, Los ángeles, Álamos, Villas de
Alcalá, El Cedro, Gran Granada, Bolivia, Villas de Granada I, Villas de Granada,
San Antonio, La Riviera, Garcés Navas, Garcés Navas Oriental, Garcés Navas Sur,
Villa Amalia, Florida Blanca, Villa Sagrario, Villa del Mar, El Dorado Industrial, El
Madrigal, Engativá el Dorado, Santa Mónica y Álamos Norte, distribuidos como se
presenta en la Figura 5.2.1.
39
Figura 5.2. 1 División por Sectores UPZ 73 Garcés Navas
La UPZ Garcés navas se beneficia por contener la centralidad4 Álamos, localizada en la
intersección de la Avenida Chile y la Avenida Longitudinal de Occidente (ALO), que
permite actividades comerciales y favorece la integración a la ciudad, por otra parte se
localiza cerca a otras dos, la Centralidad de Quirigua – Bolivia, también con una vocación
comercial, pero enfocada a integrar la ciudad con la región y la Centralidad de Fontibón –
Aeropuerto el Dorado – Engativá en donde se encuentran usos comerciales y equipamientos
como el Aeropuerto el Dorado, que permite la integración del país con el mundo (Alcaldía
Mayor de Bogotá D.C - SDP, 2007).
Sistema de Equipamientos : La UPZ cuenta con equipamientos de escala zonal,
vecinal y algunos a escala urbana, entre los más destacados están los destinados a
4 Las centralidades son espacios que concentran una gran actividad económica y de prestación de servicios
para la población, permitiendo la integración de la zona a escala internacional, nacional, regional o entre sectores (Alcaldía Mayor de Bogotá D.C - SDP, 2007).
40
educación, salud y bienestar entre los que se encuentran el Jardín infantil y Colegio
Fe y Alegría y la estación de bomberos y en menor cantidad se encuentran los
destinados a culto como las iglesias y templos, entre los que se encuentra la
Parroquia San Francisco de Borja en el Barrio Villas de Granada y a cultura como
salones comunales (Alcaldía Mayor de Bogotá D.C - SDP, 2007).
Vías de Acceso: Los ejes de la malla vial arterial para comunicar, acceder y
permitir la movilidad a través de la UPZ están conformados por las vías presentadas
en la Tabla 5.2.3.
Tabla 5.2. 3 Vías Malla Arterial UPZ 73 Garcés Navas
Usos del suelo: La UPZ 65 Garcés Navas está reglamentada por el Decreto 073 de
2006 (Secretaría General de la Alcaldía Mayor de Bogotá D.C, 2006) estableciendo
los usos del suelo como se muestra en la Tabla 5.2.4.
Tabla 5.2. 4 Usos del Suelo UPZ 73 Garcés Navas
Uso Barrios
Vivienda
El Gaco, Engativá El Dorado, El Dorado Industrial, Gran
Granada, Villas de Alcalá, Urbanización San Basilio, Los
Ángeles y Los Álamos
Vivienda con algunas zonas de comercio
Gran Granada, Villas de Granada, Molinos de Viento, Garcés
Navas Oriental, El Madrigal, Plazuelas del Virrey, El Pedregal,
Los Álamos
Vivienda con locales comerciales Barrios Garcés Navas, La perla, Villa Amalia, Bosques de
Mariana, Villas del Dorado
Comercial Zonal de gran actividad El Dorado Industrial
Zona para usos mixtos (vivienda,
comercio, equipamientos) Villas de Alcalá y Urbanización Esparta
Vía Sentido de Comunicación
Avenida Longitudinal de Occidente Borde Oriental de la UPZ
Avenida Bolivia (Carrera 104) Oriente – Occidente
Avenida Chile (Calle72) Oriente – Occidente
Avenida Medellín (Calle 80) Oriente – Occidente
Avenida Gonzalo Ariza (Carrera 110) Norte – Sur
Avenida El Cortijo (Carrera 114) Norte – Sur
Avenida El Salitre (Calle 66) Oriente – Occidente
41
Densificación y estratificación: Referente a densificación, la UPZ 73 Garcés
Navas tenía una población de 156478 habitantes para el año 2011 según las
proyecciones de población del DANE y una densidad urbana de 282 habitantes por
hectárea.
En la UPZ están localizados predios pertenecientes a los estratos socioeconómicos 1
(bajo-bajo), 2 (bajo) y 3 (medio-bajo) (Secretaria Distrital de Planeación, 2011) con
una distribución de la población como se presenta en la Tabla 5.2.5.
Tabla 5.2. 5 Distribución de la población por estrato en la UPZ 73 Garcés Navas
5.3. UPZ 79 Calandaima
La UPZ 79 Calandaima, se distingue por las características que se presentan a continuación:
Localización: La UPZ 79 Calandaima está localizada al centro occidente
(Secretaría distrital de planeación, 2009) de la localidad 8 de Kennedy en la Ciudad
de Bogotá, con un área de 319 hectáreas, comprendidas entre los límites
especificados en la Tabla.5.3.1 (García,W, 2013).
Tabla 5.3. 1 Límites UPZ 79 Calandaima
Norte Avenida las Américas
Limita con la UPZ Tintal Norte
Sur Avenida las Américas (AC 6) y Avenida de los Muiscas (Cl 38 sur)
Limita con la UPZ Patio Bonito
Oriente Avenida Ciudad de Cali y avenida El Tintal
Limita con las UPZ Castilla y Patio Bonito
Occidente Río Bogotá
Limita con el municipio de Mosquera
Estrato Cantidad de
Habitantes (%) Cantidad de Hogares
Cantidad de Hogares
(%)
Estrato 2 (Bajo) 16.6 6,515 22
Estrato 3 (Medio – Bajo) 78.8 23,680 78
42
Extensión: La UPZ Calandaima tiene una extensión de 319 hectáreas que
representan un 8.3% del total de la localidad de Kennedy (García,W, 2013).
Sectores Catastrales y Centralidades: La UPZ 79 Calandaima contiene los barrios
Tintalá, Osorio II, Galán, Galán Rural y Calandaima distribuidos como se muestra
en la Figura 5.3.1, estos sectores están en una etapa de desarrollo mediante la
construcción en PH, que para el año 2012 tuvo un notable incremento del 81.63%
desde el año 2002 (García,W, 2013).
Vías de acceso: Los ejes de la malla vial arterial para comunicar, acceder y permitir
la movilidad a través de la UPZ están conformados por las vías: Avenida Ciudad de
Cali (AK 86), Avenida Tintal (AK 89), Avenida Longitudinal de Occidente (AK
96), Avenida Castilla (AC 8) y Avenida de las Américas (AC 6) (Secretaría distrital
de planeación, 2009).
Figura 5.3. 1 División por sectores UPZ 79 Calandaima
43
Usos del Suelo: Debido a que en la actualidad la UPZ Calandaima está en etapa de
desarrollo, no cuenta con un decreto que la reglamente, en parte se rige por el
Acuerdo 06 de 1990 con Tratamiento Especial de Incorporación al Sector Tintal
Central y el Área Suburbana de Expansión mediante el Decreto 012 de 1993
considerando como uso de suelo (Alcaldia Mayor de Bogota D.C., 1993). Áreas de
Actividad: Múltiple (Desarrollos urbanísticos residenciales, comerciales,
industriales e institucionales).
Densificación y estratificación: Esta UPZ cuenta con población perteneciente al
estrato dos y una gran parte sin estratificar (Secretaria Distrital de Planeación,
2011), como se presenta en la tabla 5.3.2.
Tabla 5.3. 2 Distribución de la población por estrato en la UPZ 79 Calandaima
Estrato Cantidad de Habitantes (%) Cantidad de Hogares
Estrato 2 (Bajo) 96.2 19974
Sin estrato 3.8 790
44
6. Marco teórico
Este capítulo contiene la información empleada en las diferentes etapas del desarrollo del
proyecto, teoría relacionada con temas de Ingeniería, matemática y tecnología.
6.1 Inteligencia artificial
Para dar una definición de Inteligencia Artificial (IA), en los documentos, se hace
referencia en primer lugar al significado de inteligencia dado por la RAE, en donde se
describe como la facultad de conocer, de entender o comprender; lo que lleva a pensar
desde una primera instancia en que el termino hará alusión al hecho de poseer las facultades
de la inteligencia de una manera artificial. Al tratar este tema diferentes autores dan su
concepto, unos de los más representativos son los de Marvin Minsky, padre de la
inteligencia artificial (Díaz, I, 2014) y el que aporta la Enciclopedia de la Inteligencia
Artificial, por un lado Minski la define como la ciencia de construir máquinas que hagan
cosas que, si las hicieran los humanos requerirían inteligencia (Cazorla,M, Alfonso, M,
Escolano, F, Colomina, O, & Lozano, M, 2003), y por otro, se afirma que es un campo de
la ciencia y la ingeniería que se ocupa de la comprensión, desde el punto de vista
informático, de lo que denomina comúnmente comportamiento inteligente, también se
ocupa de la creación de artefactos que exhiben este comportamiento (Pino,R, Gómez, A, &
de Abajo, N, 2001),de estas concepciones, se puede concluir, a fin de generalizar, que el
centro de la Inteligencia artificial, como ciencia y tecnología es buscar la manera de emular
las capacidades del ser humano, por lo que se han creado sistemas que se encaminan a
reproducir capacidades específicas.
45
Las áreas en las que la IA (Inteligencia Artificial) ha hecho presencia se clasifican, en
general, en las siguientes:
Tratamiento de lenguajes naturales: También conocido por sus siglas en inglés NLP
(Natural Language Processing) (García, A, 2012) consiste en hacer que un sistema sea
inteligente al permitir su interacción con los usuarios en su mismo lenguaje (Pino,R,
Gómez, A, & de Abajo, N, 2001), esta área de la IA engloba todas aquellas aplicaciones
que realizan traducciones entre idiomas, interfaces hombre – máquina que permiten
interrogar una base de datos o dar órdenes a un sistema operativo, haciendo que la
comunicación sea más amigable con el usuario.
Los productos comerciales que realizan tareas relacionadas con el procesamiento de
lenguaje natural se pueden clasificar, de manera general en:
Sistemas de consulta en lenguaje natural de bases de datos: Sistemas que traducen el
tipo de consultas que se pueden hacer a una base de datos, a la serie de instrucciones
adecuadas en el lenguaje informático de consulta de una base de datos.
Sistemas de búsqueda, reconocimiento y categorización de textos: Empleados para
seleccionar y filtrar la enorme masa de información que en la actualidad reciben y
tienen en sus bases de datos las empresas.
Sistemas de traducción automáticas
Programas de edición de textos: Programas que permiten la corrección ortográfica,
gramatical y de estilo de los textos que se escriben en ordenador.
“Máquinas de escribir” accionadas por la voz: Sistemas que reconocen los textos
que se desean mecanografiar (o los datos que se desean introducir en una hoja de
46
cálculo) y van “transcribiendo” en texto “dictado” a su correspondiente
representación escrita.
Productos de consumo: Productos que permiten un uso más “natural” de
determinados aparatos domésticos o profesionales. Como ejemplo están los
sistemas de programación de videos o teléfonos de coche accionados por la voz.
Razonamiento automático – Sistemas de Expertos: Hacen referencia a los sistemas
diseñados para que las máquinas imiten el comportamiento de los humanos, siendo capaces
de realizar conclusiones lógicas según información presente (Cazorla,M, Alfonso, M,
Escolano, F, Colomina, O, & Lozano, M, 2003).
Aprendizaje automático o de máquina: Son los sistemas que se elaboran mediante
modelos que permiten a la máquina “aprender” mediante una base de información
suministrada.
Representación del conocimiento: Dado que el sistema tiene la capacidad de “razonar y
de aprender”, la representación del conocimiento abarca el hecho de que esa información
que adquiere o infiere autónomamente pueda ser almacenado y recuperado de forma
eficiente, ya que no es útil almacenar datos si luego los sistemas no pueden acceder a estos
para usarlos, sacar conclusiones y obtener nueva información que no poseían de forma
directa.
Visión artificial y robótica: Son todos los sistemas de la IA que hacen posible el
reconocimiento de objetos y del habla, detección de defectos en piezas por medio de visión,
apoyo en diagnósticos médicos, etc.
47
Uno de los problemas con los que cuentan esta clase de procedimientos es el captar e
interpretar las imágenes del entorno que envuelve a un sistema inteligente y le está
enviando cantidades de “píxeles” o elementos de información que son fundamentales para
aprender y predecir acontecimientos.
Los aspectos más estudiados, en general, son de caracteres tipográficos y manuscritos,
interpretación de imágenes, reconocimiento de objetos, visión del color y análisis visual del
movimiento.
Esta área de la visión artificial y la manipulación de objetos, en otras palabras robots
móviles, sistemas para control de brazos, ensamble de piezas, etc. es conocida como
robótica (Pino,R, Gómez, A, & de Abajo, N, 2001).
6.2 Aprendizaje de máquina
La técnica de Inteligencia Artificial hace referencia a la modelización de conductas para su
posterior implementación en computadoras, mediante sistemas se busca hacer que las
máquinas sean capaces de realizar generalizaciones a partir de ejemplos sacados del
entorno, como lo mencionan Daniel y José Luis, (Sontag, E. D & Tesoro, J. L, 1972) en
cierto modo, lo que se desea es obtener máquinas capaces de resolver problemas que
requieran de “ingenio: Procesos de decisión complejos en medios potencialmente infinitos
e incontrolables y sentido común: el poder deducir automáticamente y por cuenta propia
una cantidad amplia de consecuencias inmediatas de lo que se dice y los conocimientos que
ya posee” (McCarthy, J, 1958). Para lograr esto se utilizan técnicas basadas en redes y
métodos probabilísticos como las redes bayesianas o de Markov, simulando el
48
comportamiento del cerebro humano a través de redes neuronales, es así como se establece
que la máquina sea capaz de “aprender” cosas nuevas, adaptarse al medio y generar una
respuesta, condición exigible a cualquier ser dotado de inteligencia (García, A, 2012), como
se muestra en la Figura 6.2.1. Existen cinco pasos generales en el proceso que constituye el
aprendizaje de máquina, distribuidos en dos etapas esenciales.
Figura 6.2. 1 Esquema de la técnica de Aprendizaje de máquina
Etapa 1: Etapa de Aprendizaje (Entrenamiento).
1. El componente humano del proceso aporta la información base5 o conjunto de datos
inicial.
2. Los datos son procesados mediante el algoritmo que genera el aprendizaje de la
máquina.
3. Generación de un modelo.
5 Información Base: Es la que se emite en el origen y no ha sufrido ningún tratamiento por el ordenador.
49
Etapa 2: Etapa de validación
4. El componente humano aporta una nueva información base o conjunto de datos.
5. (3) El conjunto de datos pasa a través del modelo.
6. (5) Se genera la información de resultados6
o la respuesta final, así como
información de la valides del modelo para ser empleado con datos de pronóstico.
La Inteligencia artificial comprende cinco enfoques principales en el aprendizaje
automático o aprendizaje de máquina, las redes neuronales artificiales, los algoritmos
genéticos, los métodos empíricos de inducción de reglas y árboles de decisión, el
aprendizaje analítico y los métodos basados en casos o por analogía.
Las Redes Neuronales Artificiales, ANN (Artificial Neural Netwoks) reciben su nombre
debido a la semejanza con las redes neuronales del cerebro humano, teniendo las
capacidades de aprender, generalizar y abstraer; así como las neuronas humanas cuentan
con el axón (salida) y se conecta con otras por medio de dendritas (entrada), una neurona
artificial como elemento procesador cuenta con entradas combinadas por medio de una
suma básica que se modifica a través de una función de transferencia y el valor resultante
de la función pasa a la salida del procesador, que a la vez se puede conectar con las
entradas de otros procesadores, formando de esta manera una red neuronal, en donde lo más
importante es la forma en que se conectan los elementos procesadores en niveles o capas
consecutivas (Bosogain, X, 2014).
6 Información de resultados: Es la que ha sido tratada completamente por el ordenador. A su vez puede ser:
Fija: Que permanece constante a través de los distintos tratamientos, o Variable: Que es susceptible de tomar valores diferentes de un proceso a otro (Cuevas, A, 1975).
50
Los algoritmos genéticos son una familia de métodos de búsqueda adaptativa de soluciones,
deben su nombre por su analogía con el cambio genético que se produce en las poblaciones
naturales y que está en la base de la selección natural y la evolución. Para esto se representa
la experiencia como una lista de propiedades o características binarias, en el sentido de que
puede estar presente o no en un determinado individuo o ejemplo que incrementa la
experiencia del sistema al estudiarlo.
Los procedimientos de aprendizaje analítico se especializan más en mejorar el rendimiento
de sistemas de resolución de problemas, transformando el conocimiento que contiene el
sistema en una estructura más eficiente para conseguir el objetivo perseguido.
Otro enfoque del tema de aprendizaje consiste en incluir en el programa de razonamiento
basado en casos descritos anteriormente, por el cual el programa, de forma análoga a como
lo hacen muchos especialistas humanos, es capaz de memorizar y recuperar fácilmente
casos en los que se ha tenido éxito en la resolución de un problema y adaptarlos a nuevas
situaciones similares.
6.3 Árboles de decisión
La técnica de árboles de decisión, hace parte del enfoque del aprendizaje de máquina, cuya
implementación en el campo de proyectos actuales recién se está implementando (Suárez, J,
2000). Esta técnica forma parte de los métodos de inferencia inductiva, dado que de
información particular se llega a deducir información general (Mitchell, T, 1997).
Los árboles de decisión son una agrupación de reglas organizadas en una estructura
jerárquica, de tal forma que la decisión final se puede determinar al hacer un seguimiento a
51
las condiciones que se cumplen, desde la raíz hasta alguna de las hojas (Vizcaino, P. A,
2008).
Como se presenta en la Figura 6.3.1, la estructura de un árbol de decisión se compone por:
Raíz o nodo Inicial: Es representada por un óvalo, está localizada en la parte
superior del árbol y contiene el atributo seleccionado para dar inicio a la
clasificación.
Ramas: Son representadas con líneas, se encuentran localizadas al interior del árbol
desprendiéndose de la raíz y de los nodos internos y contienen las reglas que
permitiran las clasificaciones para aplicar a los valores del atributo del nodo del cual
se desprenden.
Nodos internos: Son representados con óvalos, están localizados dentro del árbol y
contienen los atributos seleccionados para guiar la clasificación.
Nodos finales o nodos Hoja: Son representados con rectángulos, están localizados en los
extremos finales del árbol de decisión y contienen la regla que permitirá la clasificación
final.
52
Figura 6.3. 1 Ejemplo de árbol de decisión
Para hacer la clasificación el método de árboles de decisión empieza por identificar el
atributo que será el punto de partida y llevarlo a través de los componentes del árbol,
iniciando por la raíz y pasando por distintos nodos hasta llegar a una hoja o nodo final, este
árbol puede continuar aprendiendo de nuevos pares de datos valor/atributo que el agente
humano anexe al sistema para enriquecerlo y generar mejores respuestas (Vicente, C,
2004).
De manera práctica, se presenta parte de un árbol de decisión en la Figura 6.3.2, el ejemplo
muestra la clasificación del elemento Metro Cuadrado de Construcción.
1. Se selecciona el atributo Puntaje y se localiza en la raíz e inicia a recorrer las ramas.
2. Al recorrer las ramas, se verifica si el atributo Puntaje es mayor a 30.5 puntos o
menor o igual a 30.5 puntos.
3. Si el atributo es menor o igual a 30.5 puntos, se pasa a revisar el siguiente nodo que
contiene el atributo Edad.
53
4. De las ramas que se desprenden del nodo Edad, se revisa si el atributo es menor o
igual a 12.5 años o mayor a 12.5 años.
5. Si el atributo es menor o igual a 12.5 años, entonces seguirá la rama correspondiente
y finalizará el recorrido por el árbol en el nodo final o nodo hoja que contiene la
regla 1.
6. Si el atributo es mayor a 12.5 años, seguirá la rama correspondiente y pasará al
nodo que contiene el atributo Puntaje.
7. Si el atributo es menor o igual a 26.5 puntos, seguirá la rama correspondiente y
finalizará el recorrido en el nodo hoja que contiene la regla 2.
8. Si el atributo es mayor a 26.5 puntos, entonces continuará el recorrido a los
siguientes nodos hasta recorrer todo el árbol.
El algoritmo de árboles de decisión permite solucionar problemas que contengan
características como las siguientes:
Instancias representadas por pares valor / atributo: Para algunos casos, los
atributos, que son fijos como estrato y número de pisos, los valores pueden ser
Figura 6.3. 2 Ejemplo de reglas generadas por un Árbol de Decisión
54
también fijos como bajo-Bajo, Medio, etc. y 1, 2, o 3, pero también hay casos como
el área de terreno, para ambos casos el algoritmos es útil.
La función objetivo tiene valores de salida discretos: Para algunos trabajos, la
función de salida puede constituirse por valores booleanos, no obstante, el método
se extiende a funciones con más de dos valores de salida.
Cuando se requiere una separación de descripciones: Como se presenta en el
ejemplo, en los árboles de decisión siempre se presentan expresiones separadas.
Los datos de entrenamiento pueden tener errores: Los métodos de aprendizaje
de árboles de decisión presentan una significativa resistencia a los errores que
puedan tener los atributos de los datos empleados en el entrenamiento.
Los datos de entrenamiento no contienen los valores de los atributos
completos: El algoritmo de árboles de decisión se puede emplear incluso cuando en
los ejemplos de formación hayan valores desconocidos.
Existen muchas situaciones en el medio cotidiano que presentan estás características y para
las que han sido útiles emplear los algoritmos de árboles de decisión, entre esas está la
clasificación de pacientes clínicos, de solicitantes de créditos, del mal funcionamiento de
equipos, de imágenes de sensores remotos, entre otras, en donde es necesario que a partir de
un conjunto de datos se genere un aprendizaje para generalizar esa clasificación a datos
nuevos (Mitchell, T, 1997).
55
6.4 Entropía de la información
El término entropía procede del griego em, que significa sobre, en y cerca de; y sqopg, que
significa giro, alternativa, cambio, evolución o transformación. En termodinámica es una
magnitud física que mide el grado de desorden que tiene un sistema (Arnheim, R, 1995),
recibió este nombre por Rudolf Clausius en 1850 y Ludwig Boltzmann quien lo expresó
matemáticamente mediante probabilidades en el año de 1877 (Clausius, R, 1865).
De manera semejante, la Entropía de la información o Entropía de Shannon es una medida
de la incertidumbre de información suministrada y se considera como la cantidad promedio
que contienen los elementos empleados en un experimento (Cuevas, A, 1975). Recibe este
nombre en honor a Claude E. Shanon, que junto con Warren Weaver elaboraron, en 1948,
una teoría de la información basada en los fenómenos de la comunicación en la cibernética,
en donde estudiaba la capacidad de información de un mensaje en función de la capacidad
del medio por el que se transmitía, esta capacidad es medida en un sistema binario (0 y 1)
en bits (binary digits) relacionados con la velocidad de transmisión del mensaje, la cual
puede aumentar o disminuir según la cantidad de ruido (Rodrigo, M, 2011), como afirma
Norbert Wiener “Por su naturaleza, los mensajes son una forma y una organización.
Efectivamente es posible considerar que su conjunto tiene una entropía como la que tienen
los conjuntos de los estados particulares del universo exterior. Así como la entropía es una
medida de desorganización, la información que suministra un conjunto de mensajes, es una
medida de organización. De hecho puede estimarse la información que aporta uno de ellos
como el negativo de su entropía cuanto más probable es el mensaje, menos información
contiene”. (Wiener, N, 1988)
56
Actualmente esta medida se emplea para medir la incertidumbre de información de
diferentes experimentos, brindando una base fuerte para la toma de decisiones dentro de los
mismos.
La entropía está dada por la Ecuación 6.4.1:
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝑆) = −𝑝+𝑙𝑜𝑔2𝑝+ − 𝑝−𝑙𝑜𝑔2𝑝−
Ecuación (6.4. 1) Entropía (S)
En dónde:
𝑝+ = Promedio de ejemplos positivos en S.
𝑝− = Promedio de ejemplos negativos en S.
Como primer ejemplo ilustrativo, se tiene un experimento en el que se cuenta con 19
ejemplos, de los cuales 13 son positivos y 6 negativos.
S = 19 ejemplos 𝑝+ = 13 𝑝− = 6
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝑆) = −𝑝+𝑙𝑜𝑔2𝑝+ − 𝑝−𝑙𝑜𝑔2𝑝−
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = − (13
19) 𝑙𝑜𝑔2 (
13
19) − (
6
19) 𝑙𝑜𝑔2 (
6
19)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = −(0,6842)𝑙𝑜𝑔2(0,6842) − (0,3157)𝑙𝑜𝑔2(0,3157)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = −(0,6842)𝑙𝑜𝑔0,6842
𝑙𝑜𝑔2− (0,3157)
𝑙𝑜𝑔0,3157
𝑙𝑜𝑔2
57
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = −(0,6842)−0,1648
0,301− (0,3157)
−0,5006
0,301
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = −(0,6842)(−0,5474) − (0,3157)(−1,6629)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = 0,3745 + 0,5251
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = 0,8997
En caso de que todos los ejemplos fueran positivos, se tendría el siguiente ejemplo:
S = 19 ejemplos 𝑝+ = 19 𝑝− = 0
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝑆) = −𝑝+𝑙𝑜𝑔2𝑝+ − 𝑝−𝑙𝑜𝑔2𝑝−
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(19 + ,0 −) = − (19
19) 𝑙𝑜𝑔2 (
19
19) − (
0
19) 𝑙𝑜𝑔2 (
0
19)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(19 + ,0 −) = −(1)𝑙𝑜𝑔2(1) − (0)𝑙𝑜𝑔2(0)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(19 + ,0 −) = 0
Generalizando este ejemplo, se tiene que en los casos en donde el total de los ejemplos
pertenece a una misma clase, la entropía es cero. En otras palabras, cuando la entropía es
nula, está mostrando que la certeza es absoluta (Marín, C, 2014).
De forma semejante, se considera un experimento que cuente con la misma cantidad de
ejemplos positivos y negativos.
S = 18 ejemplos 𝑝+ = 9 𝑝− = 9
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝑆) = −𝑝+𝑙𝑜𝑔2𝑝+ − 𝑝−𝑙𝑜𝑔2𝑝−
58
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = − (9
18) 𝑙𝑜𝑔2 (
9
18) − (
9
18) 𝑙𝑜𝑔2 (
9
18)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = −(0,5)𝑙𝑜𝑔2(0,5) − (0,5)𝑙𝑜𝑔2(0,5)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + 9 −) = −(0,5)𝑙𝑜𝑔0,5
𝑙𝑜𝑔2− (0,3157)
𝑙𝑜𝑔0,5
𝑙𝑜𝑔2
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = −(0,5)(−1) − (0,5)(−1)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = −(0,5)(−1) − (0,5)(−1)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = 1
Del anterior ejemplo se puede generalizar que en el caso de que la cantidad de ejemplos
positivos y negativos sea igual, la entropía será 1, mientras que si el conjunto de ejemplos
es variable, la entropía estará entre 0 y 1, como se observa en la Figura 6.4.1.
Figura 6.4. 1 Gráfica de la Función de entropía de una clasificación booleana
Fuente: (Mitchell, T, 1997).
Nota: La función de entropía relativa a una clasificación booleana, para ejemplos positivos, varía entre 0 y 1
59
De manera general, si se considera que el atributo destino puede tomar c valores diferentes,
la entropía se puede definir como se presenta en la Ecuación 6.4.2, en donde 𝑝𝑖 es la
proporción de S que pertenece a la clase i.
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) = ∑ −𝑝𝑖 𝑙𝑜𝑔2𝑝𝑖
𝑐
𝑖=1
Ecuación (6.4. 2) Entropía general
6.5 Ganancia de la información
Dentro del proceso que implica la realización de un árbol de decisión, es necesario tener un
parámetro para elegir el atributo que se ubicará en la raíz del árbol y que será el mejor
clasificador inicial, como lo explica Mitchell, saber “¿Qué atributo debe ser probado en la
raíz del árbol?”, para responder a esta pregunta se evalúan todos los atributos mediante
pruebas estadísticas y se selecciona el mejor, que entonces será localizado en el nodo raíz,
luego todo el proceso se repite, evaluando que atributo es el más importante para estar en el
siguiente nodo hasta completar el árbol de decisión, es necesario resaltar que es un proceso
dispendioso y que el algoritmo no vuelve atrás para reconsiderar una opción anterior
(Mitchell, T, 1997).
Para seleccionar el atributo que será el mejor clasificador, se hace uso del término ganancia
de información, este se refiere a la propiedad estadística que permite ver que tan bien el
atributo separa los ejemplos según la clasificación destino.
La ganancia de información es la diferencia entre la cantidad de información que se
necesita para hacer una clasificación antes de hacer la división de datos y después.
60
Para medir la ganancia de información que brinda un atributo, como se muestra en la
Ecuación .6.5.1, se calcula la diferencia entre la entropía del conjunto de datos iniciales y la
suma ponderada de las entropías después de dividir el conjunto de ejemplos (Moya,
Francisco, 2013).
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) − ∑|𝑆𝑣|
|𝑆|𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑣)
𝑣 ∈𝑣𝑎𝑙𝑜𝑟𝑒𝑠 (𝐴)
Ecuación (6.5. 1) Ganancia de información
En donde:
S= Conjunto de ejemplos
A= Conjunto de los posibles valores para el atributo A
𝑆𝑣 = Subconjunto de S para los que el atributo A tiene un valor v (Ecuación 6.5.2)
𝑆𝑣 = {𝑠 ∈ 𝑆 |𝐴(𝑆) = 𝑣|}
Ecuación (6.5. 2) Subconjunto de S
Como ejemplo ilustrativo de la forma en que se elige el mejor atributo clasificador, se
presenta el siguiente experimento en la tabla 6.5.1:
S será un conjunto de entrenamiento con 14 ejemplos, para el experimento se tomaran
como ejemplos positivos los ejemplos con valor de Metro cuadrado de construcción igual a
VAL_M2CONS2.
61
Tabla 6.5. 1 Atributos y valores experimento
N. EDAD PUNTAJE VAL_M2_TERRENO VAL_M2_CONS
1 EDAD4 PUNTAJE7 VAL_M2TERR8 VAL_M2CONS2
2 EDAD4 PUNTAJE4 VAL_M2TERR15 VAL_M2CONS2
3 EDAD4 PUNTAJE4 VAL_M2TERR15 VAL_M2CONS2
4 EDAD3 PUNTAJE12 VAL_M2TERR15 VAL_M2CONS3
5 EDAD3 PUNTAJE12 VAL_M2TERR8 VAL_M2CONS3
6 EDAD4 PUNTAJE7 VAL_M2TERR15 VAL_M2CONS3
7 EDAD4 PUNTAJE4 VAL_M2TERR15 VAL_M2CONS2
8 EDAD4 PUNTAJE7 VAL_M2TERR15 VAL_M2CONS2
9 EDAD4 PUNTAJE7 VAL_M2TERR8 VAL_M2CONS3
10 EDAD4 PUNTAJE4 VAL_M2TERR15 VAL_M2CONS2
11 EDAD4 PUNTAJE7 VAL_M2TERR15 VAL_M2CONS3
12 EDAD4 PUNTAJE12 VAL_M2TERR8 VAL_M2CONS3
13 EDAD4 PUNTAJE7 VAL_M2TERR8 VAL_M2CONS3
14 EDAD4 PUNTAJE4 VAL_M2TERR15 VAL_M2CONS2
15 EDAD4 PUNTAJE7 VAL_M2TERR8 VAL_M2CONS2
16 EDAD4 PUNTAJE4 VAL_M2TERR15 VAL_M2CONS2
S=16 p+= 9 p-=7
Valores (Edad)= Edad3, Edad 4
S= [9+, 7 −]
𝑆𝐸𝑑𝑎𝑑3 ← [0+, 2 −]
𝑆𝐸𝑑𝑎𝑑4 ← [9+, 5 −]
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝐸𝑑𝑎𝑑) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) − ∑|𝑆𝑣|
|𝑆|𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑣)
𝑣 ∈ (𝐸𝑑𝑎𝑑3,𝐸𝑑𝑎𝑑4)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,7 −) = − (9
16) 𝑙𝑜𝑔2 (
9
16) − (
7
16) 𝑙𝑜𝑔2 (
7
16)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,7 −) = 0.4669 + 0,5217
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + 7 −) = 0.988699407
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑3 (0+,2−)) = − (0
2) 𝑙𝑜𝑔2 (
0
2) − (
2
2) 𝑙𝑜𝑔2 (
2
2)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑3 (0+,2−)) = 0
62
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (9+,5−)) = − (9
14) 𝑙𝑜𝑔2 (
9
14) − (
5
14) 𝑙𝑜𝑔2 (
5
14)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (9+,5−)) = 0.409776377 + 0.53059581
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (9+,5−)) = 0.940285958
𝐺 (𝑆, 𝐸𝑑𝑎𝑑) = 0.9886 − 2
16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑3 (0+,2−)) −
14
16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (9+,5−))
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝐸𝑑𝑎𝑑) = 0.9886 − 2
16 0 −
14
16 0.9402
𝑮𝒂𝒏𝒂𝒏𝒄𝒊𝒂 (𝑺, 𝑬𝒅𝒂𝒅) = 𝟎. 𝟏𝟔𝟓𝟗
Valores (Puntaje)= Puntaje4, Puntaje7, Puntaje12
S= [9+, 7 −]
𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒4 ← [6 + ,0 −]
𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒7 ← [3+, 4 −]
𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒12 ← [0 + ,3 −]
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) − ∑|𝑆𝑣|
|𝑆|𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑣)
𝑣 ∈ (𝑃𝑢𝑛𝑡𝑎𝑗𝑒4, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒7,
𝑃𝑢𝑛𝑡𝑎𝑗𝑒12)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒4 (6+,0−)) = − (6
6) 𝑙𝑜𝑔2 (
6
6) − (
0
6) 𝑙𝑜𝑔2 (
0
6)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒4 (6+,0−)) = 0
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒7 (3+,4−)) = − (3
7) 𝑙𝑜𝑔2 (
3
7) − (
4
7) 𝑙𝑜𝑔2 (
4
7)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒7 (3+,4−)) = 0.523882466 + 0.461345669
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (3+,4−)) = 0.985228135
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒12 (0+3−)) = − (0
3) 𝑙𝑜𝑔2 (
0
3) − (
3
3) 𝑙𝑜𝑔2 (
3
3)
63
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒12 (0+,3−)) = 0
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒)
= 0.9886 −6
16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒4
(6+,0−)
) −7
16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒7
(3+,4−)
)
− 3
16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒12 (0+,3−))
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒) = 0.9886 − 6
16 0 −
7
16 0.9852 −
3
160
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒) = 0.988699407 − 0.431037309
𝑮𝒂𝒏𝒂𝒏𝒄𝒊𝒂 (𝑺, 𝑷𝒖𝒏𝒕𝒂𝒋𝒆) = 𝟎. 𝟓𝟓𝟕𝟔𝟔𝟐𝟎𝟗𝟕
Valores (Val_M2Terreno)=Terr8, Terr15
S= [9+, 7 −]
𝑆𝑉𝑎𝑙_𝑀2𝑡𝑒𝑟𝑟8 ← [2+, 4 −]
𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟15 ← [7+, 3 −]
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) − ∑|𝑆𝑣|
|𝑆|𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑣)
𝑣 ∈ (𝑉𝑎𝑙_𝑀2𝑡𝑒𝑟𝑟8,
𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟15)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟8(2+,4−)) = − (2
6) 𝑙𝑜𝑔2 (
2
6) − (
4
6) 𝑙𝑜𝑔2 (
4
6)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟8(2+,4−)) = 0.528320833 + 0.389975
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟8(2+,4−)) = 0.918295833
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟15(7+,3−)) = − (7
10) 𝑙𝑜𝑔2 (
7
10) − (
3
10) 𝑙𝑜𝑔2 (
3
10)
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟15(7+,3−)) = 0.360201221 + 0.521089678
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙𝑀2𝑇𝑒𝑟𝑟15(7+,3−)) = 0.881290899
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟)
= 0.9886 − 6
16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙𝑀2𝑇𝑒𝑟𝑟8
(2+,4−)
) −10
16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙𝑀2𝑇𝑒𝑟𝑟15
(7+,3−)
)
64
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟) = 0.9886 − 6
16 0.9182 −
10
16 0.8812
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟) = 0.9886 − 0.344360937 − 0.550806811
𝑮𝒂𝒏𝒂𝒏𝒄𝒊𝒂 (𝑺, 𝑽𝒂𝒍_𝑴𝟐𝑻𝒆𝒓𝒓) = 𝟎. 𝟎𝟗𝟑𝟓𝟑𝟏𝟔𝟓𝟗
Según los resultados obtenidos, el mejor clasificador para este experimento será el atributo
Puntaje, con una ganancia de información de 0.5576, como se observa en la Figura 6.5.1,
atributo que se localizará en la raíz del árbol como base para continuar el proceso.
6.6 Método ID3
Dentro de los métodos de árboles de decisión los sistemas que se han destacado son los de
J. Ross Quinlan, de 1979, 1983, 1986, 1988 y 1993, entre otros (Suárez, J, 2000). En
especial sobresale su modelo de 1979, por presentar buenas características, como el menor
número de preguntas posible para encontrar respuesta en cada caso, para llegar a este
modelo empleó la teoría de la Información dada por C. Shannon en 1948. Este primer
programa clasificador, que en su versión más perfeccionada fue denominado ID3 (Iterative
Dichotomizer - Dicotomizador Iterativo) ha sido frecuentemente empleado y mejorado por
Quinlan y otros autores (Sancho, F, 2016).
PU
NT
AJ
E G
=0
.55
76
PUNTAJE4 0
PUNTAJE7 0.9852
PUNTAJE12 0
ED
AD
G=
0.1
65
9
EDAD 3 E=0
EDAD 4 E=0.94
VA
LO
R_
M2
TE
RR
EN
O
G=
0.0
93
5
VAL_M2TERR8 E=0.9182
VAL_M2TERR15 E=0.8812
Figura 6.5. 1 Comparación de resultados de Ganancia de información
65
El método de aprendizaje inductivo ID3 es empleado para la clasificación de clases y
atributos de valores discretos (Kirkby, R, 2003), consiste en crear de forma automática un
árbol de decisión a partir de los datos de entrada para el entrenamiento, cumpliendo con las
siguientes características:
Crearlo iniciando por la raíz y terminando con las hojas.
De forma directa.
Sin realizar backtracking o búsqueda hacia atrás, en otras palabras, no hace una
segunda revisión de los ejemplos que ya han sido evaluados.
En su entrenamiento emplea específicamente los ejemplos suministrados.
Para construir el árbol de decisión, el método ID3 emplea la Ganancia de
Información con el fin de elegir el atributo más útil en cada paso y colocarlo en el
nodo correspondiente a medida que crece, el proceso continúa hasta que se haga una
clasificación completa de los ejemplos que conforman el conjunto de entrenamiento
o hasta que se hayan empleado todos los atributos (Mitchell, T, 1997).
6.7 Método J48 o C4.5
El algoritmo J48 es una implementación libre del algoritmo C4.5 de Quinlan en Java
(Antonelli, S, 2012) con el que cuenta el software Weka.
El método C4.5 es un algoritmo de inducción desarrollado por Ross Quinlan como una
extensión, debido a algunas mejoras, del algoritmo ID3, por lo que sus desarrollos serán
semejantes.
Para llegar a crear un árbol de decisión por medio del algoritmo C4.5 en primer lugar se
determinará un conjunto de datos de entrenamiento, estos serán divididos en subconjuntos
66
que serán evaluados mediante la ganancia de información para determinar el que será el
atributo con mayor ganancia y actuará como parámetro de decisión en la clasificación, este
será el que ocupe el nodo raíz. Para continuar con la clasificación, el algoritmo se vale de
dos herramientas llamadas “info” y “gain”, mediante la regla representada en las ramas se
calcula la información que aporta al proceso y por la herramienta “gain” calcula la mejora
global que genera la regla, por medio de estos dos criterios se decide de una manera certera
el recorrido a seguir en el árbol, tomando como punto de partida los resultados del ciclo
anterior, calculando la precisión del modelo según la totalidad de los datos y obteniendo en
la salida una variable categórica (Vizcaino, P. A, 2008).
Dado que el algoritmo C4.5 es una mejora del algoritmo ID3, algunos de los avances con
los que cuenta son:
1. Manejo de atributos continuos y discretos: Para trabajar en el proceso con
atributos continuos, el algoritmo genera un límite y divide los valores de los
atributos entre los que son mayores y los que son menores, o iguales al límite.
2. Manejo de los datos del conjunto de ejemplos con información faltante: Todos
los atributos son incluidos aun cuando no tengan la información completa,
omitiéndola en los cálculos de entropía y ganancia de información.
3. Eliminación de ramas que no aportan información: El proceso de poda o
Pruning puede ser implementado en dos ocasiones, mientras está creciendo el árbol
o cuando está completo, en el primer caso es llamado prepruning, proceso que se
lleva a cabo en el momento en que no se encuentran suficientes datos para tomar
decisiones confiables para que el árbol continúe creciendo y en el segundo caso,
67
llamado postpruning, se deja crecer por completo el árbol y se eliminan los sub-
árboles que no aportan suficiente información. Luego de que se ha creado el árbol,
el algoritmo se devuelve a buscar las ramas que no aportan suficiente información
en el proceso, poda7, para reemplazarlas por nodos finales o nodos hoja. Entre los
métodos empleados para determinar los sub-árboles a podar se encuentra:
La validación cruzada, en donde se reservan datos del entrenamiento
(validation set – tuning set) para evaluar la utilidad de los sub-árboles.
Los test estadísticos, empleados en los conjuntos de entrenamiento para
determinar información que se puede eliminar.
Longitud mínima de descripción - MDL (Minimum description length), que
permite determinar si la hipótesis del árbol completo es más compleja que
la del árbol resultante del recorte (Quilan, J, 1996).
4. Evitar el sobreajuste de datos: A diferencia del ID3, el algoritmo C4.5 realiza una
búsqueda de las hipótesis o conjunto de árboles de decisión para ajustar los datos de
entrenamiento, el conjunto de hipótesis está conformado desde el árbol vacío, hasta
los árboles más elaborados, de los cuales se selecciona el que clasifica
correctamente los datos de entrada, dentro de este proceso se tiene en cuenta el
sesgo inductivo, que hace referencia al principio de la navaja de Ockham8
,
prefiriendo los árboles cortos a los más grandes, debido a que los árboles más cortos
7 La poda consiste en eliminar el subárbol con raíz en un nodo interno, esto ocurre sólo cuando el árbol
podado es mejor al árbol original, según el conjunto de validación (Mitchell, T, 1997) 8 El principio atribuido a Guillermo de Ockham establece que “En igualdad de condiciones, la explicación más
sencilla suele ser la más probable” , cabe resaltar que en igualdad de condiciones, ya que en caso diferente “La explicación más simple y suficiente es la más probable, más no necesariamente la verdadera”, entonces en caso de que existan mayores pruebas para una hipótesis compleja, esta será preferida a una segunda, que aunque sea simple no tenga pruebas suficientes (Cambridge University, 1995).
68
contarán con una mayor información cerca a la raíz, generalicen mejor y contengan
menos atributos irrelevantes (Mitchell, T, 1997).
6.8 Método M5P
El método M5P 9es un algoritmo de aprendizaje de máquina inductivo mediante árboles de
decisión, es una reconstrucción del algoritmo M5 creado por Quinlan y mejorado por Yong
Wang (Borao, D, 2013). .El M5P es aplicable a modelos con atributos cuyos valores sean
numéricos y combina el árbol de decisión con funciones de regresión lineal (Calleja, A,J,
2010).
La manera en que trabaja este atributo es construyendo un árbol de decisión, no obstante,
en lugar de maximizar la información obtenida en cada nodo, minimiza la variación interna
de los subconjuntos para los valores de cada rama, este proceso de división se detiene
cuando los valores de todos los atributos varían ligeramente, o solo permanecen algunas
instancias. Luego de este primer proceso, el árbol es recortado, de tal manera que al cortar
un nodo interno, este pasa a ser una hoja que contiene un modelo de regresión lineal
(Bellogín, A, 2008). Finalmente, para evitar discontinuidades entre los sub – árboles, se
hace una revisión desde las hojas hasta la raíz, haciendo más preciso el valor de los nodos
al combinarlos con el valor predicho por el modelo de regresión lineal para cada nodo de
forma respectiva.
Como resultado del algoritmo M5P, se obtienen reglas que son aplicadas si los datos
cumplen o no con determinadas condiciones (Calleja, A,J, 2010).
9 Siglas de M5Prime (Principal).
69
Algunas condiciones que existen para la implementación de este algoritmo son:
No maneja instancias ponderadas por pesos.
No permite que se actualice de forma incremental.
Cuando el valor de un atributo no está determinado, este algoritmo lo reemplaza con
la media global o la moda del conjunto de datos de entrenamiento antes de que se
construyera el árbol.
Al ejecutar el algoritmo M5P en WEKA, este hace un proceso de suavizado
automático que se puede desactivar, adicionalmente también es posible decirle la
profundidad del podado y la cantidad de información en la salida. (Kirkby, R, 2003)
6.9 Métodos de validación
Al trabajar en aprendizaje de máquina y obtener árboles de decisión, existe una etapa que es
la validación, en esta parte lo que hace el algoritmo es revisar la efectividad del modelo
desarrollado, entre los métodos de validación se encuentran los siguientes:
Cross Validation - Validación Cruzada: La validación cruzada consiste en
proporcionar un número n de particiones (folds), este será el número en el que se
dividirá el conjunto de datos, posteriormente se construirá un clasificador con los n-
1 sub-conjuntos , estos serán entonces los datos de entrenamiento y los datos
restantes serán los datos de prueba, este procesos se repetirá con las n particiones,
hasta que todos los datos hayan sido de entrenamiento y de prueba en las respectivas
iteraciones, como se representa en la Figura 14, para un conjunto de 20 datos y n=5.
70
Una validación cruzada es estratificada cuando una de las particiones o
subconjuntos conserva las propiedades de la muestra original respecto al porcentaje
de elementos de cada clase (Corso, C, 2009).
Datos de Datos de
Prueba Entrenamiento
Iteración 1 A B C D E F G H I J K L M N O P Q R S T
Iteración 2 A B C D E F G H I J K L M N O P Q R S T
Iteración 3 A B C D E F G H I J K L M N O P Q R S T
Iteración 4 A B C D E F G H I J K L M N O P Q R S T
… … … … … … … … … … … … … … … … … … … …
Iteración n=5 A B C D E F G H I J K L M N O P Q R S T
Total de datos
Figura 6.9. 1 Ejemplo de Validación Cruzada - Cross Validation
.Percentage Split - División de Porcentajes: Mediante esta validación se elige un
porcentaje del conjunto de datos para el entrenamiento del modelo y el porcentaje
de datos restante será el empleado para realizar la prueba de calidad de la
clasificación (García, F, 2013).
Supplied test set - Conjunto de prueba suministrado: Este método de validación
permite realizar el entrenamiento del modelo con el conjunto completo de los datos
y la prueba con un conjunto diferente de datos (Hernández, J, 2006).
6.10 WEKA
WEKA10
(Waikato Enviroment for Knowledge Analysis) es un Software libre desarrollado
en Java por la universidad de Waikato en Nueva Zelanda.
10
Sitio para descargar WEKA: http://www.cs.waikato.ac.nz/~ml/weka/
71
Figura 6.10. 1 Ventana de Inicio. Weka, Versión 3.6.13
Como se puede observar en la Figura 6.10.1, en la ventana principal del software, este
cuenta con 4 entornos de trabajo, Explorer, Experimenter, KnowledgeFlow y Simple CLI,
cada uno para desarrollar tareas específicas.
Explorer: Entorno empleado para hacer uso de los paquetes de WEKA con datos
proporcionados por el usuario.
Experimenter: Entorno diseñado para facilitar la automatización del trabajo con
experimentos a gran escala
KnowledgeFlow: Espacio diseñado para la creación de proyectos de minería de
datos por medio de la generación de flujos de información.
Simple CLI: Como entorno de consola permite llamar directamente desde Java los
paquetes disponibles en WEKA (Hernández, J, 2006).
72
Figura 6.10. 2 Entorno Explorer del Software WEKA
El entorno más empleado por contener la mayor funcionalidad de WEKA es el Explorer,
presentado en la Figura 6.10.2.
Los seis sub-entornos de ejecución, visibles en las pestañas del Explorer son los descritos
en la Tabla 6.10.1.
WEKA trabaja con archivos tipo .arff, por lo que es importante conocer la estructura que
deben tener los datos para que los conjuntos de información puedan recibir el tratamiento
adecuado, además de que el programa los lea correctamente (Morate, D, 2000).
73
Tabla 6.10. 1 Descripción de las opciones presentes en el entorno Explorer del Software WEKA
Herramienta Visualización Descripción
Classify
Acceso mediante las diversas herramientas a los
algoritmos de clasificación y regresión.
Cluster
Visualización de diversos métodos de agrupación
para los datos.
Associate
Generación de algunas reglas de asociación entre
las clases y atributos del conjunto de datos.
Select Attributes
Mediante diferentes técnicas se encuentran los
atributos más representativos del modelo.
Visualize
Visualización del comportamiento del conjunto
de datos por clases y atributos.
La estructura de los archivos debe ser la siguiente:
1. Encabezado: Para iniciar el archivo se escribe @relation y en seguida el Nombre
con el que se identificará el conjunto de datos.
74
2. Declaración de atributos: En segundo lugar se declaran los atributos, teniendo en
cuenta si son nominales o numéricos.
a. Declaración de atributos nominales: @attribute, seguido por el nombre del
atributo y entre corchetes {} los nombres de las clases, separados por comas.
Ejemplo: @attribute SECTOR_NOMBRE {CALANDAIMA, GALAN,
TINTALA, OSORIO_III}
b. Declaración de atributos numéricos: @attribute seguido por el nombre del
atributo, y la clase de atributo que puede ser:
NUMERIC: Para expresar números reales.
Ejemplo: @attribute AREA_TERRENO NUMERIC
INTEGER: Para expresar números enteros.
Ejemplo: @attribute CLAS_USO INTEGER
DATE: Para expresar fechas, va precedido por una etiqueta entrecomilla,
separado por espacios o guiones y unidades de tiempo (dd-Día, MM-
Mes, yyyy-Año, HH-Horas, mm-Minutos, ss-Segundos).
Ejemplo: @attribute FECHA DATE ¨dd-MM-yyyy HH:mm¨
STRING: Para expresar cadenas de texto.
Ejemplo: @attribute NOMBRE STRING
3. Datos: Finalmente está la declaración de los datos, esta se realiza expresando
@data, y en la fila siguiente se ingresara el conjunto de datos, en este cada fila debe
contener los valores de los atributos en el orden en que estos fueron declarados y
estar separados por comas.
75
Esta organización de los datos se puede realizar en un editor de texto como Notepad++ y
guardar el archivo como .arff, a fin de que pueda ser leído por WEKA, adicionalmente al
trabajar con grandes conjuntos de datos, es posible tener la base de datos en Excel y
organizarla de tal manera que la separación entre los datos esté por comas, tras lo cual se
copian al archivo del editor de texto y entonces proceder al experimento que se desee hacer
en WEKA.
Al realizar los diferentes entrenamientos y validaciones en el software WEKA, se obtienen
estadísticos como Kappa, el coeficiente de correlación, el error absoluto medio (MAE), la
raíz del error medio cuadrático (RMSE), el error absoluto relativo (RAE) y la raíz del error
relativo cuadrático (RRSE), los cuales permiten comparar los modelos obtenidos y validar
los resultados obtenidos.
6.10.1 Estadístico Kappa
El coeficiente Kappa de Cohen es una medida estadística que permite conocer el grado de
acuerdo o concordancia, existente entre dos observadores al evaluar una serie de elementos
cualitativos (variables categóricas). El estadístico Kappa toma valores entre 0 y 1, en donde
cero significa que no hay acuerdo o concordancia y 1 un acuerdo máximo (Martin, Q,
Cabero, M, & de Paz, Y, 2008), su cálculo se realiza mediante la Ecuación 6.10.1.1, en
donde P (A) es la proporción de veces que coinciden o concuerdan los observadores y P (E)
es la proporción de veces que se espera que los observadores coincidan por azar.
𝐾 =𝑃(𝐴) − 𝑃(𝐸)
1 − 𝑃(𝐸)
Ecuación (6.10.1. 1) Estadístico Kappa
76
6.10.2 Coeficiente de correlación
El coeficiente de correlación de Pearson permite conocer la relación lineal entre dos
variables aleatorias cuantitativas.
Si X y Y son dos variables aleatorias cuantitativas, el coeficiente de correlación de Pearson
(𝜌𝑋,𝑌) está dado por la Ecuación 6.10.2.1, para calcular este coeficiente en un estadístico
muestral se denota como 𝑟𝑋,𝑌 (Ecuación 6.10.2.2) dando como resultado valores que varían
entre -1 y 1 (Núñez, A, 1992) contenidos en los cinco casos siguientes (Tabla 6.10.1):
1. Si es igual a 1, existe una correlación perfecta positiva, es decir que hay una
dependencia total o relación directa entre las dos variables, de tal forma que cuando
una de estas variables aumenta, la otra lo hace en una misma proporción.
2. Si es mayor que cero y menor que 1, existe una correlación positiva.
3. Si es igual que cero, muestra que no existe una relación lineal entre las variables, no
obstante podría existir una relación no lineal.
4. Si es mayor que -1 y menor que 0, existe una correlación negativa.
5. Si es igual a -1, existe una correlación negativa perfecta, es decir que existe una
dependencia entre las dos variables pero de relación inversa, de tal forma que
cuando una de las variables aumenta la otra disminuye en una misma proporción.
𝝆𝑿,𝒀 =𝝈𝑿𝒀
𝝈𝑿𝝈𝒀=
𝑬[(𝑿 − 𝝁𝑿)(𝒀 − 𝝁𝒀)]
𝝈𝑿𝝈𝒀
Ecuación (6.10.2. 1) Coeficiente de correlación de Pearson
77
En donde:
𝜎𝑋𝑌 es la covarianza de (X,Y)
𝜎𝑋 es la desviación estándar de la variable X
𝜎𝑌 es la desviación estándar de la variable Y
𝑟𝑥𝑦 =∑ 𝑥𝑖𝑦𝑖 − 𝑛�̅��̅�
(𝑛 − 1)𝑠𝑥𝑠𝑦=
𝑛 ∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
√𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖)2 √𝑛 ∑ 𝑦𝑖
2 − (∑ 𝑦𝑖)2
Ecuación (6.10.2.2) Coeficiente de correlación para estadístico muestral
Tabla 6.10.2. 1 Gráficas de casos de resultados del coeficiente de correlación
Caso 1 Caso 2 Caso 3 Caso 4 Caso 5
6.10.3 Errores
Los errores presentados en la tabla 6.10.3.1, son estimadores estadísticos que permiten
validar los resultados obtenidos (Mood, A, Graybill, F, & Boes, D, 1974).
78
Tabla 6.10.3. 1 Características de los errores
Estadístico Fórmula Explicación
Error absoluto Medio
(Mean Absolute Error) 𝑀𝐴𝐸 =
1
𝑁∑|�̂�𝑖 − 𝜃𝑖|
𝑁
𝑖=1
Mide la diferencia media entre los valores
observados y los estimados, tiene sus
mismas unidades y solo permite compararse
con modelos cuyos errores se miden en las
mismas unidades, por lo general es
ligeramente menor al RMSE.
Raíz del error cuadrático
medio
(Root Mean Squared
Error)
𝑅𝑀𝑆𝐸 = √1
𝑁∑(�̂�𝑖 − 𝜃𝑖)
2𝑁
𝑖=1
Mide la diferencia media entre los valores
observados y los estimados, se distingue por
amplificar y castigar severamente los errores
grandes. Solo se puede comparar entre
modelos cuyos errores se miden en las
mismas unidades.
Error absoluto relativo
(Relative Absolute
Error) 𝑅𝐴𝐸 =
∑ |�̂�𝑖 − 𝜃𝑖|𝑁𝑖=1
∑ |�̅�𝑖 − 𝜃𝑖|𝑁𝑖=1
Divide las diferencias por la variación de los
valores observados, teniéndolos en una
escala de 0 a 1, se multiplica por 100 a fin de
presentarlo como porcentaje, permite
observar cuanto difiere el valor observado de
su valor medio. Es posible compararlo con
modelos cuyos errores estén medidos en
diferentes unidades.
Raíz del error cuadrático
relativo
(Root Relative Squared
Error)
𝑅𝑅𝑆𝐸 = √∑ (�̂�𝑖 − 𝜃𝑖)
2𝑁𝑖=1
∑ (�̅�𝑖 − 𝜃𝑖)2𝑁
𝑖=1
Divide las diferencias por la variación de los
valores observados, teniéndolos en una
escala de 0 a 1, al igual que el RAE, muestra
la diferencia del valor observado con su
valor medio, se multiplica por 100 a fin de
presentarlo como porcentaje. A diferencia
del RMSE, se puede comparar con modelos
cuyos errores se miden en diferentes
unidades.
79
6.11 Construcción de intervalos
Con el fin de construir intervalos en un gran conjunto de datos, es necesario seguir tres
pasos específicamente (Cabrera, S, 2008):
1. Número de intervalos, mediante la regla de Sturges, presentada en la Ecuación
6.11.1. (Hyndman, R, 1995), en donde 𝑛 es el número de datos
𝐾 = 1 + 𝑙𝑜𝑔2𝑛
Ecuación (6.11. 1) Regla de Sturges
2. Cálculo del Rango, se realiza empleando la Ecuación 6.11.2, en donde 𝑋𝑚á𝑥 es el
dato mayor y 𝑋𝑚í𝑛 el dato menor.
𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
Ecuación (6.11. 2) Rango
3. Longitud del intervalo, que resulta de la división del rango R entre el número de
intervalos K (Ecuación 6.11.3):
𝐿 =𝑅
𝐾
Ecuación (6.11. 3) Longitud de un intervalo
6.12 Valuación
En general el término valuación hace referencia al proceso de investigación para establecer
el valor de un activo o pasivo, y de manera más específica se puede definir como la
estimación de la cantidad monetaria por la cual se transaría un bien entre un comprador y
80
un vendedor bajo los supuestos previamente establecidos de acuerdo con el enfoque
correspondiente, de mercado o de No Mercado (IVSC, 2009); al hacer referencia a la
valuación de bienes inmuebles, se aplicará esta definición de realizar todo un proceso
laborioso y de investigación para determinar el precio de un lote, una bodega, una casa, un
apartamento, zonas comunes, entre otros.
Los avalúos de bienes inmuebles se pueden clasificar según diferentes criterios como:
1. Número:
a. Puntuales
b. Masivos
2. Ubicación:
a. Urbanos,
b. rurales,
c. suburbanos,
d. De expansión urbana.
3. Clase de Bien:
a. Terreno
b. Construcción (Según el uso y la destinación).
4. El método:
a. Renta o ingresos
b. De mercado o de comparación
c. De reposición como nuevo o sustitución
d. Potencial o residual
81
5. Finalidad:
a. Compra
b. Venta
c. Impuestos
d. Seguros
e. Contabilidad
f. Judiciales
g. Créditos e hipotecas
h. Para reposición de servidumbre
6. Tiempo:
a. Crisis
b. Auge
7. Especiales:
a. Monumentos históricos
b. Good will
c. Servidumbres
6.12.1 Valuación estadística
Con el fin de realizar una valuación estadística de bienes inmuebles, es necesario cumplir
con requisitos específicos en el proceso, entre los requisitos básicos se encuentran los
siguientes:
1. El método para alcanzar la convicción del valor debe basarse en procesos de inferencia
estadística que permitan calcular estimaciones sin reflejar tendencias de valor
82
estableciendo intervalos de confianza para las mismas, además de someterlas a pruebas
de hipótesis cuyos resultados satisfagan a las exigencias de este tipo de trabajo.
2. Cada elemento que contribuye a formar la convicción sobre el valor debe estar bien
caracterizado y su conjunto debe constituir una muestra tan aleatoria como sea posible,
al utilizar toda evidencia disponible. Sin embargo, no se permite la recolección de datos
de otros sectores donde las características geo – económicas sean distintas de la región
o zona donde se ubica el avalúo, ni de elementos que no sean comparables con ese bien.
3. La calidad de la muestra debe estar asegurada, exigiéndose la comprobación de todos
los elementos de referencia considerados en la elaboración del trabajo valuatorio.
4. La transformación y actualización de precios son aplicables, pero la actualización
deberá considerar la valorización real de los inmuebles, a través de la inferencia y
justificación por función de regresión.
5. El número N de datos de idéntica naturaleza, efectivamente utilizados en el tratamiento
inferencial, estará definido por la suma del número K de variables, utilizadas en el
modelo de regresión , más un número de cinco grados de libertad; esto es: 𝑁 ≥ 𝐾 + 5,
𝑁mayor o igual que 𝐾 + 5.
6. Los procesos de inferencia estadística empleados deben estar adaptados a los problemas
valuatorios y adecuadamente testados, teniendo obligación el Valuador de describirlos
detalladamente en su informe y anexar los j de informática utilizados. En ningún caso
se tolerarán los trabajos estadísticos que, en las varias etapas del tratamiento inferencial,
eliminen un conjunto de elementos superior al 50% de la muestra (Dirección General
IGAC, 2003).
83
6.12.2 Avalúos masivos
Los avalúos masivos son los procesos que permiten extrapolar información para un gran
número de predios, teniendo como base valores obtenidos mediante avalúos físicos en
terreno de un número representativo de inmuebles, del total de predios que se pretende
avaluar.
Para la determinación del valor de bienes inmuebles a partir del valor comercial por
métodos masivos se deben cumplir las etapas de:
1. Identificación predial
2. Determinación de zonas homogéneas físicas y geoeconómicas
a. Zonas Homogéneas Físicas urbanas: Son consideradas como el espacio
geográfico de una región con características similares en cuanto a vías, servicios
públicos, topografía, tipificación de las viviendas y uso de los predios y la
norma de uso definida en los Planes de Ordenamiento Territorial.
b. Zonas Homogéneas Físicas rurales: Son consideradas como el espacio
geográfico de una región con características similares en cuanto a áreas
homogéneas de tierra (condiciones agrológicas, topográficas, climatológicas de
los suelos y en su capacidad y limitaciones de uso y manejo), suelos,
disponibilidad de aguas, vías, uso, destino económico y los usos establecidos en
los Planes o Esquemas de Ordenamiento Territorial debidamente aprobados.
A fin de establecer los avalúos, se parte de puntos de investigación económica
dentro de las zonas homogéneas físicas, conociendo el valor en el mercado
84
inmobiliario para los terrenos ubicados en ellas (Dirección General IGAC,
2003).
3. Determinación de valores unitarios para los tipos de edificaciones
4. Liquidación de avalúos.
Los avalúos masivos se pueden elaborar por medio de la metodología combinada de las
zonas geoeconómicas y la nivelación primaria de precios (IGAC, 2008).
6.12.3 Puntos de investigación económica
Son aquellos seleccionados dentro del área urbana o rural de un municipio para establecer
valores unitarios del terreno, mediante el análisis de la información directa e indirecta de
precios en el mercado inmobiliario y por medio de tablas de construcción se realizan
análisis estadísticos según el uso de la construcción sus características físicas para obtener
el valor de 𝑚2 de construcción.
El valor catastral, será entonces la suma del valor de terreno y de construcción obtenido
para el predio de acuerdo a su área de terreno y construcción (Dirección General IGAC,
2003).
6.13 Unidades de Planeamiento Zonal (UPZ)
Las UPZ son unidades territoriales contenidas en las localidades y contenedoras de barrios
o sectores catastrales, su finalidad es definir el planeamiento del suelo urbano,
respondiendo a la dinámica productiva de la ciudad involucrando a los actores sociales en
la definición de aspectos de ordenamiento y control normativo a escala zonal (Alcaldía
mayor de Bogotá, 2004).
85
Las Unidades de Planeamiento Zonal determinan como mínimo 4 aspectos:
1. Lineamientos de estructura urbana básica de cada unidad, que permitan articular la
norma urbanística con el planeamiento zonal.
2. Regulación de la intensidad y mezcla de usos.
3. Las condiciones de edificabilidad.
4. Lineamientos sobre el manejo de ruido acorde con la política ambiental
Por medio de la planificación de UPZ es posible invertir los recursos de una mejor manera
al buscar el beneficio colectivo y generar una participación activa de la comunidad
mediante el encuentro ciudadano (SDP, 2016).
86
7. Metodología
Con el objetivo de realizar un análisis de la efectividad de implementar los árboles de
decisión, en la determinación de avalúos masivos en las Unidades de Planeamiento Zonal
79 Calandaima, 65 Arborizadora y UPZ 73 Garcés Navas se llevan a cabo tareas
específicas, distribuidas de la forma descrita en la Figura 7.1.
Figura 7. 1 Esquema de metodología
7.1 Definición de zonas de estudio
Teniendo en cuenta que el presente trabajo pretende verificar la efectividad del empleo de
árboles de decisión en el proceso de avalúos masivos, se ubicaron zonas dentro de la ciudad
que presentara un volumen representativo de inmuebles y características variables, es decir,
que estuvieran localizadas en el perímetro urbano, se tuviera la presencia de propiedad
horizontal (PH) y no PH, de lotes, de edificaciones de diferentes usos, estratos, número de
pisos, entre otras.
1. •Definición de zonas de estudio
2. •Adquisición de base de datos catastrales de la zona de estudio
3. •Selección de métodos basados en Árboles de decisión
4.
•Estructura preliminar del experimento, clasificación de los datos para el procesamiento en el software WEKA.
5.
•Estructura del experimento, generación de resultados mediante método de árboles de decisión y método convencional
6. •Análisis de resultados y efectividad
87
Teniendo en cuenta las características mencionadas se ubicaron las localidades de Engativá
(10), Ciudad Bolívar (19), y Kennedy (8) en las cuales, a su vez se ubicaron las Unidades
de Planeamiento Zonal, Garcés Navas (73), Arborizadora (65) y Calandaima (79),
respectivamente, distribuidas en la ciudad de Bogotá D.C como se presenta en la Figura
7.1.1.
Figura 7.1. 1 Localización de las zonas de estudio
7.2 Adquisición de base de datos catastrales de la zona de estudio
Las bases de datos catastrales constituyeron el conjunto de datos mediante el cual sería
posible crear los árboles de decisión y la validación de los mismos. De cada una de las tres
88
unidades de planeamiento zonal (UPZ) se adquirió la información correspondiente a
normatividad, cartografía y bases de datos catastrales.
1. Normatividad: Decreto 073 de 2006, por el cual se reglamenta la Unidad de
Planeamiento Zonal (UPZ) No. 73, Garcés Navas, ubicada en la localidad de
Engativá, Decreto 241 de 2005, por el cual se reglamenta la Unidad de
Planeamiento Zonal (UPZ) No. 65, Arborizadora, ubicada en la localidad Ciudad
Bolívar, el Acuerdo 06 de 1990 y el Decreto 012 de 1993.
2. Cartografía: Adquirida en formato shapefile, se contó con la información
correspondiente a las Localidades de la ciudad de Bogotá D.C, Unidades de
Planeamiento Zonal (UPZ) de la ciudad de Bogotá D.C y Sectores Catastrales de
la ciudad de Bogotá D.C con sus atributos correspondientes (Tabla 7.2.1).
Tabla 7.2. 1 Atributos de información cartográfica
Nombre Atributos
Localidades de la ciudad de Bogotá
Área
Perímetro
Número de localidad
Nombre
Unidades de Planeamiento Zonal (UPZ) de la ciudad
de Bogotá D.C
Código UPZ
Nombre de la UPZ
Decreto
Área
Sectores catastrales de la ciudad de Bogotá D.C.
Código de sector
Nombre sector
Área
3. Bases de datos catastrales: Adquiridos en formato .xlsx, se trabajó con las bases
de datos correspondientes a las UPZ 73Garcés Navas, 65Arborizadora y 79
Calandaima, proporcionadas por la Unidad Administrativa Especial de Catastro
(UAECD) y que cuentan con la información que se presenta en la Tabla 7.2.2.
89
Tabla 7.2. 2 Contenido bases de datos catastrales
UPZ Atributos
UPZ 73 Garcés Navas
Sector
Manzana
Código catastral
CHIP
Matrícula
Nomenclatura
Lote ID
Lote Zona Homogénea Física ID
Unidades PH
Vetustez
Número de pisos
Coordenada X
Coordenada Y
Área de afectación
Tipo de afectación
Actividad
Tratamiento
Cesión
Área de terreno
Valor m2 de terreno
Área construida
Valor m2 de construcción
Valor comercial
PH
Puntaje
Estrato
UPZ 65 Arborizadora
Sector
Manzana
Código catastral
CHIP
Matrícula
Nomenclatura
Lote ID
Lote ZHF ID
Unidades de PH
Uso
Número de pisos
Vetustez
Área
Coordenada X
Coordenada Y
Área de afectación
Tipo de afectación
Actividad
Tratamiento
Cesión
Área de terreno
Valor m2 de terreno
Área construida
Valor m2 de construcción
Valor comercial
PH
Puntaje
Estrato
UPZ 79 Calandaima
Sector
Manzana
Código catastral
CHIP
Matrícula
Nomenclatura
Lote ID
Lote ZHF ID
Unidades de PH
Código lote
Código uso
Pisos
Vetustez
Coordenada X
Coordenada Y
Área de afectación
Tipo de afectación
Actividad
Tratamiento
Área de terreno
Valor m2 de terreno
Área construida
Valor m2 de construcción
Valor comercial
PH
Puntaje
Estrato
7.3 Selección de métodos basados en árboles de decisión
Con el propósito de tener diferentes resultados y mayor información para analizar la
efectividad de los árboles de decisión como herramienta para la determinación de avalúos
90
masivos, se eligieron tres métodos que permitieran observar las variaciones entre estos con
el manejo de los tres conjuntos de datos correspondientes a las tres Unidades de
Planeamiento Zonal (UPZ).
Los métodos elegidos fueron el ID3, el J48 y el M5P los cuales cuentan con las
características y ventajas para el experimento al emplear el software WEKA para la
generación de los respectivos árboles.
ID3: Al permitir trabajar con el conjunto de datos nominales es posible visualizar,
leer y entender fácilmente el árbol generado, así como compararlo con el árbol
generado mediante el método J48.
J48: Brinda las mejoras al método ID3, permite igualmente visualizar, leer y
entender con facilidad el árbol generado, trabajar con el conjunto de datos
nominales y por las características de los resultados, compararlos con los resultados
obtenidos por el método ID3.
M5P: Ofrece la opción de trabajar con los datos numéricos, mediante la manera en
que se obtiene los resultados, es posible programar las reglas generadas de una
manera más sencilla que con los métodos ID3 y J48 para realizar el pronóstico y
visualizar cada proceso, para finalmente comparar los resultados con el método
tradicional de regresión lineal.
Luego de definir los tres métodos para desarrollar los árboles de decisión, se definieron los
métodos para realizar el entrenamiento y la validación de los árboles. Los métodos
seleccionados y las divisiones de los datos fueron los indicados en la Tabla 7.3.1,
91
obteniendo de esta manera 7 resultados de métodos de entrenamiento y validación por cada
método de árbol de decisión.
Tabla 7.3. 1 Métodos de entrenamiento y validación
Método Divisiones para entrenamiento y validación
Percentage Split
Porcentaje (%) Porcentaje (%)
66 33
80 20
Cross Validation Folds (Particiones) Folds (Particiones)
10 20
Supplied test set Conjunto de datos diferentes a fin de realizar el
pronóstico
7.4 Estructura preliminar del experimento, clasificación de los datos para el
procesamiento en el software WEKA
Con el fin de procesar los datos y obtener los resultados de los árboles de decisión, es
necesario verificar las bases de datos para determinar la información que será necesaria,
eliminar la que no se requiere y conformar los diferentes grupos en que se procesarán los
datos.
De acuerdo con el proceso presentado en la Figura 7.4.1, luego de tener el conjunto de
datos de cada UPZ, el siguiente paso es depurar la información y contar estrictamente con
los datos necesarios para el experimento.
Al realizar este primer proceso los conjuntos de datos quedaron conformados de la manera
que se muestra en la Tabla 7.4.1.
Tabla 7.4. 1 Comparación de cantidad de datos por UPZ luego de la depuración
UPZ Cantidad de datos
Suministrados
Cantidad de datos después de la
depuración
UPZ 73 Garcés Navas 38712 34073
UPZ 65 Arborizadora 18903 16736
UPZ 79 Calandaima 33294 33157
92
Figura 7.4. 1 Proceso de conformar los conjuntos de datos del experimento
Al tener el conjunto de datos de cada UPZ depurado, se realizó una división en PH y
No_PH, ya que se tuvieron en cuenta características diferentes para cada uno de los grupos,
de donde se extrajeron 20 datos aleatorios del conjunto de PH y 20 del conjunto No_PH
designados para pruebas finales, quedando el conjunto para entrenamiento, validación y
pronóstico con las cantidades de datos descritas en la Tabla 7.4.2 y conformados con los
atributos contenidos en la Tabla 7.4.3.
93
Tabla 7.4. 2 Cantidad de datos para entrenamiento, validación y pronóstico según PH y NO_ PH
UPZ
Cantidad de datos
Conjunto para entrenamiento,
validación y pronostico PH
Cantidad de datos
Conjunto para entrenamiento,
validación y pronostico NO_PH
UPZ 73 Garcés Navas 15217 18816
UPZ 65 Arborizadora 9935 6761
UPZ 79 Calandaima 30341 2775
Debido a que se desarrollarán los experimentos con métodos de árboles de decisión
empleando conjuntos de datos numéricos y nominales por aparte para que sean procesados
por el software, fue necesario realizar clasificaciones de los datos y expresarlos de forma
nominal y numérica, generando dos expresiones de cada dato.
Para el caso de los atributos numéricos con grandes rangos que se debían pasar a
nominales, se realizaron divisiones de grandes grupos, de manera arbitraria y
posteriormente, una clasificación empleando la creación de intervalos mediante la regla de
Sturges.
Luego de tener la expresión de los datos de forma nominal y numérica para el conjunto de
PH y No_PH, se seleccionó de manera aleatoria un 5% de cada conjunto de datos a fin de
dejarlos para realizar el pronóstico, como se muestra al final de la Figura 7.4.1 y quedando
con las cantidades de datos presentadas en la Tabla 7.4.4.
94
Tabla 7.4. 3 Atributos seleccionados para procesar
UPZ Atributos PH Atributos No_PH
UPZ 73 Garcés Navas
Sector
Edad
Puntaje
Estrato
Actividad
Tratamiento
Área construida
Valor m2 de construcción
Sector
Pisos
Edad
Puntaje
Estrato
Actividad
Tratamiento
Área de terreno
Valor m2 de Terreno
Área de construcción
Valor m2 de construcción
UPZ 65 Arborizadora
Sector
Uso
Edad
Puntaje
Estrato
Actividad
Tratamiento
Área construida
Valor m2 de construcción
Sector
Uso
Pisos
Edad
Puntaje
Estrato
Actividad
Tratamiento
Área terreno
Valor m2 de terreno
Área de construcción
Valor m2 de construcción
UPZ 79 Calandaima
Sector
Uso
Edad
Puntaje
Estrato
Actividad
Área construida
Valor m2 de construcción
Sector
Uso
Pisos
Edad
Puntaje
Estrato
Actividad
Tratamiento
Área terreno
Valor m2 terreno
Área construida
Valor m2 de construcción
Tabla 7.4. 4 Cantidad de datos para conjunto de entrenamiento y validación y conjunto de pronóstico
UPZ
PH NO_PH
Cantidad de datos
Entrenamiento y
Validación
Cantidad de datos
Conjunto Pronóstico
Cantidad de datos
Conjunto para
Entrenamiento y
Validación
Cantidad de
datos
Conjunto
Pronóstico
UPZ 73 Garcés
Navas 14456 761 17875 941
UPZ 65
Arborizadora 9438 497 6423 338
UPZ 79
Calandaima 28824 1517 2636 139
95
7.4.1 Atributo sector
Este atributo está presentado de forma numérica y nominal en la base de datos original,
debido a algunas inconsistencias que se verificaron, el trabajo que requirió este atributo fue
la corrección de algunos nombres. Su representación numérica corresponde al código que
identifica al sector catastral dentro de la ciudad de Bogotá D.C en el que está localizado el
predio. Su representación numérica en la base de datos recibe el nombre de SECTOR y su
representación nominal fue nombrada como CLAS_SECTOR. La presentación11
del
atributo sector para cada UPZ se presenta en la tabla 7.4.1.1.
UPZ SECTOR CLAS_SECTOR
UPZ 73 Garcés Navas
5643 ALAMOS
5675 BOLIVIA
5629 EL_CEDRO
5663 EL_DORADO_INDUSTRIAL
5669 EL_GACO
5635 EL_MADRIGAL
5627 GARCES_NAVAS
5628 GARCES_NAVAS_ORIENTAL
5655 GARCES_NAVAS_SUR
5654 GRAN_GRANADA
5623 LOS_ANGELES
5641 SANTA_MONICA
5648 VILLA_AMALIA
5658 VILLA _SAGRARIO
5668 VILLAS_DE_ALCALÁ
5647 VILLAS_DE_GRANADA
5649 VILLAS_DE_GRANADA_I
UPZ 65 Arborizadora
2432 ARBORIZADORA_BAJA
2422 ATLANTA
2435 EL_CHIRCAL_SUR
4563 GUADALUPE
2420 LA_CORUNA
2415 MADELENA
2421 RAFAEL_ESCAMILLA
UPZ 79 Calandaima
4601 CALANDAIMA
4627 GALAN
6518 OSORIO_III
6516 TINTALA
11
la manera en que están escritos los nombres de los atributos y sectores corresponde a la forma en que se introdujeron en el archivo .arff para que fuera procesado por el software WEKA.
96
7.4.2 Atributo uso
El atributo uso está presentado de forma numérica en la base de datos original, razón por la
que se procedio a buscar el significado de cada uno de los códigos de uso de los inmuebles
para tener su presentación nominal. Este atributo corresponde a la actividad económica que
se le da a la construcción en un predio al momento de su reconocimiento, el uso de la
construcción está definido para predios en Propiedad horizontal y en No Propiedad
Horizontal (Unidad Administrativa Especial de Catastro Distrital, 2005).
Tabla 7.4.2. 1 Atributo uso para predios No PH
CODIGO_USO USO CLAS_USO
1 HABITACIONAL MENORES O IGUALES A 3 PISOS HAB_ME3P
2 HABITACIONAL MAYORES O IGUALES A 4 PISOS HAB_ME4P
3 COMERCIO PUNTUAL CP
4 COMERCIO EN CORREDOR COMERCIAL CCC
5 OFICINAS OPERATIVAS OO
9 ACTIVIDAD ARTESANAL AA
10 INDUSTRIA MEDIANA IND_M
11 INDUSTRIA GRANDE IND_G
12 INSTITUCIONAL PUNTUAL INS_P
13 COLEGIOS Y UNIVERSIDADES DE 1 A 3 PISOS CYU_3P
14 IGLESIAS IGL
15 OFICINAS Y CONSULTORIOS DOTACIONAL OFICIAL OYC_DO
16 COLEGIOS Y UNIVERSIDADES DE 4 PISOS O MAS CYU_MA4P
20 OFICINAS Y CONSULTORIOS OYC
22 DEPOSITO DE ALMACENAMIENTO DA
25 BODEGAS DE ALMACENAMIENTO BA
33 BODEGA ECONOMICA BE
70 ENRAMADAS- COBERTIZOS- CANEYES ECC
80 OFICINAS EN BODEGA Y/O INDUSTRIAS OBYOI
En la base de datos, se designa como CODIGO_USO, para su presentación numérica y
CLAS_USO, para su presentación nominal, debido a lo extendido de los nombres, se
97
emplearon abreviaturas descritas en la Tabla 7.4.2.1 para los predios en No PH y en la
Tabla 7.4.2.2 para los predios en PH.
Tabla 7.4.2. 2 Atributo uso para predios PH
CODIGO_USO USO CLAS_USO
37 HABITACIONAL MENOR O IGUAL A 3 PISOS HAB_ME3P_PH
38 HABITACIONAL MAYOR O IGUAL A 4 PISOS HAB_MA4P_PH
39 COMERCIO PUNTUAL LOCAL COMERCIAL CP_LC_PH
40 COMERCIO EN CORREDOR COMERCIAL CCC_PH
42 CENTRO COMERCIAL GRANDE CCG_PH
44 INSTITUCIONAL PUNTUAL IP_PH
45 OFICINAS Y CONSULTORIOS PROPIEDAD PARTICULAR OYC_PP_PH
90 PREDIOS SIN CONSTRUIR EN PH PSC_PH
95 CENTRO COMERCIAL PEQUEÑO CCP_PH
7.4.3 Atributo pisos
El atributo pisos se encuentra en la base de datos expresado como un atributo numérico,
está contenido únicamente en los conjuntos de datos de los predios que no están bajo el
régimen de propiedad horizontal (No_PH) y hace referencia a la cantidad de pisos
construidos en altura. Es presentado como NUM_PISOS para los valores numéricos y
CLAS_PISOS para los valores nominales, para realizar su clasificación se realizaron los
rangos presentados en la Tabla7.4.3.1.
Tabla 7.4.3. 1 Atributo pisos
NUM_PISOS CLAS_PISOS
0 P0
1 A 2 P1
3 A 4 P2
5 A 6 P3
7 A 14 P4
15 A 25 P5
98
7.4.4 Atributo edad
El atributo edad se encuentra expresado en la base de datos como un atributo numérico, es
presentado como EDAD para los valores numéricos y CLAS_EDAD para los valores
nominales. Para su presentación nominal se realizó una clasificación por medio del método
de sturges teniendo para los intervalos las características presentadas en la Tabla 7.4.4.1 y
obteniendo los conjuntos de clasificación como se muestran en la Tabla 7.4.4.2.
Tabla 7.4.4.1 Características de la clasificación: atributo edad
L 5
K 14
X MIN 0
XMAX 70
Tabla 7.4.4.2 Clasificación atributo edad
Límite inferior Límite superior CLAS_EDAD
0 5 EDAD1
5 10 EDAD2
10 15 EDAD3
15 20 EDAD4
20 25 EDAD5
25 30 EDAD6
30 35 EDAD7
35 40 EDAD8
40 45 EDAD9
45 50 EDAD10
50 55 EDAD11
55 60 EDAD12
60 65 EDAD13
65 70 EDAD14
99
7.4.5 Atributo puntaje
El atributo puntaje se encuentra expresado en la base de datos como un atributo numérico,
es presentado como PUNTAJE para los valores numéricos y CLAS_PUNTAJE para los
valores nominales. Para su presentación nominal se realizaron tres subconjuntos y las
respectivas clasificaciones por medio del método de sturges teniendo para los intervalos las
características presentadas en la Tabla 7.4.5.1 y obteniendo los conjuntos de clasificación
como se muestran en las Tablas 7.4.5.2, 7.4.5.3 y 7.4.5.4.
Tabla 7.4.5.1 Características de la clasificación: atributo puntaje
Grupos Características Valores
Grupo 1 Valor único 0
Grupo 2
L 6.6
K 15
XMIN 1
XMAX 100
Grupo 3
L 37.375
K 8
XMIN 101
XMAX 400
Tabla 7.4.5. 2 Clasificación atributo puntaje, grupo1
Valor CLAS_PUNTAJE
0 1PUNTAJE0
100
Tabla 7.4.5. 3 Clasificación atributo puntaje, grupo 2
Límite inferior Límite superior Aproximación
Límite inferior
Aproximación
Límite superior CLAS_PUNTAJE
1 7.6 1 8 2PUNTAJE1
7.6 14.2 8 14 2PUNTAJE2
14.2 20.8 14 21 2PUNTAJE3
20.8 27.4 21 27 2PUNTAJE4
27.4 34 27 34 2PUNTAJE5
34 40.6 34 41 2PUNTAJE6
40.6 47.2 41 47 2PUNTAJE7
47.2 53.8 47 54 2PUNTAJE8
53.8 60.4 54 60 2PUNTAJE9
60.4 67 60 67 2PUNTAJE10
67 73.6 67 74 2PUNTAJE11
73.6 80.2 74 80 2PUNTAJE12
80.2 86.8 80 87 2PUNTAJE13
86.8 93.4 87 93 2PUNTAJE14
93.4 100 93 100 2PUNTAJE15
Tabla 7.4.5. 4 Clasificación atributo puntaje, grupo 3
Límite inferior Límite superior Aproximación
Límite inferior
Aproximación
Límite superior CLAS_PUNTAJE
101 138.375 101 138 3PUNTAJE1
138.375 175.75 138 176 3PUNTAJE2
175.75 213.125 176 213 3PUNTAJE3
213.125 250.5 213 251 3PUNTAJE4
250.5 287.875 251 288 3PUNTAJE5
287.875 325.25 288 325 3PUNTAJE6
325.25 362.625 325 363 3PUNTAJE7
362.625 400 363 400 3PUNTAJE8
7.4.6 Atributo estrato
El atributo estrato hace referencia a la clasificación de los inmuebles residenciales a los
cuales se proveen servicios públicos y son clasificados en seis rangos: 1. Bajo-bajo, 2. Bajo,
3. Medio-bajo, 4. Medio, 5. Medio-alto y 6. Alto. (Congreso de Colombia, 1994). En la
base de datos se encuentra expresado como un atributo numérico, es presentado como
101
ESTRATO para los valores numéricos y CLAS_ESTRATO para los valores nominales. Su
presentación numérica y nominal para los valores presentes en las bases de datos son los
contenidos en la Tabla 7.4.6.1.
Tabla 7.4.6. 1 Clasificación atributo estrato
ESTRATO CLAS_ESTRATO
0 SIN ESTRATO
2 BAJO
3 MEDIO_BAJO
7.4.7 Atributo actividad
El atributo actividad hace referencia a las áreas de actividad, que según el POT (Plan de
Ordenamiento Territorial) establece como usos más adecuados en las diferentes zonas de la
ciudad (Alcaldía Mayor de Bogotá D.C - SDP, 2008), En la base de datos se encuentra
expresado como un atributo nominal, es presentado como ACTIVIDAD para los valores
numéricos y CLAS_ACT para los valores nominales. Su presentación numérica y nominal
para los valores presentes en las bases de datos son los contenidos en la Tabla 7.4.7.1.
Tabla 7.4.7. 1 Clasificación atributo actividad
ACTIVIDAD CLAS_ACT
1 AREA_URBANA_INT
2 COMERCIO
4 INDUSTRIAL
5 RESIDENCIAL
7.4.8 Atributo tratamiento
El atributo tratamiento hace referencia al tipo de intervención que más conviene de acuerdo
con el desarrollo del sector y los propósitos del POT (Alcaldía Mayor de Bogotá D.C -
102
SDP, 2007). En la base de datos se encuentra expresado como un atributo nominal, es
presentado como TRATAMIENTO para los valores numéricos y CLAS_TRATAM para
los valores nominales. Su presentación numérica y nominal para los valores presentes en las
bases de datos son los contenidos en la Tabla 7.4.8.1.
Tabla 7.4.8. 1 Clasificación atributo tratamiento
TRATAMIENTO CLAS_TRATAM
2 CONSOLIDACION
3 DESARROLLO
4 MEJORAMIENTO INT
5 RENOVACION_URB
7.4.9 Atributo área de terreno
El atributo área terreno se encuentra en la base de datos expresado como un atributo
numérico, está contenido únicamente en los conjuntos de datos de los predios que no están
bajo el régimen de propiedad horizontal (No_PH). Es presentado como
AREA_DE_TERRENO para los valores numéricos y CLAS_ATERRENO para los valores
nominales. Para su presentación nominal se realizaron cuatro subconjuntos y las respectivas
clasificaciones por medio del método de sturges teniendo para los intervalos las
características presentadas en la Tabla 7.4.9.1 y obteniendo los conjuntos de clasificación
como se muestran en las Tablas 7.4.9.2, 7.4.9.3 , 7.4.9.4 y 7.4.9.5.
103
Tabla 7.4.9. 1Características de la clasificación: atributo área de terreno
Grupos Características Valores
Grupo 1
L 6.92
K 14
XMIN 3
XMAX 100
Grupo 2
L 99.98
K 9
XMIN 100.1
XMAX 1000
Grupo 3
L 1499.98
K 6
XMIN 1000.1
XMAX 10000
Grupo 4
L 47499.97
K 4
XMIN 10000.1
XMAX 200000
Tabla 7.4.9. 2 Clasificación atributo área de terreno, grupo 1
Límite inferior Límite superior CLAS_ATERRENO
3 9.93 11TERR1
9.92 16.86 11TERR2
16.85 23.79 11TERR3
23.78 30.71 11TERR4
30.71 37.64 11TERR5
37.64 44.57 11TERR6
44.57 51.50 11TERR7
51.5 58.43 11TERR8
58.43 65.36 11TERR9
65.35 72.29 11TERR10
72.28 79.21 11TERR11
79.21 86.14 11TERR12
86.14 93.07 11TERR13
93.07 100.00 11TERR14
104
Tabla 7.4.9. 3 Clasificación atributo área de terreno, grupo 2
Límite inferior Límite superior CLAS_ATERRENO
100.1 200.08 12TERR1
200.08 300.07 12TERR2
300.07 400.06 12TERR3
400.06 500.05 12TERR4
500.05 600.04 12TERR5
600.04 700.03 12TERR6
700.03 800.02 12TERR7
800.02 900.01 12TERR8
900.01 1000 12TERR9
Tabla 7.4.9. 4 Clasificación atributo área de terreno, grupo 3
Límite inferior Límite superior CLAS_ATERRENO
1000.1 2500.08 13TERR1
2500.08 4000.06 13TERR2
4000.06 5500.05 13TERR3
5500.05 7000.03 13TERR4
7000.03 8500.01 13TERR5
8500.01 10000 13TERR6
Tabla 7.4.9. 5 Clasificación atributo área de terreno, grupo 4
Límite inferior Límite superior CLAS_ATERRENO
10000.1 57500.075 14TERR1
57500.075 105000.05 14TERR2
105000.05 152500.025 14TERR3
152500.025 200000 14TERR4
7.4.10 Atributo valor metro cuadrado de terreno
El atributo valor metro cuadrado de terreno se encuentra en la base de datos expresado
como un atributo numérico, está contenido únicamente en los conjuntos de datos de los
105
predios que no están bajo el régimen de propiedad horizontal (No_PH). Es presentado
como VALOR_M2_TERRENO para los valores numéricos y CLAS_VALM2TERRENO
para los valores nominales. Para su presentación nominal se clasificó por medio del método
de sturges teniendo para los intervalos las características presentadas en la Tabla 7.4.10.1 y
obteniendo el conjunto de clasificación como se muestran en las Tablas 7.4.10.2.
Tabla 7.4.10. 1 Características de la clasificación: atributo valor metro cuadrado de terreno
Características Valores
L 60000
K 15
XMIN 100000
XMAX 1000000
Tabla 7.4.10. 2 Clasificación atributo valor metro cuadrado de terreno
Límite inferior Límite superior CLAS_VALM2TERRENO
100000 160000 11VAL_M2TERR1
160000 220000 11VAL_M2TERR2
220000 280000 11VAL_M2TERR3
280000 340000 11VAL_M2TERR4
340000 400000 11VAL_M2TERR5
400000 460000 11VAL_M2TERR6
460000 520000 11VAL_M2TERR7
520000 580000 11VAL_M2TERR8
580000 640000 11VAL_M2TERR9
640000 700000 11VAL_M2TERR10
700000 760000 11VAL_M2TERR11
760000 820000 11VAL_M2TERR12
820000 880000 11VAL_M2TERR13
880000 940000 11VAL_M2TERR14
940000 1000000 11VAL_M2TERR15
106
7.4.11 Atributo área construida
El atributo área construida se encuentra en la base de datos expresado como un atributo
numérico. Es presentado como AREA_CONSTRUIDA para los valores numéricos y
CLAS_ACONS para los valores nominales. Para su presentación nominal se realizaron
cuatro subconjuntos y las respectivas clasificaciones por medio del método de sturges
teniendo para los intervalos las características presentadas en la Tabla 7.4.11.1 y obteniendo
los conjuntos de clasificación como se muestran en las Tablas 7.4.11.2, 7.4.11.3, 7.4.11.4 y
7.4.11.5.
Tabla 7.4.11. 1 Características de la clasificación: atributo área construida
Grupos Características Valores
Grupo 1 Valor único 0
Grupo 2
L 66.6
K 15
XMIN 1
XMAX 1000
Grupo 3
L 1499.83
K 6
XMIN 1001
XMAX 10000
Grupo 4
L 4666.33
K 3
XMIN 10001
XMAX 24000
Tabla 7.4.11. 2 Clasificación atributo área construida, grupo 1
Valor CLAS_ACONS
0 11ACONS0
107
Tabla 7.4.11. 3 Clasificación atributo área construida, grupo 2
Límite inferior Límite superior CLAS_ACONS
1.0 67.6 12ACONS1
67.6 134.2 12ACONS2
134.2 200.8 12ACONS3
200.8 267.4 12ACONS4
267.4 334.0 12ACONS5
334.0 400.6 12ACONS6
400.6 467.2 12ACONS7
467.2 533.8 12ACONS8
533.8 600.4 12ACONS9
600.4 667.0 12ACONS10
667.0 733.6 12ACONS11
733.6 800.2 12ACONS12
800.2 866.8 12ACONS13
866.8 933.4 12ACONS14
933.4 1000.0 12ACONS15
Tabla 7.4.11. 4 Clasificación atributo área construida, grupo 3
Límite inferior Límite superior CLAS_ACONS
1001 2500.83 13ACONS1
2500.83 4000.66 13ACONS2
4000.66 5500.5 13ACONS3
5500.5 7000.33 13ACONS4
7000.33 8500.16 13ACONS5
8500.16 10000 13ACONS6
Tabla 7.4.11. 5 Clasificación atributo área construida, grupo 4
Límite inferior Límite superior CLAS_ACONS
10001 14667.33 14ACONS1
14667.33 19333.66 14ACONS2
19333.66 24000 14ACONS3
108
7.4.12 Atributo valor metro cuadrado de construcción
El atributo valor metro cuadrado de construcción se encuentra en la base de datos
expresado como un atributo numérico. Es presentado como
VALOR_M2_CONSTRUCCION para los valores numéricos y CLAS_VAL_M2CONS
para los valores nominales. Para su presentación nominal se realizaron dos clasificaciones,
una de ellas por medio del método de sturges teniendo para el intervalo las características
presentadas en la Tabla 7.4.12.1 y obteniendo dos conjuntos de clasificación como se
muestran en la Tabla 7.4.12.2 y 7.4.12.3.
Tabla 7.4.12. 1 Características de la clasificación: valor metro cuadrado de construcción
Grupos Características Valores
Grupo 1 Valor único 0
Grupo 2
L 130666.66
K 15
XMIN 40000
XMAX 2000000
Tabla 7.4.12. 2 Clasificación atributo valor metro cuadrado de construcción, grupo 1
Valor CLAS_ACONS
0 11VAL_M2CONS0
109
Tabla 7.4.12. 3 Clasificación atributo valor metro cuadrado de construcción, grupo 2
Límite inferior Límite superior CLAS_ACONS
40000.00 170666.67 12VAL_M2CONS1
170666.67 301333.33 12VAL_M2CONS2
301333.33 432000.00 12VAL_M2CONS3
432000.00 562666.67 12VAL_M2CONS4
562666.67 693333.33 12VAL_M2CONS5
693333.33 824000.00 12VAL_M2CONS6
824000.00 954666.67 12VAL_M2CONS7
954666.67 1085333.33 12VAL_M2CONS8
1085333.33 1216000.00 12VAL_M2CONS9
1216000.00 1346666.67 12VAL_M2CONS10
1346666.67 1477333.33 12VAL_M2CONS11
1477333.33 1608000.00 12VAL_M2CONS12
1608000.00 1738666.67 12VAL_M2CONS13
1738666.67 1869333.33 12VAL_M2CONS14
1869333.33 2000000.00 12VAL_M2CONS15
7.4.13 Generación archivos weka
Con el fin de procesar las bases de datos, luego de ser divididas por el atributo de
pertenecer o no al régimen de propiedad horizontal (PH) y organizar cada conjunto de
atributos para contar con expresiones numéricas y nominales de cada uno, se procedio a
organizar cada conjunto de datos en formato .arff obteniendo en total 8 conjuntos de datos
por cada UPZ, tal como se presenta en la figura 7.4.1, denominados conjuntos de datos para
entrenamiento y validación y conjunto de datos para pronóstico, tanto para PH como para
No PH y de cada uno nominales y numéricos. Los archivos son nombrados y cuentan con
las cantidades de datos como se presenta en las Tablas 7.4.13.1, 7.4.13.2 y 7.4.13.3.
110
Tabla 7.4.13. 1 Nombres de archivos .arff, UPZ 73
UPZ PH
UPZ 73
Garcés
Navas
Conjunto de datos para entrenamiento y
validación Conjunto de datos para pronóstico
Nominal Numérico Nominal Numérico GARCES_PH_NOMINAL
_ ENT_14456.arff
GARCES_PH_NUMERICO
_ ENT_14456.arff
GARCES_PH_NOMIN
AL_ PRON_761.arff
GARCES_PH_NUMERICO
_ PRON_761.arff
NO_PH
Conjunto de datos para entrenamiento y
validación Conjunto de datos para pronóstico
Nominal Numérico Nominal Numérico GARCES_NO_PH_NOMI
NAL_
ENT_17875.arff
GARCES_NO_PH_NUMER
ICO_
ENT_17875.arff
GARCES_NO_PH_NO
MINAL_
PRON_941.arff
GARCES_NO_PH_NUMER
ICO_
PRON_941.arff
Tabla 7.4.13. 2 Nombres de archivos .arff, UPZ 65
UPZ PH
UPZ 65
Arborizadora
Conjunto de datos para entrenamiento y
validación Conjunto de datos para pronóstico
Nominal Numérico Nominal Numérico
ARBORIZADORA_PH_ NOMINAL_
ENT_9438.arff
ARBORIZADORA_PH
_
NUMERICO_ENT_9438.arff
ARBORIZADORA_PH_N
OMINAL_PRON_497.arff
ARBORIZADORA_PH_NUMERICO_PRON_
497.arff
NO_PH
Conjunto de datos para entrenamiento y
validación Conjunto de datos para pronóstico
Nominal Numérico Nominal Numérico
ARBORIZADORA_NO_PH_
NOMINAL_
ENT_6423.arff
ARBORIZADORA_NO
_PH_ NUMERICO_
ENT_6423.arff
ARBORIZADORA_NO
_PH_ NOMINAL_
PRON_338.arff
ARBORIZADORA_NO
_PH_ NUMERICO_
PRON_338.arff
Tabla 7.4.13. 3 Nombres de archivos .arff, UPZ 79
UPZ PH
UPZ 79
Calandaima
Conjunto de datos para entrenamiento y
validación Conjunto de datos para pronóstico
Nominal Numérico Nominal Numérico CALANDAIMA_PH_
NOMINAL_ ENT_28824.arff
CALANDAIMA_PH_
NUMERICO_ ENT_28824.arff
CALANDAIMA_PH_
NOMINAL_ PRON_1517.arff
CALANDAIMA_PH_
NUMERICO_ PRON_1517.arff
NO_PH
Conjunto de datos para entrenamiento y
validación Conjunto de datos para pronóstico
Nominal Numérico Nominal Numérico CALANDAIMA_NO_P
H_ NOMINAL__
ENT_2636.arff
CALANDAIMA_NO_PH
_ NUMERICO__
ENT_2636.arff
CALANDAIMA_NO_PH
_ NOMINAL_
PRON_139.arff
CALANDAIMA_NO_PH
_ NUMERICO__
PRON_139.arff
111
7.5 Estructura del experimento, generación de resultados mediante método de
árboles de decisión y método convencional
Al tener las bases de datos, depuradas, organizadas y en formato .arff, se procedio a realizar
los experimentos empleando el software WEKA siguiendo el proceso presentado en la
Figura 7.5.1.
Figura 7.5. 1 Elaboración del experimento, etapa de entrenamiento y validación
Como se presenta en la figura 7.5.1, la etapa de entrenamiento y validación del experimento
consiste en procesar los datos mediante los clasificadores ID3, J48 y M5P, cada uno
validado con las variaciones de los métodos Cross validation y Percentage Split, teniendo
de esta manera seis validaciones del árbol generado por cada método, los resultados
obtenidos del software, tras el procesamiento constan de un árbol, que se puede visualizar
en el caso del método M5P con sus respectivas reglas, visibles en los tres métodos y las
características presentadas en la Tabla 7.5.1.
112
Figura 7.5. 2 Elaboración del experimento, etapa de pronóstico
Tabla 7.5. 1 Resultados obtenidos según método de clasificación
Luego de elaborar la primera etapa del experimento se inició la segunda etapa, que
consistió en realizar un pronóstico de cada uno de los clasificadores, para esto se hizo uso
del conjunto de datos reservado desde un inicio para este propósito y se empleó el método
Método de
clasificación Resultados obtenidos
ID3
Instancias
Cantidad de atributos
Instancias clasificadas correctamente
Instancias clasificadas incorrectamente
Estadístico Kappa
Media del error absoluto
Raíz del error medio cuadrático
Error absoluto relativo
Raíz del error cuadrático relativo
Instancias sin clasificar
J48
Número de hojas
Tamaño del árbol
Instancias
Atributos
Instancias clasificadas correctamente
Instancias clasificadas incorrectamente
Estadístico Kappa
Media del error absoluto
Raíz del error medio cuadrático
Error absoluto relativo
Raíz del error cuadrático relativo
M5P
Instancias
Atributos
Error absoluto relativo
Raíz del error cuadrático relativo
Número de reglas
Coeficiente de correlación
Media del error absoluto ($)
Raíz del error medio cuadrático ($)
113
de validación llamado Supplied test set, como se muestra en la Figura 7.5.2, que permitió
elaborar el árbol de decisión con los datos de entrenamiento y realizar la validación con un
conjunto de datos diferentes, obteniendo de esta forma el pronóstico del árbol elaborado por
los métodos de clasificación ID3, J48 y M5P.
7.6 Análisis de resultados y efectividad
Con el objetivo de organizar los resultados obtenidos y poder realizar el respectivo análisis
de los mismos, se relacionaron los métodos de validación comparables entre sí según sus
características, obteniendo finalmente ocho conjuntos de resultados por UPZ, cuatro del
conjunto PH y cuatro del conjunto No_PH, cada uno de estos correspondiente a una
selección del método de entrenamiento y validación para valores nominales y el segundo
correspondiente a una selección del método de entrenamiento y validación para valores
numéricos, como se representa en la Figura 7.6. 1 y cada uno con sus respectivos datos del
pronóstico.
Figura 7.6. 1 Proceso de selección de métodos
114
A fin de verificar que tan efectivo es el método de árboles de decisión frente al método de
regresión lineal, para los conjuntos de datos PH y No_PH de cada UPZ, se aplicó el método
de regresión lineal con las mismas validaciones empleadas para los métodos de árboles de
decisión y el respectivo pronóstico mediante la validación supplied test set, luego de lo cual
se eligió la validación con mejores resultados, como se presenta en la Figura 7.6.2,
comparable con el método M5P que trabaja de igual manera que la regresión lineal, con
valores numéricos. Finalmente, con el propósito de comparar cada dato observado con el
pronóstico generado de la regresión lineal y de los resultados generados con el método de
árboles de decisión, se programaron cada conjunto de reglas generadas por el método M5P
con sus respectivas clasificaciones en Excel, y la regresión lineal obtenida para cada
conjunto de datos, obteniendo finalmente tres conjuntos de datos comparables entre si y que
permiten identificar su variación respecto a los valores observados.
Figura 7.6. 2 Proceso de selección del método de validación para la Regresión lineal
115
8. Análisis de resultados
Con el fin de presentar los resultados obtenidos para cada conjunto de datos y realizar el
respectivo análisis por cada Unidad de Planeamiento Zonal trabajada, 73 Garcés Navas, 66
Arborizadora y 79 Calandaima, se realizaron tablas resumen que permitieran visualizar la
información obtenida de cada experimento y de la posterior selección de manera
simultánea. Dado que para determinar la efectividad del método de árboles de decisión se
realizó una comparación con el método de regresión lineal, las tablas de selección final
presentan la información, en sus últimas columnas del método de validación seleccionado
para la regresión lineal y los datos del pronóstico respectivamente.
8.1 Resultados UPZ 73 Garcés Navas, Conjunto de datos PH
Al procesar los datos de PH de la UPZ 73 Garcés Navas, con las características descritas en
la Tabla 8.1.1, se obtuvieron los resultados descritos en la Tabla 8.1.2.
Tabla 8.1. 1 Características experimento: Garcés Navas, PH ID3- J48 - M5P - RL
EVALUACIÓN ÁRBOL DE DECISIÓN
CLASIFICADOR ID3 – J48 - M5P - RL
CARACTERÍSTICAS DE LOS DATOS
UPZ GARCÉS NAVAS
REGLAMENTO PH
DATOS MUESTRA 14456
DATOS PRONÓSTICO 761
Luego de seguir el procedimiento descrito en el capítulo 7, procesando los datos mediante
los métodos de entrenamiento y validación, se obtuvieron los resultados presentados en los
Anexos 1, 3, 6 y 8, al realizar las debidas selecciones (Anexos 2, 4, 7 y 9) y comparaciones
116
(Anexos 5 y 10), se llegó a la selección final presentada en la Tabla 8.1.2, los resultados de
cada experimento describen la siguiente información:
J48 Split 80:
El experimento de entrenamiento y validación se realizó con el método de clasificación J48
y validado mediante el método Percentage Split con el 80% de datos para el entrenamiento
y el 20% restante para la validación, seleccionados aleatoriamente del conjunto de datos de
PH con valores nominales.
Las características del tamaño del árbol generado fueron de 631 hojas y un tamaño de 713
niveles.
Este experimento dio como resultado 2406 instancias clasificadas correctamente, es decir
un 83,2238% de las instancias, siendo un porcentaje significativo en comparación con las
485 que se clasificaron incorrectamente y corresponden a un 16,7762% del total de las
instancias.
El estadístico Kappa por estar cercano a 1 con un valor de 0.8051, permite considerar que el
experimento obtuvo un buen grado de concordancia al ser evaluado con el 20% de los
datos.
El error absoluto medio es menor que 0,01, con un valor de 0,016, permite deducir que los
resultados obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,0904
mayor que el anterior, deja ver como este error castiga fuertemente el hecho de que el
16,77% de las instancias no hayan sido clasificadas correctamente.
Finalmente, el error absoluto relativo, con un 26,8669% es aceptable, por dejar un
73,1331% confiable, no obstante no es lo suficientemente bueno y por su lado, la raíz del
117
error cuadrático relativo, aunque fue grande, con un valor de 52,4048%, fue menor que los
métodos con los que se le comparó.
J48 Supplied
El experimento de pronóstico se realizó por medio del método J48 con un conjunto de
14456 datos para el entrenamiento y un conjunto de 761 con el método Supplied test set
datos para el pronóstico, ambos conjuntos compuestos de valores nominales.
El árbol generado fue de 631 hojas.
Este experimento de pronóstico dio como resultado 640 instancias clasificadas
correctamente, es decir un 84,099% de las instancias, siendo un porcentaje significativo en
conparación con las 121 que se clasificaron incorrectamente y corresponden a un 15,9001%
del total de las instancias, mostrando mejores resultados el pronóstico que el experimento
como tal.
El estadístico Kappa por estar cercano a 1 con un valor de 0.8152, permite considerar que el
experimento obtuvo un buen grado de concordancia al ser evaluado con 761 datos.
El error absoluto medio es menor que 0,01, con un valor de 0,0152, permite deducir que los
resultados obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,0875
mayor que el anterior, deja ver como este error castiga fuertemente el hecho de que el
15,9001% de las instancias no hayan sido clasificadas correctamente, no obstante se
mantiene el hecho de que muestra mejores resultados que el experimento anteriormente
descrito.
Finalmente, el error absoluto relativo, con un 25,543% es aceptable, por dejar un 74,4570%
confiable, y por su lado, la raíz del error cuadrático relativo, aunque fue grande, con un
118
valor de 50,6862%, fue menor que los métodos con los que se le comparó y menor casi dos
puntos que el experimento en si (J48 Split 80).
M5P Split 66
El experimento de entrenamiento y validación fue realizado con el método de clasificación
M5P y validado mediante el método Percentage Split con el 66% de datos para el
entrenamiento y el 34% restante para la validación, datos seleccionados aleatoriamente del
conjunto de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo, de 12,3738% el cual es bueno, al
compararlo con el obtenido del experimento de J48 con un error casi del doble, y por su
lado, la raíz del error cuadrático relativo, aunque fue significativo, con un valor de
23,7862%, fue menor que los métodos con los que se le comparó y menor al obtenido del
experimento J48.
El experimento desarrolló 143 reglas dando un coeficiente de correlación de 0,9713, que
por su cercanía a 1 indica una buena relación entre el conjunto de entrenamiento y el
conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un
valor de 33965,212, considerado aceptable, mientras que la raíz del error medio cuadrático
dio como resultado un error de 137766,6613 unidades monetarias, un valor menos
aceptable, pero menor a los valores con los que se le comparó.
M5P Supplied
El experimento de pronóstico M5P Supplied se realizó por medio del método M5P para el
entrenamiento con un conjunto de 14456 datos y por el método Supplied test set con un
119
conjunto de 761 datos para el pronóstico, ambos conjuntos compuestos de valores
numéricos.
Del experimento se tuvo un error absoluto relativo, de 27,6967% mayor que el obtenido del
experimento de J48, y, la raíz del error cuadrático relativo, fue bastante grande, 260,9827%.
El experimento desarrolló 143 reglas y generó un coeficiente de correlación de 0,377,
indicando una relación positiva entre el conjunto de entrenamiento y el conjunto de
validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un
valor de 73043,4499, casi el doble del experimento M5P, y la raíz del error medio
cuadrático dio como resultado un error de 1414653,9701 unidades monetarias, un valor
muy elevado a comparación de los experimentos anteriores.
RL Cross 20
El experimento de entrenamiento y validación fue realizado con el método de Regresión
lineal y validado mediante el método Cross validation con 20 folds (particiones) del
conjunto de datos de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 79,8464% bastante alto y el mayor de
todos los experimentos allí comparados, por su lado, la raíz del error cuadrático relativo fue
también bastante elevada, con un valor de 78,3007%.
El experimento tuvo un coeficiente de correlación de 0,622, que por su distancia a 1 indica
una relación positiva entre el conjunto de entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un
valor de 221802,7789 y la raíz del error medio cuadrático dio como resultado un error de
459841,9517 unidades monetarias, valores elevados.
120
RL Supplied
El experimento de pronóstico fue realizado por medio del método de Regresión lineal con
un conjunto de 14456 datos y validado mediante el método Supplied test set con un
conjunto con 761 datos, ambos conjuntos de datos de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 86,0071% bastante alto y el mayor de
todos los experimentos de pronóstico allí comparados, por su lado, la raíz del error
cuadrático relativo fue también bastante elevada, con un valor de 81,1613%.
El experimento tuvo un coeficiente de correlación de 0,602, semejante al del experimento
RL Cross 20 y que por su distancia a 1 indica una relación positiva entre el conjunto de
entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un
valor de 226823,3249 y como resultado de la raíz del error medio cuadrático se tuvo un
error de 439934,2052 unidades monetarias, valores elevados, pero semejantes a los
obtenidos en RL Cross 20.
Como se puede observar en la Tabla 8.1.3, el experimento de Árbol de decisión M5P Split
66 mostró mejores resultados que el de Regresión Lineal Cross 20, acercándose más el
primero a los valores observados como se muestra en las Figuras que contienen sus
comparaciones en los Anexos 11, 12 y 13 con el conjunto total de datos y visualizados de
una manera más detallada con el conjunto de datos de pronóstico en las Figuras 8.1.1, 8.1.2
y 8.1.3, en donde se observa, en la Figura 8.1.1 una proximidad relevante del pronóstico del
experimento M5P Split 66 con los valores observados, incluso en los valores más péqueños
y en los más elevados, mientras que el método de regresión lineal presenta diferente
variaciones y no alcanza a contemplar los valores de los extremos, como se contempla en la
121
Figura 8.1.2, adicionalmente, al observar la comparación del error absoluto relativo y de la
raíz del error cuadrático relativo en las Tablas 8.1.2 y 8.1.3, se puede apreciar que los de
menor porcentaje son los correspondientes al experimento M5P Split 66, con una diferencia
de más de 50 puntos con relación al experimento RL cross 20.
Tabla 8.1. 2 Comparación de errores de la selección de resultados finales, experimento: Garcés Navas,
PH - J48 – M5P - RL
122
Tabla 8.1. 3 Selección de resultados finales, experimento: Garcés Navas, PH - J48 – M5P - RL
ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO ENT-VAL PRONÓSTICO
EXPERIMENTO J48_SPLIT_80 J48_SUPPLIED M5P_SPLIT_66 M5P_SUPPLIED RL_CROSS_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_EN
T_14456
PH_NOMINAL_ENT_14456
-PRON_761
PH_NUMERICO_EN
T_14456
PH_NUMERICO_ENT_14456
-PRON_761
PH_NUMERICO_EN
T_14456
PH_NUMERICO_ENT_14456
-PRON_761
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 14456 761 14456 761 14456 761
CLASIFICADOR J48 J48 M5P M5P REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPLIED TEST SET
CARACTERÍSTICA TEST % 80
% 66 14456 761 FOLDS 20 14456 761
NÚMERO DE HOJAS 631 631
TAMAÑO DEL ARBOL 713
INSTANCIAS 14456 2891
14456 4915 761 14456 761
ATRIBUTOS 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS
CORRECTAMENTE 2406 83,2238% 640 84099.00%
INSTANCIAS CLASIFICADAS
INCORRECTAMENTE 485 16,7762% 121 15,9001%
ESTADÍSTICO KAPPA 0,8051 0,8152
ERROR ABSOLUTO MEDIO 0,016 0,0152
RAÍZ DEL ERROR MEDIO
CUADRÁTICO 0,0904 0,0875
ERROR ABSOLUTO RELATIVO 26,8669% 25,543% 12,3738% 27,6967% 79,8469% 86,0071%
RAÍZ DEL ERROR CUADRÁTICO
RELATIVO 52,4048% 50,6862% 23,7862% 260,9827% 78,3007% 81,1613%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
143 143
COEFICIENTE DE CORRRELACIÓN
0,9713 0,3777 0,622 0,6002
MEDIA DEL ERROR ABSOLUTO
($) 33965,212 73043,4499 221802,7789 226823,3249
RAÍZ DEL ERROR MEDIO
CUADRÁTICO ($) 137766,6613 1414653,9701 459841,9517 439934,2052
SELECCIÓN 1 X
X
X
SELECCIÓN 2 X
X
SELECCIÓN FINAL X
X
123
Figura 8.1. 1 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 66
$.0.00
$1000000.0.00
$2000000.0.00
$3000000.0.00
$4000000.0.00
$5000000.0.00
$6000000.0.00
$7000000.0.00
$8000000.0.00
$9000000.0.00
1
20
39
58
77
96
11
5
13
4
15
3
17
2
19
1
21
0
22
9
24
8
26
7
28
6
30
5
32
4
34
3
36
2
38
1
40
0
41
9
43
8
45
7
47
6
49
5
51
4
53
3
55
2
57
1
59
0
60
9
62
8
64
7
66
6
68
5
70
4
72
3
74
2
76
1
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas PH Valor M2 de Construcción para Datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción M5P (Percentage Split_66)
124
Figura 8.1. 2 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Cross 20
-$2000000.0.00
-$1000000.0.00
$.0.00
$1000000.0.00
$2000000.0.00
$3000000.0.00
$4000000.0.00
$5000000.0.00
$6000000.0.00
$7000000.0.00
$8000000.0.00
$9000000.0.00
1
20
39
58
77
96
11
5
13
4
15
3
17
2
19
1
21
0
22
9
24
8
26
7
28
6
30
5
32
4
34
3
36
2
38
1
40
0
41
9
43
8
45
7
47
6
49
5
51
4
53
3
55
2
57
1
59
0
60
9
62
8
64
7
66
6
68
5
70
4
72
3
74
2
76
1
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas PH Valor M2 de Construcción para Datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción Regresión Lineal (Cross_20)
125
Figura 8.1. 3 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Split 66 y Regresión
Lineal Cross 20
-$2000000.0.00
-$1000000.0.00
$.0.00
$1000000.0.00
$2000000.0.00
$3000000.0.00
$4000000.0.00
$5000000.0.00
$6000000.0.00
$7000000.0.00
$8000000.0.00
$9000000.0.00
1
20
39
58
77
96
11
5
13
4
15
3
17
2
19
1
21
0
22
9
24
8
26
7
28
6
30
5
32
4
34
3
36
2
38
1
40
0
41
9
43
8
45
7
47
6
49
5
51
4
53
3
55
2
57
1
59
0
60
9
62
8
64
7
66
6
68
5
70
4
72
3
74
2
76
1
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas PH Valor M2 de Construcción para Datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción Regresión Lineal (Cross_20)
Valor M2 de Construcción M5P (Percentage Split_66)
126
8.2 Resultados UPZ 73 Garcés Navas, Conjunto de datos NO_PH
Al procesar los datos de NO_PH de la UPZ 73 Garcés Navas, con las características
descritas en la Tabla 8.2.1, se obtuvieron los resultados descritos en la Tabla 8.2.2.
Tabla 8.2. 1 Características experimento: Garcés Navas, NO_PH ID3 - J48 - M5P - RL
EVALUACIÓN ÁRBOL DE DECISIÓN
CLASIFICADOR ID3 –J48 - M5P - RL
CARACTERÍSTICAS DE LOS DATOS
UPZ GARCÉS NAVAS
REGLAMENTO NO_PH
DATOS MUESTRA 17875
DATOS PRONÓSTICO 941
Luego de seguir el procedimiento descrito en el capítulo 7, procesando los datos mediante
los métodos de entrenamiento y validación, se obtuvieron los resultados presentados en los
Anexos 14, 16, 19 y 21, al realizar las debidas selecciones (Anexos 15, 17, 20 y 22) y
comparaciones (Anexos 18 y 23), se llegó a la selección final presentada en la Tabla 8.1.2,
los resultados de cada experimento describen la siguiente información:
J48 Split 80:
El experimento J48 Split 80, de entrenamiento y validación fue realizado con el método de
clasificación J48 y validado mediante el método Percentage Split con el 80% de datos para
el entrenamiento y el 20% restante para la validación, siendo estos seleccionados
aleatoriamente del conjunto de datos de NO_PH con valores nominales.
Las características del tamaño del árbol generado fueron de 1775 hojas y un tamaño de
1904 niveles.
Este experimento dio como resultado 3035 instancias clasificadas correctamente, es decir
un 84,8951% de las instancias, siendo un porcentaje significativo en conparación con las
127
540 que se clasificaron incorrectamente y corresponden a un 15,1049% del total de las
instancias.
El estadístico Kappa por estar cercano a 1 con un valor de 0.7483, permite considerar que el
experimento obtuvo un buen grado de concordancia al ser evaluado con el 20% de los
datos, siendo el mejor de los experimentos con los que se compararon en donde se
obtuvieron resultados de 0,7457, 0,7469 y 0,7551 (Anexo 18).
El error absoluto con un valor de 0,0418, permite deducir que los resultados obtenidos son
buenos y la raíz del error medio cuadrático con un valor de 0,1514 mayor que el anterior,
deja ver como este error castiga fuertemente el hecho de que el 15,1049% de las instancias
no hayan sido clasificadas correctamente.
Finalmente, el error absoluto relativo, con un 34,0816% es aceptable, por dejar un
65,9184% confiable, no obstante no es lo suficientemente bueno y por su lado, la raíz del
error cuadrático relativo, aunque fue grande, con un valor de 61,0425%, fue menor que los
métodos con los que se le comparó, correspondientes a valores mayores en cuatro y cinco
unidades (Anexo 18).
J48 Supplied
El experimento de pronóstico se realizó por medio del método J48 para con un conjunto de
17875 datos para el entrenamiento y el método Supplied test set con un conjunto de 94
datos para el pronóstico, ambos conjuntos compuestos de valores nominales.
El árbol generado fue de 1775 hojas.
Este experimento de pronóstico dio como resultado 807 instancias clasificadas
correctamente, es decir un 85,7598% de las instancias, siendo un porcentaje significativo en
128
conparación con las 134 que se clasificaron incorrectamente y corresponden a un 14,2402%
del total de las instancias, mostrando mejores resultados el experimento J48 Split 80.
El estadístico Kappa por estar cercano a 1 con un valor de 0.7577, permite considerar que el
experimento obtuvo un buen grado de concordancia al ser evaluado con 941 datos.
El error absoluto medio, con un valor de 0,0411, permite deducir que los resultados
obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,1488 mayor
que el anterior, deja ver como este error castiga fuertemente el hecho de que el 14,2402%
de las instancias no fueron clasificadas correctamente.
Finalmente, el error absoluto relativo, con un 33,9441% es aceptable, por dejar un
66,0559% confiable, no obstante no es lo suficientemente bueno y por su lado, la raíz del
error cuadrático relativo, aunque fue grande, con un valor de 60,7461%, fue menor que el
obtenido para el pronóstico del experimento ID3con 7 puntos más (Anexo 18).
M5P Split 80
El experimento de entrenamiento y validación fue realizado con el método de clasificación
M5P y validado mediante el método Percentage Split con el 80% de datos para el
entrenamiento y el 20% restante para la validación, seleccionados aleatoriamente del
conjunto de datos deNO_ PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo, de 27,6891% el cual es bueno, al
compararlo con el obtenido del experimento de J48 con 4 puntos más, por su parte, la raíz
del error cuadrático relativo, fue significativo, con un valor de 55,2316%, fue menor que
los métodos con los que se le comparó, especialmente con el método de Regresión lineal,
en donde se obtuvieron valores de 62,317% y 62,8131% (Anexo 23).
129
El experimento desarrolló 190 reglas dando un coeficiente de correlación de 0,8391, que
por su cercanía a 1 indica una relación positiva alta entre el conjunto de entrenamiento y el
conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un
valor de 21789,3356, considerado bueno, mientras que la raíz del error medio cuadrático
dio como resultado un error de 56747,4831 unidades monetarias, un valor menos aceptable,
pero menor a los valores con los que se le comparó.
M5P Supplied
El experimento de pronóstico M5P Supplied se realizó por medio del método M5P con un
conjunto de 17875 datos para el entrenamiento y con el método Supplied test set para el
pronóstico con un conjunto de 941 datos, ambos conjuntos compuestos de valores
numéricos.
Del experimento se tuvo un error absoluto relativo, de 25,8274% el cual es bueno y 25
puntos menor que el obtenido para el pronóstico del método de regresión lineal con
52,2463% (Tabla 8.2.2), la raíz del error cuadrático relativo, tuvo un valor de 46,0268% un
error representativo, pero que no sobrepasa el umbral del 50%.
El experimento desarrolló 190 reglas dando un coeficiente de correlación de 0,8882, que
por su cercanía a 1 indica una relación lineal positiva significativa entre el conjunto de
entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un
valor de 20101,7549 y la raíz del error medio cuadrático dio como resultado un error de
45954,4706 unidades monetarias, mostrando conformidad con los errores relativos
obtenidos.
130
RL Cross 20
El experimento de entrenamiento y validación fue realizado con el método de Regresión
lineal y validado mediante el método Cross validation con 20 folds (particiones) del
conjunto de datos de NO_PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 51,5979% no muy alto, pero si el
mayor de los experimentos comparados en la Tabla 8.2.2, por su lado, la raíz del error
cuadrático relativo fue mayor, con un valor de 62,317%.
El experimento tuvo un coeficiente de correlación de 0,7821 que por su distancia a 1 indica
que existe relación positiva entre el conjunto de entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un
valor de 40755,3571 y la raíz del error medio cuadrático dio como resultado un error de
63687,9119 unidades monetarias, valores elevados y mayores a los demás resultados
obtenidos.
RL Supplied
El experimento de pronóstico fue realizado con el método de Regresión lineal con un
conjunto de 17875 y validado mediante el método Supplied test set por un conjunto con
761 datos, ambos conjuntos de datos de NO_PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 52,2463%, un valor elevado y el
mayor de todos los experimentos de pronóstico allí comparados (Tabla8.2.2), por su lado,
la raíz del error cuadrático relativo fue también elevada, con un valor de 62,6413%.
131
El experimento tuvo un coeficiente de correlación de 0,7795, semejante al del experimento
que por su distancia a 1 indica una relación positiva entre el conjunto de entrenamiento y el
conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un
valor de 40663,8247 y la raíz del error medio cuadrático dio como resultado un error de
62540,4607 unidades monetarias, valores significativos y los más elevados de las
selecciones y comparaciones presentadas para este conjunto de datos.
Como se puede observar en la Tabla 8.2.3, el experimento de Árbol de decisión M5P Split
80 mostró mejores resultados que el de Regresión Lineal Cross 20, acercándose más el
primero a los valores observados como se muestra en las Figuras que contienen sus
comparaciones en los Anexos 24, 25 y 26 con el conjunto total de datos y visualizados de
una manera más detallada con el conjunto de datos de pronóstico en las Figuras 8.2.1, 8.2.2
y 8.2.3, en donde se observa, en la Figura 8.2.1 una buena relación del pronóstico del
experimento M5P Split 66 con los valores observados, aunque no alcanza a representar los
valores más péqueños y los más elevados, mientras que el método de regresión lineal
presenta mayores variaciones y no alcanza a contemplar los valores de los extremos, como
se contempla en la Figura 8.2.2, adicionalmente, al observar la comparación del error
absoluto relativo y de la raíz del error cuadrático relativo en las Tablas 8.2.2 y 8.2.3, se
puede apreciar que los de menor porcentaje son los correspondientes al experimento M5P
Split 66.
132
Tabla 8.2. 2 Comparación de errores de la selección de resultados finales, experimento: Garcés Navas,
NO_PH - J48 – M5P - RL
133
Tabla 8.2. 3 Selección de resultados finales, experimento: Garcés Navas, NO_PH - J48 – M5P - RL
ENT-VAL PRONÓSTICO ENT-VAL PRONÓSTICO ENT-VAL PRONÓSTICO
EXPERIMENTO J48_SPLIT_80 J48_SUPPLIED M5P_SPLIT_80 M5P_SUPPLIED RL_CROSS_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_ENT_1
7875-PRO_941 NO_PH_NUMERICO_
ENT_17875 NO_PH_NUMERICO_ENT_1
7875-PRO_941 NO_PH_NUMERICO_
ENT_17875 NO_PH_NUMERICO_ENT_1
7875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 941 17875 17875 941 17875 17875 941
CLASIFICADOR J48 J48 M5P M5P REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPPLIED TEST SET
CARACTERÍSTICA TEST % 80 % 80 FOLDS 20
NÚMERO DE HOJAS 1775 1775
TAMAÑO DEL ARBOL 1904 1904
INSTANCIAS 17875 3575 941 18875 3575 941 17875 941
ATRIBUTOS 11 11 11 11 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE
3035 84,8951
% 807 85,7598%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
540 15,1049
% 134 14,2402%
ESTADÍSTICO KAPPA 0,7483 0,7577
MEDIA DEL ERROR ABSOLUTO 0,0418 0,0411
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1514 0,1488
ERROR ABSOLUTO RELATIVO 34,0816% 33,9441% 27,6891% 25,8274% 51,5979% 52,2463%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
61,0425% 60,7461% 55,2316% 46,0286% 62,317% 62,6413%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 190 190
COEFICIENTE DE CORRRELACIÓN
0,8391 0,8882 0,7821 0,7795
MEDIA DEL ERROR ABSOLUTO ($)
21789,3356 20101,7549 40755,3571 40663,8247
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
56747,4831 45954,4706 63687,9119 62540,4607
SELECCIÓN 1 X X X
SELECCIÓN 2 X X X
SELECCIÓN FINAL X X
134
Figura 8.2. 1 Garcés Navas –NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 80
$000
$100.000
$200.000
$300.000
$400.000
$500.000
$600.000
$700.000
$800.000
$900.000
$1000.000
1
23
45
67
89
11
1
13
3
15
5
17
7
19
9
22
1
24
3
26
5
28
7
30
9
33
1
35
3
37
5
39
7
41
9
44
1
46
3
48
5
50
7
52
9
55
1
57
3
59
5
61
7
63
9
66
1
68
3
70
5
72
7
74
9
77
1
79
3
81
5
83
7
85
9
88
1
90
3
92
5
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas NO_PH Valor M2 de Costrucción para Datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P-Split_80)
135
Figura 8.2. 2 Garcés Navas - NO_ PH, Comparación Valor m2 de construcción observado y método regresión lineal Cross 20
$000
$100.000
$200.000
$300.000
$400.000
$500.000
$600.000
$700.000
$800.000
$900.000
$1000.000
1
23
45
67
89
11
1
13
3
15
5
17
7
19
9
22
1
24
3
26
5
28
7
30
9
33
1
35
3
37
5
39
7
41
9
44
1
46
3
48
5
50
7
52
9
55
1
57
3
59
5
61
7
63
9
66
1
68
3
70
5
72
7
74
9
77
1
79
3
81
5
83
7
85
9
88
1
90
3
92
5
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas NO_PH Valor M2 de Costrucción para Datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20
136
Figura 8.2. 3 Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Split 80 y Regresión
Lineal Cross 20
$000
$100.000
$200.000
$300.000
$400.000
$500.000
$600.000
$700.000
$800.000
$900.000
$1000.000
1
23
45
67
89
11
1
13
3
15
5
17
7
19
9
22
1
24
3
26
5
28
7
30
9
33
1
35
3
37
5
39
7
41
9
44
1
46
3
48
5
50
7
52
9
55
1
57
3
59
5
61
7
63
9
66
1
68
3
70
5
72
7
74
9
77
1
79
3
81
5
83
7
85
9
88
1
90
3
92
5
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas NO_PH Valor M2 de Costrucción para datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20
Valor M2 de Construcción (M5P-Split_80)
137
8.3 Resultados UPZ 65 Arborizadora, Conjunto de datos PH
Al procesar los datos de PH de la UPZ 65 Arborizadora, con las características descritas en
la Tabla 8.3.1, se obtuvieron los resultados descritos en la Tabla 8.3.2.
Tabla 8.3. 1. Características experimento: Arborizadora, PH ID3-J48–M5P-RL
EVALUACIÓN ÁRBOL DE DECISIÓN
CLASIFICADOR ID3-J48-M5P-RL
CARACTERÍSTICAS DE LOS DATOS
UPZ ARBORIZADORA
REGLAMENTO PH
DATOS MUESTRA 9438
DATOS PRONÓSTICO 497
Luego de seguir el procedimiento descrito en el capítulo 7, procesando los datos mediante
los métodos de entrenamiento y validación, se obtuvieron los resultados presentados en los
Anexos 27, 29, 32 y 34, al realizar las debidas selecciones (Anexos 28, 30, 33 y 35) y
comparaciones (Anexos 31 y 36), se llegó a la selección final presentada en la Tabla 8.3.2,
los resultados de cada experimento describen la siguiente información:
ID3 Cross 20:
El experimento de entrenamiento y validación fue realizado con el método de clasificación
ID3 y validado mediante el método Cross validation con con 20 particiones del conjunto de
datos de PH con valores nominales.
Este experimento dio como resultado 7787 instancias clasificadas correctamente, es decir
un 82,5056% de las instancias, siendo un porcentaje significativo en conparación con las
1631 que se clasificaron incorrectamente y corresponden a un 17,2812% del total de las
instancias.
138
El estadístico Kappa por estar cercano a 1 con un valor de 0.7814, permite considerar que el
experimento obtuvo un buen grado de concordancia.
El error absoluto medio, con un valor de 0,0152, permite deducir que los resultados
obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,0883 mayor
que el anterior, deja ver como este error castiga fuertemente el hecho de que el 17,2812%
de las instancias no hayan sido clasificadas correctamente.
Finalmente, el error absoluto relativo, con un 30,9303% es aceptable, por dejar un
69,0697% confiable, no obstante no es lo suficientemente bueno y por su lado, la raíz del
error cuadrático relativo, aunque fue grande, con un valor de 56,2736%, fue menor que los
métodos con los que se le comparó.
ID3 Supplied
El experimento de pronóstico se realizó por medio del método ID3 con un conjunto de
9438 datos para el entrenamiento y un el método Supplied test set con un conjunto de 497
datos para el pronóstico, ambos conjuntos compuestos de valores nominales.
Este experimento de pronóstico dio como resultado 417 instancias clasificadas
correctamente, es decir un 83,9034% de las instancias, siendo un porcentaje significativo en
conparación con las 79 que se clasificaron incorrectamente y corresponden a un 15,8954%
del total de las instancias, mostrando resultados semejantes al experimento.
El estadístico Kappa por estar cercano a 1 con un valor de 0.7981, permite considerar que el
experimento obtuvo un buen grado de concordancia al ser evaluado con 79 datos.
El error absoluto medio, con un valor de 0,0147, permite deducir que los resultados
obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,0855 mayor
139
que el anterior, deja ver como este error castiga fuertemente el hecho de que el 15,8954%
de las instancias no hayan sido clasificadas correctamente.
Finalmente, el error absoluto relativo, con un 29,8586% es aceptable, por dejar un
70,1414% confiable, referente, la raíz del error cuadrático relativo, fue grande, con un valor
de 54,5592%, siendo mayor que los resultados para el experimento M5P.
M5P Cross 20
El experimento de entrenamiento y validación fue realizado con el método de clasificación
M5P y validado mediante el método Cross validation con 20 particiones, seleccionadas
aleatoriamente del conjunto de datos de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo, de 9,7947% el menor al compararlo con
el obtenido del experimento de ID3 y los resultados de la regresión lineal (Tabla 8.3.2), y la
raíz del error cuadrático relativo, aunque fue significativo, con un valor de 13,4237%, fue
menor que los resultados de los métodos con los que se le comparó.
El experimento desarrolló 107 reglas y tuvo como resultado un coeficiente de correlación
de 0,9911, que por su cercanía a 1 indica una relación positiva alta entre el conjunto de
entrenamiento y el conjunto de validación.
El error medio absoluto, dado en unidades monetarias para este caso, obtuvo un valor de
15259,6423, el menor de los experimentos realizadados y la raíz del error medio cuadrático
dio como resultado un error de 31623,8977 unidades monetarias, un valor menor que el
obtenido del experimento de regresión lineal, en el que se obtuvo un valor de 177411,173
unidades monetarias.
140
M5P Supplied
El experimento de pronóstico M5P Supplied se realizó por medio del método M5P para el
entrenamiento con un conjunto de 9438 datos y el método Supplied test set para el
pronóstico con un conjunto de 497 datos, ambos conjuntos compuestos de valores
numéricos.
Del experimento se tuvo un error absoluto relativo de 9,2602% un buen resultado, y la raíz
del error cuadrático relativo obtenido fue de 10,8541%.
El experimento desarrolló 107 reglas dando un coeficiente de correlación de 0,9943, que
por su cercanía a 1 indica una relación positiva alta entre el conjunto de entrenamiento y el
conjunto de validación, resultados que corroboran los porcentajes de error obtenidos.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 14004,6511, y para la raíz del error medio cuadrático se obtuvo un resultado de
24848,6865 unidades monetarias, valores que permiten calificar bien el experimento.
RL Split 66
El experimento RL Split 66 de entrenamiento y validación fue realizado con el método de
Regresión lineal y validado mediante el método Percentage Split, con un conjunto de datos
de 66% para el entrenamiento y 34% para la validación, ambos conjuntos pertenecientes al
grupo de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 80,5874% bastante alto y el mayor de
todos los experimentos allí comparados, por su lado, la raíz del error cuadrático relativo fue
también elevada, con un valor de 76,2215%.
141
El experimento tuvo un coeficiente de correlación de 0,6481, que por su distancia a 1 indica
una relación positiva entre el conjunto de entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 125351,2858 y la raíz del error medio cuadrático dio como resultado un error
de 179339,9785 unidades monetarias, valores elevados y distantes de los obtenidos en los
experimentos con los que se le compararon (Tabla 8.3.2).
RL Supplied
El experimento de pronóstico fue realizado con el método de Regresión lineal con un
conjunto de 9438 datos y validado mediante el método Supplied test set, con un conjunto
de 497 datos, ambos conjuntos de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 82,7353% un porcentaje alto y el
mayor de todos los experimentos de pronóstico allí comparados, adicionalmente, la raíz del
error cuadrático relativo fue también bastante elevada, con un valor de 77,4944%.
El experimento tuvo un coeficiente de correlación de 0,6318, que por su distancia a 1 indica
una relación positiva entre el conjunto de entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 125124,9874 y la raíz del error medio cuadrático dio como resultado un error
de 177411,173 unidades monetarias, valores elevados, y coherentes con los altos errores
obtenidos para el experimento.
Como se puede observar en la Tabla 8.3.3, el experimento de Árbol de decisión M5P Cross
20 mostró mejores resultados que el de Regresión Lineal Split 66, acercándose más el
primero a los valores observados como se muestra en las Figuras que contienen sus
comparaciones en los Anexos 37, 38 y 39 con el conjunto total de datos y visualizados de
142
una manera más detallada con el conjunto de datos de pronóstico en las Figuras 8.3.1, 8.3.2
y 8.3.3, en donde se observa, en la Figura 8.3.1 una gran proximidad del pronóstico del
experimento M5P Cross 20 con los valores observados, incluso en los valores más
péqueños y en los más elevados, mientras que el método de regresión lineal presenta
diferente variaciones, coincidiendo mayormente en los datos intermedios pero alejándose
de los valores extremos, como se contempla en la Figura 8.3.2, adicionalmente, al observar
la comparación del error absoluto relativo y de la raíz del error cuadrático relativo en las
Tablas 8.3.2 y 8.3.3, se puede apreciar que los de menor porcentaje son los
correspondientes al experimento M5P Cross 20.
143
Tabla 8.3. 2 Comparación de errores de la selección de resultados finales, experimento: Arborizadora,
PH – ID3 - M5P - RL
144
Tabla 8.3. 3 Selección de resultados finales, experimento: Arborizadora, PH – ID3 – M5P - RL
ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO
EXPERIMENTO ID3_CROSS_20 ID3_SUPPLIED M5P_CROSS_20 M5P_SUPPLIED RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_EN
T_9438 PH_NOMINAL_ENT_9438-
PRON_497 PH_NUMERICO_ENT_
9438 PH_NUMERICO_ENT_943
8-PRON_497 PH_NUMERICO_EN
T_9438 PH_NUMERICO_ENT_9438-
PRON_497
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 9438 9438 9438 9438 497 6423 6423 497
CLASIFICADOR ID3 ID3 M5P M5P REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS SUPPLIED TEST SET CROSS VALIDATION SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 9438 497 FOLDS 20 9438 497 % 66 9438 497
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 9438 9438 9438 9438 497 9438 2184 497
ATRIBUTOS 9 9 11 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE
7787 82,5056% 417 83,9034%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
1631 17,2812% 79 15,8954%
ESTADÍSTICO KAPPA 0,7814 0,7981
MEDIA DEL ERROR ABSOLUTO 0,0152 0,0147
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0883 0,0855
ERROR ABSOLUTO RELATIVO 30,9303% 29,8586% 9,7947% 9,2602% 80,5874% 82,7353%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
56,2736% 54,5592% 13,4237% 10,8541% 76,2215% 77,4944%
INSTANCIAS SIN CLASIFICAR 20 0,2119% 1 0,2012%
NÚMERO DE REGLAS 107 107
COEFICIENTE DE CORRRELACIÓN 0,9911 0,9943 0,6481 0,6318
MEDIA DEL ERROR ABSOLUTO ($) 15259,6423 14004,6511 125351,2858 125124,9874
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
31623,8977 24848,6865 179339,9785 177411,173
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL X X
145
Figura 8.3. 1 Arborizadora – PH, Comparación Valor m2 de Construcción observado y método Árbol de Decisión M5P Cross 20
$.0.00
$500000.0.00
$1000000.0.00
$1500000.0.00
$2000000.0.00
$2500000.0.00
1
13
25
37
49
61
73
85
97
10
9
12
1
13
3
14
5
15
7
16
9
18
1
19
3
20
5
21
7
22
9
24
1
25
3
26
5
27
7
28
9
30
1
31
3
32
5
33
7
34
9
36
1
37
3
38
5
39
7
40
9
42
1
43
3
44
5
45
7
46
9
48
1
49
3
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora PH Valor M2 de Costrucción para Datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Cross _20)
146
Figura 8.3. 2 Arborizadora – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Split 66
$.0.00
$500000.0.00
$1000000.0.00
$1500000.0.00
$2000000.0.00
$2500000.0.00
1
13
25
37
49
61
73
85
97
10
9
12
1
13
3
14
5
15
7
16
9
18
1
19
3
20
5
21
7
22
9
24
1
25
3
26
5
27
7
28
9
30
1
31
3
32
5
33
7
34
9
36
1
37
3
38
5
39
7
40
9
42
1
43
3
44
5
45
7
46
9
48
1
49
3
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora PH Valor M2 de Costrucción para Datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_66)
147
Figura 8.3. 3 Arborizadora – PH, Comparación Valor m2 de Construcción Observado, método árbol de Decisión M5P Cross 20 y Regresión
Lineal Split 66
$.0.00
$500000.0.00
$1000000.0.00
$1500000.0.00
$2000000.0.00
$2500000.0.00
1
13
25
37
49
61
73
85
97
10
9
12
1
13
3
14
5
15
7
16
9
18
1
19
3
20
5
21
7
22
9
24
1
25
3
26
5
27
7
28
9
30
1
31
3
32
5
33
7
34
9
36
1
37
3
38
5
39
7
40
9
42
1
43
3
44
5
45
7
46
9
48
1
49
3
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora PH Valor M2 de Costrucción para Datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_66)
Valor M2 de Construcción (M5P - Cross _20)
148
8.4 Resultados UPZ 65 Arborizadora, Conjunto de datos NO_PH
Al procesar los datos de NO_PH de la UPZ 65 Arborizadora, con las características
descritas en la Tabla 8.4.1, se obtuvieron los resultados descritos en la Tabla 8.4.2.
Tabla 8.4. 1. Características experimento: Arborizadora, NO_PH ID3-J48-M5P-RL
EVALUACIÓN ÁRBOL DE DECISIÓN
CLASIFICADOR ID3-J48-M5P-RL
CARACTERÍSTICAS DE LOS DATOS
UPZ ARBORIZADORA
REGLAMENTO NO_PH
DATOS MUESTRA 6423
DATOS PRONÓSTICO 338
Luego de seguir el procedimiento descrito en el capítulo 7, procesando los datos mediante
los métodos de entrenamiento y validación, se obtuvieron los resultados presentados en los
Anexos 40, 42, 45 y 47, al realizar las debidas selecciones (Anexos 41, 43, 46 y 48) y
comparaciones (Anexos 44 y 49), se llegó a la selección final presentada en la Tabla 8.4.2,
los resultados de cada experimento describen la siguiente información:
J48 Cross 20
El experimento de entrenamiento y validación fue realizado con el método de clasificación
J48 y validado mediante el método Cross validation con 20 particiones seleccionadas
aleatoriamente del conjunto de datos de NO_PH con valores nominales.
Las características del tamaño del árbol generado fueron de 524 hojas y un tamaño de 563
niveles.
Este experimento dio como resultado 5554 instancias clasificadas correctamente, que
representan un 86,4705% de las instancias, siendo un porcentaje significativo en
149
conparación con las 869 que se clasificaron incorrectamente y que corresponden a un
13,5295% del total de las instancias.
El estadístico Kappa tuvo como resultado un valor de 0,6849, que permite considerar que el
experimento muestra concordancia al ser evaluado con el 20% de los datos.
El error absoluto medio con un valor de 0,0129, permite deducir que los resultados
obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,0834 mayor
que el anterior, deja ver como este error castiga fuertemente el hecho de que el 13,5295%
de las instancias no hayan sido clasificadas correctamente.
Finalmente, el error absoluto relativo, con un 45,1553% es alto, al dejar un 54,8447%
confiable, referente a la raíz del error cuadrático relativo, obtuvo un valor elevado de
69,948% , que fue el menor de los métodos con los que se le comparó (Anexo 44).
J48 Supplied
El experimento de pronóstico se realizó por medio del método J48 con un conjunto de 6423
datos para el entrenamiento y el método Supplied test set para el pronóstico con un
conjunto de 338 datos, ambos conjuntos compuestos de valores nominales.
El árbol generado fue de 524 hojas y 563 niveles.
Este experimento de pronóstico dio como resultado 293 instancias clasificadas
correctamente, es decir un 86,6864% de las instancias, siendo un porcentaje significativo en
conparación con las 45 que se clasificaron incorrectamente y corresponden a un 13,3136%
del total de las instancias, resultados semejantes al experimento.
El estadístico Kappa con un valor de 0,6562 muestra que existe concordancia entre el
modelo y su pronóstico.
150
El error absoluto medio con un valor de 0,0122, permite deducir que los resultados
obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,0807 mayor
que el anterior, deja ver como este error castiga fuertemente el hecho de que el 15,9001%
de las instancias no hayan sido clasificadas correctamente, no obstante se mantiene el hecho
de que muestra mejores resultados que los obtenidos mediante el método de regresión lineal
(Tabla 8.4.2).
Finalmente, el error absoluto relativo, con un 44,2671% es aceptable, por dejar un
55,7329% confiable, no obstante no es lo suficientemente bueno y por su lado, la raíz del
error cuadrático relativo, aunque fue grande, con un valor de 70,36%, fue menor que los
métodos con los que se le comparó y menor por 20 puntos que el pronóstico para la
regresión lineal (Tabla 8.4.2).
M5P Split 80
El experimento de entrenamiento y validación fue realizado con el método de clasificación
M5P y validado mediante el método Percentage Split con el 80% de datos para el
entrenamiento y el 20% restante para la validación, estos datos fueron seleccionados de
manera aleatoria del conjunto de datos de NO_PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo, de 36,799% siendo menor al obtenido
del experimento realizado por el método de regresión lineal que tuvo como resultado
67,0106%, la raíz del error cuadrático relativo, aunque fue significativo, con un valor de
54,6151%, fue menor que los resultados de los métodos con los que se le comparó (Anexo
49) y menor al obtenido del experimento RL Split 33 (Tabla 8.4.2).
151
El experimento desarrolló 76 reglas dando un coeficiente de correlación de 0,574,
indicando una corelación lineal positiva entre el conjunto de entrenamiento y el conjunto de
validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 18723,1371, considerado aceptable, mientras que la raíz del error medio
cuadrático dio como resultado un error de 42268,9949 unidades monetarias, un valor menos
aceptable, pero menor a los valores con los que se le comparó (Anexo 49).
M5P Supplied
El experimento de pronóstico M5P Supplied se realizó por medio del método M5P para el
entrenamiento y el método Supplied test set para el pronóstico con conjuntos de 6423 y 338
datos respectivamente, ambos conjuntos compuestos de valores numéricos.
Del experimento se tuvo un error absoluto relativo de 53,4121% y la raíz del error
cuadrático relativo con un valor elevado de 255,409%.
El experimento desarrolló 76 reglas dando un coeficiente de correlación de 0,574, que
indica una relación lineal positiva entre el conjunto de entrenamiento y el conjunto de
validación.
El error medio absoluto obtenido en unidades monetarias para este caso, obtuvo un valor de
27222,434, y la raíz del error medio cuadrático dio como resultado un error de
184938,4554 unidades monetarias, un valor muy elevado a comparación de los
experimentos anteriores, pero conforme con el resultado de los errores.
152
RL Cross 20
El experimento de entrenamiento y validación fue realizado con el método de Regresión
lineal y validado mediante el método Cross validation con 20 folds (particiones) del
conjunto de datos de NO_PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 67,0106% un valor alto y el mayor de
todos los experimentos allí comparados, como resultado de la raíz del error cuadrático
relativo se tuvo un valor de 72,0313%.
El experimento tuvo un coeficiente de correlación de 0,6938, que por su distancia a 1 indica
que existe relación lineal positiva entre el conjunto de entrenamiento y el conjunto de
validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 34126,7282 y la raíz del error medio cuadrático dio como resultado un error de
54264,8928 unidades monetarias, valores acorde a los errores obtenidos.
RL Supplied
El experimento de pronóstico fue realizado con el método de Regresión lineal y validado
mediante el método Supplied test set empleando un conjunto de 6423 datos para el
entrenamiento y 338 para el pronóstivo, ambos conjuntos con datos de NO_PH con valores
numéricos.
Del experimento se tuvo un error absoluto relativo de 71,5831% bastante alto y el mayor de
todos los experimentos de pronóstico allí comparados (Tabla 8.4.2), por su lado, la raíz del
error cuadrático relativo fue también bastante elevada, con un valor de 97,4072%.
153
El experimento tuvo un coeficiente de correlación de 0,3999, que por estar más cercano a 0
que a 1 indica que existe una relación positiva, aunque no tan notoria como en otros
experimentos, entre el conjunto de entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 36483,6142 y la raíz del error medio cuadrático dio como resultado un error de
70531,2045 unidades monetarias, valores elevados y semejantes a los obtenidos en RL
Split 33.
Como se puede observar en la Tabla 8.4.3, el experimento de Árbol de decisión M5P Split
80 mostró mejores resultados que el de Regresión Lineal Cross 20, acercándose más, el
primero, a los valores observados como se muestra en las Figuras que contienen sus
comparaciones en los Anexos 50, 51 y 52 con el conjunto total de datos y visualizados de
una manera más detallada con el conjunto de datos de pronóstico en las Figuras 8.4.1, 8.4.2
y 8.4.3, en donde se observa, en la Figura 8.4.1 que existe coincidencia entre el valor
observado y el pronóstico del experimento M5P Split, no obstante existen diferencias
notables en los primeros datos, los más bajos, excesos en los valores intermedios y que se
acentuan en los valores más altos, mientras que el método de regresión lineal presenta
diferente variaciones para todo el conjunto de datos y mayores a las que se presentan por el
método de árbol de decisión, como se contempla en las Figuras 8.4.2 y 8.4.3,
adicionalmente, al observar la comparación del error absoluto relativo y de la raíz del error
cuadrático relativo en las Tablas 8.2.2 y 8.2.3, se puede apreciar que los de menor
porcentaje son los correspondientes al experimento M5P Split 80.
154
Tabla 8.4. 2. Comparación de errores de la selección de resultados finales, experimento: Arborizadora,
NO_PH - J48 – M5P - RL
155
Tabla 8.4. 3 Selección de resultados finales, experimento: Arborizadora, NO_PH J48 - M5P - RL
ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SUPPLIED M5P_SPLIT_80 M5P_SUPPLIED RL_SPLIT_33 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_
ENT_6423 NO_PH_NOMINAL_ENT_64
23_PRON_338 NO_PH_NUMERICO
_ENT_6423 NO_PH_NOMINAL_ENT_64
23_PRON_338 NO_PH_NUMERICO
_ENT_6423 NO_PH_NOMINAL_ENT_64
23_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 338 6423 6423 338 6423 6423 338
CLASIFICADOR J48 J48 M5P M5P REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 6423 338 % 80 6423 338 % 33 6423 338
NÚMERO DE HOJAS 524 524
TAMAÑO DEL ARBOL 563 563
INSTANCIAS 6423 338 6423 1285 338 6423 4303 338
ATRIBUTOS 12 12 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE
5554 86,4705
% 293 86,6864%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
869 13,5295
% 45 13,3136%
ESTADÍSTICO KAPPA 0,6849 0,6562
MEDIA DEL ERROR ABSOLUTO 0,0129 0,0122
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0834 0,0807
ERROR ABSOLUTO RELATIVO 45,1553% 44,2671% 36,799% 53,4121% 67,0106% 71,5831%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
69,948% 70,36% 54,6151% 255,4094% 72,0313% 97,4072%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 76 76
COEFICIENTE DE CORRRELACIÓN
0,8379 0,574 0,6938 0,3999
MEDIA DEL ERROR ABSOLUTO ($)
18723,1371 27222,434 34126,7282 36483,6142
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
42268,9949 184938,4554 54264,8928 70531,2045
SELECCIÓN 1 X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X X
156
Figura 8.4. 1 Arborizadora - NO_ PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 80
$000
$100.000
$200.000
$300.000
$400.000
$500.000
$600.000
$700.000
$800.000
$900.000
$1000.000
1 9
17
25
33
41
49
57
65
73
81
89
97
10
5
11
3
12
1
12
9
13
7
14
5
15
3
16
1
16
9
17
7
18
5
19
3
20
1
20
9
21
7
22
5
23
3
24
1
24
9
25
7
26
5
27
3
28
1
28
9
29
7
30
5
31
3
32
1
32
9
33
7
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora NO_PH Valor M2 de Costrucción para datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Split_80)
157
Figura 8.4. 2 Arborizadora - NO_PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Split 33
$000
$100.000
$200.000
$300.000
$400.000
$500.000
$600.000
$700.000
$800.000
1 9
17
25
33
41
49
57
65
73
81
89
97
10
5
11
3
12
1
12
9
13
7
14
5
15
3
16
1
16
9
17
7
18
5
19
3
20
1
20
9
21
7
22
5
23
3
24
1
24
9
25
7
26
5
27
3
28
1
28
9
29
7
30
5
31
3
32
1
32
9
33
7
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora NO_PH Valor M2 de Costrucción para datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_33)
158
Figura 8.4. 3 Arborizadora - NO – PH, Comparación Valor m2 de construcción observado, método Árbol de Decisión M5P Split 80 y Regresión
Lineal Split 33
$000
$100.000
$200.000
$300.000
$400.000
$500.000
$600.000
$700.000
$800.000
$900.000
$1000.000
1 9
17
25
33
41
49
57
65
73
81
89
97
10
5
11
3
12
1
12
9
13
7
14
5
15
3
16
1
16
9
17
7
18
5
19
3
20
1
20
9
21
7
22
5
23
3
24
1
24
9
25
7
26
5
27
3
28
1
28
9
29
7
30
5
31
3
32
1
32
9
33
7
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora NO_PH Valor M2 de Costrucción para datos de Pronóstico
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_33)
Valor M2 de Construcción (M5P - Split_80)
159
8.5 Resultados UPZ 79 Calandaima, Conjunto de datos PH
Al procesar los datos de PH de la UPZ 79 Calandaima, con las características descritas en
la Tabla 8.5.1, se obtuvieron los resultados descritos en la Tabla 8.5.2.
Tabla 8.5. 1. Características experimento: Arborizadora, PH ID3- J48 - M5P - RL
EVALUACIÓN ÁRBOL DE DECISIÓN
CLASIFICADOR ID3- J48 - M5P - RL
CARACTERÍSTICAS DE LOS DATOS
UPZ CALANDAIMA
REGLAMENTO PH
DATOS DE MUESTRA 28824
DATOS PRONÓSTICO 1517
Después de llevara cabo el procedimiento descrito en el capítulo 7, procesando los datos
mediante los métodos de entrenamiento y validación, se obtuvieron los resultados
presentados en los anexos 53, 55, 58 y 60, al realizar las debidas selecciones (Anexos 54,
56, 59, 61) y comparaciones (Anexos 57 y 62), se llegó a la selección final presentada en la
Tabla 8.5.2, los resultados de cada experimento describen la siguiente información:
ID3 Split 80
El experimento ID3 Split 80 corresponde a un experimento de entrenamiento y validación
realizado con el método de clasificación J48 y validado mediante el método Percentage
Split, para esto se empleo el 80% de datos para el entrenamiento y el 20% restante para la
validación, datos que fueron seleccionados aleatoriamente del conjunto de datos de PH con
valores nominales.
160
Este experimento dio como resultado 4757 instancias clasificadas correctamente, es decir
un 82,5152% de las instancias, siendo un porcentaje significativo en comparación con las
1008 que se clasificaron incorrectamente y que corresponden a un 17,4848% del total de las
instancias.
El estadístico Kappa por estar cercano a 1 con un valor de 0,7752, permite considerar que el
experimento obtuvo un buen grado de concordancia al ser evaluado con el 20% de los
datos.
El error absoluto medio, con un valor de 0,0211, permite deducir que los resultados
obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,1032 mayor
que el anterior, deja ver como este error castiga fuertemente el hecho de que el 17,4848%
de las instancias no hayan sido clasificadas correctamente.
Finalmente, el error absoluto relativo, con un 26,8669% es aceptable, por dejar un
73,1331% confiable, y por su lado, la raíz del error cuadrático relativo, aunque fue grande,
con un valor de 52,4048%, fue menor que los métodos con los que se le comparó.
ID3 Supplied
El experimento de pronóstico se realizó por medio del método J48 para el entrenamiento y
el método Supplied test set para el pronóstico con conjuntos de 28824 y 1517 datos
respectivamente, ambos conjuntos compuestos de valores nominales.
El árbol generado fue de 219 hojas y un tamaño de 256 niveles.
Este experimento de pronóstico dio como resultado 1249 instancias clasificadas
correctamente, es decir un 82,3336% de las instancias, siendo un porcentaje significativo en
conparación con las 268 que se clasificaron incorrectamente y corresponden a un 17,6664%
161
del total de las instancias, asemejandose a los resultados obtenidos del experimento ID3
Split 80.
El estadístico Kappa por estar cercano a 1 con un valor de 0.7722, permite considerar que el
experimento obtuvo un buen grado de concordancia al ser evaluado con 1517 datos.
El error absoluto medio resultante para el experimento fue de 0,0214, permitiento deducir
que los resultados obtenidos son buenos y la raíz del error medio cuadrático con un valor de
0,1035 mayor que el anterior, deja ver como este error castiga fuertemente el hecho de que
el 17,6664% de las instancias no hayan sido clasificadas correctamente, no obstante se
mantiene el hecho de que muestra mejores resultados que el experimento anteriormente
descrito.
Finalmente, el error absoluto relativo con un resultado del 30,249% es aceptable, por dejar
un 69,751% confiable, por su parte, la raíz del error cuadrático relativo, aunque fue grande,
con un valor de 55,1848%, fue menor que el resultado para el método de regresión lineal,
pero mayor al obtenido para el método de árbol de decisión de M5P (Tabla 8.5.2).
M5P Cross 20
El experimento de entrenamiento y validación fue realizado con el método de clasificación
M5P y validado mediante el método Cross validation con 20 particiones seleccionadas
aleatoriamente del conjunto de datos de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo, de 9,9912%, valor de gran significancia
al compararlo con los damás experimentos elaborados, en cuanto a la raíz del error
cuadrático relativo se tuvo un valor de 18,2316%, ambos dando una buena calificación para
el modelo.
162
El experimento desarrolló 91 reglas dando un coeficiente de correlación de 0,9833, que por
su cercanía a 1 indica una relación lineal casi perfecta entre el conjunto de entrenamiento y
el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 17807,4296, considerado bueno, mientras que la raíz del error medio cuadrático
dio como resultado un error de 66169,0974 unidades monetarias, un valor menos aceptable,
pero menor a los valores con los que se le comparó (Tabla 8.5.2).
M5P Supplied
El experimento de pronóstico M5P Supplied se realizó por medio del método M5P para el
entrenamiento con un conjunto de 28824 datos y el método Supplied test set con un
conjunto de 1517 datos para el pronóstico, ambos conjuntos compuestos de valores
numéricos.
Del experimento se tuvo un error absoluto relativo, de 9,355% , un buen valor, y referente a
la raíz del error cuadrático relativo, se obtuvo como resultado un 11,738%, mostrando una
proporción semejante a la obtenida para el experimento M5P Cross 20.
El experimento desarrolló 91reglas y generó un coeficiente de correlación de 0,9931, que
por su cercanía 1 indica una relación linjeal casi perfecta entre el conjunto de entrenamiento
y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 16018,9157, y la raíz del error medio cuadrático dio como resultado un error de
37836,2157 unidades monetarias.
163
RL Split 66
El experimento de entrenamiento y validación fue realizado con el método de Regresión
lineal y validado mediante el método Percentage split con un 66% del conjunto designado
para entrenamiento y un 34% para validación, datos que son seleccionados aleatoriamente
del conjunto de datos de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 76,3498% un valor elevado y el
mayor de todos los experimentos allí comparados (Tabla 8.5.2) , referente a la raíz del error
cuadrático relativo fue también elevada, pero menor, al tener un valor de 53,2562%.
El experimento tuvo un coeficiente de correlación de 0,8464, que por su distancia a 1 indica
que existe relación lineal entre el conjunto de entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 136455,5721 y la raíz del error medio cuadrático dio como resultado un error
de 195377,2308 unidades monetarias, valores elevados teniendo en cuenta que superan las
cien mil unidades monetarias.
RL Supplied
El experimento de pronóstico fue realizado con el método de Regresión lineal con un
conjunto de 28824 de datos y validado mediante el método Supplied test set con un
conjunto con 761 datos, ambos conjuntos de datos de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 78,642% bastante alto y el mayor de
todos los experimentos de pronóstico allí comparados (Tabla 8.5.2), por su lado, la raíz del
error cuadrático relativo fue también bastante elevada, con un valor de 58,6008%.
164
El experimento tuvo un coeficiente de correlación de 0,8106, semejante al del experimento
RL Split 66 y que por su distancia a 1 indica relación entre el conjunto de entrenamiento y
el conjunto de validación.
El error medio absoluto, dado en unidades monetarias para este caso, se obtuvo con un
valor de 134661,4195 y la raíz del error medio cuadrático dio como resultado un error de
188892,9899 unidades monetarias, valores elevados semejantes a los obtenidos para el
experimento RL Split 66.
Como se puede observar en la Tabla 8.5.3, el experimento de Árbol de decisión M5P Cross
20 mostró mejores resultados que el de Regresión Lineal Split 66 y a su vez, el método para
valores nominales, ID3 Split 80, mostró mejores resultados que la regresión lineal, pero no
tan buenos como el método de M5P, acercándose más a los valores observados y
obteniendo errores relativos más bajos significativamente como se muestra en las Figuras
que contienen sus comparaciones en los Anexos 63, 64 y 65 con el conjunto total de datos y
visualizados de una manera más detallada con el conjunto de datos de pronóstico en las
Figuras 8.5.1, 8.5.2 y 8.5.3, en donde se observa, en la Figura 8.5.1 una notable proximidad
del pronóstico del experimento M5P Cross 20 con los valores observados, incluso en los
valores más péqueños y en los más elevados, aunque no alcanza el valor mayor, no
obstante, el método de regresión lineal presenta diferente variaciones, no alcanza a
contemplar los valores de los extremos y en varios de los valores internos se aleja de
manera significativa de los valores observados como se contempla en la Figura 8.5.2,
adicionalmente, al observar la comparación del error absoluto relativo y de la raíz del error
cuadrático relativo en las Tablas 8.2.2 y 8.2.3, se puede apreciar que los de menor
porcentaje son los correspondientes al experimento M5P Cross 20.
165
Tabla 8.5. 2 Comparación de errores de la selección de resultados finales, experimento: Calandaima,
PH – ID3 – M5P - RL
166
Tabla 8.5. 3 Selección de resultados finales, experimento: Calandaima, PH ID3 – ID3 - M5P - RL
ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO
EXPERIMENTO ID3_SPLIT_80 ID3_SUPPLIED M5P_CROSS_20 M5P_SUPPLIED RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT
_28824 PH_NOMINAL_ENT_2882
4-PRON_1517 PH_NUMERICO_EN
T_28824 PH_NUMERICO_ENT_28824
-PRON_1517 PH_NUMERICO_EN
T_28824 PH_NUMERICO_ENT_28824
-PRON_1517
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 28824 28824 1517 28824 28824 1517 28824 28824 1517
CLASIFICADOR ID3 ID3 M5P M5P REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST % 80 FOLDS 20 % 66
NÚMERO DE HOJAS 219 219 219
TAMAÑO DEL ARBOL 256 256 256
INSTANCIAS 28824 5765 1517 28824 1517 28824 9800 1517
ATRIBUTOS 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
4757 82,5152
% 1249 82,3336%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
1008 17,4848
% 268 17,6664%
ESTADÍSTICO KAPPA 0,7752 0,7722
MEDIA DEL ERROR ABSOLUTO 0,0211 0,0214
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1032 0,1035
ERROR ABSOLUTO RELATIVO 29,7767% 30,249% 9,9912% 9,355% 76,3498% 78,642%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
54,8654% 55,1848% 18,2316% 11,738% 53,2562% 58,6008%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 91 91
COEFICIENTE DE CORRRELACIÓN 0,9833 0,9931 0,8464 0,8106
MEDIA DEL ERROR ABSOLUTO ($)
17807,4296 16018,9157 136455,5721 134661,4195
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
66169,0974 37836,2157 195377,2308 188892,9899
SELECCIÓN 1 X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X X
167
Figura 8.5. 1 Calandaima – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Cross 20
$000
$500.000
$1000.000
$1500.000
$2000.000
$2500.000
$3000.000
$3500.000
$4000.000
$4500.000
$5000.000
13
67
11
06
14
11
76
21
12
46
28
13
16
35
13
86
42
14
56
49
15
26
56
15
96
63
16
66
70
17
36
77
18
06
84
18
76
91
19
46
98
11
01
61
05
11
08
61
12
11
15
61
19
11
22
61
26
11
29
61
33
11
36
61
40
11
43
61
47
11
50
6
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima PH Valor M2 de Construcción para datos de Pronóstico
Valor M2 Construcción (Observado) Valor M2 de Construcción (M5P - Cross_20)
168
Figura 8.5. 2 Calandaima – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Split 66
$000
$500.000
$1000.000
$1500.000
$2000.000
$2500.000
$3000.000
$3500.000
$4000.000
$4500.000
$5000.000
13
67
11
06
14
11
76
21
12
46
28
13
16
35
13
86
42
14
56
49
15
26
56
15
96
63
16
66
70
17
36
77
18
06
84
18
76
91
19
46
98
11
01
61
05
11
08
61
12
11
15
61
19
11
22
61
26
11
29
61
33
11
36
61
40
11
43
61
47
11
50
6
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima PH Valor M2 de Construcción para datos de Pronóstico
Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split 66)
169
Figura 8.5. 3 Calandaima – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Cross 20 y Regresión
Lineal Split 66
$000
$500.000
$1000.000
$1500.000
$2000.000
$2500.000
$3000.000
$3500.000
$4000.000
$4500.000
$5000.000
13
67
11
06
14
11
76
21
12
46
28
13
16
35
13
86
42
14
56
49
15
26
56
15
96
63
16
66
70
17
36
77
18
06
84
18
76
91
19
46
98
11
01
61
05
11
08
61
12
11
15
61
19
11
22
61
26
11
29
61
33
11
36
61
40
11
43
61
47
11
50
6
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima PH Valor M2 de Construcción para datos de Pronóstico
Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split 66)
Valor M2 de Construcción (M5P - Cross_20)
170
8.6 Resultados UPZ 79 Calandaima, Conjunto de datos NO_PH
Al procesar los datos de NO_PH de la UPZ 79 Calandaima, con las características descritas
en la Tabla 8.6.1, se obtuvieron los resultados descritos en la Tabla 8.6.2.
Tabla 8.6. 1 Características experimento: Calandaima, NO_PH ID3- J48 - M5P - RL
EVALUACIÓN ÁRBOL DE DECISIÓN
CLASIFICADOR ID3- J48 - M5P - RL
CARACTERÍSTICAS DE LOS DATOS
UPZ CALANDAIMA
REGLAMENTO NO_PH
DATOS DE MUESTRA 2636
DATOS PRONÓSTICO 139
A fin de continuar el proceso del experimento, luego de seguir el procedimiento descrito en
el capítulo 7, procesando los datos mediante los métodos de entrenamiento y validación, se
obtuvieron los resultados presentados en los Anexos 66, 68, 71 y 73, al realizar las debidas
selecciones (Anexos 67, 69, 72 y 74) y comparaciones (Anexos 70 y 75), se llegó a la
selección final presentada en la Tabla 8.6.2, los resultados de cada experimento describen la
siguiente información:
ID3 Cross 10
El experimento ID3 Cross 10 de entrenamiento y validación se realizó con el método de
clasificación ID3 y validó mediante el método Cross Validation con 10 particiones (folds),
seleccionadas aleatoriamente del conjunto de datos de PH con valores nominales.
Este experimento dio como resultado 2197 instancias clasificadas correctamente, un
83,346% de las instancias, siendo un porcentaje significativo en conparación con las 371
que se clasificaron incorrectamente y corresponden a un 14,0744% del total de las
instancias.
171
El estadístico Kappa obtuvo un valor de 0,6902, que permite considerar que el experimento
obtuvo un grado de concordancia aceptable.
El error absoluto medio tuvo un valor de 0,0425 que permite deducir que los resultados
obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,1741 mayor
que el anterior, deja ver como este error castiga fuertemente el hecho de que el 14,0744%
de las instancias no hayan sido clasificadas correctamente.
Finalmente, el error absoluto relativo, con un 35,8212% es aceptable, por dejar un
64,1788% confiable, y por su lado, la raíz del error cuadrático relativo, aunque fue grande,
con un valor de 72,0379%, fue menor que los métodos con los que se le comparó (Anexo
70).
Es de considerar también el hecho de que en este método quedaron 68 instancias sin
clasificar, las cuales equivales a un 2,5797% del conjunto total de datos.
ID3 Supplied
El experimento ID3 Supplied de pronóstico se realizó por medio del método ID3 para el
entrenamiento con un conjunto de 2636 y el método Supplied test set para el pronóstico con
un conjunto de 139 datos, ambos conjuntos compuestos de valores nominales.
Este experimento de pronóstico dio como resultado 115 instancias clasificadas
correctamente, es decir un 82,7338% de las instancias, siendo un porcentaje significativo en
conparación con las 21 que se clasificaron incorrectamente y corresponden a un 15,1079%
del total de las instancias.
172
El estadístico Kappa por estar relativemente cercano a 1 con un valor de 0.6753, permite
considerar que el experimento obtuvo un grado aceptable de concordancia al ser evaluado
con 139 datos.
El error absoluto medio con un valor de 0,044, permite deducir que los resultados obtenidos
son buenos y la raíz del error medio cuadrático con un valor de 0,1734 mayor que el
anterior, deja ver como este error castiga fuertemente el hecho de que el 15,1079% de las
instancias no hayan sido clasificadas correctamente .
Finalmente, el error absoluto relativo, con un 36,4521% es aceptable, por dejar un
63,5479% confiable, y la raíz del error cuadrático relativo, con un valor de 70,5714%.
Muestra un valor elevado de error.
M5P Split 80
El experimento e entrenamiento y validación M5P fue realizado con el método de
clasificación M5P y validado mediante el método Percentage Split con el 80% de datos
para el entrenamiento y el 20% restante para la validación, seleccionados aleatoriamente
del conjunto de datos de PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo, de 48,2799% , y la raíz del error
cuadrático relativo, obtuvo un valor de 62,6129%, menor que los resultados obtenidos para
la regresión lineal (Tabla 8.6.2).
El experimento desarrolló 29 reglas dando un coeficiente de correlación de 0,7934, que por
su cercanía a 1 indica relación lineal entre el conjunto de entrenamiento y el conjunto de
validación.
173
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 23109,9193, considerado aceptable, y la raíz del error medio cuadrático dio
como resultado un error de 45521,15768 unidades monetarias,
M5P Supplied
El experimento de pronóstico M5P Supplied se realizó por medio del método M5P para el
entrenamiento con un conjunto de 14456 datos y el método Supplied test set para el
pronóstico con un conjunto de 761 datos, ambos conjuntos compuestos de valores
numéricos.
Del experimento se tuvo un error absoluto relativo, de 45,6774% y la raíz del error
cuadrático relativo, obtuvo un valor representativo de 110,7754%.
El experimento desarrolló 29 reglas dando un coeficiente de correlación de 0,6153, que por
su cercanía a 1 indica relación lineal entre el conjunto de entrenamiento y el conjunto de
validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 22862,4851, y la raíz del error medio cuadrático dio como resultado un error de
78208,8014 unidades monetarias.
RL Cross 20
El experimento de entrenamiento y validación fue realizado con el método de Regresión
lineal y validado mediante el método Cross validation con 20 folds (particiones)
seleccionados aleatoriamente del conjunto de datos de PH con valores numéricos.
174
Del experimento se tuvo un error absoluto relativo de 71,4248% que se puede considerar
elevado, y la raíz del error cuadrático relativo, también elevada, con un valor de 76,9862%.
El experimento tuvo un coeficiente de correlación de 0,6623, que por su distancia a 1
muestra que existe relación lineal entre el conjunto de entrenamiento y el conjunto de
validación.
En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo
un valor de 33874,0264 y la raíz del error medio cuadrático dio como resultado un error de
55003,0092 unidades monetarias.
RL Supplied
El experimento de pronóstico fue realizado con el método de Regresión lineal con un
conjunto de 2636 datos y validado mediante el método Supplied test set con un conjunto
con 761 datos, ambos conjuntos de NO_PH con valores numéricos.
Del experimento se tuvo un error absoluto relativo de 62,7065% considerado alto y la raíz
del error cuadrático relativo fue también elevada pero menor que el anterior, con un valor
de 58,3675%.
El experimento tuvo un coeficiente de correlación de 0,8169, que por su distancia a 1 indica
con claridad la relación entre el conjunto de entrenamiento y el conjunto de validación.
En cuanto al error medio absoluto, dado en unidades monetarias, se obtuvo un valor de
31385,9328 y la raíz del error medio cuadrático dio como resultado un error de 41208,1789
unidades monetarias.
175
Como se puede observar en la Tabla 8.5.2, los experimentos ID3 Cross 10, M5P Split 80 y
RL Cross 20 muestran valores similares, información verificable al realizar visualizar las
Figuras que contienen sus comparaciones en los Anexos 76, 77 y 78 con el conjunto total
de datos y visualizados de una manera más detallada con el conjunto de datos de pronóstico
en las Figuras 8.6.1, 8.6.2 y 8.6.3, en donde se observa, en la Figura 8.6.1 una aproximaciín
significativa del pronóstico del experimento M5P Split 80 con los valores observados y a su
vez diferentes variaciones identificables para los valores más pequeños y en los más
elevados, de manera semejante, el método de regresión lineal presenta diferente variaciones
y no alcanza a contemplar los valores de los extremos, pero acercándose más en algunos
puntos a los valores observados como se contempla en las Figura 8.6.2 y 8.6.3,
adicionalmente, al observar la comparación del error absoluto relativo y de la raíz del error
cuadrático relativo en las Tablas 8.6.2 y 8.6.3, se puede apreciar que los de menor
porcentaje son los correspondientes a los experimentos ID3 Cross 10 y M5P Split 80.
176
Tabla 8.6. 2. Comparación de errores de la selección de resultados finales, experimento: Arborizadora,
NO_PH - ID3 - M5P - RL
177
Tabla 8.6. 3 Selección de resultados finales, experimento: Calandaima, NO_PH – ID3 - M5P - RL
ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_SUPPLIED M5P_SPLIT_80 M5P_SUPPLIED RL_CROSS_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_
ENT_2636
NO_PH_NOMINAL_ENT_26
36-PRON_139
NO_PH_NOMINAL_
ENT_2636
NO_PH_NOMINAL_ENT_26
36-PRON_139
NO_PH_NUMERICO_
ENT_2636
NO_PH_NUMERICO_ENT_2
636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636
2636
2636 2636 139
CLASIFICADOR ID3 ID3 M5P M5P REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10
% 80 % 5 FOLDS 20 % 5
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 2636 139 2636 527 139 2636 139
ATRIBUTOS 10 10 10 10 10 10
INSTANCIAS CLASIFICADAS
CORRECTAMENTE 2197 83,346% 115 82,7338%
INSTANCIAS CLASIFICADAS
INCORRECTAMENTE 371 14,0744% 21 15,1079%
ESTADÍSTICO KAPPA 0,6902 0,6753
MEDIA DEL ERROR ABSOLUTO 0,0425 0,044
RAÍZ DEL ERROR MEDIO
CUADRÁTICO 0,1741 0,1734
ERROR ABSOLUTO RELATIVO 35,8212% 36,4521% 48,2799% 45,6774% 71,4248% 62,7065%
RAÍZ DEL ERROR CUADRÁTICO
RELATIVO 72,0379% 70,5714% 62,6129% 110,7754% 76,9862% 58,3675%
INSTANCIAS SIN CLASIFICAR 68 2,5797% 3 2,1583%
NÚMERO DE REGLAS
29 29
COEFICIENTE DE
CORRRELACIÓN 0,7934 0,6153 0,6623 0,8169
MEDIA DEL ERROR ABSOLUTO
($) 23109,9193 22862,4851 33874,0264 31385,9328
RAÍZ DEL ERROR MEDIO
CUADRÁTICO ($) 45521,5768 78208,8014 55003,0092 41208,1789
SELECCIÓN 1 X
X
X
SELECCIÓN 2
X
SELECCIÓN FINAL X
X
178
Figura 8.6. 1 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 80
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.000
$1400.000
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101105109113117121125129133137
Val
or
M2
de
Co
stru
cció
n (
$)
ID
UPZ - Calandaima NO-PH Valor M2 de Construcción para datos de Pronóstico
Valor M2 de Costrucción (Observado) Valor M2 de Costrucción (M5P-Split_80)
179
Figura 8.6. 2 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Cross 20
$000
$100.000
$200.000
$300.000
$400.000
$500.000
$600.000
$700.000
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101105109113117121125129133137
Val
or
M2
de
Co
stru
cció
n (
$)
ID
UPZ - Calandaima NO-PH Valor M2 de Construcción para datos de Pronóstico
Valor M2 de Costrucción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)
180
Figura 8.6. 3 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Split 80 y Regresión
Lineal Cross 20
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.000
$1400.000
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101105109113117121125129133137
Val
or
M2
de
Co
stru
cció
n (
$)
ID
UPZ - Calandaima NO-PH Valor M2 de Construcción para datos de Pronóstico
Valor M2 de Costrucción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)
Valor M2 de Costrucción (M5P-Split_80)
181
9. Conclusiones
Al implementar las variaciones ID3, J48 y M5P de técnicas de árboles de decisión en el
proceso de determinar el valor de metro cuadrado de construcción, se requirió un
exhaustivo trabajo en el proceso de previamente reclasificar las variables nominales y
numéricas a fin de poder procesarlas, no obstante al tenerlas listas en los respectivos
formatos (.arff), se verificó que su uso fue claro y factible para las bases de datos de
unidades en PH u No PH de las Unidades de Planeación Zonal de Arborizadora, Garcés
Navas y Calandaima, obteniendo en general buenos resultados.
Mediante los resultados obtenidos y analizados, se llegó a determinar que los métodos de
árboles de decisión que trabajan con variables nominales, a saber, ID3 y J48, presentan
resultados más alejados de los valores observados, mientras que en el caso del método
M5P de árboles de decisión, que trabaja con variables numéricas, en la mayoría de los
casos, mostró resultados más acertados, es decir errores significativamente menores hasta
por 20 puntos porcentuales y con una aproximación mayor a los valores observados.
Al realizar el debido procesamiento de las bases de datos de los sectores elegidos para el
proyecto, empleando las herramientas suministradas por el software WEKA, se obtuvieron
resultados como el error absoluto relativo y la raíz del error cuadrático relativo, que
permitieron establecer una comparación entre los métodos de árboles de decisión y el
método de regresión lineal, obteniendo en cada uno de los casos el patrón de que la
selección del experimento elaborado por medio del método de árbol de decisión para
valores numéricos, el método M5P, obtuvo los mejores resultados y errores más pequeños,
182
seguido por los métodos de árbol decisión para valores nominales (ID3 y J48), y finalmente
los resultados de la regresión lineal con resultados de menor proximidad a los valores
observados y errores mayores, determinando de esta manera la validez de la técnica de
árboles de decisión, específicamente del método M5P, en el proceso que implica la
elaboración de avalúos masivos.
Al desarrollar el presente proyecto y llevar a cabo cada etapa indispensable del mismo, se
contó con las herramientas para realizar un análisis de efectividad de la implementación de
los métodos de árboles de decisión ID3, J48 y M5P, en el proceso de conocer el valor del
metro cuadrado de construcción para los predios ubicados en la ciudad de Bogotá, en los
sectores de la localidad 8 de Kennedy, Unidad de Planeamiento Zonal 79 Calandaima;
localidad 19 de Ciudad Bolívar, UPZ 65 Arborizadora y localidad 10 de Engativá, UPZ 73
Garcés Navas, dentro del proceso que implican los avalúos masivos, por los que se puede
afirmar que el método de árboles de decisión cumple con el propósito para el cual se
empleó y es efectivo al realizar pronósticos que muestran conformidad con los valores
reales.
183
10. Recomendaciones
Al desarrollar cada etapa del presente proyecto y verificar resultados útiles para el proceso
que requieren los avalúos masivos se obtuvieron buenos resultados, no obstante se requirió
una inversión de tiempo y trabajo exhaustivo en la etapa de organización de los datos, por
lo que se generaron una serie de recomendaciones a fin de hacer de la implementación del
método de árboles de decisión una herramienta más productiva.
En primer lugar, se sugiere programar un código que realice la clasificación de las variables
que en la base de datos se encuentran presentadas en formato nominal, para hacer su
respectiva clasificación en grupos a fin de presentarla como variable numérica, para el caso
en que se desee trabajar con métodos que trabajen con variables numéricas como el M5P y
de manera semejante, que reclasifique las variables que estén presentadas con valores
numéricos en clases para ser representadas como nominales, para el caso en el que se vayan
a implementar métodos que trabajen con este tipo de variables como el ID3 o el J48; al
tener una herramienta de programación el tiempo de ejecución del proceso disminuirá
notablemente, manteniendo la calidad de los resultados.
En segundo lugar, recomienda crear una interfaz que integre las dos fases del experimento
en una sola, es decir el procesos de reclasificación de variables numéricas a nominales y
viceversa y el proceso de entrenamiento, validación y pronóstico por medio del método de
árboles de decisión.
Se sugiere también actualizar las bases de datos con regularidad y contar con la
información de la totalidad de Unidades de Planeamiento Zonal de la ciudad de Bogotá
184
D.C, a fin de extender el empleo del método a cualquier zona de la ciudad, obteniendo
como resultado buenos pronósticos, que integrados a las recomendaciones anteriores,
pueden proporcionar el material necesario para crear una aplicación de tecnología móvil
del carácter de las aplicaciones (apps), para instalar en dispositivos móviles, empleando el
móvil (teléfono celular, tableta, etc) como extensión o interfaz de un sistema, que emplee
los datos de este, lo alimente y permita visualizar datos de cualquier lugar de la ciudad de
Bogotá y del lugar en que se encuentre localizado en tiempo real, siendo de esta manera
una herramienta que permita tener un panorama general del entorno para usuarios con
diferentes intereses.
Finalmente se recomienda extender la aplicación de este método a nivel nacional,
incluyendo información de sectores tanto urbanos como rurales de diferentes características
y permitir ampliar la información a nivel internacional, estableciendo un instrumento de
comparación y conocimiento de datos de relevancia en el establecimiento de grandes
proyectos de ingeniería
185
11. Anexos
Anexo 1. Resultados, experimento: Garcés Navas, PH-ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_CROSS_20 ID3_SPLIT_66 ID3_SPLIT_33 ID3_SPLIT_80 ID3_SPLIT_20 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_EN
T_14456 PH_NOMINAL_EN
T_14456 PH_NOMINAL_EN
T_14456 PH_NOMINAL_EN
T_14456 PH_NOMINAL_EN
T_14456 PH_NOMINAL_EN
T_14456 PH_NOMINAL_ENT_14456
-PRON_761
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 14456 14456 14456 14456 14456 14456 761
CLASIFICADOR J48 J48 J48 J48 J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 14456 761
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 14456 14456 14456 4915 14456 9686 14456 2981 14456 11565 761
ATRIBUTOS 8 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
12010 83,0797% 12018 83,135% 4081 83,0315% 8017 82,7689% 2403 83,12% 9439 81,6169% 638 83,8371%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
2386 16,5053% 2381 16,4707% 811 16,5005% 1585 16,3638% 478 16,5341% 2009 17,3714% 118 15,5059%
ESTADÍSTICO KAPPA 0,8078 0,8082 0,8075 0,8084 0,8071 0,7967 0,8185
ERROR ABSOLUTO MEDIO 0,0154 0,0154 0,0154 0,0156 0,0153 0,0159 0,0145
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0898 0,0897 0,0902 0,0906 0,089 0,0932 0,0849
ERROR ABSOLUTO RELATIVO 25,8604% 25,8344% 25,8781% 26,3282% 25,7341% 26,9592% 24,5032%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
52,1213% 52,0241% 52,3674% 52,6961% 51,6843% 54,2311% 49,3855%
INSTANCIAS SIN CLASIFICAR 60 0,4151% 57 0,3943% 23 0,468% 84 0,8672% 10 0,3459% 117 1,0117% 5 0,657%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
186
Anexo 2. Selección de resultados, experimento: Garcés Navas, PH - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_20 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_14456 PH_NOMINAL_ENT_14456 PH_NOMINAL_ENT_14456-PRON_761
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 14456 14456 761
CLASIFICADOR J48 J48 J48
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 14456 761
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 14456 14456 2981 761
ATRIBUTOS 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE 12018 83,135% 2403 83,12% 638 83,8371%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 2381 16,4707% 478 16,5341% 118 15,5059%
ESTADÍSTICO KAPPA 0,8082 0,8071 0,8185
ERROR ABSOLUTO MEDIO 0,0154 0,0153 0,0145
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,0897 0,089 0,0849
ERROR ABSOLUTO RELATIVO 25,8344% 25,7341% 24,5032%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 52,0241% 51,6843% 49,3855%
INSTANCIAS SIN CLASIFICAR 57 0,3943% 10 0,3459% 5 0,657%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
187
Anexo 3. Resultados, experimento: Garcés Navas, PH-J48.
ENTRENAMIENTO - VALIDACIÓN
PRONÓSTICO ENTRENAMIENTO -
VALIDACIÓN PRONÓSTICO
ENTRENAMIENTO-VALIDACIÓN
PRONÓSTICO
EXPERIMENTO J48_SPLIT_80 J48_SUPPLIED M5P_SPLIT_66 M5P_SUPPLIED RL_CROSS_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_1
4456 PH_NOMINAL_ENT_1445
6-PRON_761 PH_NUMERICO_ENT_
14456 PH_NUMERICO_ENT_144
56-PRON_761 PH_NUMERICO_ENT
_14456 PH_NUMERICO_ENT_144
56-PRON_761
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 14456 761 14456 761 14456 761
CLASIFICADOR J48 J48 M5P M5P REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPLIED TEST SET
CARACTERÍSTICA TEST % 80 % 66 14456 761 FOLDS 20 14456 761
NÚMERO DE HOJAS 631 631
TAMAÑO DEL ARBOL 713
INSTANCIAS 14456 2891 14456 4915 761 14456 761
ATRIBUTOS 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
2406 83,2238% 640 84099.00%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
485 16,7762% 121 15,9001%
ESTADÍSTICO KAPPA 0,8051 0,8152
ERROR ABSOLUTO MEDIO 0,016 0,0152
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0904 0,0875
ERROR ABSOLUTO RELATIVO 26,8669% 25,543% 12,3738% 27,6967% 79,8469% 86,0071%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
52,4048% 50,6862% 23,7862% 260,9827% 78,3007% 81,1613%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 143 143
COEFICIENTE DE CORRRELACIÓN
0,9713 0,3777 0,622 0,6002
MEDIA DEL ERROR ABSOLUTO ($)
33965,212 73043,4499 221802,7789 226823,3249
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
137766,6613 1414653,9701 459841,9517 439934,2052
SELECCIÓN 1 X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X X
188
Anexo 4. Selección de resultados, experimento: Garcés Navas, PH - J48
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_14456 PH_NOMINAL_ENT_14456 PH_NOMINAL_ENT_14456-PRON_761
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 14456 14456 761
CLASIFICADOR J48 J48 J48
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80
NÚMERO DE HOJAS 631 631 631
TAMAÑO DEL ARBOL 713 713
INSTANCIAS 14456 14456 2891
ATRIBUTOS 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE 11990 82,9413% 2406 83,2238% 640 84099.00%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 2466 17,0587% 485 16,7762% 121 15,9001%
ESTADÍSTICO KAPPA 0,8022 0,8051 0,8152
ERROR ABSOLUTO MEDIO 0,0161 0,016 0,0152
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,0913 0,0904 0,0875
ERROR ABSOLUTO RELATIVO 27,0197% 26,8669% 25,543%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 52,8943% 52,4048% 50,6862%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
189
Anexo 5. Comparación de selecciones, experimento: Garcés Navas, PH – J48 - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED ID3_CROSS_20 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT
_14456 PH_NOMINAL_ENT
_14456 PH_NOMINAL_ENT_14456-
PRON_761 PH_NOMINAL_ENT
_14456 PH_NOMINAL_ENT
_14456 PH_NOMINAL_ENT_14456-
PRON_761
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 14456 14456 761 14456 14456 761
CLASIFICADOR J48 J48 J48 J48 J48 J48
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 FOLDS 20 % 80 14456 761
NÚMERO DE HOJAS 631 631 631
TAMAÑO DEL ARBOL 713 713
INSTANCIAS 14456 14456 2891 14456 14456 2981 761
ATRIBUTOS 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
11990 82,9413% 2406 83,2238% 640 84099.00% 12018 83,135% 2403 83,12% 638 83,8371%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
2466 17,0587% 485 16,7762% 121 15,9001% 2381 16,4707% 478 16,5341% 118 15,5059%
ESTADÍSTICO KAPPA 0,8022 0,8051 0,8152 0,8082 0,8071 0,8185
ERROR ABSOLUTO MEDIO 0,0161 0,016 0,0152 0,0154 0,0153 0,0145
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0913 0,0904 0,0875 0,0897 0,089 0,0849
ERROR ABSOLUTO RELATIVO 27,0197% 26,8669% 25,543% 25,8344% 25,7341% 24,5032%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
52,8943% 52,4048% 50,6862% 52,0241% 51,6843% 49,3855%
INSTANCIAS SIN CLASIFICAR 57 0,3943% 10 0,3459% 5 0,657%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
190
Anexo 6. Resultados experimento: Garcés Navas, PH-M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_CROSS_20 M5P_SPLIT_66 M5P_SPLIT_33 M5P_SPLIT_80 M5P_SPLIT_20 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_ENT_1445
6-PRON_761
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 14456 14456 14456 14456 14456 14456 761
CLASIFICADOR M5P M5P M5P M5P M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 14456 761
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 14456 14456 14456 4915 14456 9686 14456 2891 14456 11565 761
ATRIBUTOS 8 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
ERROR ABSOLUTO MEDIO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 12,6142% 12,9137% 12,3738% 20,5426% 12,7879% 26,1538% 27,6967%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
45,3064% 49,719% 23,7862% 89,1827% 29,0504% 106,1721% 260,9827%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 143 143 143 143 143 143 143
COEFICIENTE DE CORRRELACIÓN
0,9018 0,8841 0,9713 0,7151 0,9572 0,6169 0,3777
MEDIA DEL ERROR ABSOLUTO ($)
35042,3641 35872,3167 33965,212 56390,5134 34206,2059 72079,3001 73043,4499
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
266079,5719 291988,4744 137766,6613 503229,4157 157202,065 607938,8179 1414653,9701
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
191
Anexo 7. Selección de resultados, experimento: Garcés Navas, PH - M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_66 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT_14456 PH_NUMERICO_ENT_14456 PH_NUMERICO_ENT_14456-PRON_761
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 14456 14456 761
CLASIFICADOR M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 66 14456 761
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 14456 14456 4915 761
ATRIBUTOS 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
ERROR ABSOLUTO MEDIO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 12,6142% 12,3738% 27,6967%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 45,3064% 23,7862% 260,9827%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 143 143 143
COEFICIENTE DE CORRRELACIÓN 0,9018 0,9713 0,3777
MEDIA DEL ERROR ABSOLUTO ($) 35042,3641 33965,212 73043,4499
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 266079,5719 137766,6613 1414653,9701
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
192
Anexo 8. Resultados, experimento: Garcés Navas, PH-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_CROSS_20 RL_SPLIT_66 RL_SPLIT_33 RL_SPLIT_80 RL_SPLIT_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_ENT_1445
6-PRON_761
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 14456 14456 14456 14456 14456 14456 761
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 14456 761
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 14456 14456 14456 4915 14456 9686 14456 2891 14456 11565 761
ATRIBUTOS 8 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
ERROR ABSOLUTO MEDIO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 79,8836% 79,8469% 79,9733% 84,0758% 81,515% 85,872% 86,0071%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
78,3034% 78,3007% 77,7264% 78,4222% 79,0384% 79,235% 81,1613%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
0,6219 0,622 0,6295 0,6241 0,6146 0,6167 0,6002
MEDIA DEL ERROR ABSOLUTO ($)
221916,8438 221802,7789 219521,8828 230792,2803 218043,9783 236661,6919 226823,3249
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
459866,6807 459841,9517 450180,8151 442511,486 427704,5767 453697,547 439934,2052
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
193
Anexo 9. Selección de resultados, experimento: Garcés Navas, PH - RL
ENTRENAMIENTO-VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_20 RL_SPLIT_80 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT_14456 PH_NUMERICO_ENT_14456 PH_NUMERICO_ENT_14456-PRON_761
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 14456 14456 761
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS PERCENTAGE SPLIT SUPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 14456 761
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 14456 14456 2891 761
ATRIBUTOS 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
ERROR ABSOLUTO MEDIO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 79,8469% 81,515% 86,0071%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 78,3007% 79,0384% 81,1613%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN 0,622 0,6146 0,6002
MEDIA DEL ERROR ABSOLUTO ($) 221802,7789 218043,9783 226823,3249
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 459841,9517 427704,5767 439934,2052
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
194
Anexo 10. Comparación de selecciones, experimento: Garcés Navas, PH - M5P-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO-VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_66 M5P_SUPPLIED RL_CROSS_20 RL_SPLIT_80 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_EN
T_14456 PH_NUMERICO_ENT_144
56 PH_NUMERICO_ENT_14456-
PRON_761 PH_NUMERICO_E
NT_14456 PH_NUMERICO_E
NT_14456 PH_NUMERICO_ENT_1
4456-PRON_761
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 14456 14456 761 14456 14456 761
CLASIFICADOR M5P M5P M5P REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 66 14456 761 FOLDS 20 % 80 14456 761
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 14456 14456 4915 761 14456 14456 2891 761
ATRIBUTOS 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
ERROR ABSOLUTO MEDIO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 12,6142% 12,3738% 27,6967% 79,8469% 81,515% 86,0071%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
45,3064% 23,7862% 260,9827% 78,3007% 79,0384% 81,1613%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 143 143 143
COEFICIENTE DE CORRRELACIÓN
0,9018 0,9713 0,3777 0,622 0,6146 0,6002
MEDIA DEL ERROR ABSOLUTO ($)
35042,3641 33965,212 73043,4499 221802,7789 218043,9783 226823,3249
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
266079,5719 137766,6613 1414653,9701 459841,9517 427704,5767 439934,2052
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
195
Anexo 11. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Percentage Split 66
-$4000000.0.00
-$2000000.0.00
$.0.00
$2000000.0.00
$4000000.0.00
$6000000.0.00
$8000000.0.00
$10000000.0.00
$12000000.0.00
13
46
69
11
03
61
38
11
72
62
07
12
41
62
76
13
10
63
45
13
79
64
14
14
48
64
83
15
17
65
52
15
86
66
21
16
55
66
90
17
24
67
59
17
93
68
28
18
62
68
97
19
31
69
66
11
00
06
10
35
11
06
96
11
04
11
13
86
11
73
11
20
76
12
42
11
27
66
13
11
11
34
56
13
80
11
41
46
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas PH Valor M2 de Construcción para Datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Percentage Split_66)
196
Anexo 12. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Cross 20
-$2000000.0.00
$.0.00
$2000000.0.00
$4000000.0.00
$6000000.0.00
$8000000.0.00
$10000000.0.00
$12000000.0.00
13
46
69
11
03
61
38
11
72
62
07
12
41
62
76
13
10
63
45
13
79
64
14
14
48
64
83
15
17
65
52
15
86
66
21
16
55
66
90
17
24
67
59
17
93
68
28
18
62
68
97
19
31
69
66
11
00
06
10
35
11
06
96
11
04
11
13
86
11
73
11
20
76
12
42
11
27
66
13
11
11
34
56
13
80
11
41
46
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas PH Valor M2 de Construcción para Datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Cross_20)
197
Anexo 13. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión Split 66 y Regresión Lineal Cross
20
-$4000000.0.00
-$2000000.0.00
$.0.00
$2000000.0.00
$4000000.0.00
$6000000.0.00
$8000000.0.00
$10000000.0.00
$12000000.0.00
13
46
69
11
03
61
38
11
72
62
07
12
41
62
76
13
10
63
45
13
79
64
14
14
48
64
83
15
17
65
52
15
86
66
21
16
55
66
90
17
24
67
59
17
93
68
28
18
62
68
97
19
31
69
66
11
00
06
10
35
11
06
96
11
04
11
13
86
11
73
11
20
76
12
42
11
27
66
13
11
11
34
56
13
80
11
41
46V
alo
r M
2 d
e C
on
stru
cció
n (
$)
ID
UPZ - Garcés Navas PH Valor M2 de Construcción para Datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Percentage Split_66)
Valor M2 de Construcción (Regresión Lineal - Cross_20)
198
Anexo 14. Resultados, experimento: Garcés Navas, NO_ PH-ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_CROSS_20 ID3_SPLIT_66 ID3_SPLIT_33 ID3_SPLIT_80 ID3_SPLIT_20 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_ENT_
17875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 17875 17875 17875 17875 941
CLASIFICADOR ID3 ID3 ID3 ID3 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 17875 17875 17875 6077 17875 11976 17875 3575 17875 14300 941
ATRIBUTOS 11 11 11 11 11 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE
14468 80,9399% 14485 81,035% 4873 80,1876% 9471 79,0832% 2910 81,3986% 11056 77,3147% 766 81,4028%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
2566 14,3552% 2571 14,3832% 869 14,2998% 1721 14,3704% 501 14,014% 2174 15,2028% 138 14,6652%
ESTADÍSTICO KAPPA 0,7471 0,7469 0,7467 0,7417 0,7551 0,7233 0,7406
MEDIA DEL ERROR ABSOLUTO
0,035 0,035 0,0349 0,0346 0,0346 0,0352 0,037
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1594 0,1591 0,1611 0,1646 0,1588 0,1691 0,1627
ERROR ABSOLUTO RELATIVO 30,1863% 30,1624% 30,3314% 30,4826% 29,7665% 31,2181% 31,8489%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
66,398% 66,2755% 67,3454% 69,2551% 65,9129% 71,7101% 67,8348%
INSTANCIAS SIN CLASIFICAR 841 4,7049% 819 4,5818% 335 5,5126% 784 6,5464% 164 4,5874% 1070 7,4825% 37 3,932%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
199
Anexo 15. Selección de resultados, experimento: Garcés Navas, NO_PH - ID3
ENTRENAMIENTO-VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_20 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_17875 NO_PH_NOMINAL_ENT_17875 NO_PH_NOMINAL_ENT_17875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 941
CLASIFICADOR ID3 ID3 ID3
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 17875 17875 3575 941
ATRIBUTOS 11 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE 14485 81,035% 2910 81,3986% 766 81,4028%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 2571 14,3832% 501 14,014% 138 14,6652%
ESTADÍSTICO KAPPA 0,7469 0,7551 0,7406
MEDIA DEL ERROR ABSOLUTO 0,035 0,0346 0,037
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,1591 0,1588 0,1627
ERROR ABSOLUTO RELATIVO 30,1624% 29,7665% 31,8489%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 66,2755% 65,9129% 67,8348%
INSTANCIAS SIN CLASIFICAR 819 4,5818% 164 4,5874% 37 3,932%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
200
Anexo 16. Resultados, experimento: Garcés Navas, NO_PH-J48.
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_10 J48_CROSS_20 J48_SPLIT_66 J48_SPLIT_33 J48_SPLIT_80 J48_SPLIT_20 J48_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_
ENT_17875 NO_PH_NOMINAL_ENT_
17875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 17875 17875 17875 17875 941
CLASIFICADOR J48 J48 J48 J48 J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS 1775 1775 1775 1775 1775 1775 1775
TAMAÑO DEL ARBOL 1904 1904 1904 1904 1904 1904 1904
INSTANCIAS 17875 17875 17875 6077 17875 11976 17875 3575 17875 14300 941
ATRIBUTOS 11 11 11 11 11 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE
15162 84,8224% 15166 84,8448% 5123 84,3015% 10004 83,5337% 3035 84,8951% 11788 82,4336% 807 85,7598%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
2713 15,1776% 2709 15,1552% 954 15,6895% 1972 16,4663% 540 15,1049% 2512 17,5664% 134 14,2402%
ESTADÍSTICO KAPPA 0,7454 0,7457 0,737 0,7241 0,7483 0,7043 0,7577
MEDIA DEL ERROR ABSOLUTO
0,0416 0,0415 0,0425 0,0438 0,0418 0,0461 0,0411
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1513 0,1512 0,1539 0,1581 0,1514 0,1654 0,1488
ERROR ABSOLUTO RELATIVO 33,994% 33,9418% 34,6801% 35,8476% 34,0816% 37,5453% 33,9441%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
61,1781% 61,1518% 62,1902% 63,8531% 61,0425% 66,937% 60,7461%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
201
Anexo 17. Selección de resultados, experimento: Garcés Navas, NO_PH - J48
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_17875 NO_PH_NOMINAL_ENT_17875 NO_PH_NOMINAL_ENT_17875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 941
CLASIFICADOR J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80
NÚMERO DE HOJAS 1775 1775 1775
TAMAÑO DEL ARBOL 1904 1904 1904
INSTANCIAS 17875 17875 3575 941
ATRIBUTOS 11 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE 15166 84,8448% 3035 84,8951% 807 85,7598%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 2709 15,1552% 540 15,1049% 134 14,2402%
ESTADÍSTICO KAPPA 0,7457 0,7483 0,7577
MEDIA DEL ERROR ABSOLUTO 0,0415 0,0418 0,0411
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,1512 0,1514 0,1488
ERROR ABSOLUTO RELATIVO 33,9418% 34,0816% 33,9441%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 61,1518% 61,0425% 60,7461%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
202
Anexo 18. Comparación de selecciones, experimento: UPZ Garcés Navas, NO _PH – J48 - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO-VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED ID3_CROSS_20 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_E
NT_17875 NO_PH_NOMINAL_E
NT_17875 NO_PH_NOMINAL_ENT_178
75-PRO_941 NO_PH_NOMINAL_E
NT_17875 NO_PH_NOMINAL_E
NT_17875 NO_PH_NOMINAL_ENT_17
875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 941 17875 17875 17875 941
CLASIFICADOR J48 J48 J48 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 FOLDS 20 % 80
NÚMERO DE HOJAS 1775 1775 1775
TAMAÑO DEL ARBOL 1904 1904 1904
INSTANCIAS 17875 17875 3575 941 17875 17875 3575 941
ATRIBUTOS 11 11 11 11 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE
15166 84,8448
% 3035 84,8951% 807 85,7598% 14485 81,035% 2910 81,3986% 766 81,4028%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
2709 15,1552
% 540 15,1049% 134 14,2402% 2571 14,3832% 501 14,014% 138 14,6652%
ESTADÍSTICO KAPPA 0,7457 0,7483 0,7577 0,7469 0,7551 0,7406
MEDIA DEL ERROR ABSOLUTO 0,0415 0,0418 0,0411 0,035 0,0346 0,037
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1512 0,1514 0,1488 0,1591 0,1588 0,1627
ERROR ABSOLUTO RELATIVO 33,9418% 34,0816% 33,9441% 30,1624% 29,7665% 31,8489%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
61,1518% 61,0425% 60,7461% 66,2755% 65,9129% 67,8348%
INSTANCIAS SIN CLASIFICAR 819 4,5818% 164 4,5874% 37 3,932%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
203
Anexo 19. Resultados experimento: Garcés Navas, NO_PH-M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_CROSS_20 M5P_SPLIT_66 M5P_SPLIT_33 M5P_SPLIT_80 M5P_SPLIT_20 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO_ENT
_17875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 17875 17875 17875 17875 941
CLASIFICADOR M5P M5P M5P M5P M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 17875 17875 17875 6077 18875 11976 18875 3575 18875 14300 941
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO
26,5921% 35,8525% 29,5417% 30,7227% 27,6891% 33,4519% 25,8274%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
55,8677% 850,4083% 63,1655% 67,7582% 55,2316% 59,966% 46,0286%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 190 190 190 190 190 190 190
COEFICIENTE DE CORRRELACIÓN
0,8363 0,1489 0,7942 0,7757 0,8391 0,8063 0,8882
MEDIA DEL ERROR ABSOLUTO ($)
21004,5739 28318,6237 23217,0101 24268,5254 21789,3356 26351,5823 20101,7549
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
57097,4629 869116,0151 64560,952 69066,5457 56747,4831 61183,7346 45954,4706
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
204
Anexo 20. Selección de resultados, experimento: Garcés Navas, NO_PH - M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_80 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_17875 NO_PH_NUMERICO_ENT_17875 NO_PH_NUMERICO_ENT_17875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 941
CLASIFICADOR M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 80
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 17875 18875 3575 941
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 26,5921% 27,6891% 25,8274%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 55,8677% 55,2316% 46,0286%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 190 190 190
COEFICIENTE DE CORRRELACIÓN 0,8363 0,8391 0,8882
MEDIA DEL ERROR ABSOLUTO ($) 21004,5739 21789,3356 20101,7549
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 57097,4629 56747,4831 45954,4706
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
205
Anexo 21. Resultados, experimento: Garcés Navas, NO_PH-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_CROSS_20 RL_SPLIT_66 RL_SPLIT_33 RL_SPLIT_80 RL_SPLIT_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO
_ENT_17875 NO_PH_NUMERICO_ENT
_17875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 17875 17875 17875 17875 941
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 17875 17875 17875 6077 17875 11976 17875 3575 17875 14300 941
ATRIBUTOS 11 11 11 11 11 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO
51,6084% 51,5979% 51,9574% 51,5144% 52,4821% 51,7858% 52,2463%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
62,3944% 62,317% 62,8131% 64,1319% 63,0348% 68,993% 62,6413%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
0,7815 0,7821 0,7782 0,7698 0,7767 0,7361 0,7795
MEDIA DEL ERROR ABSOLUTO ($)
40764,4956 40755,3571 40833,5809 40692,4208 41299,6537 40794,0708 40663,8247
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
63767,8312 63687,9119 64200,8245 65370,1997 64764,8373 70393,9967 62540,4607
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
206
Anexo 22. Selección de resultados, experimento: Garcés Navas, NO_PH – RL
ENTRENAMIENTO-VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_20 RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_17875 NO_PH_NUMERICO_ENT_17875 NO_PH_NUMERICO_ENT_17875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 941
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 66
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 17875 17875 6077 941
ATRIBUTOS 11 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 51,5979% 51,9574% 52,2463%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 62,317% 62,8131% 62,6413%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN 0,7821 0,7782 0,7795
MEDIA DEL ERROR ABSOLUTO ($) 40755,3571 40833,5809 40663,8247
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 63687,9119 64200,8245 62540,4607
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
207
Anexo 23. Comparación de selecciones, experimento: UPZ Garcés Navas, NO_PH - M5P-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO-VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_80 M5P_SUPPLIED RL_CROSS_20 RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_
ENT_17875 NO_PH_NUMERICO_
ENT_17875 NO_PH_NUMERICO_ENT_1
7875-PRO_941 NO_PH_NUMERICO_
ENT_17875 NO_PH_NUMERICO_
ENT_17875 NO_PH_NUMERICO_ENT_1
7875-PRO_941
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 17875 17875 17875 941 17875 17875 17875 941
CLASIFICADOR M5P M5P M5P REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 80 FOLDS 20 % 66
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 17875 18875 3575 941 17875 17875 6077 941
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 26,5921% 27,6891% 25,8274% 51,5979% 51,9574% 52,2463%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
55,8677% 55,2316% 46,0286% 62,317% 62,8131% 62,6413%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 190 190 190
COEFICIENTE DE CORRRELACIÓN
0,8363 0,8391 0,8882 0,7821 0,7782 0,7795
MEDIA DEL ERROR ABSOLUTO ($)
21004,5739 21789,3356 20101,7549 40755,3571 40833,5809 40663,8247
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
57097,4629 56747,4831 45954,4706 63687,9119 64200,8245 62540,4607
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
208
Anexo 24. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 80
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.000
$1400.000
$1600.0001
40
88
15
12
22
16
29
20
36
24
43
28
50
32
57
36
64
40
71
44
78
48
85
52
92
56
99
61
06
65
13
69
20
73
27
77
34
81
41
85
48
89
55
93
62
97
69
10
17
61
05
83
10
99
01
13
97
11
80
41
22
11
12
61
81
30
25
13
43
21
38
39
14
24
61
46
53
15
06
01
54
67
15
87
41
62
81
16
68
81
70
95
17
50
2
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas NO-PH Valor M2 de Construcción para datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P-Split_80)
209
Anexo 25. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado y Método Regresión Lineal Cross 20
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.000
$1400.000
$1600.0001
40
88
15
12
22
16
29
20
36
24
43
28
50
32
57
36
64
40
71
44
78
48
85
52
92
56
99
61
06
65
13
69
20
73
27
77
34
81
41
85
48
89
55
93
62
97
69
10
17
61
05
83
10
99
01
13
97
11
80
41
22
11
12
61
81
30
25
13
43
21
38
39
14
24
61
46
53
15
06
01
54
67
15
87
41
62
81
16
68
81
70
95
17
50
2
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas NO-PH Valor M2 de Construcción para datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)
210
Anexo 26. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P- Split 80 y Regresión
Lineal Cross 20
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.000
$1400.000
$1600.0001
40
88
15
12
22
16
29
20
36
24
43
28
50
32
57
36
64
40
71
44
78
48
85
52
92
56
99
61
06
65
13
69
20
73
27
77
34
81
41
85
48
89
55
93
62
97
69
10
17
61
05
83
10
99
01
13
97
11
80
41
22
11
12
61
81
30
25
13
43
21
38
39
14
24
61
46
53
15
06
01
54
67
15
87
41
62
81
16
68
81
70
95
17
50
2
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Garcés Navas NO-PH Valor M2 de Construcción para datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)
Valor M2 de Construcción (M5P-Split_80)
211
Anexo 27. Resultados, experimento: Arborizadora, PH-ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_CROSS_20 ID3_SPLIT_66 ID3_SPLIT_33 ID3_SPLIT_80 ID3_SPLIT_20 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_ENT_9438-
PRON_497
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 9438 9438 9438 9438 9438 9438 9438
CLASIFICADOR ID3 ID3 ID3 ID3 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 9438 497
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 9438 9438 9438 3209 9438 6323 9438 1888 9438 7550 9438
ATRIBUTOS 9 9 9 9 9 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE
7786 82,4963% 7787 82,5056% 2647 82,4868% 5205 82,3185% 1542 81,6737% 6190 81,9868% 417 83,9034%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
1633 17,3024% 1631 17,2812% 559 17,4198% 1098 17,3652% 345 18,2733% 1323 17,5232% 79 15,8954%
ESTADÍSTICO KAPPA 0,7811 0,7814 0,7796 0,7793 0,7687 0,777 0,7981
MEDIA DEL ERROR ABSOLUTO 0,0153 0,0152 0,0152 0,0153 0,0153 0,0156 0,0147
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0884 0,0883 0,088 0,0894 0,0886 0,0915 0,0855
ERROR ABSOLUTO RELATIVO 30,9535% 30,9303% 30,7498% 30,9984% 31,1316% 31,695% 29,8586%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
56,364% 56,2736% 56,103% 57,0637% 56,5088% 58,3866% 54,5592%
INSTANCIAS SIN CLASIFICAR 19 0,2013% 20 0,2119% 3 0,0935% 20 0,3163% 1 0,053% 37 0,4901% 1 0,2012%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
212
Anexo 28. Selección de resultados, experimento: Arborizadora, PH - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_20 ID3_SPLIT_66 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_9438 PH_NOMINAL_ENT_9438 PH_NOMINAL_ENT_9438-PRON_497
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 9438 9438 9438
CLASIFICADOR ID3 ID3 ID3
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 66 9438 497
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 9438 9438 3209 9438
ATRIBUTOS 9 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE 7787 82,5056% 2647 82,4868% 417 83,9034%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 1631 17,2812% 559 17,4198% 79 15,8954%
ESTADÍSTICO KAPPA 0,7814 0,7796 0,7981
MEDIA DEL ERROR ABSOLUTO 0,0152 0,0152 0,0147
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,0883 0,088 0,0855
ERROR ABSOLUTO RELATIVO 30,9303% 30,7498% 29,8586%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 56,2736% 56,103% 54,5592%
INSTANCIAS SIN CLASIFICAR 20 0,2119% 3 0,0935% 1 0,2012%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
213
Anexo 29. Resultados, experimento: Arborizadora, PH-J48
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_10 J48_CROSS_20 J48_SPLIT_66 J48_SPLIT_33 J48_SPLIT_80 J48_SPLIT_20 J48_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_EN
T_9438 PH_NOMINAL_ENT_9438-
PRON_497
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 9438 9438 9438 9438 9438 9438 9438 497
CLASIFICADOR J48 J48 J48 J48 J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLD
S 10
FOLDS
20 % 66 % 33 % 80 % 20 9438 497
NÚMERO DE HOJAS 572 572 572 572 572 572 572
TAMAÑO DEL ARBOL 608 608 608 608 608 608 608
INSTANCIAS 9438 9438 3209 6323 1888 7550 497
ATRIBUTOS 9 9 9 9 9 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE
7776 82,3903% 7779 82,4221% 2645 82,4244% 5195 82,1604% 1545 81,8326% 6142 81,351% 414 83,2998%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
1662 17,6097% 1659 17,5779% 564 17,5756% 1128 17,8396% 343 18,1674% 1408 18,649% 83 16,7002%
ESTADÍSTICO KAPPA 0,7777 0,7782 0,7778 0,774 0,77 0,7637 0,7884
MEDIA DEL ERROR ABSOLUTO 0,0158 0,0158 0,0155 0,0162 0,0161 0,017 0,0151
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0895 0,0896 0,0889 0,0917 0,0909 0,0943 0,0867
ERROR ABSOLUTO RELATIVO 31,954% 31,9791% 31,4515% 32,711% 32,7128% 34,427% 30,744%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
57,007% 57,0329% 56,6495% 58,4544% 57,9808% 60,0433% 55,2861%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
214
Anexo 30. Selección de resultados, experimento: Arborizadora, PH - J48
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_66 J48_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_9438 PH_NOMINAL_ENT_9438 PH_NOMINAL_ENT_9438-PRON_497
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 9438 9438 9438 497
CLASIFICADOR J48 J48 J48
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 66 9438 497
NÚMERO DE HOJAS 572 572 572
TAMAÑO DEL ARBOL 608 608 608
INSTANCIAS 9438 3209 497
ATRIBUTOS 9 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE 7779 82,4221% 2645 82,4244% 414 83,2998%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 1659 17,5779% 564 17,5756% 83 16,7002%
ESTADÍSTICO KAPPA 0,7782 0,7778 0,7884
MEDIA DEL ERROR ABSOLUTO 0,0158 0,0155 0,0151
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,0896 0,0889 0,0867
ERROR ABSOLUTO RELATIVO 31,9791% 31,4515% 30,744%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 57,0329% 56,6495% 55,2861%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
215
Anexo 31. Comparación de selecciones, experimento: Arborizadora, PH – J48 - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_66 J48_SUPPLIED ID3_CROSS_20 ID3_SPLIT_66 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT
_9438 PH_NOMINAL_ENT
_9438 PH_NOMINAL_ENT_9438-
PRON_497 PH_NOMINAL_ENT
_9438 PH_NOMINAL_ENT
_9438 PH_NOMINAL_ENT_9438-
PRON_497
REGLAMENTO PH PH PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 9438 9438 9438 497 9438 9438 9438
CLASIFICADOR J48 J48 J48 ID3 ID3 ID3
TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 66 9438 497 FOLDS 20 % 66 9438 497
NÚMERO DE HOJAS 572 572 572
TAMAÑO DEL ARBOL 608 608 608
INSTANCIAS 9438 3209 497 9438 9438 3209 9438
ATRIBUTOS 9 9 9 9 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE
7779 82,4221% 2645 82,4244% 414 83,2998% 7787 82,5056% 2647 82,4868% 417 83,9034%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
1659 17,5779% 564 17,5756% 83 16,7002% 1631 17,2812% 559 17,4198% 79 15,8954%
ESTADÍSTICO KAPPA 0,7782 0,7778 0,7884 0,7814 0,7796 0,7981
MEDIA DEL ERROR ABSOLUTO 0,0158 0,0155 0,0151 0,0152 0,0152 0,0147
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0896 0,0889 0,0867 0,0883 0,088 0,0855
ERROR ABSOLUTO RELATIVO 31,9791% 31,4515% 30,744% 30,9303% 30,7498% 29,8586%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
57,0329% 56,6495% 55,2861% 56,2736% 56,103% 54,5592%
INSTANCIAS SIN CLASIFICAR 20 0,2119% 3 0,0935% 1 0,2012%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
216
Anexo 32. Resultados experimento: Arborizadora, PH-M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_CROSS_20 M5P_SPLIT_66 M5P_SPLIT_33 M5P_SPLIT_80 M5P_SPLIT_20 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_E
NT_9438 PH_NUMERICO_EN
T_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_ENT_9438
-PRON_497
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 9438 9438 9438 9438 9438 9438 9438 497
CLASIFICADOR M5P M5P M5P M5P M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 9438 497
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 9438 9438 9438 3209 9438 6323 9438 1888 9438 7550 9438 497
ATRIBUTOS 11 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 10,016% 9,7947% 11,7799% 13,2832% 10,5795% 16,5572% 9,2602%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
14,005% 13,4237% 48,6698% 17,9549% 16,4997% 29,338% 10,8541%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 107 107 107 107 107 107 107
COEFICIENTE DE CORRRELACIÓN 0,9903 0,9911 0,8952 0,9846 0,9865 0,956 0,9943
MEDIA DEL ERROR ABSOLUTO ($)
15604,5303 15259,6423 18323,3334 20464,0073 16450,7848 25841,5007 14004,6511
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
32993,0762 31623,8977 114514,184 42057,8845 38822,1862 69315,5111 24848,6865
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
217
Anexo 33. Selección de resultados, experimento: Arborizadora, PH - M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_20 M5P_SPLIT_80 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT_9438 PH_NUMERICO_ENT_9438 PH_NUMERICO_ENT_9438-PRON_497
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 9438 9438 9438 497
CLASIFICADOR M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 9438 497
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 9438 9438 1888 9438 497
ATRIBUTOS 11
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 9,7947% 10,5795% 9,2602%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 13,4237% 16,4997% 10,8541%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 107 107 107
COEFICIENTE DE CORRRELACIÓN 0,9911 0,9865 0,9943
MEDIA DEL ERROR ABSOLUTO ($) 15259,6423 16450,7848 14004,6511
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 31623,8977 38822,1862 24848,6865
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
218
Anexo 34. Resultados, experimento: Arborizadora, PH-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_CROSS_20 RL_SPLIT_66 RL_SPLIT_33 RL_SPLIT_80 RL_SPLIT_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_EN
T_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_E
NT_9438 PH_NUMERICO_ENT_9438
-PRON_497
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 9438 6423 6423 6423 6423 6423 6423 497
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 9438 497
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 9438 9438 9438 2184 9438 6323 9438 1888 9438 7550 497
ATRIBUTOS 9 9 9 9 9 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 81,5468% 81,5492% 80,5874% 81,7909% 81,5049% 81,1365% 82,7353%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
77,1033% 77,1095% 76,2215% 76,9817% 76,4406% 77,2846% 77,4944%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN 0,6367 0,6366 0,6481 0,6383 0,6456 0,6344 0,6318
MEDIA DEL ERROR ABSOLUTO ($)
127046,2716 127049,1105 125351,2858 126006,2411 126737,4875 126633,2992 125124,9874
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
181640,7039 181656,1909 179339,9785 180323,7465 179857,4802 182596,4202 177411,173
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
219
Anexo 35. Selección de resultados, experimento: Arborizadora, PH – RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT_9438 PH_NUMERICO_ENT_9438 PH_NUMERICO_ENT_9438-PRON_497
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 9438 6423 6423 497
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 66 9438 497
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 9438 9438 2184 497
ATRIBUTOS 9 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 81,5468% 80,5874% 82,7353%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 77,1033% 76,2215% 77,4944%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN 0,6367 0,6481 0,6318
MEDIA DEL ERROR ABSOLUTO ($) 127046,2716 125351,2858 125124,9874
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 181640,7039 179339,9785 177411,173
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
220
Anexo 36. Comparación de selecciones, experimento: Arborizadora, PH - M5P-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_20 M5P_SPLIT_80 M5P_SUPPLIED RL_CROSS_10 RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_EN
T_9438 PH_NUMERICO_EN
T_9438 PH_NUMERICO_ENT_9438-
PRON_497 PH_NUMERICO_EN
T_9438 PH_NUMERICO_EN
T_9438 PH_NUMERICO_ENT_9438-
PRON_497
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 9438 9438 9438 497 9438 6423 6423 497
CLASIFICADOR M5P M5P M5P REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 9438 497 FOLDS 10 % 66 9438 497
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 9438 9438 1888 9438 497 9438 9438 2184 497
ATRIBUTOS 11 9 9 9
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 9,7947% 10,5795% 9,2602% 81,5468% 80,5874% 82,7353%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
13,4237% 16,4997% 10,8541% 77,1033% 76,2215% 77,4944%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 107 107 107
COEFICIENTE DE CORRRELACIÓN 0,9911 0,9865 0,9943 0,6367 0,6481 0,6318
MEDIA DEL ERROR ABSOLUTO ($) 15259,6423 16450,7848 14004,6511 127046,2716 125351,2858 125124,9874
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
31623,8977 38822,1862 24848,6865 181640,7039 179339,9785 177411,173
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
221
Anexo 37. Arborizadora – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Cross 20
$.0.00
$500000.0.00
$1000000.0.00
$1500000.0.00
$2000000.0.00
$2500000.0.001
22
64
51
67
69
01
11
26
13
51
15
76
18
01
20
26
22
51
24
76
27
01
29
26
31
51
33
76
36
01
38
26
40
51
42
76
45
01
47
26
49
51
51
76
54
01
56
26
58
51
60
76
63
01
65
26
67
51
69
76
72
01
74
26
76
51
78
76
81
01
83
26
85
51
87
76
90
01
92
26
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora PH Valor M2 de Construcción para Datos de Entrenamiento y
Evaluación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Cross _20)
222
Anexo 38. Arborizadora – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Split 66
$.0.00
$500000.0.00
$1000000.0.00
$1500000.0.00
$2000000.0.00
$2500000.0.001
22
64
51
67
69
01
11
26
13
51
15
76
18
01
20
26
22
51
24
76
27
01
29
26
31
51
33
76
36
01
38
26
40
51
42
76
45
01
47
26
49
51
51
76
54
01
56
26
58
51
60
76
63
01
65
26
67
51
69
76
72
01
74
26
76
51
78
76
81
01
83
26
85
51
87
76
90
01
92
26
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora PH Valor M2 de Construcción para Datos de Entrenamiento y
Evaluación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_66)
223
Anexo 39. Arborizadora – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Cross 20 y Regresión Lineal
Split 66
$.0.00
$500000.0.00
$1000000.0.00
$1500000.0.00
$2000000.0.00
$2500000.0.00
12
26
45
16
76
90
11
12
61
35
11
57
61
80
12
02
62
25
12
47
62
70
12
92
63
15
13
37
63
60
13
82
64
05
14
27
64
50
14
72
64
95
15
17
65
40
15
62
65
85
16
07
66
30
16
52
66
75
16
97
67
20
17
42
67
65
17
87
68
10
18
32
68
55
18
77
69
00
19
22
6
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora PH Valor M2 de Construcción para Datos de Entrenamiento y
Evaluación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_66)
Valor M2 de Construcción (M5P - Cross _20)
224
Anexo 40. Resultados, experimento: Arborizadora, NO_PH-ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_CROSS_20 ID3_SPLIT_66 ID3_SPLIT_33 ID3_SPLIT_80 ID3_SPLIT_20 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL_ENT_6
423_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 6423 6423 6423 6423 338
CLASIFICADOR ID3 ID3 ID3 ID3 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 941
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 6423 6423 6423 2184 6423 4303 6423 1285 6423 5138 338
ATRIBUTOS 12 12 12 12 12 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE
5339 83,1232% 5344 83,201% 1804 82,6007% 3467 80,5717% 1073 83,5019% 4061 79,0385% 278 82,2485%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
848 13,2026% 849 13,2181% 285 13,0495% 618 14,3621% 165 12,8405% 819 15,9401% 44 13,0178%
ESTADÍSTICO KAPPA 0,6734 0,6745 0,678 0,6268 0,6793 0,6011 0,6394
MEDIA DEL ERROR ABSOLUTO
0,0105 0,0105 0,0108 0,0114 0,0107 0,0114 0,0108
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0857 0,0853 0,0864 0,091 0,0843 0,0933 0,0867
ERROR ABSOLUTO RELATIVO 38,7513% 38,6018% 40,1355% 41,8152% 39,4273% 41,0931% 42,0575%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
74,2308% 73,8203% 75,2789% 80,2215% 73,7921% 81,4545% 78,9015%
INSTANCIAS SIN CLASIFICAR 236 3,6743% 230 3,5809% 95 4,3498% 218 5,0662% 47 3,6576% 258 5,0214% 16 4,7337%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
225
Anexo 41. Selección de resultados, experimento: Arborizadora, NO_PH - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_20 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_6423 NO_PH_NOMINAL_ENT_6423 NO_PH_NOMINAL_ENT_6423_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 338
CLASIFICADOR ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 941
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 6423 6423 1285 338
ATRIBUTOS 12 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE 5344 83,201% 1073 83,5019% 278 82,2485%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 849 13,2181% 165 12,8405% 44 13,0178%
ESTADÍSTICO KAPPA 0,6745 0,6793 0,6394
MEDIA DEL ERROR ABSOLUTO 0,0105 0,0107 0,0108
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,0853 0,0843 0,0867
ERROR ABSOLUTO RELATIVO 38,6018% 39,4273% 42,0575%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 73,8203% 73,7921% 78,9015%
INSTANCIAS SIN CLASIFICAR 230 3,5809% 47 3,6576% 16 4,7337%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
226
Anexo 42. Resultados, experimento: Arborizadora, NO_PH-J48.
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_10 J48_CROSS_20 J48_SPLIT_66 J48_SPLIT_33 J48_SPLIT_80 J48_SPLIT_20 J48_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL
_ENT_6423 NO_PH_NOMINAL_ENT_6
423_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 6423 6423 6423 6423 338
CLASIFICADOR J48 J48 J48 J48 J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 6423 338
NÚMERO DE HOJAS 524 524 524 524 524 524 524
TAMAÑO DEL ARBOL 563 563 563 563 563 563 563
INSTANCIAS 6423 6423 2184 4303 1285 6423 338
ATRIBUTOS 12 12 12 12 12 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE
5543 86,2992% 5554 86,4705% 1866 85,4396% 3656 84,964% 1104 85,9144% 4345 84,566% 293 86,6864%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
880 13,7008% 869 13,5295% 318 14,5604% 647 15,036% 181 14,0856% 793 15,434% 45 13,3136%
ESTADÍSTICO KAPPA 0,6815 0,6849 0,6648 0,6457 0,6668 0,6372 0,6562
MEDIA DEL ERROR ABSOLUTO
0,0129 0,0129 0,0133 0,0137 0,0131 0,0138 0,0122
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0836 0,0834 0,0858 0,0865 0,085 0,0876 0,0807
ERROR ABSOLUTO RELATIVO 45,1785% 45,1553% 46,4931% 47,1422% 46,3491% 46,5702% 44,2671%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
70,1235% 69,948% 71,9335% 73,0076% 72,1069% 73,7348% 70,36%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
227
Anexo 43. Selección de resultados, experimento: Arborizadora, NO_PH - J48
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_6423 NO_PH_NOMINAL_ENT_6423 NO_PH_NOMINAL_ENT_6423_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 338
CLASIFICADOR J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 6423 338
NÚMERO DE HOJAS 524 524 524
TAMAÑO DEL ARBOL 563 563 563
INSTANCIAS 6423 1285 338
ATRIBUTOS 12 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE 5554 86,4705% 1104 85,9144% 293 86,6864%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 869 13,5295% 181 14,0856% 45 13,3136%
ESTADÍSTICO KAPPA 0,6849 0,6668 0,6562
MEDIA DEL ERROR ABSOLUTO 0,0129 0,0131 0,0122
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,0834 0,085 0,0807
ERROR ABSOLUTO RELATIVO 45,1553% 46,3491% 44,2671%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 69,948% 72,1069% 70,36%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
228
Anexo 44. Comparación de selecciones, experimento: UPZ Arborizadora, NO_PH – J48 - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED ID3_CROSS_20 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_E
NT_6423 NO_PH_NOMINAL_E
NT_6423 NO_PH_NOMINAL_ENT_642
3_PRON_338 NO_PH_NOMINAL_E
NT_6423 NO_PH_NOMINAL_E
NT_6423 NO_PH_NOMINAL_ENT_642
3_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 338 6423 6423 6423 338
CLASIFICADOR J48 J48 J48 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 6423 338 FOLDS 20 % 80 941
NÚMERO DE HOJAS 524 524 524
TAMAÑO DEL ARBOL 563 563 563
INSTANCIAS 6423 1285 338 6423 6423 1285 338
ATRIBUTOS 12 12 12 12 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE
5554 86,4705% 1104 85,9144% 293 86,6864% 5344 83,201% 1073 83,5019% 278 82,2485%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
869 13,5295% 181 14,0856% 45 13,3136% 849 13,2181% 165 12,8405% 44 13,0178%
ESTADÍSTICO KAPPA 0,6849 0,6668 0,6562 0,6745 0,6793 0,6394
MEDIA DEL ERROR ABSOLUTO 0,0129 0,0131 0,0122 0,0105 0,0107 0,0108
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,0834 0,085 0,0807 0,0853 0,0843 0,0867
ERROR ABSOLUTO RELATIVO 45,1553% 46,3491% 44,2671% 38,6018% 39,4273% 42,0575%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
69,948% 72,1069% 70,36% 73,8203% 73,7921% 78,9015%
INSTANCIAS SIN CLASIFICAR 230 3,5809% 47 3,6576% 16 4,7337%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
229
Anexo 45. Resultados experimento: Arborizadora, NO_PH - M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_CROSS_20 M5P_SPLIT_66 M5P_SPLIT_33 M5P_SPLIT_80 M5P_SPLIT_20 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NOMINAL_ENT_6
423_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 6423 6423 6423 6423 338
CLASIFICADOR M5P M5P M5P M5P M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 6423 338
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 6423 6423 6423 2184 6423 4303 6423 1285 6423 5138 338
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO
38,7415% 49,2126% 36,1481% 42,8878% 36,799% 46,9919% 53,4121%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
167,2111% 605,3878% 59,9018% 76,2646% 54,6151% 162,7878% 255,4094%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 76 76 76 76 76 76 76
COEFICIENTE DE CORRRELACIÓN
0,4619 0,0851 0,8008 0,6835 0,8379 0,3142 0,574
MEDIA DEL ERROR ABSOLUTO ($)
19845,9391 25208,2067 18569,4439 21841,6078 18723,1371 23992,22 27222,434
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
125025,3939 452639,7835 45547,2131 57454,0408 42268,9949 121715,0349 184938,4554
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
230
Anexo 46. Selección de resultados, experimento: Arborizadora, NO_PH - M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_80 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_6423 NO_PH_NUMERICO_ENT_6423 NO_PH_NOMINAL_ENT_6423_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 338
CLASIFICADOR M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 80 6423 338
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 6423 6423 1285 338
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 38,7415% 36,799% 53,4121%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 167,2111% 54,6151% 255,4094%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 76 76 76
COEFICIENTE DE CORRRELACIÓN 0,4619 0,8379 0,574
MEDIA DEL ERROR ABSOLUTO ($) 19845,9391 18723,1371 27222,434
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 125025,3939 42268,9949 184938,4554
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
231
Anexo 47. Resultados, experimento: Arborizadora, NO_PH - RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_CROSS_20 RL_SPLIT_66 RL_SPLIT_33 RL_SPLIT_80 RL_SPLIT_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NUMERIC
O_ENT_6423 NO_PH_NOMINAL_ENT_6
423_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 6423 6423 6423 6423 338
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 6423 338
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 6423 6423 6423 2184 6423 4303 6423 1285 6423 5138 338
ATRIBUTOS 12 12 12 12 12 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO
67,4363% 67,4495% 68,3153% 67,0106% 70,6689% 67,5239% 71,5831%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
72,2898% 72,3444% 75,7858% 72,0313% 78,5162% 74,3942% 97,4072%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
0,6914 0,6909 0,6582 0,6938 0,6323 0,669 0,3999
MEDIA DEL ERROR ABSOLUTO ($)
34545,2815 34549,7034 35093,9242 34126,7282 35956,0008 34475,0377 36483,6142
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
54051,8006 54090,9051 57624,8228 54264,8928 60767,0653 55623,9529 70531,2045
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
232
Anexo 48. Selección de resultados, experimento: Arborizadora, NO_PH – RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_SPLIT_33 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_6423 NO_PH_NUMERICO_ENT_6423 NO_PH_NOMINAL_ENT_6423_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 338
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 33 6423 338
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 6423 6423 4303 338
ATRIBUTOS 12 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 67,4363% 67,0106% 71,5831%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 72,2898% 72,0313% 97,4072%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN 0,6914 0,6938 0,3999
MEDIA DEL ERROR ABSOLUTO ($) 34545,2815 34126,7282 36483,6142
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 54051,8006 54264,8928 70531,2045
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
233
Anexo 49. Comparación de selecciones, experimento: UPZ Arborizadora, NO_PH - M5P-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_80 M5P_SUPPLIED RL_CROSS_10 RL_SPLIT_33 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_
ENT_6423 NO_PH_NUMERICO_
ENT_6423 NO_PH_NOMINAL_ENT_642
3_PRON_338 NO_PH_NUMERICO_
ENT_6423 NO_PH_NUMERICO_
ENT_6423 NO_PH_NOMINAL_ENT_642
3_PRON_338
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 6423 6423 6423 338 6423 6423 6423 338
CLASIFICADOR M5P M5P M5P REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 80 6423 338 FOLDS 10 % 33 6423 338
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 6423 6423 1285 338 6423 6423 4303 338
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 38,7415% 36,799% 53,4121% 67,4363% 67,0106% 71,5831%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
167,2111% 54,6151% 255,4094% 72,2898% 72,0313% 97,4072%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 76 76 76
COEFICIENTE DE CORRRELACIÓN
0,4619 0,8379 0,574 0,6914 0,6938 0,3999
MEDIA DEL ERROR ABSOLUTO ($)
19845,9391 18723,1371 27222,434 34545,2815 34126,7282 36483,6142
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
125025,3939 42268,9949 184938,4554 54051,8006 54264,8928 70531,2045
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
234
Anexo 50. Arborizadora – NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P - Split 80
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.0001
14
72
93
43
95
85
73
18
77
10
23
11
69
13
15
14
61
16
07
17
53
18
99
20
45
21
91
23
37
24
83
26
29
27
75
29
21
30
67
32
13
33
59
35
05
36
51
37
97
39
43
40
89
42
35
43
81
45
27
46
73
48
19
49
65
51
11
52
57
54
03
55
49
56
95
58
41
59
87
61
33
62
79
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora NO_PH Valor M2 de Construcción para datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Split_80)
235
Anexo 51. Arborizadora – NO_PH, Comparación Valor m2 de Construcción Observado y Método Regresión Lineal – Split 33
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.0001
14
72
93
43
95
85
73
18
77
10
23
11
69
13
15
14
61
16
07
17
53
18
99
20
45
21
91
23
37
24
83
26
29
27
75
29
21
30
67
32
13
33
59
35
05
36
51
37
97
39
43
40
89
42
35
43
81
45
27
46
73
48
19
49
65
51
11
52
57
54
03
55
49
56
95
58
41
59
87
61
33
62
79
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora NO_PH Valor M2 de Construcción para Datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_33)
236
Anexo 52. Arborizadora - NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P - Split 80 y Regresión
Lineal - Split 33
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.0001
14
72
93
43
95
85
73
18
77
10
23
11
69
13
15
14
61
16
07
17
53
18
99
20
45
21
91
23
37
24
83
26
29
27
75
29
21
30
67
32
13
33
59
35
05
36
51
37
97
39
43
40
89
42
35
43
81
45
27
46
73
48
19
49
65
51
11
52
57
54
03
55
49
56
95
58
41
59
87
61
33
62
79
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Arborizadora NO_PH Valor M2 de Construcción para datos de Entrenamiento y
Validación
Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_33)
Valor M2 de Construcción (M5P - Split_80)
237
Anexo 53. Resultados, experimento: Calandaima, PH-ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_CROSS_20 ID3_SPLIT_66 ID3_SPLIT_33 ID3_SPLIT_80 ID3_SPLIT_20 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_ENT_28824-
PRON_1517
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 28824 28824 28824 28824 1517
CLASIFICADOR ID3 ID3 ID3 ID3 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS 219
TAMAÑO DEL ARBOL 256
INSTANCIAS 28824 28824 28824 9800 28824 19312 28824 5765 28824 23059 1517
ATRIBUTOS 8 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
23723 82,3029% 23721 82,296% 8075 82,398% 15898 82,3219% 4757 82,5152% 18846 81,7295% 1249 82,3336%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
5097 17,6832% 5099 17,6901% 1723 17,5816% 3401 17,6108% 1008 17,4848% 4197 18,2011% 268 17,6664%
ESTADÍSTICO KAPPA 0,7731 0,773 0,7743 0,7739 0,7752 0,7649 0,7722
MEDIA DEL ERROR ABSOLUTO 0,0213 0,0214 0,0212 0,0213 0,0211 0,0214 0,0214
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1036 0,1036 0,1034 0,1039 0,1032 0,1039 0,1035
ERROR ABSOLUTO RELATIVO 30,1142% 30,125% 29,9493% 30,0665% 29,7767% 30,1632% 30,249%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
55,0168% 55,0267% 54,9492% 55,1933% 54,8654% 55,2404% 55,1848%
INSTANCIAS SIN CLASIFICAR 4 0,0139% 4 0,0139% 2 0,0204% 13 0,0673% 16 0,0694%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
238
Anexo 54. Selección de resultados, experimento: Calandaima, PH - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_28824 PH_NOMINAL_ENT_28824 PH_NOMINAL_ENT_28824-PRON_1517
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 1517
CLASIFICADOR ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLS 10 % 80
NÚMERO DE HOJAS 219
TAMAÑO DEL ARBOL 256
INSTANCIAS 28824 28824 5765 1517
ATRIBUTOS 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE 23723 82,3029% 4757 82,5152% 1249 82,3336%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 5097 17,6832% 1008 17,4848% 268 17,6664%
ESTADÍSTICO KAPPA 0,7731 0,7752 0,7722
MEDIA DEL ERROR ABSOLUTO 0,0213 0,0211 0,0214
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,1036 0,1032 0,1035
ERROR ABSOLUTO RELATIVO 30,1142% 29,7767% 30,249%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 55,0168% 54,8654% 55,1848%
INSTANCIAS SIN CLASIFICAR 4 0,0139%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
239
Anexo 55. Resultados, experimento: Calandaima, PH-J48.
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_10 J48_CROSS_20 J48_SPLIT_66 J48_SPLIT_33 J48_SPLIT_80 J48_SPLIT_20 J48_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_EN
T_28824 PH_NOMINAL_ENT_28824-
PRON_1517
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 28824 28824 28824 28824 1517
CLASIFICADOR J48 J48 J48 J48 J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS 219 219 219 219 219 219 219
TAMAÑO DEL ARBOL 256 256 256 256 256 256 256
INSTANCIAS 28824 28824 28824 9800 28824 19312 28824 5765 28824 23059 1517
ATRIBUTOS 8 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
23722 82,2995% 23722 82,2995% 8073 82,3776% 15900 82,3322% 4755 82,4805% 18840 81,7035% 1249 82,3336%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
5102 17,7005% 5102 17,7005% 1727 17,6224% 3412 17,6678% 1010 17,5195% 4219 18,2965% 268 17,6664%
ESTADÍSTICO KAPPA 0,7729 0,7729 0,7739 0,7734 0,7748 0,7639 0,7722
MEDIA DEL ERROR ABSOLUTO 0,0215 0,0215 0,0214 0,0215 0,0212 0,0216 0,0215
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,104 0,1039 0,1037 0,1041 0,1036 0,1043 0,1038
ERROR ABSOLUTO RELATIVO 30,3746% 30,3574% 30,1611% 30,2668% 29,9814% 30,381% 30,3807%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
55,2326% 55,2054% 55,1134% 55,2942% 55,0614% 55,3858% 55,3254%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
240
Anexo 56. Selección de resultados, experimento: Calandaima, PH - J48
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_28824 PH_NOMINAL_ENT_28824 PH_NOMINAL_ENT_28824-PRON_1517
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 1517
CLASIFICADOR J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80
NÚMERO DE HOJAS 219 219 219
TAMAÑO DEL ARBOL 256 256 256
INSTANCIAS 28824 28824 5765 1517
ATRIBUTOS 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE 23722 82,2995% 4755 82,4805% 1249 82,3336%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 5102 17,7005% 1010 17,5195% 268 17,6664%
ESTADÍSTICO KAPPA 0,7729 0,7748 0,7722
MEDIA DEL ERROR ABSOLUTO 0,0215 0,0212 0,0215
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,1039 0,1036 0,1038
ERROR ABSOLUTO RELATIVO 30,3574% 29,9814% 30,3807%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 55,2054% 55,0614% 55,3254%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
241
Anexo 57. Comparación de selecciones, experimento: UPZ Calandaima, PH – J48 - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED ID3_CROSS_10 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT
_28824 PH_NOMINAL_ENT
_28824 PH_NOMINAL_ENT_28824-
PRON_1517 PH_NOMINAL_ENT
_28824 PH_NOMINAL_ENT
_28824 PH_NOMINAL_ENT_28824-
PRON_1517
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 1517 28824 28824 28824 1517
CLASIFICADOR J48 J48 J48 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 80 FOLS 10 % 80
NÚMERO DE HOJAS 219 219 219 219
TAMAÑO DEL ARBOL 256 256 256 256
INSTANCIAS 28824 28824 5765 1517 28824 28824 5765 1517
ATRIBUTOS 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
23722 82,2995% 4755 82,4805% 1249 82,3336% 23723 82,3029% 4757 82,5152% 1249 82,3336%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
5102 17,7005% 1010 17,5195% 268 17,6664% 5097 17,6832% 1008 17,4848% 268 17,6664%
ESTADÍSTICO KAPPA 0,7729 0,7748 0,7722 0,7731 0,7752 0,7722
MEDIA DEL ERROR ABSOLUTO 0,0215 0,0212 0,0215 0,0213 0,0211 0,0214
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1039 0,1036 0,1038 0,1036 0,1032 0,1035
ERROR ABSOLUTO RELATIVO 30,3574% 29,9814% 30,3807% 30,1142% 29,7767% 30,249%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
55,2054% 55,0614% 55,3254% 55,0168% 54,8654% 55,1848%
INSTANCIAS SIN CLASIFICAR 4 0,0139%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
242
Anexo 58. Resultados experimento: Calandaima, PH-M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_CROSS_20 M5P_SPLIT_66 M5P_SPLIT_33 M5P_SPLIT_80 M5P_SPLIT_20 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_EN
T_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_ENT_2882
4-PRON_1517
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 28824 28824 28824 28824 1517
CLASIFICADOR M5P M5P M5P M5P M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS 219
TAMAÑO DEL ARBOL 256
INSTANCIAS 28824 28824 28824 9800 28824 19312 28824 5765 28824 23059 1517
ATRIBUTOS 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 10,4103% 9,9912% 19,1179% 14,2501% 13,496% 15,1543% 9,355%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
19,1534% 18,2316% 24,7208% 22,3483% 30,9208% 22,1274% 11,738%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 91 91 91 91 91 91 91
COEFICIENTE DE CORRRELACIÓN
0,9815 0,9833 0,9694 0,9748 0,9527 0,9752 0,9931
MEDIA DEL ERROR ABSOLUTO ($)
18554,9344 17807,4296 34168,3453 25315,371 23550,3115 26931,6067 16018,9157
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
69514,5584 66169,0974 90691,3022 80736,1912 106212,1545 79698,169 37836,2157
SELECCIÓN 1 X X MEJOR X
SELECCIÓN 2 X
SELECCIÓN FINAL
243
Anexo 59. Selección de resultados, experimento: Calandaima, PH - M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_20 M5P_SPLIT_20 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT_28824 PH_NUMERICO_ENT_28824 PH_NUMERICO_ENT_28824-PRON_1517
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 1517
CLASIFICADOR M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 20
NÚMERO DE HOJAS 219
TAMAÑO DEL ARBOL 256
INSTANCIAS 28824 28824 23059 1517
ATRIBUTOS 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 9,9912% 15,1543% 9,355%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 18,2316% 22,1274% 11,738%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 91 91 91
COEFICIENTE DE CORRRELACIÓN 0,9833 0,9752 0,9931
MEDIA DEL ERROR ABSOLUTO ($) 17807,4296 26931,6067 16018,9157
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 66169,0974 79698,169 37836,2157
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
244
Anexo 60. Resultados, experimento: Calandaima, PH - RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_CROSS_20 RL_SPLIT_66 RL_SPLIT_33 RL_SPLIT_80 RL_SPLIT_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_EN
T_28824 PH_NUMERICO_EN
T_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_E
NT_28824 PH_NUMERICO_ENT_2882
4-PRON_1517
REGLAMENTO PH PH PH PH PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 28824 28824 28824 28824 1517
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS 219
TAMAÑO DEL ARBOL 256
INSTANCIAS 28824 28824 28824 9800 28824 19312 28824 5765 28824 23059 1517
ATRIBUTOS 8 8 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 76,9553% 76,9698% 76,3498% 77,9256% 78,3235% 77,6127% 78,642%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
54,1553% 54,165% 53,2562% 53,9814% 56,8194% 54,8221% 58,6008%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
0,8407 0,8406 0,8464 0,8419 0,823 0,837 0,8106
MEDIA DEL ERROR ABSOLUTO ($)
137161,7346 137184,775 136455,5721 138434,8537 136673,4287 137930,3568 134661,4195
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
196548,9063 196583,8287 195377,2308 195014,9168 195173,0411 197457,3865 188892,9899
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
245
Anexo 61. Selección de resultados, experimento: Calandaima, PH – RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT_28824 PH_NUMERICO_ENT_28824 PH_NUMERICO_ENT_28824-PRON_1517
REGLAMENTO PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 1517
FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 66
NÚMERO DE HOJAS 219
TAMAÑO DEL ARBOL 256
INSTANCIAS 28824 28824 9800 1517
ATRIBUTOS 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 76,9553% 76,3498% 78,642%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 54,1553% 53,2562% 58,6008%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN 0,8407 0,8464 0,8106
MEDIA DEL ERROR ABSOLUTO ($) 137161,7346 136455,5721 134661,4195
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 196548,9063 195377,2308 188892,9899
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
246
Anexo 62. Comparación de selecciones, experimento: UPZ Calandaima, PH - M5P-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_20 M5P_SPLIT_20 M5P_SUPPLIED RL_CROSS_10 RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT
_28824 PH_NUMERICO_ENT
_28824 PH_NUMERICO_ENT_28
824-PRON_1517 PH_NUMERICO_ENT
_28824 PH_NUMERICO_ENT_28
824 PH_NUMERICO_ENT_28824-
PRON_1517
REGLAMENTO PH PH PH PH PH PH
CANTIDAD DE DATOS 28824 28824 28824 1517 28824 28824 28824 1517
CLASIFICADOR M5P M5P M5P REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 20 FOLDS 10 % 66
NÚMERO DE HOJAS 219 219
TAMAÑO DEL ARBOL 256 256
INSTANCIAS 28824 28824 23059 1517 28824 28824 9800 1517
ATRIBUTOS 8 8 8 8 8
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 9,9912% 15,1543% 9,355% 76,9553% 76,3498% 78,642%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
18,2316% 22,1274% 11,738% 54,1553% 53,2562% 58,6008%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 91 91 91
COEFICIENTE DE CORRRELACIÓN 0,9833 0,9752 0,9931 0,8407 0,8464 0,8106
MEDIA DEL ERROR ABSOLUTO ($) 17807,4296 26931,6067 16018,9157 137161,7346 136455,5721 134661,4195
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
66169,0974 79698,169 37836,2157 196548,9063 195377,2308 188892,9899
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
247
Anexo 63. Calandaima – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión - M5P Cross 20
-$1000.000
$000
$1000.000
$2000.000
$3000.000
$4000.000
$5000.000
$6000.000
$7000.0001
70
7
14
13
21
19
28
25
35
31
42
37
49
43
56
49
63
55
70
61
77
67
84
73
91
79
98
85
10
59
11
12
97
12
00
31
27
09
13
41
51
41
21
14
82
71
55
33
16
23
91
69
45
17
65
11
83
57
19
06
31
97
69
20
47
5
21
18
12
18
87
22
59
32
32
99
24
00
52
47
11
25
41
72
61
23
26
82
92
75
35
28
24
12
89
47
29
65
3
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima PH. Valor M2 de Costrucción para datos de Entrenamiento y
Validación
Valor M2 Construcción (Observado) Valor M2 de Construcción (M5P - Cross_20)
248
Anexo 64. Calandaima – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal – Split 66
-$4000.000
-$3000.000
-$2000.000
-$1000.000
$000
$1000.000
$2000.000
$3000.000
$4000.000
$5000.000
$6000.000
$7000.0001
70
7
14
13
21
19
28
25
35
31
42
37
49
43
56
49
63
55
70
61
77
67
84
73
91
79
98
85
10
59
11
12
97
12
00
31
27
09
13
41
51
41
21
14
82
71
55
33
16
23
91
69
45
17
65
11
83
57
19
06
31
97
69
20
47
5
21
18
12
18
87
22
59
32
32
99
24
00
52
47
11
25
41
72
61
23
26
82
92
75
35
28
24
12
89
47
29
65
3
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima PH. Valor M2 de Costrucción para datos de Entrenamiento y
Validación
Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split 66)
249
Anexo 65. Calandaima – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P– Cross 20 y Regresión Lineal
– Split 66
-$4000.000
-$3000.000
-$2000.000
-$1000.000
$000
$1000.000
$2000.000
$3000.000
$4000.000
$5000.000
$6000.000
$7000.0001
70
7
14
13
21
19
28
25
35
31
42
37
49
43
56
49
63
55
70
61
77
67
84
73
91
79
98
85
10
59
11
12
97
12
00
31
27
09
13
41
51
41
21
14
82
71
55
33
16
23
91
69
45
17
65
11
83
57
19
06
31
97
69
20
47
5
21
18
12
18
87
22
59
32
32
99
24
00
52
47
11
25
41
72
61
23
26
82
92
75
35
28
24
12
89
47
29
65
3
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima PH. Valor M2 de Costrucción para datos de Entrenamiento y
Validación
Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split 66)
Valor M2 de Construcción (M5P - Cross_20)
250
Anexo 66. Resultados, experimento: Calandaima, NO_PH - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_CROSS_20 ID3_SPLIT_66 ID3_SPLIT_33 ID3_SPLIT_80 ID3_SPLIT_20 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_ENT_2
636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636 2636 2636 2636 2636
CLASIFICADOR ID3 ID3 ID3 ID3 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 % 5
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 2636 2636 2636 896 2636 1766 2636 527 2636 2109 139
ATRIBUTOS 10 10 10 10 10 12 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE
2197 83,346% 2193 83,1942% 747 83,3705% 1405 79,5583% 439 83,3017% 1667 79,0422% 115 82,7338%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
371 14,0744% 377 14,302% 127 14,1741% 285 16,1382% 75 14,2315% 342 16,2162% 21 15,1079%
ESTADÍSTICO KAPPA 0,6902 0,6851 0,6948 0,6422 0,6962 0,64 0,6753
MEDIA DEL ERROR ABSOLUTO 0,0425 0,0433 0,0435 0,0449 0,0434 0,0464 0,044
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1741 0,1755 0,1769 0,1882 0,1767 0,1963 0,1734
ERROR ABSOLUTO RELATIVO 35,8212% 36,4695% 36,5676% 38,4151% 36,2492% 39,722% 36,4521%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
72,0379% 72,548% 73,1181% 78,5728% 72,3605% 82,3389% 70,5714%
INSTANCIAS SIN CLASIFICAR 68 2,5797% 66 2,5038% 22 2,4554% 76 4,3035% 13 2,4668% 100 4,7416% 3 2,1583%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
251
Anexo 67. Selección de resultados, experimento: Calandaima, NO_PH - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO ID3_CROSS_10 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_2636 NO_PH_NOMINAL_ENT_2636 NO_PH_NOMINAL_ENT_2636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636
CLASIFICADOR ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 80 % 5
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 2636 2636 527 139
ATRIBUTOS 10 10 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE 2197 83,346% 439 83,3017% 115 82,7338%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 371 14,0744% 75 14,2315% 21 15,1079%
ESTADÍSTICO KAPPA 0,6902 0,6962 0,6753
MEDIA DEL ERROR ABSOLUTO 0,0425 0,0434 0,044
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,1741 0,1767 0,1734
ERROR ABSOLUTO RELATIVO 35,8212% 36,2492% 36,4521%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 72,0379% 72,3605% 70,5714%
INSTANCIAS SIN CLASIFICAR 68 2,5797% 13 2,4668% 3 2,1583%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
252
Anexo 68. Resultados, experimento: Calandaima, NO_PH-J48.
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_10 J48_CROSS_20 J48_SPLIT_66 J48_SPLIT_33 J48_SPLIT_80 J48_SPLIT_20 J48_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_
ENT_2636 NO_PH_NOMINAL_ENT_2
636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636 2636 2636 2636 2636 2636 139
CLASIFICADOR J48 J48 J48 J48 J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20
NÚMERO DE HOJAS 315 315 315 315 315 315 315
TAMAÑO DEL ARBOL 351 351 351 351 351 351 351
INSTANCIAS 2636 2636 2636 896 2636 1766 2636 527 2636 2109 139
ATRIBUTOS 10 10 10 10 10 10 12
INSTANCIAS CLASIFICADAS CORRECTAMENTE
2198 83,383
9% 2189 83,0425% 757
84,4866%
1437 81,3703
% 442
83,871%
1641 77,8094
% 120 86,3309%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
438 16,616
1% 447 16,9575% 139
15,5134%
329 18,6297
% 85
16,129%
468 22,1906
% 19 13,6691%
ESTADÍSTICO KAPPA 0,6538 0,6459 0,6751 0,6213 0,6707 0,5436 0,7182
ERROR ABSOLUTO MEDIO 0,055 0,0553 0,0532 0,0572 0,0554 0,0609 0,0478
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1772 0,1784 0,1725 0,1873 0,1786 0,1989 0,1614
ERROR ABSOLUTO RELATIVO 44,6663% 44,9289% 43,1841% 46,2782% 44,6574% 48,9996% 38,1959%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
71,5057% 71,9884% 69,7936% 75,5417% 71,3767% 80,2336% 64,1286%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
253
Anexo 69. Selección de resultados, experimento: Calandaima, NO_PH - J48
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_10 J48_SPLIT_66 J48_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_2636 NO_PH_NOMINAL_ENT_2636 NO_PH_NOMINAL_ENT_2636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636 2636 139
CLASIFICADOR J48 J48 J48
TEST OPTIONS CROSS VALIDATION PERCENTAGE-SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 66
NÚMERO DE HOJAS 315 315 315
TAMAÑO DEL ARBOL 351 351 351
INSTANCIAS 2636 2636 896 139
ATRIBUTOS 10 10 10
INSTANCIAS CLASIFICADAS CORRECTAMENTE 2198 83,3839% 757 84,4866% 120 86,3309%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE 438 16,6161% 139 15,5134% 19 13,6691%
ESTADÍSTICO KAPPA 0,6538 0,6751 0,7182
MEDIA DEL ERROR ABSOLUTO 0,055 0,0532 0,0478
RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,1772 0,1725 0,1614
ERROR ABSOLUTO RELATIVO 44,6663% 43,1841% 38,1959%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 71,5057% 69,7936% 64,1286%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
254
Anexo 70. Comparación de selecciones, experimento: UPZ Calandaima, NO_PH – J48 - ID3
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO J48_CROSS_10 J48_SPLIT_66 J48_SUPPLIED ID3_CROSS_10 ID3_SPLIT_80 ID3_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_E
NT_2636 NO_PH_NOMINAL_E
NT_2636 NO_PH_NOMINAL_ENT_263
6-PRON_139 NO_PH_NOMINAL_E
NT_2636 NO_PH_NOMINAL_E
NT_2636 NO_PH_NOMINAL_ENT_263
6-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636 2636 139 2636 2636
CLASIFICADOR J48 J48 J48 ID3 ID3 ID3
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 66 FOLDS 10 % 80
NÚMERO DE HOJAS 315 315 315
TAMAÑO DEL ARBOL 351 351 351
INSTANCIAS 2636 2636 896 139 2636 2636 527 139
ATRIBUTOS 10 10 10 10 10 10
INSTANCIAS CLASIFICADAS CORRECTAMENTE
2198 83,3839
% 757 84,4866% 120 86,3309% 2197
83,346%
439 83,3017% 115 82,7338%
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
438 16,6161
% 139 15,5134% 19 13,6691% 371
14,0744%
75 14,2315% 21 15,1079%
ESTADÍSTICO KAPPA 0,6538 0,6751 0,7182 0,6902 0,6962 0,6753
MEDIA DEL ERROR ABSOLUTO 0,055 0,0532 0,0478 0,0425 0,0434 0,044
RAÍZ DEL ERROR MEDIO CUADRÁTICO
0,1772 0,1725 0,1614 0,1741 0,1767 0,1734
ERROR ABSOLUTO RELATIVO 44,6663% 43,1841% 38,1959% 35,8212% 36,2492% 36,4521%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
71,5057% 69,7936% 64,1286% 72,0379% 72,3605% 70,5714%
INSTANCIAS SIN CLASIFICAR 68 2,5797
% 13 2,4668% 3 2,1583%
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
MEDIA DEL ERROR ABSOLUTO ($)
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
255
Anexo 71. Resultados experimento: Calandaima, NO_PH-M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_CROSS_20 M5P_SPLIT_66 M5P_SPLIT_33 M5P_SPLIT_80 M5P_SPLIT_20 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO
_ENT_2636 NO_PH_NUMERIC
O_ENT_2636 NO_PH_NUMERIC
O_ENT_2636 NO_PH_NUMERIC
O_ENT_2636 NO_PH_NUMERIC
O_ENT_2636 NO_PH_NUMERIC
O_ENT_2636 NO_PH_NUMERICO_ENT_2
636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636 2636 2636 2636 2636
CLASIFICADOR M5P M5P M5P M5P M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 % 5
NÚMERO DE HOJAS 315
TAMAÑO DEL ARBOL 351
INSTANCIAS 2636 2636 2636 896 2636 1766 2636 527 2636 2109 139
ATRIBUTOS 10 10 10 10 10 10 10
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO
53,4341% 53,1922% 50,2936% 62,944% 48,2799% 58,5791% 45,6774%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
174,6684% 203,5489% 63,063% 145,2597% 62,6129% 90,4606% 110,7754%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 29 29 29 29 29 29 29
COEFICIENTE DE CORRRELACIÓN
0,3913 0,3567 0,7856 0,4533 0,7934 0,6171 0,6153
MEDIA DEL ERROR ABSOLUTO ($)
25344,6202 252269979 24584,9209 30420,9934 23109,9193 27729,6349 22862,4851
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
124803,2538 145425,9896 48688,6072 110201,1641 45521,5768 67048,9939 78208,8014
SELECCIÓN 1 X MEJOR X
SELECCIÓN 2 X
SELECCIÓN FINAL
256
Anexo 72. Selección de resultados, experimento: Calandaima, NO_PH - M5P
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_80 M5P_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMÉRICO_ENT_2636 NO_PH_NUMÉRICO_ENT_2636 NO_PH_NUMÉRICO_ENT_2636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636
CLASIFICADOR M5P M5P M5P
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 80 % 5
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 2636 2636 527 139
ATRIBUTOS 10 10 10
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 53,4341% 48,2799% 45,6774%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 174,6684% 62,6129% 110,7754%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 29 29 29
COEFICIENTE DE CORRRELACIÓN 0,3913 0,7934 0,6153
MEDIA DEL ERROR ABSOLUTO ($) 25344,6202 23109,9193 22862,4851
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 124803,2538 45521,5768 78208,8014
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
257
Anexo 73. Resultados, experimento: Calandaima, NO_PH-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_10 RL_CROSS_20 RL_SPLIT_66 RL_SPLIT_33 RL_SPLIT_80 RL_SPLIT_20 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO
_ENT_2636 NO_PH_NUMERICO
_ENT_2636 NO_PH_NUMERICO
_ENT_2636 NO_PH_NUMERICO
_ENT_2636 NO_PH_NUMERICO
_ENT_2636 NO_PH_NUMERICO
_ENT_2636 NO_PH_NUMERICO_ENT_
2636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636 2636 2636 2636 2636
CLASIFICADOR REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLS 10 FOLDS 20 % 66 % 33 % 80 % 20 % 5
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 2636 2636 2636 896 2636 1766 2636 527 2636 2109 139
ATRIBUTOS 10 10 10 10 10 10 10
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 71,6415% 71,4248% 73,2638% 76,3235% 79,3992% 75,0632% 62,7065%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
78,6955% 76,9862% 86,8205% 122,9519% 111,2926% 118,9633% 58,3675%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN
0,6503 0,6623 0,6058 0,4693 0,476 0,5003 0,8169
MEDIA DEL ERROR ABSOLUTO ($)
33980,6498 33874,0264 35813,3822 36887,0887 38005,6223 35532,7166 31385,9328
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
56229,1146 55003,0092 67030,9455 93277,4184 80913,324 88175,0688 41208,1789
SELECCIÓN 1 X X X
SELECCIÓN 2 X
SELECCIÓN FINAL
258
Anexo 74. Selección de resultados, experimento: Calandaima, NO_PH – RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO RL_CROSS_20 RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_2636 NO_PH_NUMERICO_ENT_2636 NO_PH_NUMERICO_ENT_2636-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636 2636 139
CLASIFICADOR REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 20 % 66 % 5
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 2636 2636 896 139
ATRIBUTOS 10 10 10
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 71,4248% 73,2638% 62,7065%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO 76,9862% 86,8205% 58,3675%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS
COEFICIENTE DE CORRRELACIÓN 0,6623 0,6058 0,8169
MEDIA DEL ERROR ABSOLUTO ($) 33874,0264 35813,3822 31385,9328
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 55003,0092 67030,9455 41208,1789
SELECCIÓN 1 X X
SELECCIÓN 2 X
SELECCIÓN FINAL
259
Anexo 75. Comparación de selecciones, experimento: UPZ Calandaima, NO_PH - M5P-RL
ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO
EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_80 M5P_SUPPLIED RL_CROSS_20 RL_SPLIT_66 RL_SUPPLIED
NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_
ENT_2636 NO_PH_NUMERICO_
ENT_2636 NO_PH_NUMERICO_ENT_263
6-PRON_139 NO_PH_NUMERICO_
ENT_2636 NO_PH_NUMERICO_
ENT_2636 NO_PH_NUMERICO_ENT_26
36-PRON_139
REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH
CANTIDAD DE DATOS 2636 2636 2636 2636 2636 139
CLASIFICADOR M5P M5P M5P REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL
TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET
CARACTERÍSTICA TEST FOLDS 10 % 80 % 5 FOLDS 20 % 66 % 5
NÚMERO DE HOJAS
TAMAÑO DEL ARBOL
INSTANCIAS 2636 2636 527 139 2636 2636 896 139
ATRIBUTOS 10 10 10 10 10 10
INSTANCIAS CLASIFICADAS CORRECTAMENTE
INSTANCIAS CLASIFICADAS INCORRECTAMENTE
ESTADÍSTICO KAPPA
MEDIA DEL ERROR ABSOLUTO
RAÍZ DEL ERROR MEDIO CUADRÁTICO
ERROR ABSOLUTO RELATIVO 53,4341% 48,2799% 45,6774% 71,4248% 73,2638% 62,7065%
RAÍZ DEL ERROR CUADRÁTICO RELATIVO
174,6684% 62,6129% 110,7754% 76,9862% 86,8205% 58,3675%
INSTANCIAS SIN CLASIFICAR
NÚMERO DE REGLAS 29 29 29
COEFICIENTE DE CORRRELACIÓN
0,3913 0,7934 0,6153 0,6623 0,6058 0,8169
MEDIA DEL ERROR ABSOLUTO ($)
25344,6202 23109,9193 22862,4851 33874,0264 35813,3822 31385,9328
RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)
124803,2538 45521,5768 78208,8014 55003,0092 67030,9455 41208,1789
SELECCIÓN 1 X X X X
SELECCIÓN 2 X X
SELECCIÓN FINAL X
260
Anexo 76. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión – M5P Split 80
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.0001
61
12
11
81
24
13
01
36
14
21
48
15
41
60
16
61
72
17
81
84
19
01
96
11
02
11
08
11
14
11
20
11
26
11
32
11
38
11
44
11
50
11
56
11
62
11
68
11
74
11
80
11
86
11
92
11
98
12
04
12
10
12
16
12
22
12
28
12
34
12
40
12
46
12
52
12
58
1
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima NO_PH. Valor M2 de Costrucción para datos de Entrenamiento y
Validación
Valor M2 Construcción (Observado) Valor M2 de Construcción (M5P-Split_80)
261
Anexo 77. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal – Cross 20
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.0001
61
12
11
81
24
13
01
36
14
21
48
15
41
60
16
61
72
17
81
84
19
01
96
11
02
11
08
11
14
11
20
11
26
11
32
11
38
11
44
11
50
11
56
11
62
11
68
11
74
11
80
11
86
11
92
11
98
12
04
12
10
12
16
12
22
12
28
12
34
12
40
12
46
12
52
12
58
1
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima NO_PH. Valor M2 de Costrucción para Datos de Entrenamiento y
Validación
Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)
262
Anexo 78. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión – M5P Split 80 y Regresión
Lineal – Cross 20
$000
$200.000
$400.000
$600.000
$800.000
$1000.000
$1200.0001
61
12
11
81
24
13
01
36
14
21
48
15
41
60
16
61
72
17
81
84
19
01
96
11
02
11
08
11
14
11
20
11
26
11
32
11
38
11
44
11
50
11
56
11
62
11
68
11
74
11
80
11
86
11
92
11
98
12
04
12
10
12
16
12
22
12
28
12
34
12
40
12
46
12
52
12
58
1
Val
or
M2
de
Co
nst
rucc
ión
($
)
ID
UPZ - Calandaima NO_PH. Valor M2 de Costrucción para datos de Entrenamiento y
Validación
Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)
Valor M2 de Construcción (M5P-Split_80)
263
Bibliografía
Alcaldía mayor de Bogotá. (2004). Decreto 190 de 2004. Bogotá, Colombia: Alcaldía
Mayor de Bogotá.
Alcaldía Mayor de Bogotá D.C - SDP. (2007). UPZ 73, Garcés Navas, Acuerdos para
construir ciudad. Bogotá D.C.
Alcaldía Mayor de Bogotá D.C - SDP. (2008). UPZ 65 Arborizadora, Acuerdos para
construir ciudad. Bogotá, Colombia: Oficina Asesora de Prensa y Comunicaciones
- Secretaría Distrital de Planeación.
Alcaldia Mayor de Bogota D.C. (1993). Decreto 012 de 1993. Bogotá.
Antonelli, S. (2012). Aprendizaje Automático. Buenos Aires, Argentina: Universidad de
Buenos aires.
Arnheim, R. (1995). Hacia una psicología del arte; Arte y Entropía (Vol. 3). Madrid,
España: Alianza Editorial.
Bellogín, A. (2008). Metodos avanzados en aprendizaje autom ´ atico. Madrid, España:
Universidad Autónoma de Madrid.
Bernardo, A. (29 de Enero de 2016). Blogthinkbig.com. Recuperado el 29 de 11 de 2016, de
http://blogthinkbig.com/el-legado-de-marvin-minsky-padre-de-la-inteligencia-
artificial/
Borao, D. (2013). Incidencia del ruido en los datos de test sobre la precisión de modelos de
clasificación y regresión. Valencia, España: Universidad Politécnica de Valencia.
264
Bosogain, X. (2014). Redes neuronales artificiales y sus aplicaciones. Bilbao: Escuela
superior de Ingeniería de Bilbao, EHU.
Caballero, M. (18 de Enero de 2002). El Tiempo. Recuperado el 11 de 29 de 2016, de
http://www.eltiempo.com/archivo/documento/MAM-1315707
Cabrera, S. (1 de Septiembre de 2008). Estadística Descriptiva. Recuperado el 27 de
Diciembre de 2016, de Estadística Descriptiva:
https://wwwyyy.files.wordpress.com/2008/08/estadistica-generalteoria.pdf
Calleja, A,J. (2010). Minería de datos con WEKA para la predicción del precio de
automóviles de segunda mano. Venecia, España: Universidad politécnica de
Valencia, Escuela Técnica superior de Informática aplicada.
Cambridge University. (1995). The Cambridge Dictionary of Philosophy (2 ed.). (R. audi,
Ed.) Cambridge, Inglaterra: Cambridge University Press.
Cardona, A. (2004). Aplicación de árboles de decisión en modelos de riesgo crediticio.
Revista Colombiana de Estadística, 27(2), 139 - 151.
Cazorla,M, Alfonso, M, Escolano, F, Colomina, O, & Lozano, M. (2003). Inteligencia
Artificial; Modelos, Técnicas y Áreas de aplicación. Alicante, España: Paraninfo,
S.A.
Clausius, R. (1865). Ueber verschiedene für die Anwendung bequeme Formen der
Hauptgleichungen der mechanischen Wärmetheorie (Sobre la aplicación de las
principales ecuaciones de la Termodinámica). En Annlen der Pysik und Chemie
(Análisis de la Física y Química) (págs. 351 - 400). Leipzig.
265
Congreso de Colombia. (1994). Ley 142 de 1994, por la cual se establece el régimen de los
servicioc públicos domiciliarios y se dictan otras disposiciones. Bogotá D.C,
Colombia.
Corso, C. (2009). Aplicación de algoritmos de clasificación supervisada usando. Buenos
Aires, Argentina: Universidad Tecnológica Nacional.
Cuevas, A. (1975). Teoría de la Información, Codificación y Lenguajes. Madrid, España:
Servicio del Ministerio de Educación y Ciencia.
Díaz, I. (9 de junio de 2014). ABC.es CIENCIA. Recuperado el 23 de agosto de 2015, de
http://www.abc.es/ciencia/20140609/abci-marvin-minsky-alcanzaremos-
inmortalidad-201406090956.html
Dirección General IGAC. (2003). Valoración con fines catastrales: Metodologías
utilizadas. Bogotá, Colombia: Instituto Geográfico Agustín Codazzi.
García, A. (2012). Inteligencia Artificial. Fundamentos, práctica y aplicaciones. Madrid,
España: RC Libros.
García, F. (2013). Aplicación de técnicas de minería de datos a datos obtenidos por el
Centro Andaluz de Medio Ambiente (CEAMA). Granada, España: Universidad de
Granada.
García,W. (2013). Dinámica de las construcciones por usos de la localidad de Kenedy en
los años 2002 y 2012. Bogotá: Alcaldía mayor de Bogotá, Unidad administrativa
especial de catastro.
Hernández, J. (2006). Práctica de minería de datos, Introducción al Weka. Valencia:
Universidad Politécnica de Valencia.
266
Huang,X, & Jensen,J.R. (Octubre de 1997). A Machine-Learning Approach to Automated
Knowledge-Base Building for Remote Sensing Image Analysis with GIs Data.
Photogrammetric Engineering & Remote Sensing, 63(10), 1185-1194.
Hyndman, R. (1995). The problem with Sturges’ rule for constructing histograms.
Australia: Monash University.
IGAC. (2008). Resolución 620 de 2008. Bogotá, Colombia.
IVSC. (2009). International Valuation Standards Council. Recuperado el 5 de Septiembre
de 2016, de https://www.ivsc.org/
Kirkby, R. (2003). Weka explorer user guide for versión. Waikato, Nueva Zelanda:
Universidad de Waikato.
Marín, C. (2014). Entropía: Un cadáver Exquisito. Aus Art Journal for Research in Art, 223
- 233.
Martin, Q, Cabero, M, & de Paz, Y. (2008). Tratamiento estadístico de datos con SPSS. (C.
M. Rojo, Ed.) Madrid, España: Paraninfo.
McCarthy, J. (24 -27 de Noviembre de 1958). Mechanisation of Thought Processes.
Simposio No. 10, Volumen I. Londres: National Physical Laboratory.
Mitchell, T. (1997). Machine Learning. Potland: McGraw Hill.
Mood, A, Graybill, F, & Boes, D. (1974). Introduction to the Theory of Statistics.
Auckland, Singapore: McGraw Hill.
Morate, D. (2000). Manual de WEKA. Granada, España: Universidad de Granada.
Moya, Francisco. (22 de Abril de 2013). Blogspot.com.co. Recuperado el 11 de Enero de
2017, de http://algoritmoid3.blogspot.com.co/
267
Murphy,K. (2012). Machine Learning A Probabilistic Perspective. Cambridge,
Massachusetts.
Núñez, A. (1992). Estadística básica para planificación. México D.F, México: Siglo
veintiuno editores de Colombia, s.a.
Pino,R, Gómez, A, & de Abajo, N. (2001). Introducción a la Inteligencia Artificial:
Sistemas Expertos, Redes Neuronales Artificiales y Computación Evolutiva.
Asturias, España: Servicios y publicaciones Universodad de Oviedo.
Portilla,B.E. (2011). Modelo basado en aprendizaje de máquinaspara el manejo de riesgo
de falla durante la composición de servios Web. Medellín, Colombia.
Quilan, J. (1996). Improved Use of Continuous Attributes in C4.5. AI Acces Foundation
and Morgan Kaufmann Publishers.
Rodrigo, M. (2011). Modelos de la comunicación. Barcelona: Portal de la Comunicación
InCom-UAB: El portal de los estudios de la comunicación.
Sancho, F. (2016 de Diciembre de 2016). http://www.cs.us.es/. (F. S. Caparrini, Productor)
Recuperado el 13 de 12 de 2016, de Departamento de Ciencias de la Computación e
Inteligencia Artificial, Universidad de Sevilla: http://www.cs.us.es/~fsancho/?e=104
SDP. (2016). sdp.gov.co. Recuperado el 20 de Noviembre de 2016, de
http://www.sdp.gov.co/portal/page/portal/PortalSDP/OrdenamientoTerritorial/upzen
procesoderevision
Secretaría distrital de planeación. (2009). Conociendo la localidad de Kennedy.
Diagnóstico de los aspectos físicos, demográficos y socioeconómicos. Bogotá.
Secretaría Distrital de Planeación. (4 de Junio de 2009). www.sdp.gov.co. Recuperado el 20
de Noviembre de 2016, de
268
http://www.sdp.gov.co/portal/page/portal/PortalSDP/SeguimientoPoliticas/Politicas
Sectoriales/Coyuntura%20Econ%F3mica1/Documentos2009/Las%20Operaciones%
20Estrategicas%20en%20la%20revisi%F3n%20del%20POT.pdf
Secretaria Distrital de Planeación. (2011). 21 Monografías de las Localidades: diagnóstico
de los aspectos físicos, demográficos y socioeconómicos de las localidades – 2011.
# 08 Kennedy. Bogotá.
Secretaria Distrital de Planeación. (2011). 21 Monografías de las Localidades: diagnóstico
de los aspectos físicos, demográficos y socioeconómicos de las localidades – 2011.
# 10 Engativá. Bogotá.
Secretaria Distrital de Planeación. (2011). 21 Monografías de las Localidades: diagnóstico
de los aspectos físicos, demográficos y socioeconómicos de las localidades – 2011.
# 19 Ciudad Bolivar. Bogotá.
Secretaría general de la Alcaldía Mayor de Bogotá. (19 de Julio de 2005).
www.alcaldiabogota.gov.co. Recuperado el 1 de Diciembre de 2016, de
http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=17290
Secretaría General de la Alcaldía Mayor de Bogotá D.C. (15 de Marzo de 2006).
www.alcaldiabogota.gov.co. Recuperado el 2 de Diciembre de 2016, de
http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=19688
Sontag, E. D, & Tesoro, J. L. (1972). Temas de Inteligencia Artificial. (L. Empresa, Ed.)
Buenos aires, Argentina: Prolam S.R.L.
Suárez, J. (2000). Técnicas de inteligencia artificial aplicadas al análisis de la solvencia
empresarial. Oviedo, España: Universidad de Oviedo.
269
UDFJC. (2016). Universidad Distrital Francisco José de Caldas. Recuperado el 10 de 12
de 2016, de
https://www.udistrital.edu.co/dependencias/tipica.php?id=85#/getContentTipica.php
?m=contactInformation&id=85
Unidad Administrativa Especial de Catastro Distrital. (2005). Usos de la construcción y
destinos económicos de los predios. Bogotá D.C.
Vicente, C. (2004). Sistemas de aprendizaje que proporcionan asesoramiento mediante el
análisis de la colaboración aplicando técnicas de Inteligencia Artificial: Aplicación
a la generación de informes. (D. d. Informáticos, Ed.) Madrid, España: UNED.
Vizcaino, P. A. (2008). Aplicación de técnicas de inducción de árboles de decisión a
problemas de clasificación mediante el uso de WEKA (Waikato Environment for
Knowledge Analysis). (U. K. Lorenz, Trad.) Bogotá, Colombia.
Wiener, N. (1988). Cibernética y Sociedad (Tercera ed.). (J. N. Cerro, Trad.) Buenos Aires,
Argentina: Editorial Suramenricana.