MODELADO Y SIMULACIÓN BASADA EN AGENTES,...

ANÁLISIS DE EFECTIVIDAD AL

IMPLEMENTAR LA TÉCNICA DE ÁRBOLES

DE DECISIÓN DEL ENFOQUE DE

APRENDIZAJE DE MÁQUINA PARA LA

DETERMINACIÓN DE AVALÚOS MASIVOS

PARA LAS UPZ 79 CALANDAIMA, 65

ARBORIZADORA Y 73 GARCÉS NAVAS

Adriana del Pilar Albancando Robles

Universidad Distrital Francisco José de Caldas

Facultad de Ingeniería, Ingeniería Catastral y Geodesia

Bogotá D.C.

2017

ANÁLISIS DE EFECTIVIDAD AL

IMPLEMENTAR LA TÉCNICA DE ÁRBOLES

DE DECISIÓN DEL ENFOQUE DE

APRENDIZAJE DE MÁQUINA PARA LA

DETERMINACIÓN DE AVALÚOS MASIVOS

PARA LAS UPZ 79 CALANDAIMA, 65

ARBORIZADORA Y 73 GARCÉS NAVAS


Monografía de grado presentado como requisito parcial para optar el título de:

Ingeniera Catastral y Geodesta

Director:

Ingeniero Edwin Robert Pérez Carvajal

Universidad Distrital Francisco José de Caldas

Facultad de Ingeniería, Ingeniería Catastral y Geodesia

Bogotá D.C.

2017

III

Dedicatoria

A mi Padre Celestial, a mi mamá

Adriana Robles Salazar, mi papá Edwin

Albancando Cushcagua, mis hermanas

Diana Margarita, Liz Alejandra, Karol

Daniela y mis hermanos Edwin Hared y

José David, quienes han sido el motor y

apoyo constante en cada logro que he

conseguido, así como a cada familiar y

amigo que ha hecho parte de este

proceso.


IV

Agradecimientos

De manera solemne expreso gratitud a todos los que estuvieron involucrados en este

proyecto que ahora llega a su culminación.

A Mi Padre Celestial, a quien debo cada fortaleza, a los miembros de mi familia, mis

padres y hermanos, que fueron participantes activos en este proceso, su ejemplo, apoyo,

dedicación y sacrificio dieron paso a que haya sido posible llevar a cabo este cometido,

reconozco su paciencia y confianza, que me llevaron a perseverar en esta labor cada

momento.

A la Universidad Distrital Francisco José de Caldas por haberme permitido participar de

este proyecto curricular y darme las herramientas mediante sus docentes y programas para

desarrollarme como profesional en Ingeniería Catastral y Geodesia.

De manera especial agradezco a mi director, el Ingeniero Edwin Robert Pérez, quien

estuvo al tanto de cada parte del desarrollo de este trabajo, prestando un dedicado apoyo,

constante atención e instrucción oportuna.

Finalmente agradezco a la Unidad Administrativa Especial de Catastro Distrital (UAECD)

y al Observatorio Técnico Catastral por suministrarme la información correspondiente a

las bases de datos para el desarrollo de este proyecto.

V

Resumen

El presente proyecto tiene como fin desarrollar la aplicación del aprendizaje de máquina,

específicamente el método de árboles de decisión, para verificar su efectividad como parte

fundamental del estudio que constituyen los avalúos masivos y mostrar una comparación

con valores observados y el método tradicionalmente empleado, a saber, la regresión

lineal.

Para cumplir con los objetivos propuestos se emplearon métodos de clasificación para

datos numéricos, el M5P, y para datos nominales, el ID3 y el J48, los cuales se evaluaron

por variaciones de los Test Cross Validation (validación cruzada) y Percentage Split

(División de porcentaje), por medio de los que se verificó el clasificador de árboles de

decisión más acertado al obtener resultados semejantes a los observados.

Con el propósito de verificar la efectividad de la aplicación del aprendizaje de máquina en

procesos como los avalúos, se hizo uso de datos proporcionados por la Unidad

Administrativa Especial de Catastro Distrital (UAECD) y el Observatorio Técnico

Catastral, correspondientes a las Unidades de Planeamiento Zonal (UPZ) 65

Arborizadora, 73 Calandaima y 79 Garcés Navas, adicionalmente, para el tratamiento de

los datos se empleó el software libre Weka con sus aplicaciones y opciones para visualizar,

procesar y observar resultados.

Como resultado del análisis realizado, se obtuvo que el aprendizaje de máquina por medio

del método de árboles de decisión es una herramienta útil y efectiva para aplicar dentro del

proceso de los avalúos, su aplicación a los datos es más específica al compararla con el

método de regresión lineal, la claridad de los resultados permite entender cada regla que se

VI

aplica a los grupos de datos y hacer un análisis más específico de las clasificaciones

finales.

Palabras clave: Aprendizaje de Máquina, Árboles de decisión, Unidad de Planeamiento

Zonal, Weka, M5P, J48, ID3, Cross Validation, Percentage Split, Regresión Lineal.

1

Tabla de contenido

Agradecimientos ................................................................................................................................ IV

Lista de figuras .....................................................................................................................................5

Lista de tablas ......................................................................................................................................8

Lista de ecuaciones ........................................................................................................................... 12

Lista de anexos .................................................................................................................................. 13

Introducción ...................................................................................................................................... 18

1. Antecedentes ............................................................................................................................. 20

2. Problema de investigación ........................................................................................................ 28

3. Objetivos ................................................................................................................................... 31

3.1 General ............................................................................................................................. 31

3.2 Específicos ....................................................................................................................... 31

4. Justificación .............................................................................................................................. 32

5. Marco espacial .......................................................................................................................... 34

5.1. UPZ 65 Arborizadora ............................................................................................................ 34

5.2. UPZ 73 Garcés Navas ........................................................................................................... 37

5.3. UPZ 79 Calandaima .............................................................................................................. 41

6. Marco teórico ............................................................................................................................ 44

2

6.1 Inteligencia artificial ........................................................................................................ 44

6.2 Aprendizaje de máquina................................................................................................... 47

6.3 Árboles de decisión .......................................................................................................... 50

6.4 Entropía de la información ............................................................................................... 55

6.5 Ganancia de la información ............................................................................................. 59

6.6 Método ID3 ...................................................................................................................... 64

6.7 Método J48 o C4.5 ........................................................................................................... 65

6.8 Método M5P .................................................................................................................... 68

6.9 Métodos de validación ..................................................................................................... 69

6.10 WEKA.............................................................................................................................. 70

6.10.1 Estadístico Kappa ...................................................................................................... 75

6.10.2 Coeficiente de correlación ........................................................................................ 76

6.10.3 Errores ....................................................................................................................... 77

6.11 Construcción de intervalos ............................................................................................... 79

6.12 Valuación ......................................................................................................................... 79

6.12.1 Valuación estadística........................................................................................................ 81

6.12.2 Avalúos masivos .............................................................................................................. 83

6.12.3 Puntos de investigación económica ................................................................................. 84

6.13 Unidades de Planeamiento Zonal (UPZ).......................................................................... 84

7. Metodología .............................................................................................................................. 86

3

7.1 Definición de zonas de estudio ........................................................................................ 86

7.2 Adquisición de base de datos catastrales de la zona de estudio ....................................... 87

7.3 Selección de métodos basados en árboles de decisión ..................................................... 89

7.4 Estructura preliminar del experimento, clasificación de los datos para el procesamiento en

el software WEKA ....................................................................................................................... 91

7.4.1 Atributo sector........................................................................................................... 95

7.4.2 Atributo uso .............................................................................................................. 96

7.4.3 Atributo pisos ............................................................................................................ 97

7.4.4 Atributo edad ............................................................................................................ 98

7.4.5 Atributo puntaje ........................................................................................................ 99

7.4.6 Atributo estrato ....................................................................................................... 100

7.4.7 Atributo actividad ................................................................................................... 101

7.4.8 Atributo tratamiento ................................................................................................ 101

7.4.9 Atributo área de terreno .......................................................................................... 102

7.4.10 Atributo valor metro cuadrado de terreno ............................................................... 104

7.4.11 Atributo área construida .......................................................................................... 106

7.4.12 Atributo valor metro cuadrado de construcción ...................................................... 108

7.4.13 Generación archivos weka ...................................................................................... 109

8. Análisis de resultados ............................................................................................................. 115

8.1 Resultados UPZ 73 Garcés Navas, Conjunto de datos PH ............................................ 115

4

8.2 Resultados UPZ 73 Garcés Navas, Conjunto de datos NO_PH ..................................... 126

8.3 Resultados UPZ 65 Arborizadora, Conjunto de datos PH ............................................. 137

8.4 Resultados UPZ 65 Arborizadora, Conjunto de datos NO_PH ..................................... 148

8.5 Resultados UPZ 79 Calandaima, Conjunto de datos PH ............................................... 159

8.6 Resultados UPZ 79 Calandaima, Conjunto de datos NO_PH ........................................ 170

9. Conclusiones ....................................................................................................................... 181

10. Recomendaciones ............................................................................................................... 183

11. Anexos ................................................................................................................................ 185

Bibliografía ..................................................................................................................................... 263

5

Lista de figuras

Figura 1. 1 Procedimiento para construir una base de conocimiento para implementar el

método de aprendizaje......................................................................................................... 20

Figura 1. 2 Ejemplo de capas de una imagen para el conjunto de datos de entrenamiento y

el flujo de datos en el subsistema ........................................................................................ 21

Figura 1. 3 Esquema de la definición de las variables ........................................................ 23

Figura 1. 4 Ejemplo de árbol de decisión para iniciación .................................................. 24

Figura 1. 5 Comportamiento del error (ECM) .................................................................... 26

Figura 5.1. 1 División por sectores UPZ 65 Arborizadora ................................................. 35

Figura 5.2. 1 División por Sectores UPZ 73 Garcés Navas ................................................ 39

Figura 5.3. 1 División por sectores UPZ 79 Calandaima ................................................... 42

Figura 6.2. 1 Esquema de la técnica de Aprendizaje de máquina ....................................... 48

Figura 6.3. 1 Ejemplo de árbol de decisión ......................................................................... 52

Figura 6.3. 2 Ejemplo de reglas generadas por un Árbol de Decisión ................................ 53

Figura 6.4. 1 Gráfica de la Función de entropía de una clasificación booleana ................. 58

Figura 6.5. 1 Comparación de resultados de Ganancia de información............................. 64

Figura 6.9. 1 Ejemplo de Validación Cruzada - Cross Validation ...................................... 70

Figura 6.10. 1 Ventana de Inicio. Weka, Versión 3.6.13 .................................................... 71

Figura 6.10. 2 Entorno Explorer del Software WEKA ....................................................... 72

Figura 7. 1 Esquema de metodología .................................................................................. 86

Figura 7.1. 1 Localización de las zonas de estudio ............................................................. 87

Figura 7.4. 1 Proceso de conformar los conjuntos de datos del experimento ..................... 92

6

Figura 7.5. 1 Elaboración del experimento, etapa de entrenamiento y validación ........... 111

Figura 7.5. 2 Elaboración del experimento, etapa de pronóstico ...................................... 112

Figura 8.1. 1 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión M5P Split 66 .......................................................................... 123

Figura 8.1. 2 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y

método Regresión Lineal Cross 20 ................................................................................... 124

Figura 8.1. 3 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado,

método Árbol de Decisión M5P Split 66 y Regresión Lineal Cross 20............................ 125

Figura 8.2. 1 Garcés Navas –NO_PH, Comparación Valor m2 de Construcción Observado

y método Árbol de Decisión M5P Split 80 ....................................................................... 134

Figura 8.2. 2 Garcés Navas - NO_ PH, Comparación Valor m2 de construcción observado y

método regresión lineal Cross 20 ...................................................................................... 135

Figura 8.2. 3 Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado,


Figura 8.3. 1 Arborizadora – PH, Comparación Valor m2 de Construcción observado y

método Árbol de Decisión M5P Cross 20......................................................................... 145

Figura 8.3. 2 Arborizadora – PH, Comparación Valor m2 de Construcción Observado y

método Regresión Lineal Split 66 ..................................................................................... 146

Figura 8.3. 3 Arborizadora – PH, Comparación Valor m2 de Construcción Observado,

método árbol de Decisión M5P Cross 20 y Regresión Lineal Split 66 ............................. 147

Figura 8.4. 2 Arborizadora - NO_ PH, Comparación Valor m2 de Construcción Observado

y método Árbol de Decisión M5P Split 80 ....................................................................... 156

7

Figura 8.4. 3 Arborizadora - NO_PH, Comparación Valor m2 de Construcción Observado

y método Regresión Lineal Split 33 .................................................................................. 157

Figura 8.4. 4 Arborizadora - NO – PH, Comparación Valor m2 de construcción observado,

método Árbol de Decisión M5P Split 80 y Regresión Lineal Split 33 ............................. 158

Figura 8.5. 1 Calandaima – PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión M5P Cross 20......................................................................... 167

Figura 8.5. 2 Calandaima – PH, Comparación Valor m2 de Construcción Observado y

método Regresión Lineal Split 66 ..................................................................................... 168

Figura 8.5. 3 Calandaima – PH, Comparación Valor m2 de Construcción Observado,

método Árbol de Decisión M5P Cross 20 y Regresión Lineal Split 66............................ 169

Figura 8.6. 1 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión M5P Split 80 .......................................................................... 178

Figura 8.6. 2 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y

método Regresión Lineal Cross 20 ................................................................................... 179

Figura 8.6. 3 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado,


8

Lista de tablas

Tabla 5.1. 1Límites UPZ 65 Arborizadora........................................................................... 34

Tabla 5.1. 2 Extensión UPZ 65 Arborizadora ...................................................................... 35

Tabla 5.1. 3 Vías malla arterial UPZ 65 Arborizadora ........................................................ 36

Tabla 5.1. 4 Usos del Suelo UPZ 65 Arborizadora .............................................................. 37

Tabla 5.1. 5 Distribución de la población por estrato en la UPZ 65 Arborizadora .............. 37

Tabla 5.2. 1 Límites UPZ 73 Garcés Navas ......................................................................... 38

Tabla 5.2. 2 Extensión UPZ 73 Garcés Navas ..................................................................... 38

Tabla 5.2. 3 Vías Malla Arterial UPZ 73 Garcés Navas ...................................................... 40

Tabla 5.2. 4 Usos del Suelo UPZ 73 Garcés Navas ............................................................. 40

Tabla 5.2. 5 Distribución de la población por estrato en la UPZ 73 Garcés Navas ............. 41

Tabla 6.5. 1 Atributos y valores experimento ...................................................................... 61

Tabla 6.10. 1 Descripción de las opciones presentes en el entorno Explorer del Software

WEKA .................................................................................................................................. 73

Tabla 6.10.2. 1 Gráficas de casos de resultados del coeficiente de correlación .................. 77

Tabla 6.10.3. 1 Características de los errores....................................................................... 78

Tabla 7.2. 1 Atributos de información cartográfica ............................................................. 88

Tabla 7.2. 2 Contenido bases de datos catastrales ............................................................... 89

Tabla 7.3. 1 Métodos de entrenamiento y validación .......................................................... 91

Tabla 7.4. 1 Comparación de cantidad de datos por UPZ luego de la depuración .............. 91

Tabla 7.4. 2 Cantidad de datos para entrenamiento, validación y pronóstico según PH y

NO_ PH ................................................................................................................................ 93

9

Tabla 7.4. 3 Atributos seleccionados para procesar ............................................................. 94

Tabla 7.4. 4 Cantidad de datos para conjunto de entrenamiento y validación y conjunto de

pronóstico ............................................................................................................................. 94

Tabla 7.4.2. 1 Atributo uso para predios No PH .................................................................. 96

Tabla 7.4.2. 2 Atributo uso para predios PH ........................................................................ 97

Tabla 7.4.3. 1 Atributo pisos ................................................................................................ 97

Tabla 7.4.4.1 Características de la clasificación: atributo edad ........................................... 98

Tabla 7.4.4.2 Clasificación atributo edad............................................................................. 98

Tabla 7.4.5.1 Características de la clasificación: atributo puntaje ....................................... 99

Tabla 7.4.5. 2 Clasificación atributo puntaje, grupo1 .......................................................... 99

Tabla 7.4.5. 3 Clasificación atributo puntaje, grupo 2 ....................................................... 100

Tabla 7.4.5. 4 Clasificación atributo puntaje, grupo 3 ....................................................... 100

Tabla 7.4.6. 1 Clasificación atributo estrato ...................................................................... 101

Tabla 7.4.7. 1 Clasificación atributo actividad .................................................................. 101

Tabla 7.4.8. 1 Clasificación atributo tratamiento ............................................................... 102

Tabla 7.4.9. 1Características de la clasificación: atributo área de terreno ......................... 103

Tabla 7.4.9. 2 Clasificación atributo área de terreno, grupo 1 ........................................... 103




10

Tabla 7.4.10. 1 Características de la clasificación: atributo valor metro cuadrado de terreno

............................................................................................................................................ 105

Tabla 7.4.10. 2 Clasificación atributo valor metro cuadrado de terreno ........................... 105

Tabla 7.4.11. 1 Características de la clasificación: atributo área construida ..................... 106

Tabla 7.4.11. 2 Clasificación atributo área construida, grupo 1 ........................................ 106




Tabla 7.4.12. 1 Características de la clasificación: valor metro cuadrado de construcción 108

Tabla 7.4.12. 2 Clasificación atributo valor metro cuadrado de construcción, grupo 1 .... 108

Tabla 7.4.12. 3 Clasificación atributo valor metro cuadrado de construcción, grupo 2 .... 109

Tabla 7.4.13. 1 Nombres de archivos .arff, UPZ 73 .......................................................... 110



Tabla 7.5. 1 Resultados obtenidos según método de clasificación .................................... 112

Tabla 8.1. 1 Características experimento: Garcés Navas, PH ID3- J48 - M5P - RL ........ 115

Tabla 8.1. 2 Comparación de errores de la selección de resultados finales, experimento:

Garcés Navas, PH - J48 – M5P - RL ................................................................................. 121

Tabla 8.1. 3 Selección de resultados finales, experimento: Garcés Navas, PH - J48 – M5P -

RL ....................................................................................................................................... 122

Tabla 8.2. 1 Características experimento: Garcés Navas, NO_PH ID3 - J48 - M5P - RL 126


Garcés Navas, NO_PH - J48 – M5P - RL .......................................................................... 132

11

Tabla 8.2. 3 Selección de resultados finales, experimento: Garcés Navas, NO_PH - J48 –

M5P - RL ........................................................................................................................... 133

Tabla 8.3. 1. Características experimento: Arborizadora, PH ID3-J48–M5P-RL ............ 137


Arborizadora, PH – ID3 - M5P - RL.................................................................................. 143

Tabla 8.3. 3 Selección de resultados finales, experimento: Arborizadora, PH – ID3 – M5P -

RL ....................................................................................................................................... 144

Tabla 8.4. 1. Características experimento: Arborizadora, NO_PH ID3-J48-M5P-RL ..... 148

Tabla 8.4. 2. Comparación de errores de la selección de resultados finales, experimento:

Arborizadora, NO_PH - J48 – M5P - RL .......................................................................... 154

Tabla 8.4. 3 Selección de resultados finales, experimento: Arborizadora, NO_PH J48 - M5P

- RL .................................................................................................................................... 155

Tabla 8.5. 1. Características experimento: Arborizadora, PH ID3- J48 - M5P - RL ........ 159


Calandaima, PH – ID3 – M5P - RL ................................................................................... 165

Tabla 8.5. 3 Selección de resultados finales, experimento: Calandaima, PH ID3 – ID3 -

M5P - RL ........................................................................................................................... 166

Tabla 8.6. 1 Características experimento: Calandaima, NO_PH ID3- J48 - M5P - RL ... 170

Tabla 8.6. 2. Comparación de errores de la selección de resultados finales, experimento:

Arborizadora, NO_PH - ID3 - M5P - RL .......................................................................... 176

Tabla 8.6. 3 Selección de resultados finales, experimento: Calandaima, NO_PH – ID3 -

M5P - RL ........................................................................................................................... 177

12

Lista de ecuaciones

Ecuación (6.4. 1) Entropía (S) ............................................................................................. 56

Ecuación (6.4. 2) Entropía general ....................................................................................... 59

Ecuación (6.5. 1) Ganancia de información ......................................................................... 60

Ecuación (6.5. 2) Subconjunto de S ..................................................................................... 60

Ecuación (6.10.1. 1) Estadístico Kappa ............................................................................... 75

Ecuación (6.10.2. 1) Coeficiente de correlación de Pearson................................................ 76

Ecuación (6.10.2.2) Coeficiente de correlación para estadístico muestral .......................... 77

Ecuación (6.11. 1) Regla de Sturges .................................................................................... 79

Ecuación (6.11. 2) Rango ..................................................................................................... 79

Ecuación (6.11. 3) Longitud de un intervalo ....................................................................... 79

13

Lista de anexos

Anexo 1. Resultados, experimento: Garcés Navas, PH-ID3 ............................................. 185

Anexo 2. Selección de resultados, experimento: Garcés Navas, PH - ID3 ....................... 186

Anexo 3. Resultados, experimento: Garcés Navas, PH-J48. ........................................... 187

Anexo 4. Selección de resultados, experimento: Garcés Navas, PH - J48 ...................... 188

Anexo 5. Comparación de selecciones, experimento: Garcés Navas, PH – J48 - ID3 ..... 189

Anexo 6. Resultados experimento: Garcés Navas, PH-M5P ............................................ 190

Anexo 7. Selección de resultados, experimento: Garcés Navas, PH - M5P ..................... 191

Anexo 8. Resultados, experimento: Garcés Navas, PH-RL .............................................. 192

Anexo 9. Selección de resultados, experimento: Garcés Navas, PH - RL ........................ 193

Anexo 10. Comparación de selecciones, experimento: Garcés Navas, PH - M5P-RL ..... 194

Anexo 11. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión M5P Percentage Split 66......................................................... 195

Anexo 12. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y

método Regresión Lineal Cross 20 .................................................................................... 196

Anexo 13. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado,

método Árbol de Decisión Split 66 y Regresión Lineal Cross 20 ..................................... 197

Anexo 14. Resultados, experimento: Garcés Navas, NO_ PH-ID3 .................................. 198

Anexo 15. Selección de resultados, experimento: Garcés Navas, NO_PH - ID3 ............. 199

Anexo 16. Resultados, experimento: Garcés Navas, NO_PH-J48. ................................ 200

Anexo 17. Selección de resultados, experimento: Garcés Navas, NO_PH - J48............. 201

14

Anexo 18. Comparación de selecciones, experimento: UPZ Garcés Navas, NO _PH – J48 -

ID3 ..................................................................................................................................... 202

Anexo 19. Resultados experimento: Garcés Navas, NO_PH-M5P .................................. 203

Anexo 20. Selección de resultados, experimento: Garcés Navas, NO_PH - M5P ........... 204

Anexo 21. Resultados, experimento: Garcés Navas, NO_PH-RL .................................... 205

Anexo 22. Selección de resultados, experimento: Garcés Navas, NO_PH – RL ............. 206

Anexo 23. Comparación de selecciones, experimento: UPZ Garcés Navas, NO_PH - M5P-

RL ....................................................................................................................................... 207

Anexo 24. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión M5P Split 80 ........................................................................... 208

Anexo 25. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado y

Método Regresión Lineal Cross 20 .................................................................................... 209

Anexo 26. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado,

método Árbol de Decisión M5P- Split 80 y Regresión Lineal Cross 20 ........................... 210

Anexo 27. Resultados, experimento: Arborizadora, PH-ID3 ........................................... 211

Anexo 28. Selección de resultados, experimento: Arborizadora, PH - ID3 ..................... 212

Anexo 29. Resultados, experimento: Arborizadora, PH-J48 ........................................... 213

Anexo 30. Selección de resultados, experimento: Arborizadora, PH - J48 ..................... 214

Anexo 31. Comparación de selecciones, experimento: Arborizadora, PH – J48 - ID3 .... 215

Anexo 32. Resultados experimento: Arborizadora, PH-M5P ........................................... 216

Anexo 33. Selección de resultados, experimento: Arborizadora, PH - M5P .................... 217

Anexo 34. Resultados, experimento: Arborizadora, PH-RL............................................. 218

Anexo 35. Selección de resultados, experimento: Arborizadora, PH – RL ...................... 219

15

Anexo 36. Comparación de selecciones, experimento: Arborizadora, PH - M5P-RL ..... 220

Anexo 37. Arborizadora – PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión M5P Cross 20.......................................................................... 221

Anexo 38. Arborizadora – PH, Comparación Valor m2 de Construcción Observado y

método Regresión Lineal Split 66 ...................................................................................... 222

Anexo 39. Arborizadora – PH, Comparación Valor m2 de Construcción Observado,

método Árbol de Decisión M5P Cross 20 y Regresión Lineal Split 66............................. 223

Anexo 40. Resultados, experimento: Arborizadora, NO_PH-ID3 .................................... 224

Anexo 41. Selección de resultados, experimento: Arborizadora, NO_PH - ID3 .............. 225

Anexo 42. Resultados, experimento: Arborizadora, NO_PH-J48. .................................. 226

Anexo 43. Selección de resultados, experimento: Arborizadora, NO_PH - J48 ............. 227

Anexo 44. Comparación de selecciones, experimento: UPZ Arborizadora, NO_PH – J48 -

ID3 ..................................................................................................................................... 228

Anexo 45. Resultados experimento: Arborizadora, NO_PH - M5P ................................. 229

Anexo 46. Selección de resultados, experimento: Arborizadora, NO_PH - M5P ............ 230

Anexo 47. Resultados, experimento: Arborizadora, NO_PH - RL ................................... 231

Anexo 48. Selección de resultados, experimento: Arborizadora, NO_PH – RL .............. 232

Anexo 49. Comparación de selecciones, experimento: UPZ Arborizadora, NO_PH - M5P-

RL ....................................................................................................................................... 233

Anexo 50. Arborizadora – NO_PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión M5P - Split 80 ......................................................................... 234

Anexo 51. Arborizadora – NO_PH, Comparación Valor m2 de Construcción Observado y

Método Regresión Lineal – Split 33 .................................................................................. 235

16

Anexo 52. Arborizadora - NO_PH, Comparación Valor m2 de Construcción Observado,

método Árbol de Decisión M5P - Split 80 y Regresión Lineal - Split 33 ......................... 236

Anexo 53. Resultados, experimento: Calandaima, PH-ID3 .............................................. 237

Anexo 54. Selección de resultados, experimento: Calandaima, PH - ID3 ........................ 238

Anexo 55. Resultados, experimento: Calandaima, PH-J48. ............................................ 239

Anexo 56. Selección de resultados, experimento: Calandaima, PH - J48 ....................... 240

Anexo 57. Comparación de selecciones, experimento: UPZ Calandaima, PH – J48 -

ID3 ..................................................................................................................................... 241

Anexo 58. Resultados experimento: Calandaima, PH-M5P ............................................. 242

Anexo 59. Selección de resultados, experimento: Calandaima, PH - M5P ...................... 243

Anexo 60. Resultados, experimento: Calandaima, PH - RL ............................................. 244

Anexo 61. Selección de resultados, experimento: Calandaima, PH – RL ........................ 245

Anexo 62. Comparación de selecciones, experimento: UPZ Calandaima, PH - M5P-RL 246

Anexo 63. Calandaima – PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión - M5P Cross 20 ...................................................................... 247

Anexo 64. Calandaima – PH, Comparación Valor m2 de Construcción Observado y

método Regresión Lineal – Split 66 ................................................................................... 248

Anexo 65. Calandaima – PH, Comparación Valor m2 de Construcción Observado, método

Árbol de Decisión M5P– Cross 20 y Regresión Lineal – Split 66 ................................... 249

Anexo 66. Resultados, experimento: Calandaima, NO_PH - ID3 .................................... 250

Anexo 67. Selección de resultados, experimento: Calandaima, NO_PH - ID3 ................ 251

Anexo 68. Resultados, experimento: Calandaima, NO_PH-J48. ..................................... 252

Anexo 69. Selección de resultados, experimento: Calandaima, NO_PH - J48................. 253

17

Anexo 70. Comparación de selecciones, experimento: UPZ Calandaima, NO_PH – J48 -

ID3 ..................................................................................................................................... 254

Anexo 71. Resultados experimento: Calandaima, NO_PH-M5P ..................................... 255

Anexo 72. Selección de resultados, experimento: Calandaima, NO_PH - M5P .............. 256

Anexo 73. Resultados, experimento: Calandaima, NO_PH-RL ....................................... 257

Anexo 74. Selección de resultados, experimento: Calandaima, NO_PH – RL ................ 258

Anexo 75. Comparación de selecciones, experimento: UPZ Calandaima, NO_PH - M5P-

RL ....................................................................................................................................... 259

Anexo 76. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y

método Árbol de Decisión – M5P Split 80 ........................................................................ 260

Anexo 77. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y

método Regresión Lineal – Cross 20 ................................................................................. 261

Anexo 78. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado,

método Árbol de Decisión – M5P Split 80 y Regresión Lineal – Cross 20...................... 262

18

Introducción

La Inteligencia artificial, según Marvin Minsky, considerado el padre de la inteligencia

artificial (Bernardo, 2016), se define como la ciencia de construir máquinas que hagan

cosas que, si las hicieran los humanos requerirían inteligencia (Cazorla,M, Alfonso, M,

Escolano, F, Colomina, O, & Lozano, M, 2003). De esta ciencia, se derivan diferentes

campos, entre los cuales se encuentra el aprendizaje de máquina, este consiste en un

conjunto de métodos por los cuales las máquinas pueden detectar automáticamente patrones

en los datos, y luego usar los patrones descubiertos para realizar predicciones (Murphy,K,

2012), uno de estos métodos es el de árbol de decisión, que es de los más populares entre

los algoritmos de inferencia inductiva, en el que por reglas de si – entonces, realiza la

clasificación de los datos (Mitchell, T, 1997).

Valuar consiste en la aplicación de los diferentes enfoques y herramientas para la

estimación del valor de un bien, al relacionarlo con los bienes inmuebles se hace necesario

buscar la forma y herramientas que permitan llegar, de manera técnica y precisa, al

conocimiento del valor del bien, ya sea que se trate de uno, o de varios predios, según

corresponda el caso.

En las técnicas que se requieren en la valuación, se emplean diferentes variables que

identifican el inmueble, por lo que al requerir avalúos de un gran volumen de predios, es

necesario realizar una clasificación, esta se puede desarrollar mediante diversos métodos,

entre los que se encuentran la comparación o el mercado, la capitalización de rentas o

ingresos, costo de reposición y la técnica de desarrollo potencial o método involutivo.

Mediante cada uno de estos métodos, se hace un exhaustivo trabajo y se llega finalmente a

19

determinar el valor de un bien inmueble; en caso de tratarse de varios predios, en Colombia

se ha popularizado el uso de modelos de regresión lineal, no obstante, dadas las

características de algunas variables inherentes a los predios es necesario hacer procesos

para poder identificarlas e instrumentalizarlas en la regresión, o simplemente no

emplearlas.

En este trabajo se presenta una herramienta más a partir de la implementación del algoritmo

de árboles de decisión, del enfoque del aprendizaje de máquina, a los procesos valuatorios

de los bienes inmuebles, mostrando otra alternativa para emplear un proceso de esta índole

en la investigación que involucra un avalúo y verificar su efectividad.

20

1. Antecedentes

Diferentes técnicas derivadas del aprendizaje de máquina han sido implementadas con el

fin de facilitar procesos, entre estas técnicas se encuentran las redes neuronales, algoritmos

genéticos, arboles de decisión, entre otros. Recientemente se han desarrollado proyectos

aplicados a campos empresariales, de inversión y, aunque no en gran cantidad, al

componente “geo” de una comunidad.

A continuación se presentan tres trabajos que se han realizado empleando técnicas de

aprendizaje de máquina para cumplir con sus respectivos objetivos.

Figura 1. 1 Procedimiento para construir una base de conocimiento para implementar el método de

aprendizaje Fuente: (Huang,X & Jensen,J.R, 1997)

En primer lugar, en el año de 1997 se realizó un paper titulado A Machine-Learning

Approach to Automated Knowledge-Base Building for Remote Sensing Image Analysis

with GIs Data (Una evaluación de aprendizaje mecanizado de construcción basado en

21

conocimiento automatizado para el análisis de imágenes de sensor remoto con datos SIG)

por Xueqiao Huang y John R. Jensen.

Al realizar este artículo científico, el objetivo de los autores fue presentar la manera en que

se podía aplicar el enfoque de aprendizaje de máquina, para la clasificación de imágenes

obtenidas mediante sensores remotos.

Figura 1. 2 Ejemplo de capas de una imagen para el conjunto de datos de entrenamiento y el flujo de

datos en el subsistema

Fuente: (Huang,X & Jensen,J.R, 1997)

El proceso que se siguió se dividio entre el trabajo realizado por los humanos expertos y el

trabajo realizado por el aprendizaje de máquina o del programa, como se muestra en la

Figura 1.1, en la parte superior del gráfico (a) se puede apreciar que se parte de una base de

un sistema de información geográfica, seguido a eso los humanos expertos realizan los

procedimientos necesarios para las debidas clasificaciones que conformaran el conjunto de

entrenamiento. Luego, en la parte inferior de la gráfica (b), se presenta, lo que se considera

22

el aprendizaje, mediante el software y la máquina se genera el árbol de decisión y las

respectivas reglas, para obtener finalmente una base de conocimiento.

Este proyecto se desarrolló con imágenes obtenidas de sensores remotos con el fin de hacer

un análisis multitemporal de un área de humedales localizada a los alrededores del rio

Savannah localizado en la frontera entre los estados de Carolina del Sur y Georgia en los

Estados Unidos.

Ilustrado en la Figura 1.2, se explica gráficamente como el pixel de una sola imagen tiene

varios componentes, seis para el ejemplo, que serán los valores que conformarán el

conjunto de datos de entrenamiento para la generación del árbol de decisión y las reglas a

aplicar para finalmente tener una clasificación como resultado.

Como conclusiones del trabajo los autores obtuvieron que el uso del aprendizaje de

máquina facilita en gran manera el proceso de clasificación de las imágenes a comparación

del método empleado convencionalmente, al hacer una selección adecuada del conjunto de

datos de entrenamiento se obtienen resultados de calidad y destacan la facilidad de entender

e interpretar los resultados obtenidos mediante los árboles y las reglas para la posterior

aplicación a los datos de validación (Huang,X & Jensen,J.R, 1997).

En segundo lugar, en el año 2008, se publicó para la Revista Colombiana de Estadística, el

artículo titulado Aplicación de árboles de decisión en modelos de riesgo crediticio por

Paola Andrea Cardona Hernández.

Mediante este trabajo, la autora muestra un marco general de la normatividad del sistema

de administración de riesgo crediticio y la importancia del papel de la estadística en estos

23

estudios, específicamente el método de árboles de decisión para el cálculo de

incumplimiento en crédito presentando sus ventajas y desventajas.

Entendiendo por riesgo de crédito la pérdida potencial para una entidad financiera debido a

la incapacidad del cliente de cumplir con sus obligaciones de pago, se hace necesario, de

parte de las entidades financieras realizar estudios que les permitan conocer si sus clientes

son deudores potenciales, para estos se establece un tiempo de doce meses a futuro y se

estudia la capacidad de pago de los mismos, comúnmente se hace con clientes que

anteriormente han estado en mora, no obstante, mediante otros métodos estadísticos es

posible realizarlo para clientes que no han estado en mora y prever en escenarios futuros su

posible comportamiento respecto sus deudas.

Figura 1. 3 Esquema de la definición de las variables Fuente: (Cardona, A, 2004)

Como se muestra en la Figura 1.3, se establecen como clientes buenos aquellos que no han

estado en mora en los primeros doce meses y como clientes malos aquellos que antes de los

doce meses se han encontrado en estado de mora, y es con esas variables que se generará el

24

árbol de decisión y posteriormente las reglas que permitirán aplicar el modelo generado de

datos de entrenamiento a datos de los posibles clientes.

Figura 1. 4 Ejemplo de árbol de decisión para iniciación Fuente: (Cardona, A, 2004)

Como se observa en este ejemplo de la Figura 1.4, al emplear el método de árboles de

decisión, para este caso se obtienen seis nodos terminales, es decir, 6 categorías con sus

respectivas probabilidades que permiten identificar seis perfiles de riesgo para tomar

decisiones respecto a otorgar o no el crédito a las personas en los diferentes escenarios.

Los requerimientos para el uso de modelos están asociados a tres factores:

Simplicidad: A fin de que diferentes empleados de la entidad financiera puedan

entender el modelo y sus resultados.

Potencia: Mostrando en sus resultados la elegibilidad correcta entre clientes

buenos y clientes malos.

Estabilidad: Que con el paso del tiempo el modelo continúe siendo aplicable.

25

Teniendo en cuenta que el modelo de árboles de decisión cumple con estos requerimientos,

la autora presenta la forma en que se aplican pruebas estadísticas para evaluar la capacidad

del modelo como la prueba F, Kolmogorov-Smirnov para dos muestras (K-S), la curva

ROC (Recive Operative Curve) y el coeficiente Gini y como estas dan buenos resultados.

Concluyendo, la autora se refiere a los árboles de decisión como una herramienta efectiva

al evaluar el riesgo de que exista incumplimiento en las responsabilidades de los posibles

clientes, es estable en el tiempo y útil para planeación de estrategias comerciales, métodos

de cobranza, entre otras. Se aclara que la importancia de un buen modelo radica en que

según las decisiones que se tomen al aceptar o no un cliente afectará directamente las

utilidades de la entidad financiera, permitiéndole aumentar en capital o llegar a la

insolvencia (Cardona, A, 2004).

Para finalizar, en tercer lugar, en el año 2011 fue presentada en la facultad de minas de

Ingeniería de sistemas en la Universidad Nacional, sede Medellín, Colombia, la tesis

titulada Modelo Basado en Aprendizaje de Máquinas para el Manejo de Riesgo de Falla

Durante la Composición de Servicios Web por Byron Enrique Portilla Rosero como

requisito para optar al título de magister en ingeniería de sistemas.

El objetivo de este trabajo estuvo en proponer un modelo basado en el método de

aprendizaje de máquina que permitiera “aprender al sistema” los riesgos que puede

presentar en el servicio web a fin de disminuir el riesgo de falla del mismo.

Para lograr esto el autor estudio las siguientes técnicas:

Arboles de decisión

Programación lógica inductiva (ILP)

26

Razonamiento basado en Casos(CBR)

Aprendizaje por refuerzo

Aprendizaje bayesiano

De estas revisó las ventajas y desventajas de cuatro características específicas, a saber:

Manejo de recursos de memoria, almacenamiento y tiempo de ejecución

Información requerida

Representación

Facilidad de interpretar el resultado por el humano

Figura 1. 5 Comportamiento del error (ECM)

Nota: Comportamiento del ECM del cálculo del riesgo en la métrica de disponibilidad por parte del

aprendizaje para el servicio GetItemInformation para el día martes 11am.

Fuente: (Portilla,B.E., 2011)

27

Llegando a la conclusión que las técnicas que describían mejor estas características y se

aplicaban al objetivo de su proyecto, de adquirir información referente a riesgos de falla de

los servicios durante composiciones web, fueron los árboles de decisión y la programación

lógica inductiva, dado que estas dos técnicas se fusionan en el marco de árboles de

decisión lógicos.

Como se muestra en la Figura 1.5, el comportamiento de los servicios es aprendido de

forma satisfactoria por el modelo de aprendizaje, permitiendo hacer una mejor selección de

los servicios y disminución de las fallas.

Al finalizar el proyecto, se obtuvo que el modelo sugerido muestra solides en el

aprendizaje, capacidad para encontrar asociaciones correctas y el incremento de esa

capacidad mientras existan más observaciones (Portilla,B.E., 2011).

28

2. Problema de investigación

Conocer el valor de la posesiones es una necesidad que se ha generado desde tiempos

remotos, dado el hecho de que existiera un exceso de determinado bien, se hizo importante

saber el valor que este representaba para alguien que careciera del mismo (Caballero, M,

2002); en un principio se empleó el trueque, haciendo el intercambio entre objetos que se

consideraban de valor equivalente debido a la necesidad que se tenía de los mismos, con el

paso del tiempo, luego de la invención del papel moneda como medio de intercambio, se

estableció una forma “imparcial” de valorar las cosas, no obstante el problema de saber a

cuantas unidades monetarias era equivalente un bien, continuaba siendo una necesidad por

satisfacer en los diferentes campos, incluyendo el de los bienes inmuebles.

A fin de dar solución a esta y otras necesidades relacionadas con el área de catastro,

geodesia, geomática, socioeconomía y planeación, en Colombia se creó el pregrado de

Ingeniería Catastral y Geodesia, teniendo como propósito el estudio del recurso tierra con

énfasis en el manejo social (UDFJC, 2016), enseñando también la investigación necesaria

que se requiere para conocer el valor monetario de un bien inmueble, la cual incluye, que

además de conocer de métodos matemáticos se conozca del entorno y se sepa argumentar

cada una de las decisiones que se tomen respecto al valor del bien valuado, ya que el

dinamismo que se presenta en las ciudades a nivel económico, social, arquitectónico,

estructural, de vetustez, entre otros, será un factor importante en el mercado de los

inmuebles.

Ahora bien, el analizar un bien y realizar toda una investigación involucrando diferentes

estudios y métodos matemáticos a fin de llegar a una conclusión de su valor en el mercado,

29

es una tarea que involucra gran trabajo y dedicación, no obstante, este trabajo se multiplica

al hablar de realizar avalúos masivos, por lo que se hace necesario emplear métodos que

faciliten la labor y funcionen como una herramienta más en la toma de decisiones.

El método enseñado y practicado para los avalúos masivos, en la universidad Distrital

Francisco José de Caldas, consiste en la realización de modelos econométricos, en cuyas

ecuaciones normalmente se tiene como variable dependiente el valor de metro cuadrado de

la construcción y como variables independientes, los valores correspondientes a área, edad

de la construcción, estrato, localización, entre otras, según la información con la que se

cuente y la relevancia que tengan las variables dentro del modelo que se realice, luego de

aplicar las diferentes pruebas a un modelo original; este método funciona bien y arroja,

según la calidad de los datos y del modelo establecido, errores pequeños en las

predicciones, lo que hace de este método una buena herramienta para conocer el valor tanto

de un predio como de un gran conjunto de estos.

Aun cuando el método de los regresores lineales en los modelos econométricos permite

obtener una precisión aceptable, se requiere un trabajo significativo en el momento de

trabajar con variables cualitativas, casos en los que se hace necesario crear variables

dicótomas para solucionar en parte el uso necesario de estas que representan las

características de los predios.

Teniendo en cuenta la importancia de la participación de este tipo de variables en el

proceso de valuar una bien inmueble, así como el ánimo de obtener mejores resultados, se

implementó el uso de los árboles de decisión, procesos derivados de la Inteligencia

30

Artificial del enfoque de aprendizaje de máquina, mediante los cuales es posible realizar

predicciones referentes a los predios, acertadas y con mínimos errores, permiten trabajar

con las diferentes variables inherentes a los predios incluyendo características como su

localización y el manejo de grandes volúmenes de información para el caso de avalúos

masivos.

31

3. Objetivos

3.1 General

Realizar un análisis de la efectividad de implementar los enfoques de aprendizaje de

máquina, específicamente los árboles de decisión, en la determinación de avalúos masivos

para los predios ubicados en la ciudad de Bogotá, en los sectores de la localidad 8 de

Kennedy, Unidad de Planeamiento Zonal 79 Calandaima; localidad 19 de Ciudad Bolívar,

UPZ 65 Arborizadora y localidad 10 de Engativá, UPZ 73 Garcés Navas.

3.2 Específicos

Implementar la técnica de árboles de decisión y sus diferentes variaciones en el proceso de

realizar los avalúos.

Determinar de las técnicas de árboles de decisión usadas las que por sus parámetros

permitan llegar a resultados más acertados.

Establecer una comparación del método seleccionado de la técnica de árboles de decisión

con el método tradicionalmente empleado, regresión lineal, para la realización de avalúos

masivos, a fin de validar el uso de esta técnica para el avalúo de bienes inmuebles.

32

4. Justificación

Los avalúos masivos son desarrollados por entidades privadas y gubernamentales según

diferentes necesidades como obras viales, proyectos de renovación urbana, estudios de

costos, entre otras y se efectúan mediante técnicas de modelos de regresión, en estos

procesos están involucradas variables numéricas y cualitativas, el uso de estos modelos se

ve afectado especialmente al involucrar variables del segundo tipo, debido a que se deben

buscar maneras de organizar y procesar los datos a fin de que todas las técnicas que se

empleen estén debidamente ejecutadas, al implementar este método se obtienen resultados

que al compararlos con la realidad son buenas representaciones de esta, no obstante, debido

a que se generaliza una regresión para una gran cantidad de datos, no siempre se ajusta de

una manera óptima para todos; al brindar un método que permita resultados aún más

ajustados a la realidad, las ventajas para las entidades que emplearían estos métodos serían

representativas y notorias en reducciones de costos y una visión más acertada referente a

los predios estudiados

Considerando la manera en que la tecnología permite el continuo avance en diferentes

entornos se optó por hacer uso de la inteligencia artificial, que tiene como uno de sus

enfoques el aprendizaje de máquina, que busca que mediante un sistema la máquina

aprenda una tarea y sea capaz de utilizar la información aprendida para generar

clasificaciones que funcionen para el pronóstico de datos ingresados posteriormente al

sistema. Este método ha sido implementado en campos financieros y del tratamiento de

imágenes, obteniendo excelentes respuestas.

33

Teniendo en cuenta que estos métodos han sido empleados para predicciones en distintos

campos, se plantea como un método para usar en el proceso de realizar avalúos masivos

mediante la clasificación automática que puede llegar a generarse, lo cual, según la calidad

de los resultados, es un método más sumándose al convencional.

Debido a que la necesidad de realizar avalúos es permanente en una sociedad que está en

constante cambio, crecimiento y modernización, el hecho de tener más herramientas que

aporten, faciliten y brinden mejores resultados, son necesarias constantemente y gracias al

continuo avance de la tecnología y la implementación de esta en los procesos valuatorios,

los beneficios a corto plazo del proyecto se verifican en los resultados obtenidos en el

presente proyecto, brindando una herramienta efectiva por su proximidad a los valores

reales, a mediano plazo, permitiendo aplicar esta técnica con valores de proyecciones de

entidades como el DANE y a largo plazo al posibilitar el uso de esta herramienta en

conjunto con muchas otras que hagan el proceso inicial de selección y clasificación de

datos más ágil para el posterior procesamiento y análisis de datos.

34

5. Marco espacial

El proyecto se desarrolló con los datos de predios localizados en la Ciudad de Bogotá en las

localidades 19 de Ciudad Bolívar, 8 de Kennedy y 10 de Engativá en las Unidades de

Planeamiento Zonal, 65 Arborizadora, 73 Garcés Navas y 79 Calandaima,

respectivamente, elegidas por la variabilidad que presentan en las características de los

predios allí localizados, presentando una información de más provecho para el estudio. A

continuación se presenta una descripción general de cada una de estas zonas.

5.1. UPZ 65 Arborizadora

La UPZ 65 Arborizadora cuenta con las siguientes características principales:

Localización: La UPZ Arborizadora está localizada al nororiente de la localidad 19,

Simón Bolívar, en la Ciudad de Bogotá, con un área de 326.97 hectáreas (Alcaldía

Mayor de Bogotá D.C - SDP, 2008), comprendidas entre los límites especificados

en la Tabla 5.1.1.

Tabla 5.1. 1Límites UPZ 65 Arborizadora

Norte Avenida del Ferrocarril del sur (DG 57c Sur)

Límite con la localidad 7, Bosa

Sur Avenida Villavicencio (AC 61 Sur)

Límite con la UPZ 66, San Francisco

Oriente

Río Tunjuelo

Límite con la localidad 6, Tunjuelito

Límite con la localidad 8, Kennedy

Occidente

Avenida Villavicencio (AC 61 Sur)

Límite con la UPZ 69, Ismael Perdomo

Límite con la UPZ 70, Jerusalén

Límite con la UPZ 66, San Francisco

35

Extensión: Su extensión total está dividida como se muestra en la Tabla 5.1.2.,

mostrando que la mayor parte de la unidad se encuentra urbanizada y no cuenta con

áreas protegidas.

Tabla 5.1. 2 Extensión UPZ 65 Arborizadora

Área Total 326,97 hectáreas

Área Urbanizada 275,12 hectáreas

Área sin Urbanizar 51,85 hectáreas

Áreas Protegidas 0 hectáreas

Sectores catastrales y centralidades: La UPZ 65 Arborizadora está conformada

por 10 sectores catastrales, Guadalupe, Rafael Escamilla, Madalena, El Ensueño,

Atlanta, La Coruña, Verona, Arborizadora Baja, El Chircal Sur y Ronda,

distribuidos como se presenta en la Figura 5.1.1.

Figura 5.1. 1 División por sectores UPZ 65 Arborizadora

36

La UPZ Arborizadora hace parte de la Centralidad Delicias – Ensueño, del eje de

integración Sur, que permite buenas condiciones para comercializar diversos bienes y

servicios de la región (Secretaría Distrital de Planeación, 2009) promoviendo el

desarrollo de suelo urbano al hacerlo adecuado para actividades productivas y servicios

complementarios a diferentes escalas (Secretaría general de la Alcaldía Mayor de

Bogotá, 2005).

Sistema de Equipamientos: La UPZ cuenta con equipamientos de escala urbana1,

zonal2 y vecinal

3, entre los más destacados están los destinados a educación, salud y

bienestar y en menor cantidad se encuentran los destinados a culto como las iglesias

y templos, a cultura como salones comunales y a la prestación de otros servicios

como el Centro de Atención Distrital Especializado CADE (Alcaldía Mayor de

Bogotá D.C - SDP, 2008).

Vías de acceso: Los ejes de la malla vial arterial para comunicar, acceder y permitir

la movilidad a través de la UPZ están conformados por las vías presentadas en la

Tabla 5.1.3.

Tabla 5.1. 3 Vías malla arterial UPZ 65 Arborizadora

1 Equipamientos de escala urbana, son los que atienden a un área importante de la ciudad

2 Equipamientos de escala zonal, son los que atienden a un conjunto de barrios

3 Equipamientos de escala vecinal, son los que atienden un solo barrio (Alcaldía Mayor de Bogotá D.C - SDP,

2008)

Vía Sentido de Comunicación

Avenida Ferrocarril del sur Oriente - Occidente

Avenida (autopista) Sur Oriente - Occidente

Avenida Ciudad de Villavicencio Norte - Sur

Avenida Jorge Gaitán Cortés Oriente – Occidente

Avenida Mariscal Sucre Oriente – Occidente

37

Usos del suelo: La UPZ 65 Arborizadora está reglamentada por el Decreto 241 de

2005 estableciendo los usos del suelo como se muestra en la Tabla 5.1.4 (Secretaría

general de la Alcaldía Mayor de Bogotá, 2005):

Tabla 5.1. 4 Usos del Suelo UPZ 65 Arborizadora

Uso Barrios

Vivienda La Coruña y Ronda

Vivienda con algunas zonas de comercio Madelena, Isla del Sol, La Coruña y El Chircal Sur

Vivienda con locales comerciales Arborizadora Baja y Verona

Grandes almacenes y supermercados Guadalupe

Industria Guadalupe y Rafael Escamilla

Zona para usos mixtos (vivienda, comercio,

equipamientos) Atlanta y El Ensueño

Densificación y estratificación: Referente a densificación, la UPZ 65 Arborizadora

tenía una población de 61850 habitantes para el año 2011 según las proyecciones de

población del DANE y una densidad urbana de 202 habitantes por hectárea.

En la UPZ están localizados predios pertenecientes a los estratos socioeconómicos 2

(bajo) y 3 (medio-bajo) (Secretaria Distrital de Planeación, 2011) con una

distribución de la población como se presenta en la Tabla 5.1.5.

Tabla 5.1. 5 Distribución de la población por estrato en la UPZ 65 Arborizadora

5.2. UPZ 73 Garcés Navas

Ubicación: La UPZ 73 Garcés Navas está localizada al occidente de la localidad 10,

Engativá, en la Ciudad de Bogotá, con un área total de 557.43 hectáreas (Alcaldía

Estrato Cantidad de

Habitantes (%) Cantidad de Hogares

Cantidad de Hogares

(%)

Estrato 2 (Bajo) 68.7 12234 68.7

Estrato 3 (Medio – Bajo) 31.1 5534 31.1

38

Mayor de Bogotá D.C - SDP, 2007) comprendidas entre los límites especificados en

la Tabla 5.2.1.

Tabla 5.2. 1 Límites UPZ 73 Garcés Navas

Norte Avenida Medellín (AC 80)

Límite con la UPZ Bolivia

Sur Calle 66ª y el Humedal Jaboque

Límite con la UPZ Álamos

Oriente Avenida Longitudinal de Occidente

Límite con la UPZ Boyacá Real

Occidente Río Bogotá, Límite del Distrito Capital

Extensión: Su extensión total está dividida como se muestra en la Tabla 5.2.2,

mostrando que la mayor parte de la unidad se encuentra urbanizada y no cuenta con

áreas protegidas.

Tabla 5.2. 2 Extensión UPZ 73 Garcés Navas

Área Total 557,43 hectáreas

Área Urbanizada 382,05 hectáreas

Área sin Urbanizar 118,03 hectáreas

Sectores y Centralidades: La UPZ 73 Garcés Navas está conformada por 23

sectores catastrales: El Gaco, Molinos de Viento, Los ángeles, Álamos, Villas de

Alcalá, El Cedro, Gran Granada, Bolivia, Villas de Granada I, Villas de Granada,

San Antonio, La Riviera, Garcés Navas, Garcés Navas Oriental, Garcés Navas Sur,

Villa Amalia, Florida Blanca, Villa Sagrario, Villa del Mar, El Dorado Industrial, El

Madrigal, Engativá el Dorado, Santa Mónica y Álamos Norte, distribuidos como se

presenta en la Figura 5.2.1.

39

Figura 5.2. 1 División por Sectores UPZ 73 Garcés Navas

La UPZ Garcés navas se beneficia por contener la centralidad4 Álamos, localizada en la

intersección de la Avenida Chile y la Avenida Longitudinal de Occidente (ALO), que

permite actividades comerciales y favorece la integración a la ciudad, por otra parte se

localiza cerca a otras dos, la Centralidad de Quirigua – Bolivia, también con una vocación

comercial, pero enfocada a integrar la ciudad con la región y la Centralidad de Fontibón –

Aeropuerto el Dorado – Engativá en donde se encuentran usos comerciales y equipamientos

como el Aeropuerto el Dorado, que permite la integración del país con el mundo (Alcaldía

Mayor de Bogotá D.C - SDP, 2007).

Sistema de Equipamientos : La UPZ cuenta con equipamientos de escala zonal,

vecinal y algunos a escala urbana, entre los más destacados están los destinados a

4 Las centralidades son espacios que concentran una gran actividad económica y de prestación de servicios

para la población, permitiendo la integración de la zona a escala internacional, nacional, regional o entre sectores (Alcaldía Mayor de Bogotá D.C - SDP, 2007).

40

educación, salud y bienestar entre los que se encuentran el Jardín infantil y Colegio

Fe y Alegría y la estación de bomberos y en menor cantidad se encuentran los

destinados a culto como las iglesias y templos, entre los que se encuentra la

Parroquia San Francisco de Borja en el Barrio Villas de Granada y a cultura como

salones comunales (Alcaldía Mayor de Bogotá D.C - SDP, 2007).

Vías de Acceso: Los ejes de la malla vial arterial para comunicar, acceder y

permitir la movilidad a través de la UPZ están conformados por las vías presentadas

en la Tabla 5.2.3.

Tabla 5.2. 3 Vías Malla Arterial UPZ 73 Garcés Navas

Usos del suelo: La UPZ 65 Garcés Navas está reglamentada por el Decreto 073 de

2006 (Secretaría General de la Alcaldía Mayor de Bogotá D.C, 2006) estableciendo

los usos del suelo como se muestra en la Tabla 5.2.4.

Tabla 5.2. 4 Usos del Suelo UPZ 73 Garcés Navas

Uso Barrios

Vivienda

El Gaco, Engativá El Dorado, El Dorado Industrial, Gran

Granada, Villas de Alcalá, Urbanización San Basilio, Los

Ángeles y Los Álamos

Vivienda con algunas zonas de comercio

Gran Granada, Villas de Granada, Molinos de Viento, Garcés

Navas Oriental, El Madrigal, Plazuelas del Virrey, El Pedregal,

Los Álamos

Vivienda con locales comerciales Barrios Garcés Navas, La perla, Villa Amalia, Bosques de

Mariana, Villas del Dorado

Comercial Zonal de gran actividad El Dorado Industrial

Zona para usos mixtos (vivienda,

comercio, equipamientos) Villas de Alcalá y Urbanización Esparta

Vía Sentido de Comunicación

Avenida Longitudinal de Occidente Borde Oriental de la UPZ

Avenida Bolivia (Carrera 104) Oriente – Occidente

Avenida Chile (Calle72) Oriente – Occidente

Avenida Medellín (Calle 80) Oriente – Occidente

Avenida Gonzalo Ariza (Carrera 110) Norte – Sur

Avenida El Cortijo (Carrera 114) Norte – Sur

Avenida El Salitre (Calle 66) Oriente – Occidente

41

Densificación y estratificación: Referente a densificación, la UPZ 73 Garcés

Navas tenía una población de 156478 habitantes para el año 2011 según las

proyecciones de población del DANE y una densidad urbana de 282 habitantes por

hectárea.

En la UPZ están localizados predios pertenecientes a los estratos socioeconómicos 1

(bajo-bajo), 2 (bajo) y 3 (medio-bajo) (Secretaria Distrital de Planeación, 2011) con

una distribución de la población como se presenta en la Tabla 5.2.5.

Tabla 5.2. 5 Distribución de la población por estrato en la UPZ 73 Garcés Navas

5.3. UPZ 79 Calandaima

La UPZ 79 Calandaima, se distingue por las características que se presentan a continuación:

Localización: La UPZ 79 Calandaima está localizada al centro occidente

(Secretaría distrital de planeación, 2009) de la localidad 8 de Kennedy en la Ciudad

de Bogotá, con un área de 319 hectáreas, comprendidas entre los límites

especificados en la Tabla.5.3.1 (García,W, 2013).

Tabla 5.3. 1 Límites UPZ 79 Calandaima

Norte Avenida las Américas

Limita con la UPZ Tintal Norte

Sur Avenida las Américas (AC 6) y Avenida de los Muiscas (Cl 38 sur)

Limita con la UPZ Patio Bonito

Oriente Avenida Ciudad de Cali y avenida El Tintal

Limita con las UPZ Castilla y Patio Bonito

Occidente Río Bogotá

Limita con el municipio de Mosquera

Estrato Cantidad de

Habitantes (%) Cantidad de Hogares

Cantidad de Hogares

(%)

Estrato 2 (Bajo) 16.6 6,515 22

Estrato 3 (Medio – Bajo) 78.8 23,680 78

42

Extensión: La UPZ Calandaima tiene una extensión de 319 hectáreas que

representan un 8.3% del total de la localidad de Kennedy (García,W, 2013).

Sectores Catastrales y Centralidades: La UPZ 79 Calandaima contiene los barrios

Tintalá, Osorio II, Galán, Galán Rural y Calandaima distribuidos como se muestra

en la Figura 5.3.1, estos sectores están en una etapa de desarrollo mediante la

construcción en PH, que para el año 2012 tuvo un notable incremento del 81.63%

desde el año 2002 (García,W, 2013).

Vías de acceso: Los ejes de la malla vial arterial para comunicar, acceder y permitir

la movilidad a través de la UPZ están conformados por las vías: Avenida Ciudad de

Cali (AK 86), Avenida Tintal (AK 89), Avenida Longitudinal de Occidente (AK

96), Avenida Castilla (AC 8) y Avenida de las Américas (AC 6) (Secretaría distrital

de planeación, 2009).

Figura 5.3. 1 División por sectores UPZ 79 Calandaima

43

Usos del Suelo: Debido a que en la actualidad la UPZ Calandaima está en etapa de

desarrollo, no cuenta con un decreto que la reglamente, en parte se rige por el

Acuerdo 06 de 1990 con Tratamiento Especial de Incorporación al Sector Tintal

Central y el Área Suburbana de Expansión mediante el Decreto 012 de 1993

considerando como uso de suelo (Alcaldia Mayor de Bogota D.C., 1993). Áreas de

Actividad: Múltiple (Desarrollos urbanísticos residenciales, comerciales,

industriales e institucionales).

Densificación y estratificación: Esta UPZ cuenta con población perteneciente al

estrato dos y una gran parte sin estratificar (Secretaria Distrital de Planeación,

2011), como se presenta en la tabla 5.3.2.

Tabla 5.3. 2 Distribución de la población por estrato en la UPZ 79 Calandaima

Estrato Cantidad de Habitantes (%) Cantidad de Hogares

Estrato 2 (Bajo) 96.2 19974

Sin estrato 3.8 790

44

6. Marco teórico

Este capítulo contiene la información empleada en las diferentes etapas del desarrollo del

proyecto, teoría relacionada con temas de Ingeniería, matemática y tecnología.

6.1 Inteligencia artificial

Para dar una definición de Inteligencia Artificial (IA), en los documentos, se hace

referencia en primer lugar al significado de inteligencia dado por la RAE, en donde se

describe como la facultad de conocer, de entender o comprender; lo que lleva a pensar

desde una primera instancia en que el termino hará alusión al hecho de poseer las facultades

de la inteligencia de una manera artificial. Al tratar este tema diferentes autores dan su

concepto, unos de los más representativos son los de Marvin Minsky, padre de la

inteligencia artificial (Díaz, I, 2014) y el que aporta la Enciclopedia de la Inteligencia

Artificial, por un lado Minski la define como la ciencia de construir máquinas que hagan

cosas que, si las hicieran los humanos requerirían inteligencia (Cazorla,M, Alfonso, M,

Escolano, F, Colomina, O, & Lozano, M, 2003), y por otro, se afirma que es un campo de

la ciencia y la ingeniería que se ocupa de la comprensión, desde el punto de vista

informático, de lo que denomina comúnmente comportamiento inteligente, también se

ocupa de la creación de artefactos que exhiben este comportamiento (Pino,R, Gómez, A, &

de Abajo, N, 2001),de estas concepciones, se puede concluir, a fin de generalizar, que el

centro de la Inteligencia artificial, como ciencia y tecnología es buscar la manera de emular

las capacidades del ser humano, por lo que se han creado sistemas que se encaminan a

reproducir capacidades específicas.

45

Las áreas en las que la IA (Inteligencia Artificial) ha hecho presencia se clasifican, en

general, en las siguientes:

Tratamiento de lenguajes naturales: También conocido por sus siglas en inglés NLP

(Natural Language Processing) (García, A, 2012) consiste en hacer que un sistema sea

inteligente al permitir su interacción con los usuarios en su mismo lenguaje (Pino,R,

Gómez, A, & de Abajo, N, 2001), esta área de la IA engloba todas aquellas aplicaciones

que realizan traducciones entre idiomas, interfaces hombre – máquina que permiten

interrogar una base de datos o dar órdenes a un sistema operativo, haciendo que la

comunicación sea más amigable con el usuario.

Los productos comerciales que realizan tareas relacionadas con el procesamiento de

lenguaje natural se pueden clasificar, de manera general en:

Sistemas de consulta en lenguaje natural de bases de datos: Sistemas que traducen el

tipo de consultas que se pueden hacer a una base de datos, a la serie de instrucciones

adecuadas en el lenguaje informático de consulta de una base de datos.

Sistemas de búsqueda, reconocimiento y categorización de textos: Empleados para

seleccionar y filtrar la enorme masa de información que en la actualidad reciben y

tienen en sus bases de datos las empresas.

Sistemas de traducción automáticas

Programas de edición de textos: Programas que permiten la corrección ortográfica,

gramatical y de estilo de los textos que se escriben en ordenador.

“Máquinas de escribir” accionadas por la voz: Sistemas que reconocen los textos

que se desean mecanografiar (o los datos que se desean introducir en una hoja de

46

cálculo) y van “transcribiendo” en texto “dictado” a su correspondiente

representación escrita.

Productos de consumo: Productos que permiten un uso más “natural” de

determinados aparatos domésticos o profesionales. Como ejemplo están los

sistemas de programación de videos o teléfonos de coche accionados por la voz.

Razonamiento automático – Sistemas de Expertos: Hacen referencia a los sistemas

diseñados para que las máquinas imiten el comportamiento de los humanos, siendo capaces

de realizar conclusiones lógicas según información presente (Cazorla,M, Alfonso, M,

Escolano, F, Colomina, O, & Lozano, M, 2003).

Aprendizaje automático o de máquina: Son los sistemas que se elaboran mediante

modelos que permiten a la máquina “aprender” mediante una base de información

suministrada.

Representación del conocimiento: Dado que el sistema tiene la capacidad de “razonar y

de aprender”, la representación del conocimiento abarca el hecho de que esa información

que adquiere o infiere autónomamente pueda ser almacenado y recuperado de forma

eficiente, ya que no es útil almacenar datos si luego los sistemas no pueden acceder a estos

para usarlos, sacar conclusiones y obtener nueva información que no poseían de forma

directa.

Visión artificial y robótica: Son todos los sistemas de la IA que hacen posible el

reconocimiento de objetos y del habla, detección de defectos en piezas por medio de visión,

apoyo en diagnósticos médicos, etc.

47

Uno de los problemas con los que cuentan esta clase de procedimientos es el captar e

interpretar las imágenes del entorno que envuelve a un sistema inteligente y le está

enviando cantidades de “píxeles” o elementos de información que son fundamentales para

aprender y predecir acontecimientos.

Los aspectos más estudiados, en general, son de caracteres tipográficos y manuscritos,

interpretación de imágenes, reconocimiento de objetos, visión del color y análisis visual del

movimiento.

Esta área de la visión artificial y la manipulación de objetos, en otras palabras robots

móviles, sistemas para control de brazos, ensamble de piezas, etc. es conocida como

robótica (Pino,R, Gómez, A, & de Abajo, N, 2001).

6.2 Aprendizaje de máquina

La técnica de Inteligencia Artificial hace referencia a la modelización de conductas para su

posterior implementación en computadoras, mediante sistemas se busca hacer que las

máquinas sean capaces de realizar generalizaciones a partir de ejemplos sacados del

entorno, como lo mencionan Daniel y José Luis, (Sontag, E. D & Tesoro, J. L, 1972) en

cierto modo, lo que se desea es obtener máquinas capaces de resolver problemas que

requieran de “ingenio: Procesos de decisión complejos en medios potencialmente infinitos

e incontrolables y sentido común: el poder deducir automáticamente y por cuenta propia

una cantidad amplia de consecuencias inmediatas de lo que se dice y los conocimientos que

ya posee” (McCarthy, J, 1958). Para lograr esto se utilizan técnicas basadas en redes y

métodos probabilísticos como las redes bayesianas o de Markov, simulando el

48

comportamiento del cerebro humano a través de redes neuronales, es así como se establece

que la máquina sea capaz de “aprender” cosas nuevas, adaptarse al medio y generar una

respuesta, condición exigible a cualquier ser dotado de inteligencia (García, A, 2012), como

se muestra en la Figura 6.2.1. Existen cinco pasos generales en el proceso que constituye el

aprendizaje de máquina, distribuidos en dos etapas esenciales.

Figura 6.2. 1 Esquema de la técnica de Aprendizaje de máquina

Etapa 1: Etapa de Aprendizaje (Entrenamiento).

1. El componente humano del proceso aporta la información base5 o conjunto de datos

inicial.

2. Los datos son procesados mediante el algoritmo que genera el aprendizaje de la

máquina.

3. Generación de un modelo.

5 Información Base: Es la que se emite en el origen y no ha sufrido ningún tratamiento por el ordenador.

49

Etapa 2: Etapa de validación

4. El componente humano aporta una nueva información base o conjunto de datos.

5. (3) El conjunto de datos pasa a través del modelo.

6. (5) Se genera la información de resultados6

o la respuesta final, así como

información de la valides del modelo para ser empleado con datos de pronóstico.

La Inteligencia artificial comprende cinco enfoques principales en el aprendizaje

automático o aprendizaje de máquina, las redes neuronales artificiales, los algoritmos

genéticos, los métodos empíricos de inducción de reglas y árboles de decisión, el

aprendizaje analítico y los métodos basados en casos o por analogía.

Las Redes Neuronales Artificiales, ANN (Artificial Neural Netwoks) reciben su nombre

debido a la semejanza con las redes neuronales del cerebro humano, teniendo las

capacidades de aprender, generalizar y abstraer; así como las neuronas humanas cuentan

con el axón (salida) y se conecta con otras por medio de dendritas (entrada), una neurona

artificial como elemento procesador cuenta con entradas combinadas por medio de una

suma básica que se modifica a través de una función de transferencia y el valor resultante

de la función pasa a la salida del procesador, que a la vez se puede conectar con las

entradas de otros procesadores, formando de esta manera una red neuronal, en donde lo más

importante es la forma en que se conectan los elementos procesadores en niveles o capas

consecutivas (Bosogain, X, 2014).

6 Información de resultados: Es la que ha sido tratada completamente por el ordenador. A su vez puede ser:

Fija: Que permanece constante a través de los distintos tratamientos, o Variable: Que es susceptible de tomar valores diferentes de un proceso a otro (Cuevas, A, 1975).

50

Los algoritmos genéticos son una familia de métodos de búsqueda adaptativa de soluciones,

deben su nombre por su analogía con el cambio genético que se produce en las poblaciones

naturales y que está en la base de la selección natural y la evolución. Para esto se representa

la experiencia como una lista de propiedades o características binarias, en el sentido de que

puede estar presente o no en un determinado individuo o ejemplo que incrementa la

experiencia del sistema al estudiarlo.

Los procedimientos de aprendizaje analítico se especializan más en mejorar el rendimiento

de sistemas de resolución de problemas, transformando el conocimiento que contiene el

sistema en una estructura más eficiente para conseguir el objetivo perseguido.

Otro enfoque del tema de aprendizaje consiste en incluir en el programa de razonamiento

basado en casos descritos anteriormente, por el cual el programa, de forma análoga a como

lo hacen muchos especialistas humanos, es capaz de memorizar y recuperar fácilmente

casos en los que se ha tenido éxito en la resolución de un problema y adaptarlos a nuevas

situaciones similares.

6.3 Árboles de decisión

La técnica de árboles de decisión, hace parte del enfoque del aprendizaje de máquina, cuya

implementación en el campo de proyectos actuales recién se está implementando (Suárez, J,

2000). Esta técnica forma parte de los métodos de inferencia inductiva, dado que de

información particular se llega a deducir información general (Mitchell, T, 1997).

Los árboles de decisión son una agrupación de reglas organizadas en una estructura

jerárquica, de tal forma que la decisión final se puede determinar al hacer un seguimiento a

51

las condiciones que se cumplen, desde la raíz hasta alguna de las hojas (Vizcaino, P. A,

2008).

Como se presenta en la Figura 6.3.1, la estructura de un árbol de decisión se compone por:

Raíz o nodo Inicial: Es representada por un óvalo, está localizada en la parte

superior del árbol y contiene el atributo seleccionado para dar inicio a la

clasificación.

Ramas: Son representadas con líneas, se encuentran localizadas al interior del árbol

desprendiéndose de la raíz y de los nodos internos y contienen las reglas que

permitiran las clasificaciones para aplicar a los valores del atributo del nodo del cual

se desprenden.

Nodos internos: Son representados con óvalos, están localizados dentro del árbol y

contienen los atributos seleccionados para guiar la clasificación.

Nodos finales o nodos Hoja: Son representados con rectángulos, están localizados en los

extremos finales del árbol de decisión y contienen la regla que permitirá la clasificación

final.

52

Figura 6.3. 1 Ejemplo de árbol de decisión

Para hacer la clasificación el método de árboles de decisión empieza por identificar el

atributo que será el punto de partida y llevarlo a través de los componentes del árbol,

iniciando por la raíz y pasando por distintos nodos hasta llegar a una hoja o nodo final, este

árbol puede continuar aprendiendo de nuevos pares de datos valor/atributo que el agente

humano anexe al sistema para enriquecerlo y generar mejores respuestas (Vicente, C,

2004).

De manera práctica, se presenta parte de un árbol de decisión en la Figura 6.3.2, el ejemplo

muestra la clasificación del elemento Metro Cuadrado de Construcción.

1. Se selecciona el atributo Puntaje y se localiza en la raíz e inicia a recorrer las ramas.

2. Al recorrer las ramas, se verifica si el atributo Puntaje es mayor a 30.5 puntos o

menor o igual a 30.5 puntos.

3. Si el atributo es menor o igual a 30.5 puntos, se pasa a revisar el siguiente nodo que

contiene el atributo Edad.

53

4. De las ramas que se desprenden del nodo Edad, se revisa si el atributo es menor o

igual a 12.5 años o mayor a 12.5 años.

5. Si el atributo es menor o igual a 12.5 años, entonces seguirá la rama correspondiente

y finalizará el recorrido por el árbol en el nodo final o nodo hoja que contiene la

regla 1.

6. Si el atributo es mayor a 12.5 años, seguirá la rama correspondiente y pasará al

nodo que contiene el atributo Puntaje.

7. Si el atributo es menor o igual a 26.5 puntos, seguirá la rama correspondiente y

finalizará el recorrido en el nodo hoja que contiene la regla 2.

8. Si el atributo es mayor a 26.5 puntos, entonces continuará el recorrido a los

siguientes nodos hasta recorrer todo el árbol.

El algoritmo de árboles de decisión permite solucionar problemas que contengan

características como las siguientes:

Instancias representadas por pares valor / atributo: Para algunos casos, los

atributos, que son fijos como estrato y número de pisos, los valores pueden ser

Figura 6.3. 2 Ejemplo de reglas generadas por un Árbol de Decisión

54

también fijos como bajo-Bajo, Medio, etc. y 1, 2, o 3, pero también hay casos como

el área de terreno, para ambos casos el algoritmos es útil.

La función objetivo tiene valores de salida discretos: Para algunos trabajos, la

función de salida puede constituirse por valores booleanos, no obstante, el método

se extiende a funciones con más de dos valores de salida.

Cuando se requiere una separación de descripciones: Como se presenta en el

ejemplo, en los árboles de decisión siempre se presentan expresiones separadas.

Los datos de entrenamiento pueden tener errores: Los métodos de aprendizaje

de árboles de decisión presentan una significativa resistencia a los errores que

puedan tener los atributos de los datos empleados en el entrenamiento.

Los datos de entrenamiento no contienen los valores de los atributos

completos: El algoritmo de árboles de decisión se puede emplear incluso cuando en

los ejemplos de formación hayan valores desconocidos.

Existen muchas situaciones en el medio cotidiano que presentan estás características y para

las que han sido útiles emplear los algoritmos de árboles de decisión, entre esas está la

clasificación de pacientes clínicos, de solicitantes de créditos, del mal funcionamiento de

equipos, de imágenes de sensores remotos, entre otras, en donde es necesario que a partir de

un conjunto de datos se genere un aprendizaje para generalizar esa clasificación a datos

nuevos (Mitchell, T, 1997).

55

6.4 Entropía de la información

El término entropía procede del griego em, que significa sobre, en y cerca de; y sqopg, que

significa giro, alternativa, cambio, evolución o transformación. En termodinámica es una

magnitud física que mide el grado de desorden que tiene un sistema (Arnheim, R, 1995),

recibió este nombre por Rudolf Clausius en 1850 y Ludwig Boltzmann quien lo expresó

matemáticamente mediante probabilidades en el año de 1877 (Clausius, R, 1865).

De manera semejante, la Entropía de la información o Entropía de Shannon es una medida

de la incertidumbre de información suministrada y se considera como la cantidad promedio

que contienen los elementos empleados en un experimento (Cuevas, A, 1975). Recibe este

nombre en honor a Claude E. Shanon, que junto con Warren Weaver elaboraron, en 1948,

una teoría de la información basada en los fenómenos de la comunicación en la cibernética,

en donde estudiaba la capacidad de información de un mensaje en función de la capacidad

del medio por el que se transmitía, esta capacidad es medida en un sistema binario (0 y 1)

en bits (binary digits) relacionados con la velocidad de transmisión del mensaje, la cual

puede aumentar o disminuir según la cantidad de ruido (Rodrigo, M, 2011), como afirma

Norbert Wiener “Por su naturaleza, los mensajes son una forma y una organización.

Efectivamente es posible considerar que su conjunto tiene una entropía como la que tienen

los conjuntos de los estados particulares del universo exterior. Así como la entropía es una

medida de desorganización, la información que suministra un conjunto de mensajes, es una

medida de organización. De hecho puede estimarse la información que aporta uno de ellos

como el negativo de su entropía cuanto más probable es el mensaje, menos información

contiene”. (Wiener, N, 1988)

56

Actualmente esta medida se emplea para medir la incertidumbre de información de

diferentes experimentos, brindando una base fuerte para la toma de decisiones dentro de los

mismos.

La entropía está dada por la Ecuación 6.4.1:

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝑆) = −𝑝+𝑙𝑜𝑔2𝑝+ − 𝑝−𝑙𝑜𝑔2𝑝−

Ecuación (6.4. 1) Entropía (S)

En dónde:

𝑝+ = Promedio de ejemplos positivos en S.

𝑝− = Promedio de ejemplos negativos en S.

Como primer ejemplo ilustrativo, se tiene un experimento en el que se cuenta con 19

ejemplos, de los cuales 13 son positivos y 6 negativos.

S = 19 ejemplos 𝑝+ = 13 𝑝− = 6


𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = − (13

19) 𝑙𝑜𝑔2 (

13

19) − (

6

19) 𝑙𝑜𝑔2 (

6

19)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = −(0,6842)𝑙𝑜𝑔2(0,6842) − (0,3157)𝑙𝑜𝑔2(0,3157)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = −(0,6842)𝑙𝑜𝑔0,6842

𝑙𝑜𝑔2− (0,3157)

𝑙𝑜𝑔0,3157

𝑙𝑜𝑔2

57

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = −(0,6842)−0,1648

0,301− (0,3157)

−0,5006

0,301

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = −(0,6842)(−0,5474) − (0,3157)(−1,6629)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = 0,3745 + 0,5251

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(13+, 6 −) = 0,8997

En caso de que todos los ejemplos fueran positivos, se tendría el siguiente ejemplo:

S = 19 ejemplos 𝑝+ = 19 𝑝− = 0


𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(19 + ,0 −) = − (19

19) 𝑙𝑜𝑔2 (

19

19) − (

0

19) 𝑙𝑜𝑔2 (

0

19)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(19 + ,0 −) = −(1)𝑙𝑜𝑔2(1) − (0)𝑙𝑜𝑔2(0)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(19 + ,0 −) = 0

Generalizando este ejemplo, se tiene que en los casos en donde el total de los ejemplos

pertenece a una misma clase, la entropía es cero. En otras palabras, cuando la entropía es

nula, está mostrando que la certeza es absoluta (Marín, C, 2014).

De forma semejante, se considera un experimento que cuente con la misma cantidad de

ejemplos positivos y negativos.

S = 18 ejemplos 𝑝+ = 9 𝑝− = 9


58

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = − (9

18) 𝑙𝑜𝑔2 (

9

18) − (

9

18) 𝑙𝑜𝑔2 (

9

18)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = −(0,5)𝑙𝑜𝑔2(0,5) − (0,5)𝑙𝑜𝑔2(0,5)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + 9 −) = −(0,5)𝑙𝑜𝑔0,5

𝑙𝑜𝑔2− (0,3157)

𝑙𝑜𝑔0,5

𝑙𝑜𝑔2

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = −(0,5)(−1) − (0,5)(−1)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = −(0,5)(−1) − (0,5)(−1)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,9 −) = 1

Del anterior ejemplo se puede generalizar que en el caso de que la cantidad de ejemplos

positivos y negativos sea igual, la entropía será 1, mientras que si el conjunto de ejemplos

es variable, la entropía estará entre 0 y 1, como se observa en la Figura 6.4.1.

Figura 6.4. 1 Gráfica de la Función de entropía de una clasificación booleana

Fuente: (Mitchell, T, 1997).

Nota: La función de entropía relativa a una clasificación booleana, para ejemplos positivos, varía entre 0 y 1

59

De manera general, si se considera que el atributo destino puede tomar c valores diferentes,

la entropía se puede definir como se presenta en la Ecuación 6.4.2, en donde 𝑝𝑖 es la

proporción de S que pertenece a la clase i.

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) = ∑ −𝑝𝑖 𝑙𝑜𝑔2𝑝𝑖

𝑐

𝑖=1

Ecuación (6.4. 2) Entropía general

6.5 Ganancia de la información

Dentro del proceso que implica la realización de un árbol de decisión, es necesario tener un

parámetro para elegir el atributo que se ubicará en la raíz del árbol y que será el mejor

clasificador inicial, como lo explica Mitchell, saber “¿Qué atributo debe ser probado en la

raíz del árbol?”, para responder a esta pregunta se evalúan todos los atributos mediante

pruebas estadísticas y se selecciona el mejor, que entonces será localizado en el nodo raíz,

luego todo el proceso se repite, evaluando que atributo es el más importante para estar en el

siguiente nodo hasta completar el árbol de decisión, es necesario resaltar que es un proceso

dispendioso y que el algoritmo no vuelve atrás para reconsiderar una opción anterior

(Mitchell, T, 1997).

Para seleccionar el atributo que será el mejor clasificador, se hace uso del término ganancia

de información, este se refiere a la propiedad estadística que permite ver que tan bien el

atributo separa los ejemplos según la clasificación destino.

La ganancia de información es la diferencia entre la cantidad de información que se

necesita para hacer una clasificación antes de hacer la división de datos y después.

60

Para medir la ganancia de información que brinda un atributo, como se muestra en la

Ecuación .6.5.1, se calcula la diferencia entre la entropía del conjunto de datos iniciales y la

suma ponderada de las entropías después de dividir el conjunto de ejemplos (Moya,

Francisco, 2013).

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) − ∑|𝑆𝑣|

|𝑆|𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑣)

𝑣 ∈𝑣𝑎𝑙𝑜𝑟𝑒𝑠 (𝐴)

Ecuación (6.5. 1) Ganancia de información

En donde:

S= Conjunto de ejemplos

A= Conjunto de los posibles valores para el atributo A

𝑆𝑣 = Subconjunto de S para los que el atributo A tiene un valor v (Ecuación 6.5.2)

𝑆𝑣 = {𝑠 ∈ 𝑆 |𝐴(𝑆) = 𝑣|}

Ecuación (6.5. 2) Subconjunto de S

Como ejemplo ilustrativo de la forma en que se elige el mejor atributo clasificador, se

presenta el siguiente experimento en la tabla 6.5.1:

S será un conjunto de entrenamiento con 14 ejemplos, para el experimento se tomaran

como ejemplos positivos los ejemplos con valor de Metro cuadrado de construcción igual a

VAL_M2CONS2.

61

Tabla 6.5. 1 Atributos y valores experimento

N. EDAD PUNTAJE VAL_M2_TERRENO VAL_M2_CONS

1 EDAD4 PUNTAJE7 VAL_M2TERR8 VAL_M2CONS2
















S=16 p+= 9 p-=7

Valores (Edad)= Edad3, Edad 4

S= [9+, 7 −]

𝑆𝐸𝑑𝑎𝑑3 ← [0+, 2 −]

𝑆𝐸𝑑𝑎𝑑4 ← [9+, 5 −]

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝐸𝑑𝑎𝑑) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) − ∑|𝑆𝑣|


𝑣 ∈ (𝐸𝑑𝑎𝑑3,𝐸𝑑𝑎𝑑4)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,7 −) = − (9

16) 𝑙𝑜𝑔2 (

9

16) − (

7

16) 𝑙𝑜𝑔2 (

7

16)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + ,7 −) = 0.4669 + 0,5217

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(9 + 7 −) = 0.988699407

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑3 (0+,2−)) = − (0

2) 𝑙𝑜𝑔2 (

0

2) − (

2

2) 𝑙𝑜𝑔2 (

2

2)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑3 (0+,2−)) = 0

62

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (9+,5−)) = − (9

14) 𝑙𝑜𝑔2 (

9

14) − (

5

14) 𝑙𝑜𝑔2 (

5

14)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (9+,5−)) = 0.409776377 + 0.53059581

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (9+,5−)) = 0.940285958

𝐺 (𝑆, 𝐸𝑑𝑎𝑑) = 0.9886 − 2

16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑3 (0+,2−)) −

14

16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (9+,5−))

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝐸𝑑𝑎𝑑) = 0.9886 − 2

16 0 −

14

16 0.9402

𝑮𝒂𝒏𝒂𝒏𝒄𝒊𝒂 (𝑺, 𝑬𝒅𝒂𝒅) = 𝟎. 𝟏𝟔𝟓𝟗

Valores (Puntaje)= Puntaje4, Puntaje7, Puntaje12

S= [9+, 7 −]

𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒4 ← [6 + ,0 −]

𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒7 ← [3+, 4 −]

𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒12 ← [0 + ,3 −]

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) − ∑|𝑆𝑣|


𝑣 ∈ (𝑃𝑢𝑛𝑡𝑎𝑗𝑒4, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒7,

𝑃𝑢𝑛𝑡𝑎𝑗𝑒12)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒4 (6+,0−)) = − (6

6) 𝑙𝑜𝑔2 (

6

6) − (

0

6) 𝑙𝑜𝑔2 (

0

6)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒4 (6+,0−)) = 0

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒7 (3+,4−)) = − (3

7) 𝑙𝑜𝑔2 (

3

7) − (

4

7) 𝑙𝑜𝑔2 (

4

7)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒7 (3+,4−)) = 0.523882466 + 0.461345669

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝐸𝑑𝑎𝑑4 (3+,4−)) = 0.985228135

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒12 (0+3−)) = − (0

3) 𝑙𝑜𝑔2 (

0

3) − (

3

3) 𝑙𝑜𝑔2 (

3

3)

63

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒12 (0+,3−)) = 0

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒)

= 0.9886 −6

16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒4

(6+,0−)

) −7

16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒7

(3+,4−)

)

− 3

16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑃𝑢𝑛𝑡𝑎𝑗𝑒12 (0+,3−))

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒) = 0.9886 − 6

16 0 −

7

16 0.9852 −

3

160

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑃𝑢𝑛𝑡𝑎𝑗𝑒) = 0.988699407 − 0.431037309

𝑮𝒂𝒏𝒂𝒏𝒄𝒊𝒂 (𝑺, 𝑷𝒖𝒏𝒕𝒂𝒋𝒆) = 𝟎. 𝟓𝟓𝟕𝟔𝟔𝟐𝟎𝟗𝟕

Valores (Val_M2Terreno)=Terr8, Terr15

S= [9+, 7 −]

𝑆𝑉𝑎𝑙_𝑀2𝑡𝑒𝑟𝑟8 ← [2+, 4 −]

𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟15 ← [7+, 3 −]

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆) − ∑|𝑆𝑣|


𝑣 ∈ (𝑉𝑎𝑙_𝑀2𝑡𝑒𝑟𝑟8,

𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟15)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟8(2+,4−)) = − (2

6) 𝑙𝑜𝑔2 (

2

6) − (

4

6) 𝑙𝑜𝑔2 (

4

6)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟8(2+,4−)) = 0.528320833 + 0.389975

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟8(2+,4−)) = 0.918295833

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟15(7+,3−)) = − (7

10) 𝑙𝑜𝑔2 (

7

10) − (

3

10) 𝑙𝑜𝑔2 (

3

10)

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟15(7+,3−)) = 0.360201221 + 0.521089678

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙𝑀2𝑇𝑒𝑟𝑟15(7+,3−)) = 0.881290899

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟)

= 0.9886 − 6

16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙𝑀2𝑇𝑒𝑟𝑟8

(2+,4−)

) −10

16 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 (𝑆𝑉𝑎𝑙𝑀2𝑇𝑒𝑟𝑟15

(7+,3−)

)

64

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟) = 0.9886 − 6

16 0.9182 −

10

16 0.8812

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝑉𝑎𝑙_𝑀2𝑇𝑒𝑟𝑟) = 0.9886 − 0.344360937 − 0.550806811

𝑮𝒂𝒏𝒂𝒏𝒄𝒊𝒂 (𝑺, 𝑽𝒂𝒍_𝑴𝟐𝑻𝒆𝒓𝒓) = 𝟎. 𝟎𝟗𝟑𝟓𝟑𝟏𝟔𝟓𝟗

Según los resultados obtenidos, el mejor clasificador para este experimento será el atributo

Puntaje, con una ganancia de información de 0.5576, como se observa en la Figura 6.5.1,

atributo que se localizará en la raíz del árbol como base para continuar el proceso.

6.6 Método ID3

Dentro de los métodos de árboles de decisión los sistemas que se han destacado son los de

J. Ross Quinlan, de 1979, 1983, 1986, 1988 y 1993, entre otros (Suárez, J, 2000). En

especial sobresale su modelo de 1979, por presentar buenas características, como el menor

número de preguntas posible para encontrar respuesta en cada caso, para llegar a este

modelo empleó la teoría de la Información dada por C. Shannon en 1948. Este primer

programa clasificador, que en su versión más perfeccionada fue denominado ID3 (Iterative

Dichotomizer - Dicotomizador Iterativo) ha sido frecuentemente empleado y mejorado por

Quinlan y otros autores (Sancho, F, 2016).

PU

NT

AJ

E G

=0

.55

76

PUNTAJE4 0

PUNTAJE7 0.9852

PUNTAJE12 0

ED

AD

G=

0.1

65

9

EDAD 3 E=0

EDAD 4 E=0.94

VA

LO

R_

M2

TE

RR

EN

O

G=

0.0

93

5

VAL_M2TERR8 E=0.9182

VAL_M2TERR15 E=0.8812

Figura 6.5. 1 Comparación de resultados de Ganancia de información

65

El método de aprendizaje inductivo ID3 es empleado para la clasificación de clases y

atributos de valores discretos (Kirkby, R, 2003), consiste en crear de forma automática un

árbol de decisión a partir de los datos de entrada para el entrenamiento, cumpliendo con las

siguientes características:

Crearlo iniciando por la raíz y terminando con las hojas.

De forma directa.

Sin realizar backtracking o búsqueda hacia atrás, en otras palabras, no hace una

segunda revisión de los ejemplos que ya han sido evaluados.

En su entrenamiento emplea específicamente los ejemplos suministrados.

Para construir el árbol de decisión, el método ID3 emplea la Ganancia de

Información con el fin de elegir el atributo más útil en cada paso y colocarlo en el

nodo correspondiente a medida que crece, el proceso continúa hasta que se haga una

clasificación completa de los ejemplos que conforman el conjunto de entrenamiento

o hasta que se hayan empleado todos los atributos (Mitchell, T, 1997).

6.7 Método J48 o C4.5

El algoritmo J48 es una implementación libre del algoritmo C4.5 de Quinlan en Java

(Antonelli, S, 2012) con el que cuenta el software Weka.

El método C4.5 es un algoritmo de inducción desarrollado por Ross Quinlan como una

extensión, debido a algunas mejoras, del algoritmo ID3, por lo que sus desarrollos serán

semejantes.

Para llegar a crear un árbol de decisión por medio del algoritmo C4.5 en primer lugar se

determinará un conjunto de datos de entrenamiento, estos serán divididos en subconjuntos

66

que serán evaluados mediante la ganancia de información para determinar el que será el

atributo con mayor ganancia y actuará como parámetro de decisión en la clasificación, este

será el que ocupe el nodo raíz. Para continuar con la clasificación, el algoritmo se vale de

dos herramientas llamadas “info” y “gain”, mediante la regla representada en las ramas se

calcula la información que aporta al proceso y por la herramienta “gain” calcula la mejora

global que genera la regla, por medio de estos dos criterios se decide de una manera certera

el recorrido a seguir en el árbol, tomando como punto de partida los resultados del ciclo

anterior, calculando la precisión del modelo según la totalidad de los datos y obteniendo en

la salida una variable categórica (Vizcaino, P. A, 2008).

Dado que el algoritmo C4.5 es una mejora del algoritmo ID3, algunos de los avances con

los que cuenta son:

1. Manejo de atributos continuos y discretos: Para trabajar en el proceso con

atributos continuos, el algoritmo genera un límite y divide los valores de los

atributos entre los que son mayores y los que son menores, o iguales al límite.

2. Manejo de los datos del conjunto de ejemplos con información faltante: Todos

los atributos son incluidos aun cuando no tengan la información completa,

omitiéndola en los cálculos de entropía y ganancia de información.

3. Eliminación de ramas que no aportan información: El proceso de poda o

Pruning puede ser implementado en dos ocasiones, mientras está creciendo el árbol

o cuando está completo, en el primer caso es llamado prepruning, proceso que se

lleva a cabo en el momento en que no se encuentran suficientes datos para tomar

decisiones confiables para que el árbol continúe creciendo y en el segundo caso,

67

llamado postpruning, se deja crecer por completo el árbol y se eliminan los sub-

árboles que no aportan suficiente información. Luego de que se ha creado el árbol,

el algoritmo se devuelve a buscar las ramas que no aportan suficiente información

en el proceso, poda7, para reemplazarlas por nodos finales o nodos hoja. Entre los

métodos empleados para determinar los sub-árboles a podar se encuentra:

La validación cruzada, en donde se reservan datos del entrenamiento

(validation set – tuning set) para evaluar la utilidad de los sub-árboles.

Los test estadísticos, empleados en los conjuntos de entrenamiento para

determinar información que se puede eliminar.

Longitud mínima de descripción - MDL (Minimum description length), que

permite determinar si la hipótesis del árbol completo es más compleja que

la del árbol resultante del recorte (Quilan, J, 1996).

4. Evitar el sobreajuste de datos: A diferencia del ID3, el algoritmo C4.5 realiza una

búsqueda de las hipótesis o conjunto de árboles de decisión para ajustar los datos de

entrenamiento, el conjunto de hipótesis está conformado desde el árbol vacío, hasta

los árboles más elaborados, de los cuales se selecciona el que clasifica

correctamente los datos de entrada, dentro de este proceso se tiene en cuenta el

sesgo inductivo, que hace referencia al principio de la navaja de Ockham8

,

prefiriendo los árboles cortos a los más grandes, debido a que los árboles más cortos

7 La poda consiste en eliminar el subárbol con raíz en un nodo interno, esto ocurre sólo cuando el árbol

podado es mejor al árbol original, según el conjunto de validación (Mitchell, T, 1997) 8 El principio atribuido a Guillermo de Ockham establece que “En igualdad de condiciones, la explicación más

sencilla suele ser la más probable” , cabe resaltar que en igualdad de condiciones, ya que en caso diferente “La explicación más simple y suficiente es la más probable, más no necesariamente la verdadera”, entonces en caso de que existan mayores pruebas para una hipótesis compleja, esta será preferida a una segunda, que aunque sea simple no tenga pruebas suficientes (Cambridge University, 1995).

68

contarán con una mayor información cerca a la raíz, generalicen mejor y contengan

menos atributos irrelevantes (Mitchell, T, 1997).

6.8 Método M5P

El método M5P 9es un algoritmo de aprendizaje de máquina inductivo mediante árboles de

decisión, es una reconstrucción del algoritmo M5 creado por Quinlan y mejorado por Yong

Wang (Borao, D, 2013). .El M5P es aplicable a modelos con atributos cuyos valores sean

numéricos y combina el árbol de decisión con funciones de regresión lineal (Calleja, A,J,

2010).

La manera en que trabaja este atributo es construyendo un árbol de decisión, no obstante,

en lugar de maximizar la información obtenida en cada nodo, minimiza la variación interna

de los subconjuntos para los valores de cada rama, este proceso de división se detiene

cuando los valores de todos los atributos varían ligeramente, o solo permanecen algunas

instancias. Luego de este primer proceso, el árbol es recortado, de tal manera que al cortar

un nodo interno, este pasa a ser una hoja que contiene un modelo de regresión lineal

(Bellogín, A, 2008). Finalmente, para evitar discontinuidades entre los sub – árboles, se

hace una revisión desde las hojas hasta la raíz, haciendo más preciso el valor de los nodos

al combinarlos con el valor predicho por el modelo de regresión lineal para cada nodo de

forma respectiva.

Como resultado del algoritmo M5P, se obtienen reglas que son aplicadas si los datos

cumplen o no con determinadas condiciones (Calleja, A,J, 2010).

9 Siglas de M5Prime (Principal).

69

Algunas condiciones que existen para la implementación de este algoritmo son:

No maneja instancias ponderadas por pesos.

No permite que se actualice de forma incremental.

Cuando el valor de un atributo no está determinado, este algoritmo lo reemplaza con

la media global o la moda del conjunto de datos de entrenamiento antes de que se

construyera el árbol.

Al ejecutar el algoritmo M5P en WEKA, este hace un proceso de suavizado

automático que se puede desactivar, adicionalmente también es posible decirle la

profundidad del podado y la cantidad de información en la salida. (Kirkby, R, 2003)

6.9 Métodos de validación

Al trabajar en aprendizaje de máquina y obtener árboles de decisión, existe una etapa que es

la validación, en esta parte lo que hace el algoritmo es revisar la efectividad del modelo

desarrollado, entre los métodos de validación se encuentran los siguientes:

Cross Validation - Validación Cruzada: La validación cruzada consiste en

proporcionar un número n de particiones (folds), este será el número en el que se

dividirá el conjunto de datos, posteriormente se construirá un clasificador con los n-

1 sub-conjuntos , estos serán entonces los datos de entrenamiento y los datos

restantes serán los datos de prueba, este procesos se repetirá con las n particiones,

hasta que todos los datos hayan sido de entrenamiento y de prueba en las respectivas

iteraciones, como se representa en la Figura 14, para un conjunto de 20 datos y n=5.

70

Una validación cruzada es estratificada cuando una de las particiones o

subconjuntos conserva las propiedades de la muestra original respecto al porcentaje

de elementos de cada clase (Corso, C, 2009).

Datos de Datos de

Prueba Entrenamiento

Iteración 1 A B C D E F G H I J K L M N O P Q R S T




… … … … … … … … … … … … … … … … … … … …

Iteración n=5 A B C D E F G H I J K L M N O P Q R S T

Total de datos

Figura 6.9. 1 Ejemplo de Validación Cruzada - Cross Validation

.Percentage Split - División de Porcentajes: Mediante esta validación se elige un

porcentaje del conjunto de datos para el entrenamiento del modelo y el porcentaje

de datos restante será el empleado para realizar la prueba de calidad de la

clasificación (García, F, 2013).

Supplied test set - Conjunto de prueba suministrado: Este método de validación

permite realizar el entrenamiento del modelo con el conjunto completo de los datos

y la prueba con un conjunto diferente de datos (Hernández, J, 2006).

6.10 WEKA

WEKA10

(Waikato Enviroment for Knowledge Analysis) es un Software libre desarrollado

en Java por la universidad de Waikato en Nueva Zelanda.

10

Sitio para descargar WEKA: http://www.cs.waikato.ac.nz/~ml/weka/

71

Figura 6.10. 1 Ventana de Inicio. Weka, Versión 3.6.13

Como se puede observar en la Figura 6.10.1, en la ventana principal del software, este

cuenta con 4 entornos de trabajo, Explorer, Experimenter, KnowledgeFlow y Simple CLI,

cada uno para desarrollar tareas específicas.

Explorer: Entorno empleado para hacer uso de los paquetes de WEKA con datos

proporcionados por el usuario.

Experimenter: Entorno diseñado para facilitar la automatización del trabajo con

experimentos a gran escala

KnowledgeFlow: Espacio diseñado para la creación de proyectos de minería de

datos por medio de la generación de flujos de información.

Simple CLI: Como entorno de consola permite llamar directamente desde Java los

paquetes disponibles en WEKA (Hernández, J, 2006).

72

Figura 6.10. 2 Entorno Explorer del Software WEKA

El entorno más empleado por contener la mayor funcionalidad de WEKA es el Explorer,

presentado en la Figura 6.10.2.

Los seis sub-entornos de ejecución, visibles en las pestañas del Explorer son los descritos

en la Tabla 6.10.1.

WEKA trabaja con archivos tipo .arff, por lo que es importante conocer la estructura que

deben tener los datos para que los conjuntos de información puedan recibir el tratamiento

adecuado, además de que el programa los lea correctamente (Morate, D, 2000).

73

Tabla 6.10. 1 Descripción de las opciones presentes en el entorno Explorer del Software WEKA

Herramienta Visualización Descripción

Classify

Acceso mediante las diversas herramientas a los

algoritmos de clasificación y regresión.

Cluster

Visualización de diversos métodos de agrupación

para los datos.

Associate

Generación de algunas reglas de asociación entre

las clases y atributos del conjunto de datos.

Select Attributes

Mediante diferentes técnicas se encuentran los

atributos más representativos del modelo.

Visualize

Visualización del comportamiento del conjunto

de datos por clases y atributos.

La estructura de los archivos debe ser la siguiente:

1. Encabezado: Para iniciar el archivo se escribe @relation y en seguida el Nombre

con el que se identificará el conjunto de datos.

74

2. Declaración de atributos: En segundo lugar se declaran los atributos, teniendo en

cuenta si son nominales o numéricos.

a. Declaración de atributos nominales: @attribute, seguido por el nombre del

atributo y entre corchetes {} los nombres de las clases, separados por comas.

Ejemplo: @attribute SECTOR_NOMBRE {CALANDAIMA, GALAN,

TINTALA, OSORIO_III}

b. Declaración de atributos numéricos: @attribute seguido por el nombre del

atributo, y la clase de atributo que puede ser:

NUMERIC: Para expresar números reales.

Ejemplo: @attribute AREA_TERRENO NUMERIC

INTEGER: Para expresar números enteros.

Ejemplo: @attribute CLAS_USO INTEGER

DATE: Para expresar fechas, va precedido por una etiqueta entrecomilla,

separado por espacios o guiones y unidades de tiempo (dd-Día, MM-

Mes, yyyy-Año, HH-Horas, mm-Minutos, ss-Segundos).

Ejemplo: @attribute FECHA DATE ¨dd-MM-yyyy HH:mm¨

STRING: Para expresar cadenas de texto.

Ejemplo: @attribute NOMBRE STRING

3. Datos: Finalmente está la declaración de los datos, esta se realiza expresando

@data, y en la fila siguiente se ingresara el conjunto de datos, en este cada fila debe

contener los valores de los atributos en el orden en que estos fueron declarados y

estar separados por comas.

75

Esta organización de los datos se puede realizar en un editor de texto como Notepad++ y

guardar el archivo como .arff, a fin de que pueda ser leído por WEKA, adicionalmente al

trabajar con grandes conjuntos de datos, es posible tener la base de datos en Excel y

organizarla de tal manera que la separación entre los datos esté por comas, tras lo cual se

copian al archivo del editor de texto y entonces proceder al experimento que se desee hacer

en WEKA.

Al realizar los diferentes entrenamientos y validaciones en el software WEKA, se obtienen

estadísticos como Kappa, el coeficiente de correlación, el error absoluto medio (MAE), la

raíz del error medio cuadrático (RMSE), el error absoluto relativo (RAE) y la raíz del error

relativo cuadrático (RRSE), los cuales permiten comparar los modelos obtenidos y validar

los resultados obtenidos.

6.10.1 Estadístico Kappa

El coeficiente Kappa de Cohen es una medida estadística que permite conocer el grado de

acuerdo o concordancia, existente entre dos observadores al evaluar una serie de elementos

cualitativos (variables categóricas). El estadístico Kappa toma valores entre 0 y 1, en donde

cero significa que no hay acuerdo o concordancia y 1 un acuerdo máximo (Martin, Q,

Cabero, M, & de Paz, Y, 2008), su cálculo se realiza mediante la Ecuación 6.10.1.1, en

donde P (A) es la proporción de veces que coinciden o concuerdan los observadores y P (E)

es la proporción de veces que se espera que los observadores coincidan por azar.

𝐾 =𝑃(𝐴) − 𝑃(𝐸)

1 − 𝑃(𝐸)

Ecuación (6.10.1. 1) Estadístico Kappa

76

6.10.2 Coeficiente de correlación

El coeficiente de correlación de Pearson permite conocer la relación lineal entre dos

variables aleatorias cuantitativas.

Si X y Y son dos variables aleatorias cuantitativas, el coeficiente de correlación de Pearson

(𝜌𝑋,𝑌) está dado por la Ecuación 6.10.2.1, para calcular este coeficiente en un estadístico

muestral se denota como 𝑟𝑋,𝑌 (Ecuación 6.10.2.2) dando como resultado valores que varían

entre -1 y 1 (Núñez, A, 1992) contenidos en los cinco casos siguientes (Tabla 6.10.1):

1. Si es igual a 1, existe una correlación perfecta positiva, es decir que hay una

dependencia total o relación directa entre las dos variables, de tal forma que cuando

una de estas variables aumenta, la otra lo hace en una misma proporción.

2. Si es mayor que cero y menor que 1, existe una correlación positiva.

3. Si es igual que cero, muestra que no existe una relación lineal entre las variables, no

obstante podría existir una relación no lineal.

4. Si es mayor que -1 y menor que 0, existe una correlación negativa.

5. Si es igual a -1, existe una correlación negativa perfecta, es decir que existe una

dependencia entre las dos variables pero de relación inversa, de tal forma que

cuando una de las variables aumenta la otra disminuye en una misma proporción.

𝝆𝑿,𝒀 =𝝈𝑿𝒀

𝝈𝑿𝝈𝒀=

𝑬[(𝑿 − 𝝁𝑿)(𝒀 − 𝝁𝒀)]

𝝈𝑿𝝈𝒀

Ecuación (6.10.2. 1) Coeficiente de correlación de Pearson

77

En donde:

𝜎𝑋𝑌 es la covarianza de (X,Y)

𝜎𝑋 es la desviación estándar de la variable X

𝜎𝑌 es la desviación estándar de la variable Y

𝑟𝑥𝑦 =∑ 𝑥𝑖𝑦𝑖 − 𝑛�̅��̅�

(𝑛 − 1)𝑠𝑥𝑠𝑦=

𝑛 ∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖

√𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖)2 √𝑛 ∑ 𝑦𝑖

2 − (∑ 𝑦𝑖)2

Ecuación (6.10.2.2) Coeficiente de correlación para estadístico muestral

Tabla 6.10.2. 1 Gráficas de casos de resultados del coeficiente de correlación

Caso 1 Caso 2 Caso 3 Caso 4 Caso 5

6.10.3 Errores

Los errores presentados en la tabla 6.10.3.1, son estimadores estadísticos que permiten

validar los resultados obtenidos (Mood, A, Graybill, F, & Boes, D, 1974).

78

Tabla 6.10.3. 1 Características de los errores

Estadístico Fórmula Explicación

Error absoluto Medio

(Mean Absolute Error) 𝑀𝐴𝐸 =

1

𝑁∑|�̂�𝑖 − 𝜃𝑖|

𝑁

𝑖=1

Mide la diferencia media entre los valores

observados y los estimados, tiene sus

mismas unidades y solo permite compararse

con modelos cuyos errores se miden en las

mismas unidades, por lo general es

ligeramente menor al RMSE.

Raíz del error cuadrático

medio

(Root Mean Squared

Error)

𝑅𝑀𝑆𝐸 = √1

𝑁∑(�̂�𝑖 − 𝜃𝑖)

2𝑁

𝑖=1

Mide la diferencia media entre los valores

observados y los estimados, se distingue por

amplificar y castigar severamente los errores

grandes. Solo se puede comparar entre

modelos cuyos errores se miden en las

mismas unidades.

Error absoluto relativo

(Relative Absolute

Error) 𝑅𝐴𝐸 =

∑ |�̂�𝑖 − 𝜃𝑖|𝑁𝑖=1

∑ |�̅�𝑖 − 𝜃𝑖|𝑁𝑖=1

Divide las diferencias por la variación de los

valores observados, teniéndolos en una

escala de 0 a 1, se multiplica por 100 a fin de

presentarlo como porcentaje, permite

observar cuanto difiere el valor observado de

su valor medio. Es posible compararlo con

modelos cuyos errores estén medidos en

diferentes unidades.

Raíz del error cuadrático

relativo

(Root Relative Squared

Error)

𝑅𝑅𝑆𝐸 = √∑ (�̂�𝑖 − 𝜃𝑖)

2𝑁𝑖=1

∑ (�̅�𝑖 − 𝜃𝑖)2𝑁

𝑖=1

Divide las diferencias por la variación de los

valores observados, teniéndolos en una

escala de 0 a 1, al igual que el RAE, muestra

la diferencia del valor observado con su

valor medio, se multiplica por 100 a fin de

presentarlo como porcentaje. A diferencia

del RMSE, se puede comparar con modelos

cuyos errores se miden en diferentes

unidades.

79

6.11 Construcción de intervalos

Con el fin de construir intervalos en un gran conjunto de datos, es necesario seguir tres

pasos específicamente (Cabrera, S, 2008):

1. Número de intervalos, mediante la regla de Sturges, presentada en la Ecuación

6.11.1. (Hyndman, R, 1995), en donde 𝑛 es el número de datos

𝐾 = 1 + 𝑙𝑜𝑔2𝑛

Ecuación (6.11. 1) Regla de Sturges

2. Cálculo del Rango, se realiza empleando la Ecuación 6.11.2, en donde 𝑋𝑚á𝑥 es el

dato mayor y 𝑋𝑚í𝑛 el dato menor.

𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛

Ecuación (6.11. 2) Rango

3. Longitud del intervalo, que resulta de la división del rango R entre el número de

intervalos K (Ecuación 6.11.3):

𝐿 =𝑅

𝐾

Ecuación (6.11. 3) Longitud de un intervalo

6.12 Valuación

En general el término valuación hace referencia al proceso de investigación para establecer

el valor de un activo o pasivo, y de manera más específica se puede definir como la

estimación de la cantidad monetaria por la cual se transaría un bien entre un comprador y

80

un vendedor bajo los supuestos previamente establecidos de acuerdo con el enfoque

correspondiente, de mercado o de No Mercado (IVSC, 2009); al hacer referencia a la

valuación de bienes inmuebles, se aplicará esta definición de realizar todo un proceso

laborioso y de investigación para determinar el precio de un lote, una bodega, una casa, un

apartamento, zonas comunes, entre otros.

Los avalúos de bienes inmuebles se pueden clasificar según diferentes criterios como:

1. Número:

a. Puntuales

b. Masivos

2. Ubicación:

a. Urbanos,

b. rurales,

c. suburbanos,

d. De expansión urbana.

3. Clase de Bien:

a. Terreno

b. Construcción (Según el uso y la destinación).

4. El método:

a. Renta o ingresos

b. De mercado o de comparación

c. De reposición como nuevo o sustitución

d. Potencial o residual

81

5. Finalidad:

a. Compra

b. Venta

c. Impuestos

d. Seguros

e. Contabilidad

f. Judiciales

g. Créditos e hipotecas

h. Para reposición de servidumbre

6. Tiempo:

a. Crisis

b. Auge

7. Especiales:

a. Monumentos históricos

b. Good will

c. Servidumbres

6.12.1 Valuación estadística

Con el fin de realizar una valuación estadística de bienes inmuebles, es necesario cumplir

con requisitos específicos en el proceso, entre los requisitos básicos se encuentran los

siguientes:

1. El método para alcanzar la convicción del valor debe basarse en procesos de inferencia

estadística que permitan calcular estimaciones sin reflejar tendencias de valor

82

estableciendo intervalos de confianza para las mismas, además de someterlas a pruebas

de hipótesis cuyos resultados satisfagan a las exigencias de este tipo de trabajo.

2. Cada elemento que contribuye a formar la convicción sobre el valor debe estar bien

caracterizado y su conjunto debe constituir una muestra tan aleatoria como sea posible,

al utilizar toda evidencia disponible. Sin embargo, no se permite la recolección de datos

de otros sectores donde las características geo – económicas sean distintas de la región

o zona donde se ubica el avalúo, ni de elementos que no sean comparables con ese bien.

3. La calidad de la muestra debe estar asegurada, exigiéndose la comprobación de todos

los elementos de referencia considerados en la elaboración del trabajo valuatorio.

4. La transformación y actualización de precios son aplicables, pero la actualización

deberá considerar la valorización real de los inmuebles, a través de la inferencia y

justificación por función de regresión.

5. El número N de datos de idéntica naturaleza, efectivamente utilizados en el tratamiento

inferencial, estará definido por la suma del número K de variables, utilizadas en el

modelo de regresión , más un número de cinco grados de libertad; esto es: 𝑁 ≥ 𝐾 + 5,

𝑁mayor o igual que 𝐾 + 5.

6. Los procesos de inferencia estadística empleados deben estar adaptados a los problemas

valuatorios y adecuadamente testados, teniendo obligación el Valuador de describirlos

detalladamente en su informe y anexar los j de informática utilizados. En ningún caso

se tolerarán los trabajos estadísticos que, en las varias etapas del tratamiento inferencial,

eliminen un conjunto de elementos superior al 50% de la muestra (Dirección General

IGAC, 2003).

83

6.12.2 Avalúos masivos

Los avalúos masivos son los procesos que permiten extrapolar información para un gran

número de predios, teniendo como base valores obtenidos mediante avalúos físicos en

terreno de un número representativo de inmuebles, del total de predios que se pretende

avaluar.

Para la determinación del valor de bienes inmuebles a partir del valor comercial por

métodos masivos se deben cumplir las etapas de:

1. Identificación predial

2. Determinación de zonas homogéneas físicas y geoeconómicas

a. Zonas Homogéneas Físicas urbanas: Son consideradas como el espacio

geográfico de una región con características similares en cuanto a vías, servicios

públicos, topografía, tipificación de las viviendas y uso de los predios y la

norma de uso definida en los Planes de Ordenamiento Territorial.

b. Zonas Homogéneas Físicas rurales: Son consideradas como el espacio

geográfico de una región con características similares en cuanto a áreas

homogéneas de tierra (condiciones agrológicas, topográficas, climatológicas de

los suelos y en su capacidad y limitaciones de uso y manejo), suelos,

disponibilidad de aguas, vías, uso, destino económico y los usos establecidos en

los Planes o Esquemas de Ordenamiento Territorial debidamente aprobados.

A fin de establecer los avalúos, se parte de puntos de investigación económica

dentro de las zonas homogéneas físicas, conociendo el valor en el mercado

84

inmobiliario para los terrenos ubicados en ellas (Dirección General IGAC,

2003).

3. Determinación de valores unitarios para los tipos de edificaciones

4. Liquidación de avalúos.

Los avalúos masivos se pueden elaborar por medio de la metodología combinada de las

zonas geoeconómicas y la nivelación primaria de precios (IGAC, 2008).

6.12.3 Puntos de investigación económica

Son aquellos seleccionados dentro del área urbana o rural de un municipio para establecer

valores unitarios del terreno, mediante el análisis de la información directa e indirecta de

precios en el mercado inmobiliario y por medio de tablas de construcción se realizan

análisis estadísticos según el uso de la construcción sus características físicas para obtener

el valor de 𝑚2 de construcción.

El valor catastral, será entonces la suma del valor de terreno y de construcción obtenido

para el predio de acuerdo a su área de terreno y construcción (Dirección General IGAC,

2003).

6.13 Unidades de Planeamiento Zonal (UPZ)

Las UPZ son unidades territoriales contenidas en las localidades y contenedoras de barrios

o sectores catastrales, su finalidad es definir el planeamiento del suelo urbano,

respondiendo a la dinámica productiva de la ciudad involucrando a los actores sociales en

la definición de aspectos de ordenamiento y control normativo a escala zonal (Alcaldía

mayor de Bogotá, 2004).

85

Las Unidades de Planeamiento Zonal determinan como mínimo 4 aspectos:

1. Lineamientos de estructura urbana básica de cada unidad, que permitan articular la

norma urbanística con el planeamiento zonal.

2. Regulación de la intensidad y mezcla de usos.

3. Las condiciones de edificabilidad.

4. Lineamientos sobre el manejo de ruido acorde con la política ambiental

Por medio de la planificación de UPZ es posible invertir los recursos de una mejor manera

al buscar el beneficio colectivo y generar una participación activa de la comunidad

mediante el encuentro ciudadano (SDP, 2016).

86

7. Metodología

Con el objetivo de realizar un análisis de la efectividad de implementar los árboles de

decisión, en la determinación de avalúos masivos en las Unidades de Planeamiento Zonal

79 Calandaima, 65 Arborizadora y UPZ 73 Garcés Navas se llevan a cabo tareas

específicas, distribuidas de la forma descrita en la Figura 7.1.

Figura 7. 1 Esquema de metodología

7.1 Definición de zonas de estudio

Teniendo en cuenta que el presente trabajo pretende verificar la efectividad del empleo de

árboles de decisión en el proceso de avalúos masivos, se ubicaron zonas dentro de la ciudad

que presentara un volumen representativo de inmuebles y características variables, es decir,

que estuvieran localizadas en el perímetro urbano, se tuviera la presencia de propiedad

horizontal (PH) y no PH, de lotes, de edificaciones de diferentes usos, estratos, número de

pisos, entre otras.

1. •Definición de zonas de estudio

2. •Adquisición de base de datos catastrales de la zona de estudio

3. •Selección de métodos basados en Árboles de decisión

4.

•Estructura preliminar del experimento, clasificación de los datos para el procesamiento en el software WEKA.

5.

•Estructura del experimento, generación de resultados mediante método de árboles de decisión y método convencional

6. •Análisis de resultados y efectividad

87

Teniendo en cuenta las características mencionadas se ubicaron las localidades de Engativá

(10), Ciudad Bolívar (19), y Kennedy (8) en las cuales, a su vez se ubicaron las Unidades

de Planeamiento Zonal, Garcés Navas (73), Arborizadora (65) y Calandaima (79),

respectivamente, distribuidas en la ciudad de Bogotá D.C como se presenta en la Figura

7.1.1.

Figura 7.1. 1 Localización de las zonas de estudio

7.2 Adquisición de base de datos catastrales de la zona de estudio

Las bases de datos catastrales constituyeron el conjunto de datos mediante el cual sería

posible crear los árboles de decisión y la validación de los mismos. De cada una de las tres

88

unidades de planeamiento zonal (UPZ) se adquirió la información correspondiente a

normatividad, cartografía y bases de datos catastrales.

1. Normatividad: Decreto 073 de 2006, por el cual se reglamenta la Unidad de

Planeamiento Zonal (UPZ) No. 73, Garcés Navas, ubicada en la localidad de

Engativá, Decreto 241 de 2005, por el cual se reglamenta la Unidad de

Planeamiento Zonal (UPZ) No. 65, Arborizadora, ubicada en la localidad Ciudad

Bolívar, el Acuerdo 06 de 1990 y el Decreto 012 de 1993.

2. Cartografía: Adquirida en formato shapefile, se contó con la información

correspondiente a las Localidades de la ciudad de Bogotá D.C, Unidades de

Planeamiento Zonal (UPZ) de la ciudad de Bogotá D.C y Sectores Catastrales de

la ciudad de Bogotá D.C con sus atributos correspondientes (Tabla 7.2.1).

Tabla 7.2. 1 Atributos de información cartográfica

Nombre Atributos

Localidades de la ciudad de Bogotá

Área

Perímetro

Número de localidad

Nombre

Unidades de Planeamiento Zonal (UPZ) de la ciudad

de Bogotá D.C

Código UPZ

Nombre de la UPZ

Decreto

Área

Sectores catastrales de la ciudad de Bogotá D.C.

Código de sector

Nombre sector

Área

3. Bases de datos catastrales: Adquiridos en formato .xlsx, se trabajó con las bases

de datos correspondientes a las UPZ 73Garcés Navas, 65Arborizadora y 79

Calandaima, proporcionadas por la Unidad Administrativa Especial de Catastro

(UAECD) y que cuentan con la información que se presenta en la Tabla 7.2.2.

89

Tabla 7.2. 2 Contenido bases de datos catastrales

UPZ Atributos

UPZ 73 Garcés Navas

Sector

Manzana

Código catastral

CHIP

Matrícula

Nomenclatura

Lote ID

Lote Zona Homogénea Física ID

Unidades PH

Vetustez

Número de pisos

Coordenada X

Coordenada Y

Área de afectación

Tipo de afectación

Actividad

Tratamiento

Cesión

Área de terreno

Valor m2 de terreno

Área construida

Valor m2 de construcción

Valor comercial

PH

Puntaje

Estrato

UPZ 65 Arborizadora

Sector

Manzana

Código catastral

CHIP

Matrícula

Nomenclatura

Lote ID

Lote ZHF ID

Unidades de PH

Uso

Número de pisos

Vetustez

Área

Coordenada X

Coordenada Y


Tipo de afectación

Actividad

Tratamiento

Cesión

Área de terreno

Valor m2 de terreno

Área construida


Valor comercial

PH

Puntaje

Estrato

UPZ 79 Calandaima

Sector

Manzana

Código catastral

CHIP

Matrícula

Nomenclatura

Lote ID

Lote ZHF ID

Unidades de PH

Código lote

Código uso

Pisos

Vetustez

Coordenada X

Coordenada Y


Tipo de afectación

Actividad

Tratamiento

Área de terreno

Valor m2 de terreno

Área construida


Valor comercial

PH

Puntaje

Estrato

7.3 Selección de métodos basados en árboles de decisión

Con el propósito de tener diferentes resultados y mayor información para analizar la

efectividad de los árboles de decisión como herramienta para la determinación de avalúos

90

masivos, se eligieron tres métodos que permitieran observar las variaciones entre estos con

el manejo de los tres conjuntos de datos correspondientes a las tres Unidades de

Planeamiento Zonal (UPZ).

Los métodos elegidos fueron el ID3, el J48 y el M5P los cuales cuentan con las

características y ventajas para el experimento al emplear el software WEKA para la

generación de los respectivos árboles.

ID3: Al permitir trabajar con el conjunto de datos nominales es posible visualizar,

leer y entender fácilmente el árbol generado, así como compararlo con el árbol

generado mediante el método J48.

J48: Brinda las mejoras al método ID3, permite igualmente visualizar, leer y

entender con facilidad el árbol generado, trabajar con el conjunto de datos

nominales y por las características de los resultados, compararlos con los resultados

obtenidos por el método ID3.

M5P: Ofrece la opción de trabajar con los datos numéricos, mediante la manera en

que se obtiene los resultados, es posible programar las reglas generadas de una

manera más sencilla que con los métodos ID3 y J48 para realizar el pronóstico y

visualizar cada proceso, para finalmente comparar los resultados con el método

tradicional de regresión lineal.

Luego de definir los tres métodos para desarrollar los árboles de decisión, se definieron los

métodos para realizar el entrenamiento y la validación de los árboles. Los métodos

seleccionados y las divisiones de los datos fueron los indicados en la Tabla 7.3.1,

91

obteniendo de esta manera 7 resultados de métodos de entrenamiento y validación por cada

método de árbol de decisión.

Tabla 7.3. 1 Métodos de entrenamiento y validación

Método Divisiones para entrenamiento y validación

Percentage Split

Porcentaje (%) Porcentaje (%)

66 33

80 20

Cross Validation Folds (Particiones) Folds (Particiones)

10 20

Supplied test set Conjunto de datos diferentes a fin de realizar el

pronóstico

7.4 Estructura preliminar del experimento, clasificación de los datos para el

procesamiento en el software WEKA

Con el fin de procesar los datos y obtener los resultados de los árboles de decisión, es

necesario verificar las bases de datos para determinar la información que será necesaria,

eliminar la que no se requiere y conformar los diferentes grupos en que se procesarán los

datos.

De acuerdo con el proceso presentado en la Figura 7.4.1, luego de tener el conjunto de

datos de cada UPZ, el siguiente paso es depurar la información y contar estrictamente con

los datos necesarios para el experimento.

Al realizar este primer proceso los conjuntos de datos quedaron conformados de la manera

que se muestra en la Tabla 7.4.1.

Tabla 7.4. 1 Comparación de cantidad de datos por UPZ luego de la depuración

UPZ Cantidad de datos

Suministrados

Cantidad de datos después de la

depuración

UPZ 73 Garcés Navas 38712 34073

UPZ 65 Arborizadora 18903 16736

UPZ 79 Calandaima 33294 33157

92

Figura 7.4. 1 Proceso de conformar los conjuntos de datos del experimento

Al tener el conjunto de datos de cada UPZ depurado, se realizó una división en PH y

No_PH, ya que se tuvieron en cuenta características diferentes para cada uno de los grupos,

de donde se extrajeron 20 datos aleatorios del conjunto de PH y 20 del conjunto No_PH

designados para pruebas finales, quedando el conjunto para entrenamiento, validación y

pronóstico con las cantidades de datos descritas en la Tabla 7.4.2 y conformados con los

atributos contenidos en la Tabla 7.4.3.

93

Tabla 7.4. 2 Cantidad de datos para entrenamiento, validación y pronóstico según PH y NO_ PH

UPZ

Cantidad de datos

Conjunto para entrenamiento,

validación y pronostico PH

Cantidad de datos

Conjunto para entrenamiento,

validación y pronostico NO_PH

UPZ 73 Garcés Navas 15217 18816

UPZ 65 Arborizadora 9935 6761

UPZ 79 Calandaima 30341 2775

Debido a que se desarrollarán los experimentos con métodos de árboles de decisión

empleando conjuntos de datos numéricos y nominales por aparte para que sean procesados

por el software, fue necesario realizar clasificaciones de los datos y expresarlos de forma

nominal y numérica, generando dos expresiones de cada dato.

Para el caso de los atributos numéricos con grandes rangos que se debían pasar a

nominales, se realizaron divisiones de grandes grupos, de manera arbitraria y

posteriormente, una clasificación empleando la creación de intervalos mediante la regla de

Sturges.

Luego de tener la expresión de los datos de forma nominal y numérica para el conjunto de

PH y No_PH, se seleccionó de manera aleatoria un 5% de cada conjunto de datos a fin de

dejarlos para realizar el pronóstico, como se muestra al final de la Figura 7.4.1 y quedando

con las cantidades de datos presentadas en la Tabla 7.4.4.

94

Tabla 7.4. 3 Atributos seleccionados para procesar

UPZ Atributos PH Atributos No_PH


Sector

Edad

Puntaje

Estrato

Actividad

Tratamiento

Área construida


Sector

Pisos

Edad

Puntaje

Estrato

Actividad

Tratamiento

Área de terreno

Valor m2 de Terreno

Área de construcción


UPZ 65 Arborizadora

Sector

Uso

Edad

Puntaje

Estrato

Actividad

Tratamiento

Área construida


Sector

Uso

Pisos

Edad

Puntaje

Estrato

Actividad

Tratamiento

Área terreno

Valor m2 de terreno

Área de construcción


UPZ 79 Calandaima

Sector

Uso

Edad

Puntaje

Estrato

Actividad

Área construida


Sector

Uso

Pisos

Edad

Puntaje

Estrato

Actividad

Tratamiento

Área terreno

Valor m2 terreno

Área construida


Tabla 7.4. 4 Cantidad de datos para conjunto de entrenamiento y validación y conjunto de pronóstico

UPZ

PH NO_PH

Cantidad de datos

Entrenamiento y

Validación

Cantidad de datos

Conjunto Pronóstico

Cantidad de datos

Conjunto para

Entrenamiento y

Validación

Cantidad de

datos

Conjunto

Pronóstico

UPZ 73 Garcés

Navas 14456 761 17875 941

UPZ 65

Arborizadora 9438 497 6423 338

UPZ 79

Calandaima 28824 1517 2636 139

95

7.4.1 Atributo sector

Este atributo está presentado de forma numérica y nominal en la base de datos original,

debido a algunas inconsistencias que se verificaron, el trabajo que requirió este atributo fue

la corrección de algunos nombres. Su representación numérica corresponde al código que

identifica al sector catastral dentro de la ciudad de Bogotá D.C en el que está localizado el

predio. Su representación numérica en la base de datos recibe el nombre de SECTOR y su

representación nominal fue nombrada como CLAS_SECTOR. La presentación11

del

atributo sector para cada UPZ se presenta en la tabla 7.4.1.1.

UPZ SECTOR CLAS_SECTOR


5643 ALAMOS

5675 BOLIVIA

5629 EL_CEDRO

5663 EL_DORADO_INDUSTRIAL

5669 EL_GACO

5635 EL_MADRIGAL

5627 GARCES_NAVAS

5628 GARCES_NAVAS_ORIENTAL

5655 GARCES_NAVAS_SUR

5654 GRAN_GRANADA

5623 LOS_ANGELES

5641 SANTA_MONICA

5648 VILLA_AMALIA

5658 VILLA _SAGRARIO

5668 VILLAS_DE_ALCALÁ

5647 VILLAS_DE_GRANADA

5649 VILLAS_DE_GRANADA_I

UPZ 65 Arborizadora

2432 ARBORIZADORA_BAJA

2422 ATLANTA

2435 EL_CHIRCAL_SUR

4563 GUADALUPE

2420 LA_CORUNA

2415 MADELENA

2421 RAFAEL_ESCAMILLA

UPZ 79 Calandaima

4601 CALANDAIMA

4627 GALAN

6518 OSORIO_III

6516 TINTALA

11

la manera en que están escritos los nombres de los atributos y sectores corresponde a la forma en que se introdujeron en el archivo .arff para que fuera procesado por el software WEKA.

96

7.4.2 Atributo uso

El atributo uso está presentado de forma numérica en la base de datos original, razón por la

que se procedio a buscar el significado de cada uno de los códigos de uso de los inmuebles

para tener su presentación nominal. Este atributo corresponde a la actividad económica que

se le da a la construcción en un predio al momento de su reconocimiento, el uso de la

construcción está definido para predios en Propiedad horizontal y en No Propiedad

Horizontal (Unidad Administrativa Especial de Catastro Distrital, 2005).

Tabla 7.4.2. 1 Atributo uso para predios No PH

CODIGO_USO USO CLAS_USO

1 HABITACIONAL MENORES O IGUALES A 3 PISOS HAB_ME3P

2 HABITACIONAL MAYORES O IGUALES A 4 PISOS HAB_ME4P

3 COMERCIO PUNTUAL CP

4 COMERCIO EN CORREDOR COMERCIAL CCC

5 OFICINAS OPERATIVAS OO

9 ACTIVIDAD ARTESANAL AA

10 INDUSTRIA MEDIANA IND_M

11 INDUSTRIA GRANDE IND_G

12 INSTITUCIONAL PUNTUAL INS_P

13 COLEGIOS Y UNIVERSIDADES DE 1 A 3 PISOS CYU_3P

14 IGLESIAS IGL

15 OFICINAS Y CONSULTORIOS DOTACIONAL OFICIAL OYC_DO

16 COLEGIOS Y UNIVERSIDADES DE 4 PISOS O MAS CYU_MA4P

20 OFICINAS Y CONSULTORIOS OYC

22 DEPOSITO DE ALMACENAMIENTO DA

25 BODEGAS DE ALMACENAMIENTO BA

33 BODEGA ECONOMICA BE

70 ENRAMADAS- COBERTIZOS- CANEYES ECC

80 OFICINAS EN BODEGA Y/O INDUSTRIAS OBYOI

En la base de datos, se designa como CODIGO_USO, para su presentación numérica y

CLAS_USO, para su presentación nominal, debido a lo extendido de los nombres, se

97

emplearon abreviaturas descritas en la Tabla 7.4.2.1 para los predios en No PH y en la

Tabla 7.4.2.2 para los predios en PH.

Tabla 7.4.2. 2 Atributo uso para predios PH

CODIGO_USO USO CLAS_USO

37 HABITACIONAL MENOR O IGUAL A 3 PISOS HAB_ME3P_PH

38 HABITACIONAL MAYOR O IGUAL A 4 PISOS HAB_MA4P_PH

39 COMERCIO PUNTUAL LOCAL COMERCIAL CP_LC_PH

40 COMERCIO EN CORREDOR COMERCIAL CCC_PH

42 CENTRO COMERCIAL GRANDE CCG_PH

44 INSTITUCIONAL PUNTUAL IP_PH

45 OFICINAS Y CONSULTORIOS PROPIEDAD PARTICULAR OYC_PP_PH

90 PREDIOS SIN CONSTRUIR EN PH PSC_PH

95 CENTRO COMERCIAL PEQUEÑO CCP_PH

7.4.3 Atributo pisos

El atributo pisos se encuentra en la base de datos expresado como un atributo numérico,

está contenido únicamente en los conjuntos de datos de los predios que no están bajo el

régimen de propiedad horizontal (No_PH) y hace referencia a la cantidad de pisos

construidos en altura. Es presentado como NUM_PISOS para los valores numéricos y

CLAS_PISOS para los valores nominales, para realizar su clasificación se realizaron los

rangos presentados en la Tabla7.4.3.1.

Tabla 7.4.3. 1 Atributo pisos

NUM_PISOS CLAS_PISOS

0 P0

1 A 2 P1

3 A 4 P2

5 A 6 P3

7 A 14 P4

15 A 25 P5

98

7.4.4 Atributo edad

El atributo edad se encuentra expresado en la base de datos como un atributo numérico, es

presentado como EDAD para los valores numéricos y CLAS_EDAD para los valores

nominales. Para su presentación nominal se realizó una clasificación por medio del método

de sturges teniendo para los intervalos las características presentadas en la Tabla 7.4.4.1 y

obteniendo los conjuntos de clasificación como se muestran en la Tabla 7.4.4.2.

Tabla 7.4.4.1 Características de la clasificación: atributo edad

L 5

K 14

X MIN 0

XMAX 70

Tabla 7.4.4.2 Clasificación atributo edad

Límite inferior Límite superior CLAS_EDAD

0 5 EDAD1

5 10 EDAD2

10 15 EDAD3

15 20 EDAD4

20 25 EDAD5

25 30 EDAD6

30 35 EDAD7

35 40 EDAD8

40 45 EDAD9

45 50 EDAD10

50 55 EDAD11

55 60 EDAD12

60 65 EDAD13

65 70 EDAD14

99

7.4.5 Atributo puntaje

El atributo puntaje se encuentra expresado en la base de datos como un atributo numérico,

es presentado como PUNTAJE para los valores numéricos y CLAS_PUNTAJE para los

valores nominales. Para su presentación nominal se realizaron tres subconjuntos y las

respectivas clasificaciones por medio del método de sturges teniendo para los intervalos las

características presentadas en la Tabla 7.4.5.1 y obteniendo los conjuntos de clasificación

como se muestran en las Tablas 7.4.5.2, 7.4.5.3 y 7.4.5.4.

Tabla 7.4.5.1 Características de la clasificación: atributo puntaje

Grupos Características Valores

Grupo 1 Valor único 0

Grupo 2

L 6.6

K 15

XMIN 1

XMAX 100

Grupo 3

L 37.375

K 8

XMIN 101

XMAX 400

Tabla 7.4.5. 2 Clasificación atributo puntaje, grupo1

Valor CLAS_PUNTAJE

0 1PUNTAJE0

100

Tabla 7.4.5. 3 Clasificación atributo puntaje, grupo 2

Límite inferior Límite superior Aproximación

Límite inferior

Aproximación

Límite superior CLAS_PUNTAJE

1 7.6 1 8 2PUNTAJE1

7.6 14.2 8 14 2PUNTAJE2

14.2 20.8 14 21 2PUNTAJE3

20.8 27.4 21 27 2PUNTAJE4

27.4 34 27 34 2PUNTAJE5

34 40.6 34 41 2PUNTAJE6

40.6 47.2 41 47 2PUNTAJE7

47.2 53.8 47 54 2PUNTAJE8

53.8 60.4 54 60 2PUNTAJE9

60.4 67 60 67 2PUNTAJE10

67 73.6 67 74 2PUNTAJE11

73.6 80.2 74 80 2PUNTAJE12

80.2 86.8 80 87 2PUNTAJE13

86.8 93.4 87 93 2PUNTAJE14

93.4 100 93 100 2PUNTAJE15

Tabla 7.4.5. 4 Clasificación atributo puntaje, grupo 3

Límite inferior Límite superior Aproximación

Límite inferior

Aproximación

Límite superior CLAS_PUNTAJE

101 138.375 101 138 3PUNTAJE1

138.375 175.75 138 176 3PUNTAJE2

175.75 213.125 176 213 3PUNTAJE3

213.125 250.5 213 251 3PUNTAJE4

250.5 287.875 251 288 3PUNTAJE5

287.875 325.25 288 325 3PUNTAJE6

325.25 362.625 325 363 3PUNTAJE7

362.625 400 363 400 3PUNTAJE8

7.4.6 Atributo estrato

El atributo estrato hace referencia a la clasificación de los inmuebles residenciales a los

cuales se proveen servicios públicos y son clasificados en seis rangos: 1. Bajo-bajo, 2. Bajo,

3. Medio-bajo, 4. Medio, 5. Medio-alto y 6. Alto. (Congreso de Colombia, 1994). En la

base de datos se encuentra expresado como un atributo numérico, es presentado como

101

ESTRATO para los valores numéricos y CLAS_ESTRATO para los valores nominales. Su

presentación numérica y nominal para los valores presentes en las bases de datos son los

contenidos en la Tabla 7.4.6.1.

Tabla 7.4.6. 1 Clasificación atributo estrato

ESTRATO CLAS_ESTRATO

0 SIN ESTRATO

2 BAJO

3 MEDIO_BAJO

7.4.7 Atributo actividad

El atributo actividad hace referencia a las áreas de actividad, que según el POT (Plan de

Ordenamiento Territorial) establece como usos más adecuados en las diferentes zonas de la

ciudad (Alcaldía Mayor de Bogotá D.C - SDP, 2008), En la base de datos se encuentra

expresado como un atributo nominal, es presentado como ACTIVIDAD para los valores

numéricos y CLAS_ACT para los valores nominales. Su presentación numérica y nominal

para los valores presentes en las bases de datos son los contenidos en la Tabla 7.4.7.1.

Tabla 7.4.7. 1 Clasificación atributo actividad

ACTIVIDAD CLAS_ACT

1 AREA_URBANA_INT

2 COMERCIO

4 INDUSTRIAL

5 RESIDENCIAL

7.4.8 Atributo tratamiento

El atributo tratamiento hace referencia al tipo de intervención que más conviene de acuerdo

con el desarrollo del sector y los propósitos del POT (Alcaldía Mayor de Bogotá D.C -

102

SDP, 2007). En la base de datos se encuentra expresado como un atributo nominal, es

presentado como TRATAMIENTO para los valores numéricos y CLAS_TRATAM para

los valores nominales. Su presentación numérica y nominal para los valores presentes en las

bases de datos son los contenidos en la Tabla 7.4.8.1.

Tabla 7.4.8. 1 Clasificación atributo tratamiento

TRATAMIENTO CLAS_TRATAM

2 CONSOLIDACION

3 DESARROLLO

4 MEJORAMIENTO INT

5 RENOVACION_URB

7.4.9 Atributo área de terreno

El atributo área terreno se encuentra en la base de datos expresado como un atributo

numérico, está contenido únicamente en los conjuntos de datos de los predios que no están

bajo el régimen de propiedad horizontal (No_PH). Es presentado como

AREA_DE_TERRENO para los valores numéricos y CLAS_ATERRENO para los valores

nominales. Para su presentación nominal se realizaron cuatro subconjuntos y las respectivas

clasificaciones por medio del método de sturges teniendo para los intervalos las

características presentadas en la Tabla 7.4.9.1 y obteniendo los conjuntos de clasificación

como se muestran en las Tablas 7.4.9.2, 7.4.9.3 , 7.4.9.4 y 7.4.9.5.

103

Tabla 7.4.9. 1Características de la clasificación: atributo área de terreno


Grupo 1

L 6.92

K 14

XMIN 3

XMAX 100

Grupo 2

L 99.98

K 9

XMIN 100.1

XMAX 1000

Grupo 3

L 1499.98

K 6

XMIN 1000.1

XMAX 10000

Grupo 4

L 47499.97

K 4

XMIN 10000.1

XMAX 200000

Tabla 7.4.9. 2 Clasificación atributo área de terreno, grupo 1

Límite inferior Límite superior CLAS_ATERRENO

3 9.93 11TERR1

9.92 16.86 11TERR2

16.85 23.79 11TERR3

23.78 30.71 11TERR4

30.71 37.64 11TERR5

37.64 44.57 11TERR6

44.57 51.50 11TERR7

51.5 58.43 11TERR8

58.43 65.36 11TERR9

65.35 72.29 11TERR10

72.28 79.21 11TERR11

79.21 86.14 11TERR12

86.14 93.07 11TERR13

93.07 100.00 11TERR14

104



100.1 200.08 12TERR1

200.08 300.07 12TERR2

300.07 400.06 12TERR3

400.06 500.05 12TERR4

500.05 600.04 12TERR5

600.04 700.03 12TERR6

700.03 800.02 12TERR7

800.02 900.01 12TERR8

900.01 1000 12TERR9



1000.1 2500.08 13TERR1

2500.08 4000.06 13TERR2

4000.06 5500.05 13TERR3

5500.05 7000.03 13TERR4

7000.03 8500.01 13TERR5

8500.01 10000 13TERR6



10000.1 57500.075 14TERR1

57500.075 105000.05 14TERR2

105000.05 152500.025 14TERR3

152500.025 200000 14TERR4

7.4.10 Atributo valor metro cuadrado de terreno

El atributo valor metro cuadrado de terreno se encuentra en la base de datos expresado

como un atributo numérico, está contenido únicamente en los conjuntos de datos de los

105

predios que no están bajo el régimen de propiedad horizontal (No_PH). Es presentado

como VALOR_M2_TERRENO para los valores numéricos y CLAS_VALM2TERRENO

para los valores nominales. Para su presentación nominal se clasificó por medio del método

de sturges teniendo para los intervalos las características presentadas en la Tabla 7.4.10.1 y

obteniendo el conjunto de clasificación como se muestran en las Tablas 7.4.10.2.

Tabla 7.4.10. 1 Características de la clasificación: atributo valor metro cuadrado de terreno

Características Valores

L 60000

K 15

XMIN 100000

XMAX 1000000

Tabla 7.4.10. 2 Clasificación atributo valor metro cuadrado de terreno

Límite inferior Límite superior CLAS_VALM2TERRENO

100000 160000 11VAL_M2TERR1

160000 220000 11VAL_M2TERR2

220000 280000 11VAL_M2TERR3

280000 340000 11VAL_M2TERR4

340000 400000 11VAL_M2TERR5

400000 460000 11VAL_M2TERR6

460000 520000 11VAL_M2TERR7

520000 580000 11VAL_M2TERR8

580000 640000 11VAL_M2TERR9

640000 700000 11VAL_M2TERR10

700000 760000 11VAL_M2TERR11

760000 820000 11VAL_M2TERR12

820000 880000 11VAL_M2TERR13

880000 940000 11VAL_M2TERR14

940000 1000000 11VAL_M2TERR15

106

7.4.11 Atributo área construida

El atributo área construida se encuentra en la base de datos expresado como un atributo

numérico. Es presentado como AREA_CONSTRUIDA para los valores numéricos y

CLAS_ACONS para los valores nominales. Para su presentación nominal se realizaron

cuatro subconjuntos y las respectivas clasificaciones por medio del método de sturges

teniendo para los intervalos las características presentadas en la Tabla 7.4.11.1 y obteniendo

los conjuntos de clasificación como se muestran en las Tablas 7.4.11.2, 7.4.11.3, 7.4.11.4 y

7.4.11.5.

Tabla 7.4.11. 1 Características de la clasificación: atributo área construida



Grupo 2

L 66.6

K 15

XMIN 1

XMAX 1000

Grupo 3

L 1499.83

K 6

XMIN 1001

XMAX 10000

Grupo 4

L 4666.33

K 3

XMIN 10001

XMAX 24000

Tabla 7.4.11. 2 Clasificación atributo área construida, grupo 1

Valor CLAS_ACONS

0 11ACONS0

107


Límite inferior Límite superior CLAS_ACONS

1.0 67.6 12ACONS1

67.6 134.2 12ACONS2

134.2 200.8 12ACONS3

200.8 267.4 12ACONS4

267.4 334.0 12ACONS5

334.0 400.6 12ACONS6

400.6 467.2 12ACONS7

467.2 533.8 12ACONS8

533.8 600.4 12ACONS9

600.4 667.0 12ACONS10

667.0 733.6 12ACONS11

733.6 800.2 12ACONS12

800.2 866.8 12ACONS13

866.8 933.4 12ACONS14

933.4 1000.0 12ACONS15



1001 2500.83 13ACONS1

2500.83 4000.66 13ACONS2

4000.66 5500.5 13ACONS3

5500.5 7000.33 13ACONS4

7000.33 8500.16 13ACONS5

8500.16 10000 13ACONS6



10001 14667.33 14ACONS1

14667.33 19333.66 14ACONS2

19333.66 24000 14ACONS3

108

7.4.12 Atributo valor metro cuadrado de construcción

El atributo valor metro cuadrado de construcción se encuentra en la base de datos

expresado como un atributo numérico. Es presentado como

VALOR_M2_CONSTRUCCION para los valores numéricos y CLAS_VAL_M2CONS

para los valores nominales. Para su presentación nominal se realizaron dos clasificaciones,

una de ellas por medio del método de sturges teniendo para el intervalo las características

presentadas en la Tabla 7.4.12.1 y obteniendo dos conjuntos de clasificación como se

muestran en la Tabla 7.4.12.2 y 7.4.12.3.

Tabla 7.4.12. 1 Características de la clasificación: valor metro cuadrado de construcción



Grupo 2

L 130666.66

K 15

XMIN 40000

XMAX 2000000

Tabla 7.4.12. 2 Clasificación atributo valor metro cuadrado de construcción, grupo 1

Valor CLAS_ACONS

0 11VAL_M2CONS0

109

Tabla 7.4.12. 3 Clasificación atributo valor metro cuadrado de construcción, grupo 2


40000.00 170666.67 12VAL_M2CONS1

170666.67 301333.33 12VAL_M2CONS2

301333.33 432000.00 12VAL_M2CONS3

432000.00 562666.67 12VAL_M2CONS4

562666.67 693333.33 12VAL_M2CONS5

693333.33 824000.00 12VAL_M2CONS6

824000.00 954666.67 12VAL_M2CONS7

954666.67 1085333.33 12VAL_M2CONS8

1085333.33 1216000.00 12VAL_M2CONS9

1216000.00 1346666.67 12VAL_M2CONS10

1346666.67 1477333.33 12VAL_M2CONS11

1477333.33 1608000.00 12VAL_M2CONS12

1608000.00 1738666.67 12VAL_M2CONS13

1738666.67 1869333.33 12VAL_M2CONS14

1869333.33 2000000.00 12VAL_M2CONS15

7.4.13 Generación archivos weka

Con el fin de procesar las bases de datos, luego de ser divididas por el atributo de

pertenecer o no al régimen de propiedad horizontal (PH) y organizar cada conjunto de

atributos para contar con expresiones numéricas y nominales de cada uno, se procedio a

organizar cada conjunto de datos en formato .arff obteniendo en total 8 conjuntos de datos

por cada UPZ, tal como se presenta en la figura 7.4.1, denominados conjuntos de datos para

entrenamiento y validación y conjunto de datos para pronóstico, tanto para PH como para

No PH y de cada uno nominales y numéricos. Los archivos son nombrados y cuentan con

las cantidades de datos como se presenta en las Tablas 7.4.13.1, 7.4.13.2 y 7.4.13.3.

110

Tabla 7.4.13. 1 Nombres de archivos .arff, UPZ 73

UPZ PH

UPZ 73

Garcés

Navas

Conjunto de datos para entrenamiento y

validación Conjunto de datos para pronóstico

Nominal Numérico Nominal Numérico GARCES_PH_NOMINAL

_ ENT_14456.arff

GARCES_PH_NUMERICO

_ ENT_14456.arff

GARCES_PH_NOMIN

AL_ PRON_761.arff

GARCES_PH_NUMERICO

_ PRON_761.arff

NO_PH



Nominal Numérico Nominal Numérico GARCES_NO_PH_NOMI

NAL_

ENT_17875.arff

GARCES_NO_PH_NUMER

ICO_

ENT_17875.arff

GARCES_NO_PH_NO

MINAL_

PRON_941.arff

GARCES_NO_PH_NUMER

ICO_

PRON_941.arff


UPZ PH

UPZ 65

Arborizadora



Nominal Numérico Nominal Numérico

ARBORIZADORA_PH_ NOMINAL_

ENT_9438.arff

ARBORIZADORA_PH

_

NUMERICO_ENT_9438.arff

ARBORIZADORA_PH_N

OMINAL_PRON_497.arff

ARBORIZADORA_PH_NUMERICO_PRON_

497.arff

NO_PH



Nominal Numérico Nominal Numérico

ARBORIZADORA_NO_PH_

NOMINAL_

ENT_6423.arff

ARBORIZADORA_NO

_PH_ NUMERICO_

ENT_6423.arff

ARBORIZADORA_NO

_PH_ NOMINAL_

PRON_338.arff

ARBORIZADORA_NO

_PH_ NUMERICO_

PRON_338.arff


UPZ PH

UPZ 79

Calandaima



Nominal Numérico Nominal Numérico CALANDAIMA_PH_

NOMINAL_ ENT_28824.arff

CALANDAIMA_PH_

NUMERICO_ ENT_28824.arff

CALANDAIMA_PH_

NOMINAL_ PRON_1517.arff

CALANDAIMA_PH_

NUMERICO_ PRON_1517.arff

NO_PH



Nominal Numérico Nominal Numérico CALANDAIMA_NO_P

H_ NOMINAL__

ENT_2636.arff

CALANDAIMA_NO_PH

_ NUMERICO__

ENT_2636.arff

CALANDAIMA_NO_PH

_ NOMINAL_

PRON_139.arff

CALANDAIMA_NO_PH

_ NUMERICO__

PRON_139.arff

111

7.5 Estructura del experimento, generación de resultados mediante método de

árboles de decisión y método convencional

Al tener las bases de datos, depuradas, organizadas y en formato .arff, se procedio a realizar

los experimentos empleando el software WEKA siguiendo el proceso presentado en la

Figura 7.5.1.

Figura 7.5. 1 Elaboración del experimento, etapa de entrenamiento y validación

Como se presenta en la figura 7.5.1, la etapa de entrenamiento y validación del experimento

consiste en procesar los datos mediante los clasificadores ID3, J48 y M5P, cada uno

validado con las variaciones de los métodos Cross validation y Percentage Split, teniendo

de esta manera seis validaciones del árbol generado por cada método, los resultados

obtenidos del software, tras el procesamiento constan de un árbol, que se puede visualizar

en el caso del método M5P con sus respectivas reglas, visibles en los tres métodos y las

características presentadas en la Tabla 7.5.1.

112

Figura 7.5. 2 Elaboración del experimento, etapa de pronóstico

Tabla 7.5. 1 Resultados obtenidos según método de clasificación

Luego de elaborar la primera etapa del experimento se inició la segunda etapa, que

consistió en realizar un pronóstico de cada uno de los clasificadores, para esto se hizo uso

del conjunto de datos reservado desde un inicio para este propósito y se empleó el método

Método de

clasificación Resultados obtenidos

ID3

Instancias

Cantidad de atributos

Instancias clasificadas correctamente

Instancias clasificadas incorrectamente

Estadístico Kappa

Media del error absoluto

Raíz del error medio cuadrático


Raíz del error cuadrático relativo

Instancias sin clasificar

J48

Número de hojas

Tamaño del árbol

Instancias

Atributos

Instancias clasificadas correctamente

Instancias clasificadas incorrectamente

Estadístico Kappa

Media del error absoluto

Raíz del error medio cuadrático



M5P

Instancias

Atributos



Número de reglas

Coeficiente de correlación

Media del error absoluto ($)

Raíz del error medio cuadrático ($)

113

de validación llamado Supplied test set, como se muestra en la Figura 7.5.2, que permitió

elaborar el árbol de decisión con los datos de entrenamiento y realizar la validación con un

conjunto de datos diferentes, obteniendo de esta forma el pronóstico del árbol elaborado por

los métodos de clasificación ID3, J48 y M5P.

7.6 Análisis de resultados y efectividad

Con el objetivo de organizar los resultados obtenidos y poder realizar el respectivo análisis

de los mismos, se relacionaron los métodos de validación comparables entre sí según sus

características, obteniendo finalmente ocho conjuntos de resultados por UPZ, cuatro del

conjunto PH y cuatro del conjunto No_PH, cada uno de estos correspondiente a una

selección del método de entrenamiento y validación para valores nominales y el segundo

correspondiente a una selección del método de entrenamiento y validación para valores

numéricos, como se representa en la Figura 7.6. 1 y cada uno con sus respectivos datos del

pronóstico.

Figura 7.6. 1 Proceso de selección de métodos

114

A fin de verificar que tan efectivo es el método de árboles de decisión frente al método de

regresión lineal, para los conjuntos de datos PH y No_PH de cada UPZ, se aplicó el método

de regresión lineal con las mismas validaciones empleadas para los métodos de árboles de

decisión y el respectivo pronóstico mediante la validación supplied test set, luego de lo cual

se eligió la validación con mejores resultados, como se presenta en la Figura 7.6.2,

comparable con el método M5P que trabaja de igual manera que la regresión lineal, con

valores numéricos. Finalmente, con el propósito de comparar cada dato observado con el

pronóstico generado de la regresión lineal y de los resultados generados con el método de

árboles de decisión, se programaron cada conjunto de reglas generadas por el método M5P

con sus respectivas clasificaciones en Excel, y la regresión lineal obtenida para cada

conjunto de datos, obteniendo finalmente tres conjuntos de datos comparables entre si y que

permiten identificar su variación respecto a los valores observados.

Figura 7.6. 2 Proceso de selección del método de validación para la Regresión lineal

115

8. Análisis de resultados

Con el fin de presentar los resultados obtenidos para cada conjunto de datos y realizar el

respectivo análisis por cada Unidad de Planeamiento Zonal trabajada, 73 Garcés Navas, 66

Arborizadora y 79 Calandaima, se realizaron tablas resumen que permitieran visualizar la

información obtenida de cada experimento y de la posterior selección de manera

simultánea. Dado que para determinar la efectividad del método de árboles de decisión se

realizó una comparación con el método de regresión lineal, las tablas de selección final

presentan la información, en sus últimas columnas del método de validación seleccionado

para la regresión lineal y los datos del pronóstico respectivamente.

8.1 Resultados UPZ 73 Garcés Navas, Conjunto de datos PH

Al procesar los datos de PH de la UPZ 73 Garcés Navas, con las características descritas en

la Tabla 8.1.1, se obtuvieron los resultados descritos en la Tabla 8.1.2.

Tabla 8.1. 1 Características experimento: Garcés Navas, PH ID3- J48 - M5P - RL

EVALUACIÓN ÁRBOL DE DECISIÓN

CLASIFICADOR ID3 – J48 - M5P - RL

CARACTERÍSTICAS DE LOS DATOS

UPZ GARCÉS NAVAS

REGLAMENTO PH

DATOS MUESTRA 14456

DATOS PRONÓSTICO 761

Luego de seguir el procedimiento descrito en el capítulo 7, procesando los datos mediante

los métodos de entrenamiento y validación, se obtuvieron los resultados presentados en los

Anexos 1, 3, 6 y 8, al realizar las debidas selecciones (Anexos 2, 4, 7 y 9) y comparaciones

116

(Anexos 5 y 10), se llegó a la selección final presentada en la Tabla 8.1.2, los resultados de

cada experimento describen la siguiente información:

J48 Split 80:

El experimento de entrenamiento y validación se realizó con el método de clasificación J48

y validado mediante el método Percentage Split con el 80% de datos para el entrenamiento

y el 20% restante para la validación, seleccionados aleatoriamente del conjunto de datos de

PH con valores nominales.

Las características del tamaño del árbol generado fueron de 631 hojas y un tamaño de 713

niveles.

Este experimento dio como resultado 2406 instancias clasificadas correctamente, es decir

un 83,2238% de las instancias, siendo un porcentaje significativo en comparación con las

485 que se clasificaron incorrectamente y corresponden a un 16,7762% del total de las

instancias.

El estadístico Kappa por estar cercano a 1 con un valor de 0.8051, permite considerar que el

experimento obtuvo un buen grado de concordancia al ser evaluado con el 20% de los

datos.

El error absoluto medio es menor que 0,01, con un valor de 0,016, permite deducir que los

resultados obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,0904

mayor que el anterior, deja ver como este error castiga fuertemente el hecho de que el

16,77% de las instancias no hayan sido clasificadas correctamente.

Finalmente, el error absoluto relativo, con un 26,8669% es aceptable, por dejar un

73,1331% confiable, no obstante no es lo suficientemente bueno y por su lado, la raíz del

117

error cuadrático relativo, aunque fue grande, con un valor de 52,4048%, fue menor que los

métodos con los que se le comparó.

J48 Supplied

El experimento de pronóstico se realizó por medio del método J48 con un conjunto de

14456 datos para el entrenamiento y un conjunto de 761 con el método Supplied test set

datos para el pronóstico, ambos conjuntos compuestos de valores nominales.

El árbol generado fue de 631 hojas.

Este experimento de pronóstico dio como resultado 640 instancias clasificadas

correctamente, es decir un 84,099% de las instancias, siendo un porcentaje significativo en

conparación con las 121 que se clasificaron incorrectamente y corresponden a un 15,9001%

del total de las instancias, mostrando mejores resultados el pronóstico que el experimento

como tal.


experimento obtuvo un buen grado de concordancia al ser evaluado con 761 datos.

El error absoluto medio es menor que 0,01, con un valor de 0,0152, permite deducir que los

resultados obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,0875

mayor que el anterior, deja ver como este error castiga fuertemente el hecho de que el

15,9001% de las instancias no hayan sido clasificadas correctamente, no obstante se

mantiene el hecho de que muestra mejores resultados que el experimento anteriormente

descrito.

Finalmente, el error absoluto relativo, con un 25,543% es aceptable, por dejar un 74,4570%

confiable, y por su lado, la raíz del error cuadrático relativo, aunque fue grande, con un

118

valor de 50,6862%, fue menor que los métodos con los que se le comparó y menor casi dos

puntos que el experimento en si (J48 Split 80).

M5P Split 66

El experimento de entrenamiento y validación fue realizado con el método de clasificación

M5P y validado mediante el método Percentage Split con el 66% de datos para el

entrenamiento y el 34% restante para la validación, datos seleccionados aleatoriamente del

conjunto de PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo, de 12,3738% el cual es bueno, al

compararlo con el obtenido del experimento de J48 con un error casi del doble, y por su

lado, la raíz del error cuadrático relativo, aunque fue significativo, con un valor de

23,7862%, fue menor que los métodos con los que se le comparó y menor al obtenido del

experimento J48.

El experimento desarrolló 143 reglas dando un coeficiente de correlación de 0,9713, que

por su cercanía a 1 indica una buena relación entre el conjunto de entrenamiento y el

conjunto de validación.

En cuanto al error medio absoluto, dado en unidades monetarias para este caso, obtuvo un

valor de 33965,212, considerado aceptable, mientras que la raíz del error medio cuadrático

dio como resultado un error de 137766,6613 unidades monetarias, un valor menos

aceptable, pero menor a los valores con los que se le comparó.

M5P Supplied

El experimento de pronóstico M5P Supplied se realizó por medio del método M5P para el

entrenamiento con un conjunto de 14456 datos y por el método Supplied test set con un

119

conjunto de 761 datos para el pronóstico, ambos conjuntos compuestos de valores

numéricos.

Del experimento se tuvo un error absoluto relativo, de 27,6967% mayor que el obtenido del

experimento de J48, y, la raíz del error cuadrático relativo, fue bastante grande, 260,9827%.

El experimento desarrolló 143 reglas y generó un coeficiente de correlación de 0,377,

indicando una relación positiva entre el conjunto de entrenamiento y el conjunto de

validación.


valor de 73043,4499, casi el doble del experimento M5P, y la raíz del error medio

cuadrático dio como resultado un error de 1414653,9701 unidades monetarias, un valor

muy elevado a comparación de los experimentos anteriores.

RL Cross 20

El experimento de entrenamiento y validación fue realizado con el método de Regresión

lineal y validado mediante el método Cross validation con 20 folds (particiones) del

conjunto de datos de PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo de 79,8464% bastante alto y el mayor de

todos los experimentos allí comparados, por su lado, la raíz del error cuadrático relativo fue

también bastante elevada, con un valor de 78,3007%.

El experimento tuvo un coeficiente de correlación de 0,622, que por su distancia a 1 indica

una relación positiva entre el conjunto de entrenamiento y el conjunto de validación.


valor de 221802,7789 y la raíz del error medio cuadrático dio como resultado un error de

459841,9517 unidades monetarias, valores elevados.

120

RL Supplied

El experimento de pronóstico fue realizado por medio del método de Regresión lineal con

un conjunto de 14456 datos y validado mediante el método Supplied test set con un

conjunto con 761 datos, ambos conjuntos de datos de PH con valores numéricos.


todos los experimentos de pronóstico allí comparados, por su lado, la raíz del error

cuadrático relativo fue también bastante elevada, con un valor de 81,1613%.

El experimento tuvo un coeficiente de correlación de 0,602, semejante al del experimento

RL Cross 20 y que por su distancia a 1 indica una relación positiva entre el conjunto de

entrenamiento y el conjunto de validación.


valor de 226823,3249 y como resultado de la raíz del error medio cuadrático se tuvo un

error de 439934,2052 unidades monetarias, valores elevados, pero semejantes a los

obtenidos en RL Cross 20.

Como se puede observar en la Tabla 8.1.3, el experimento de Árbol de decisión M5P Split

66 mostró mejores resultados que el de Regresión Lineal Cross 20, acercándose más el

primero a los valores observados como se muestra en las Figuras que contienen sus

comparaciones en los Anexos 11, 12 y 13 con el conjunto total de datos y visualizados de

una manera más detallada con el conjunto de datos de pronóstico en las Figuras 8.1.1, 8.1.2

y 8.1.3, en donde se observa, en la Figura 8.1.1 una proximidad relevante del pronóstico del

experimento M5P Split 66 con los valores observados, incluso en los valores más péqueños

y en los más elevados, mientras que el método de regresión lineal presenta diferente

variaciones y no alcanza a contemplar los valores de los extremos, como se contempla en la

121

Figura 8.1.2, adicionalmente, al observar la comparación del error absoluto relativo y de la

raíz del error cuadrático relativo en las Tablas 8.1.2 y 8.1.3, se puede apreciar que los de

menor porcentaje son los correspondientes al experimento M5P Split 66, con una diferencia

de más de 50 puntos con relación al experimento RL cross 20.

Tabla 8.1. 2 Comparación de errores de la selección de resultados finales, experimento: Garcés Navas,

PH - J48 – M5P - RL

122

Tabla 8.1. 3 Selección de resultados finales, experimento: Garcés Navas, PH - J48 – M5P - RL

ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO ENT-VAL PRONÓSTICO

EXPERIMENTO J48_SPLIT_80 J48_SUPPLIED M5P_SPLIT_66 M5P_SUPPLIED RL_CROSS_20 RL_SUPPLIED

NOMBRE ARCHIVO WEKA PH_NOMINAL_EN

T_14456

PH_NOMINAL_ENT_14456

-PRON_761

PH_NUMERICO_EN

T_14456

PH_NUMERICO_ENT_14456

-PRON_761

PH_NUMERICO_EN

T_14456

PH_NUMERICO_ENT_14456

-PRON_761

REGLAMENTO PH PH PH PH PH PH

CANTIDAD DE DATOS 14456 761 14456 761 14456 761

CLASIFICADOR J48 J48 M5P M5P REGRESION LINEAL REGRESION LINEAL

TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPLIED TEST SET

CARACTERÍSTICA TEST % 80

% 66 14456 761 FOLDS 20 14456 761

NÚMERO DE HOJAS 631 631

TAMAÑO DEL ARBOL 713

INSTANCIAS 14456 2891

14456 4915 761 14456 761

ATRIBUTOS 8 8 8 8 8 8

INSTANCIAS CLASIFICADAS

CORRECTAMENTE 2406 83,2238% 640 84099.00%


INCORRECTAMENTE 485 16,7762% 121 15,9001%

ESTADÍSTICO KAPPA 0,8051 0,8152

ERROR ABSOLUTO MEDIO 0,016 0,0152

RAÍZ DEL ERROR MEDIO

CUADRÁTICO 0,0904 0,0875

ERROR ABSOLUTO RELATIVO 26,8669% 25,543% 12,3738% 27,6967% 79,8469% 86,0071%

RAÍZ DEL ERROR CUADRÁTICO

RELATIVO 52,4048% 50,6862% 23,7862% 260,9827% 78,3007% 81,1613%

INSTANCIAS SIN CLASIFICAR

NÚMERO DE REGLAS

143 143

COEFICIENTE DE CORRRELACIÓN

0,9713 0,3777 0,622 0,6002

MEDIA DEL ERROR ABSOLUTO

($) 33965,212 73043,4499 221802,7789 226823,3249


CUADRÁTICO ($) 137766,6613 1414653,9701 459841,9517 439934,2052

SELECCIÓN 1 X

X

X

SELECCIÓN 2 X

X

SELECCIÓN FINAL X

X

123

Figura 8.1. 1 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 66

$.0.00

$1000000.0.00

$2000000.0.00

$3000000.0.00

$4000000.0.00

$5000000.0.00

$6000000.0.00

$7000000.0.00

$8000000.0.00

$9000000.0.00

1

20

39

58

77

96

11

5

13

4

15

3

17

2

19

1

21

0

22

9

24

8

26

7

28

6

30

5

32

4

34

3

36

2

38

1

40

0

41

9

43

8

45

7

47

6

49

5

51

4

53

3

55

2

57

1

59

0

60

9

62

8

64

7

66

6

68

5

70

4

72

3

74

2

76

1

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Garcés Navas PH Valor M2 de Construcción para Datos de Pronóstico

Valor M2 de Construcción (Observado) Valor M2 de Construcción M5P (Percentage Split_66)

124

Figura 8.1. 2 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Cross 20

-$2000000.0.00

-$1000000.0.00

$.0.00

$1000000.0.00

$2000000.0.00

$3000000.0.00

$4000000.0.00

$5000000.0.00

$6000000.0.00

$7000000.0.00

$8000000.0.00

$9000000.0.00

1

20

39

58

77

96

11

5

13

4

15

3

17

2

19

1

21

0

22

9

24

8

26

7

28

6

30

5

32

4

34

3

36

2

38

1

40

0

41

9

43

8

45

7

47

6

49

5

51

4

53

3

55

2

57

1

59

0

60

9

62

8

64

7

66

6

68

5

70

4

72

3

74

2

76

1

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Valor M2 de Construcción (Observado) Valor M2 de Construcción Regresión Lineal (Cross_20)

125

Figura 8.1. 3 Garcés Navas – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Split 66 y Regresión

Lineal Cross 20

-$2000000.0.00

-$1000000.0.00

$.0.00

$1000000.0.00

$2000000.0.00

$3000000.0.00

$4000000.0.00

$5000000.0.00

$6000000.0.00

$7000000.0.00

$8000000.0.00

$9000000.0.00

1

20

39

58

77

96

11

5

13

4

15

3

17

2

19

1

21

0

22

9

24

8

26

7

28

6

30

5

32

4

34

3

36

2

38

1

40

0

41

9

43

8

45

7

47

6

49

5

51

4

53

3

55

2

57

1

59

0

60

9

62

8

64

7

66

6

68

5

70

4

72

3

74

2

76

1

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Valor M2 de Construcción (Observado) Valor M2 de Construcción Regresión Lineal (Cross_20)

Valor M2 de Construcción M5P (Percentage Split_66)

126

8.2 Resultados UPZ 73 Garcés Navas, Conjunto de datos NO_PH

Al procesar los datos de NO_PH de la UPZ 73 Garcés Navas, con las características

descritas en la Tabla 8.2.1, se obtuvieron los resultados descritos en la Tabla 8.2.2.

Tabla 8.2. 1 Características experimento: Garcés Navas, NO_PH ID3 - J48 - M5P - RL


CLASIFICADOR ID3 –J48 - M5P - RL


UPZ GARCÉS NAVAS

REGLAMENTO NO_PH

DATOS MUESTRA 17875




Anexos 14, 16, 19 y 21, al realizar las debidas selecciones (Anexos 15, 17, 20 y 22) y

comparaciones (Anexos 18 y 23), se llegó a la selección final presentada en la Tabla 8.1.2,

los resultados de cada experimento describen la siguiente información:

J48 Split 80:

El experimento J48 Split 80, de entrenamiento y validación fue realizado con el método de

clasificación J48 y validado mediante el método Percentage Split con el 80% de datos para

el entrenamiento y el 20% restante para la validación, siendo estos seleccionados

aleatoriamente del conjunto de datos de NO_PH con valores nominales.

Las características del tamaño del árbol generado fueron de 1775 hojas y un tamaño de

1904 niveles.


un 84,8951% de las instancias, siendo un porcentaje significativo en conparación con las

127


instancias.



datos, siendo el mejor de los experimentos con los que se compararon en donde se

obtuvieron resultados de 0,7457, 0,7469 y 0,7551 (Anexo 18).

El error absoluto con un valor de 0,0418, permite deducir que los resultados obtenidos son

buenos y la raíz del error medio cuadrático con un valor de 0,1514 mayor que el anterior,

deja ver como este error castiga fuertemente el hecho de que el 15,1049% de las instancias

no hayan sido clasificadas correctamente.




métodos con los que se le comparó, correspondientes a valores mayores en cuatro y cinco

unidades (Anexo 18).

J48 Supplied

El experimento de pronóstico se realizó por medio del método J48 para con un conjunto de

17875 datos para el entrenamiento y el método Supplied test set con un conjunto de 94


El árbol generado fue de 1775 hojas.



128


del total de las instancias, mostrando mejores resultados el experimento J48 Split 80.



El error absoluto medio, con un valor de 0,0411, permite deducir que los resultados

obtenidos son buenos y la raíz del error medio cuadrático con un valor de 0,1488 mayor

que el anterior, deja ver como este error castiga fuertemente el hecho de que el 14,2402%

de las instancias no fueron clasificadas correctamente.



error cuadrático relativo, aunque fue grande, con un valor de 60,7461%, fue menor que el

obtenido para el pronóstico del experimento ID3con 7 puntos más (Anexo 18).

M5P Split 80



entrenamiento y el 20% restante para la validación, seleccionados aleatoriamente del

conjunto de datos deNO_ PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo, de 27,6891% el cual es bueno, al

compararlo con el obtenido del experimento de J48 con 4 puntos más, por su parte, la raíz

del error cuadrático relativo, fue significativo, con un valor de 55,2316%, fue menor que

los métodos con los que se le comparó, especialmente con el método de Regresión lineal,

en donde se obtuvieron valores de 62,317% y 62,8131% (Anexo 23).

129


por su cercanía a 1 indica una relación positiva alta entre el conjunto de entrenamiento y el



valor de 21789,3356, considerado bueno, mientras que la raíz del error medio cuadrático

dio como resultado un error de 56747,4831 unidades monetarias, un valor menos aceptable,

pero menor a los valores con los que se le comparó.

M5P Supplied

El experimento de pronóstico M5P Supplied se realizó por medio del método M5P con un

conjunto de 17875 datos para el entrenamiento y con el método Supplied test set para el

pronóstico con un conjunto de 941 datos, ambos conjuntos compuestos de valores

numéricos.

Del experimento se tuvo un error absoluto relativo, de 25,8274% el cual es bueno y 25

puntos menor que el obtenido para el pronóstico del método de regresión lineal con

52,2463% (Tabla 8.2.2), la raíz del error cuadrático relativo, tuvo un valor de 46,0268% un

error representativo, pero que no sobrepasa el umbral del 50%.


por su cercanía a 1 indica una relación lineal positiva significativa entre el conjunto de




45954,4706 unidades monetarias, mostrando conformidad con los errores relativos

obtenidos.

130

RL Cross 20



conjunto de datos de NO_PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo de 51,5979% no muy alto, pero si el

mayor de los experimentos comparados en la Tabla 8.2.2, por su lado, la raíz del error

cuadrático relativo fue mayor, con un valor de 62,317%.

El experimento tuvo un coeficiente de correlación de 0,7821 que por su distancia a 1 indica

que existe relación positiva entre el conjunto de entrenamiento y el conjunto de validación.



63687,9119 unidades monetarias, valores elevados y mayores a los demás resultados

obtenidos.

RL Supplied

El experimento de pronóstico fue realizado con el método de Regresión lineal con un

conjunto de 17875 y validado mediante el método Supplied test set por un conjunto con

761 datos, ambos conjuntos de datos de NO_PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo de 52,2463%, un valor elevado y el

mayor de todos los experimentos de pronóstico allí comparados (Tabla8.2.2), por su lado,

la raíz del error cuadrático relativo fue también elevada, con un valor de 62,6413%.

131


que por su distancia a 1 indica una relación positiva entre el conjunto de entrenamiento y el




62540,4607 unidades monetarias, valores significativos y los más elevados de las

selecciones y comparaciones presentadas para este conjunto de datos.


80 mostró mejores resultados que el de Regresión Lineal Cross 20, acercándose más el




y 8.2.3, en donde se observa, en la Figura 8.2.1 una buena relación del pronóstico del

experimento M5P Split 66 con los valores observados, aunque no alcanza a representar los

valores más péqueños y los más elevados, mientras que el método de regresión lineal

presenta mayores variaciones y no alcanza a contemplar los valores de los extremos, como

se contempla en la Figura 8.2.2, adicionalmente, al observar la comparación del error

absoluto relativo y de la raíz del error cuadrático relativo en las Tablas 8.2.2 y 8.2.3, se

puede apreciar que los de menor porcentaje son los correspondientes al experimento M5P

Split 66.

132

Tabla 8.2. 2 Comparación de errores de la selección de resultados finales, experimento: Garcés Navas,

NO_PH - J48 – M5P - RL

133

Tabla 8.2. 3 Selección de resultados finales, experimento: Garcés Navas, NO_PH - J48 – M5P - RL

ENT-VAL PRONÓSTICO ENT-VAL PRONÓSTICO ENT-VAL PRONÓSTICO


NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_

ENT_17875 NO_PH_NOMINAL_ENT_1

7875-PRO_941 NO_PH_NUMERICO_

ENT_17875 NO_PH_NUMERICO_ENT_1



7875-PRO_941

REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH

CANTIDAD DE DATOS 17875 17875 941 17875 17875 941 17875 17875 941


TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPPLIED TEST SET

CARACTERÍSTICA TEST % 80 % 80 FOLDS 20


TAMAÑO DEL ARBOL 1904 1904

INSTANCIAS 17875 3575 941 18875 3575 941 17875 941

ATRIBUTOS 11 11 11 11 11 11

INSTANCIAS CLASIFICADAS CORRECTAMENTE

3035 84,8951

% 807 85,7598%

INSTANCIAS CLASIFICADAS INCORRECTAMENTE

540 15,1049

% 134 14,2402%


MEDIA DEL ERROR ABSOLUTO 0,0418 0,0411

RAÍZ DEL ERROR MEDIO CUADRÁTICO

0,1514 0,1488


RAÍZ DEL ERROR CUADRÁTICO RELATIVO

61,0425% 60,7461% 55,2316% 46,0286% 62,317% 62,6413%


NÚMERO DE REGLAS 190 190


0,8391 0,8882 0,7821 0,7795

MEDIA DEL ERROR ABSOLUTO ($)

21789,3356 20101,7549 40755,3571 40663,8247

RAÍZ DEL ERROR MEDIO CUADRÁTICO ($)

56747,4831 45954,4706 63687,9119 62540,4607

SELECCIÓN 1 X X X

SELECCIÓN 2 X X X

SELECCIÓN FINAL X X

134

Figura 8.2. 1 Garcés Navas –NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 80

$000

$100.000

$200.000

$300.000

$400.000

$500.000

$600.000

$700.000

$800.000

$900.000

$1000.000

1

23

45

67

89

11

1

13

3

15

5

17

7

19

9

22

1

24

3

26

5

28

7

30

9

33

1

35

3

37

5

39

7

41

9

44

1

46

3

48

5

50

7

52

9

55

1

57

3

59

5

61

7

63

9

66

1

68

3

70

5

72

7

74

9

77

1

79

3

81

5

83

7

85

9

88

1

90

3

92

5

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Garcés Navas NO_PH Valor M2 de Costrucción para Datos de Pronóstico

Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P-Split_80)

135

Figura 8.2. 2 Garcés Navas - NO_ PH, Comparación Valor m2 de construcción observado y método regresión lineal Cross 20

$000

$100.000

$200.000

$300.000

$400.000

$500.000

$600.000

$700.000

$800.000

$900.000

$1000.000

1

23

45

67

89

11

1

13

3

15

5

17

7

19

9

22

1

24

3

26

5

28

7

30

9

33

1

35

3

37

5

39

7

41

9

44

1

46

3

48

5

50

7

52

9

55

1

57

3

59

5

61

7

63

9

66

1

68

3

70

5

72

7

74

9

77

1

79

3

81

5

83

7

85

9

88

1

90

3

92

5

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Garcés Navas NO_PH Valor M2 de Costrucción para Datos de Pronóstico

Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20

136

Figura 8.2. 3 Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Split 80 y Regresión

Lineal Cross 20

$000

$100.000

$200.000

$300.000

$400.000

$500.000

$600.000

$700.000

$800.000

$900.000

$1000.000

1

23

45

67

89

11

1

13

3

15

5

17

7

19

9

22

1

24

3

26

5

28

7

30

9

33

1

35

3

37

5

39

7

41

9

44

1

46

3

48

5

50

7

52

9

55

1

57

3

59

5

61

7

63

9

66

1

68

3

70

5

72

7

74

9

77

1

79

3

81

5

83

7

85

9

88

1

90

3

92

5

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Garcés Navas NO_PH Valor M2 de Costrucción para datos de Pronóstico

Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20

Valor M2 de Construcción (M5P-Split_80)

137

8.3 Resultados UPZ 65 Arborizadora, Conjunto de datos PH

Al procesar los datos de PH de la UPZ 65 Arborizadora, con las características descritas en


Tabla 8.3. 1. Características experimento: Arborizadora, PH ID3-J48–M5P-RL


CLASIFICADOR ID3-J48-M5P-RL


UPZ ARBORIZADORA

REGLAMENTO PH

DATOS MUESTRA 9438







ID3 Cross 20:


ID3 y validado mediante el método Cross validation con con 20 particiones del conjunto de

datos de PH con valores nominales.


un 82,5056% de las instancias, siendo un porcentaje significativo en conparación con las


instancias.

138


experimento obtuvo un buen grado de concordancia.




de las instancias no hayan sido clasificadas correctamente.




métodos con los que se le comparó.

ID3 Supplied

El experimento de pronóstico se realizó por medio del método ID3 con un conjunto de

9438 datos para el entrenamiento y un el método Supplied test set con un conjunto de 497





del total de las instancias, mostrando resultados semejantes al experimento.





139




70,1414% confiable, referente, la raíz del error cuadrático relativo, fue grande, con un valor

de 54,5592%, siendo mayor que los resultados para el experimento M5P.

M5P Cross 20


M5P y validado mediante el método Cross validation con 20 particiones, seleccionadas

aleatoriamente del conjunto de datos de PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo, de 9,7947% el menor al compararlo con

el obtenido del experimento de ID3 y los resultados de la regresión lineal (Tabla 8.3.2), y la

raíz del error cuadrático relativo, aunque fue significativo, con un valor de 13,4237%, fue

menor que los resultados de los métodos con los que se le comparó.

El experimento desarrolló 107 reglas y tuvo como resultado un coeficiente de correlación

de 0,9911, que por su cercanía a 1 indica una relación positiva alta entre el conjunto de


El error medio absoluto, dado en unidades monetarias para este caso, obtuvo un valor de

15259,6423, el menor de los experimentos realizadados y la raíz del error medio cuadrático

dio como resultado un error de 31623,8977 unidades monetarias, un valor menor que el

obtenido del experimento de regresión lineal, en el que se obtuvo un valor de 177411,173

unidades monetarias.

140

M5P Supplied


entrenamiento con un conjunto de 9438 datos y el método Supplied test set para el


numéricos.

Del experimento se tuvo un error absoluto relativo de 9,2602% un buen resultado, y la raíz

del error cuadrático relativo obtenido fue de 10,8541%.


por su cercanía a 1 indica una relación positiva alta entre el conjunto de entrenamiento y el

conjunto de validación, resultados que corroboran los porcentajes de error obtenidos.

En cuanto al error medio absoluto, dado en unidades monetarias para este caso, se obtuvo

un valor de 14004,6511, y para la raíz del error medio cuadrático se obtuvo un resultado de

24848,6865 unidades monetarias, valores que permiten calificar bien el experimento.

RL Split 66

El experimento RL Split 66 de entrenamiento y validación fue realizado con el método de

Regresión lineal y validado mediante el método Percentage Split, con un conjunto de datos

de 66% para el entrenamiento y 34% para la validación, ambos conjuntos pertenecientes al

grupo de PH con valores numéricos.


todos los experimentos allí comparados, por su lado, la raíz del error cuadrático relativo fue

también elevada, con un valor de 76,2215%.

141




un valor de 125351,2858 y la raíz del error medio cuadrático dio como resultado un error

de 179339,9785 unidades monetarias, valores elevados y distantes de los obtenidos en los

experimentos con los que se le compararon (Tabla 8.3.2).

RL Supplied


conjunto de 9438 datos y validado mediante el método Supplied test set, con un conjunto

de 497 datos, ambos conjuntos de PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo de 82,7353% un porcentaje alto y el

mayor de todos los experimentos de pronóstico allí comparados, adicionalmente, la raíz del

error cuadrático relativo fue también bastante elevada, con un valor de 77,4944%.





de 177411,173 unidades monetarias, valores elevados, y coherentes con los altos errores

obtenidos para el experimento.

Como se puede observar en la Tabla 8.3.3, el experimento de Árbol de decisión M5P Cross

20 mostró mejores resultados que el de Regresión Lineal Split 66, acercándose más el



142


y 8.3.3, en donde se observa, en la Figura 8.3.1 una gran proximidad del pronóstico del

experimento M5P Cross 20 con los valores observados, incluso en los valores más

péqueños y en los más elevados, mientras que el método de regresión lineal presenta

diferente variaciones, coincidiendo mayormente en los datos intermedios pero alejándose

de los valores extremos, como se contempla en la Figura 8.3.2, adicionalmente, al observar

la comparación del error absoluto relativo y de la raíz del error cuadrático relativo en las

Tablas 8.3.2 y 8.3.3, se puede apreciar que los de menor porcentaje son los

correspondientes al experimento M5P Cross 20.

143

Tabla 8.3. 2 Comparación de errores de la selección de resultados finales, experimento: Arborizadora,

PH – ID3 - M5P - RL

144

Tabla 8.3. 3 Selección de resultados finales, experimento: Arborizadora, PH – ID3 – M5P - RL

ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO ENT - VAL PRONÓSTICO

EXPERIMENTO ID3_CROSS_20 ID3_SUPPLIED M5P_CROSS_20 M5P_SUPPLIED RL_SPLIT_66 RL_SUPPLIED


T_9438 PH_NOMINAL_ENT_9438-

PRON_497 PH_NUMERICO_ENT_

9438 PH_NUMERICO_ENT_943

8-PRON_497 PH_NUMERICO_EN

T_9438 PH_NUMERICO_ENT_9438-

PRON_497


CANTIDAD DE DATOS 9438 9438 9438 9438 497 6423 6423 497

CLASIFICADOR ID3 ID3 M5P M5P REGRESION LINEAL REGRESION LINEAL

TEST OPTIONS SUPPLIED TEST SET CROSS VALIDATION SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET

CARACTERÍSTICA TEST FOLDS 20 9438 497 FOLDS 20 9438 497 % 66 9438 497

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 9438 9438 9438 9438 497 9438 2184 497

ATRIBUTOS 9 9 11 9 9


7787 82,5056% 417 83,9034%


1631 17,2812% 79 15,8954%




0,0883 0,0855



56,2736% 54,5592% 13,4237% 10,8541% 76,2215% 77,4944%

INSTANCIAS SIN CLASIFICAR 20 0,2119% 1 0,2012%


COEFICIENTE DE CORRRELACIÓN 0,9911 0,9943 0,6481 0,6318

MEDIA DEL ERROR ABSOLUTO ($) 15259,6423 14004,6511 125351,2858 125124,9874


31623,8977 24848,6865 179339,9785 177411,173

SELECCIÓN 1 X X X

SELECCIÓN 2 X


145

Figura 8.3. 1 Arborizadora – PH, Comparación Valor m2 de Construcción observado y método Árbol de Decisión M5P Cross 20

$.0.00

$500000.0.00

$1000000.0.00

$1500000.0.00

$2000000.0.00

$2500000.0.00

1

13

25

37

49

61

73

85

97

10

9

12

1

13

3

14

5

15

7

16

9

18

1

19

3

20

5

21

7

22

9

24

1

25

3

26

5

27

7

28

9

30

1

31

3

32

5

33

7

34

9

36

1

37

3

38

5

39

7

40

9

42

1

43

3

44

5

45

7

46

9

48

1

49

3

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Arborizadora PH Valor M2 de Costrucción para Datos de Pronóstico

Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Cross _20)

146

Figura 8.3. 2 Arborizadora – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Split 66

$.0.00

$500000.0.00

$1000000.0.00

$1500000.0.00

$2000000.0.00

$2500000.0.00

1

13

25

37

49

61

73

85

97

10

9

12

1

13

3

14

5

15

7

16

9

18

1

19

3

20

5

21

7

22

9

24

1

25

3

26

5

27

7

28

9

30

1

31

3

32

5

33

7

34

9

36

1

37

3

38

5

39

7

40

9

42

1

43

3

44

5

45

7

46

9

48

1

49

3

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split_66)

147

Figura 8.3. 3 Arborizadora – PH, Comparación Valor m2 de Construcción Observado, método árbol de Decisión M5P Cross 20 y Regresión

Lineal Split 66

$.0.00

$500000.0.00

$1000000.0.00

$1500000.0.00

$2000000.0.00

$2500000.0.00

1

13

25

37

49

61

73

85

97

10

9

12

1

13

3

14

5

15

7

16

9

18

1

19

3

20

5

21

7

22

9

24

1

25

3

26

5

27

7

28

9

30

1

31

3

32

5

33

7

34

9

36

1

37

3

38

5

39

7

40

9

42

1

43

3

44

5

45

7

46

9

48

1

49

3

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID



Valor M2 de Construcción (M5P - Cross _20)

148

8.4 Resultados UPZ 65 Arborizadora, Conjunto de datos NO_PH

Al procesar los datos de NO_PH de la UPZ 65 Arborizadora, con las características

descritas en la Tabla 8.4.1, se obtuvieron los resultados descritos en la Tabla 8.4.2.

Tabla 8.4. 1. Características experimento: Arborizadora, NO_PH ID3-J48-M5P-RL


CLASIFICADOR ID3-J48-M5P-RL


UPZ ARBORIZADORA

REGLAMENTO NO_PH

DATOS MUESTRA 6423







J48 Cross 20


J48 y validado mediante el método Cross validation con 20 particiones seleccionadas

aleatoriamente del conjunto de datos de NO_PH con valores nominales.

Las características del tamaño del árbol generado fueron de 524 hojas y un tamaño de 563

niveles.

Este experimento dio como resultado 5554 instancias clasificadas correctamente, que

representan un 86,4705% de las instancias, siendo un porcentaje significativo en

149

conparación con las 869 que se clasificaron incorrectamente y que corresponden a un

13,5295% del total de las instancias.

El estadístico Kappa tuvo como resultado un valor de 0,6849, que permite considerar que el

experimento muestra concordancia al ser evaluado con el 20% de los datos.

El error absoluto medio con un valor de 0,0129, permite deducir que los resultados




Finalmente, el error absoluto relativo, con un 45,1553% es alto, al dejar un 54,8447%

confiable, referente a la raíz del error cuadrático relativo, obtuvo un valor elevado de

69,948% , que fue el menor de los métodos con los que se le comparó (Anexo 44).

J48 Supplied

El experimento de pronóstico se realizó por medio del método J48 con un conjunto de 6423

datos para el entrenamiento y el método Supplied test set para el pronóstico con un

conjunto de 338 datos, ambos conjuntos compuestos de valores nominales.

El árbol generado fue de 524 hojas y 563 niveles.




del total de las instancias, resultados semejantes al experimento.

El estadístico Kappa con un valor de 0,6562 muestra que existe concordancia entre el

modelo y su pronóstico.

150

El error absoluto medio con un valor de 0,0122, permite deducir que los resultados



de las instancias no hayan sido clasificadas correctamente, no obstante se mantiene el hecho

de que muestra mejores resultados que los obtenidos mediante el método de regresión lineal

(Tabla 8.4.2).




métodos con los que se le comparó y menor por 20 puntos que el pronóstico para la

regresión lineal (Tabla 8.4.2).

M5P Split 80



entrenamiento y el 20% restante para la validación, estos datos fueron seleccionados de

manera aleatoria del conjunto de datos de NO_PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo, de 36,799% siendo menor al obtenido

del experimento realizado por el método de regresión lineal que tuvo como resultado

67,0106%, la raíz del error cuadrático relativo, aunque fue significativo, con un valor de

54,6151%, fue menor que los resultados de los métodos con los que se le comparó (Anexo

49) y menor al obtenido del experimento RL Split 33 (Tabla 8.4.2).

151

El experimento desarrolló 76 reglas dando un coeficiente de correlación de 0,574,

indicando una corelación lineal positiva entre el conjunto de entrenamiento y el conjunto de

validación.


un valor de 18723,1371, considerado aceptable, mientras que la raíz del error medio

cuadrático dio como resultado un error de 42268,9949 unidades monetarias, un valor menos

aceptable, pero menor a los valores con los que se le comparó (Anexo 49).

M5P Supplied


entrenamiento y el método Supplied test set para el pronóstico con conjuntos de 6423 y 338

datos respectivamente, ambos conjuntos compuestos de valores numéricos.

Del experimento se tuvo un error absoluto relativo de 53,4121% y la raíz del error

cuadrático relativo con un valor elevado de 255,409%.


indica una relación lineal positiva entre el conjunto de entrenamiento y el conjunto de

validación.

El error medio absoluto obtenido en unidades monetarias para este caso, obtuvo un valor de

27222,434, y la raíz del error medio cuadrático dio como resultado un error de

184938,4554 unidades monetarias, un valor muy elevado a comparación de los

experimentos anteriores, pero conforme con el resultado de los errores.

152

RL Cross 20



conjunto de datos de NO_PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo de 67,0106% un valor alto y el mayor de

todos los experimentos allí comparados, como resultado de la raíz del error cuadrático

relativo se tuvo un valor de 72,0313%.


que existe relación lineal positiva entre el conjunto de entrenamiento y el conjunto de

validación.


un valor de 34126,7282 y la raíz del error medio cuadrático dio como resultado un error de

54264,8928 unidades monetarias, valores acorde a los errores obtenidos.

RL Supplied

El experimento de pronóstico fue realizado con el método de Regresión lineal y validado

mediante el método Supplied test set empleando un conjunto de 6423 datos para el

entrenamiento y 338 para el pronóstivo, ambos conjuntos con datos de NO_PH con valores

numéricos.


todos los experimentos de pronóstico allí comparados (Tabla 8.4.2), por su lado, la raíz del


153

El experimento tuvo un coeficiente de correlación de 0,3999, que por estar más cercano a 0

que a 1 indica que existe una relación positiva, aunque no tan notoria como en otros

experimentos, entre el conjunto de entrenamiento y el conjunto de validación.



70531,2045 unidades monetarias, valores elevados y semejantes a los obtenidos en RL

Split 33.


80 mostró mejores resultados que el de Regresión Lineal Cross 20, acercándose más, el

primero, a los valores observados como se muestra en las Figuras que contienen sus



y 8.4.3, en donde se observa, en la Figura 8.4.1 que existe coincidencia entre el valor

observado y el pronóstico del experimento M5P Split, no obstante existen diferencias

notables en los primeros datos, los más bajos, excesos en los valores intermedios y que se

acentuan en los valores más altos, mientras que el método de regresión lineal presenta

diferente variaciones para todo el conjunto de datos y mayores a las que se presentan por el

método de árbol de decisión, como se contempla en las Figuras 8.4.2 y 8.4.3,

adicionalmente, al observar la comparación del error absoluto relativo y de la raíz del error

cuadrático relativo en las Tablas 8.2.2 y 8.2.3, se puede apreciar que los de menor

porcentaje son los correspondientes al experimento M5P Split 80.

154

Tabla 8.4. 2. Comparación de errores de la selección de resultados finales, experimento: Arborizadora,

NO_PH - J48 – M5P - RL

155

Tabla 8.4. 3 Selección de resultados finales, experimento: Arborizadora, NO_PH J48 - M5P - RL


EXPERIMENTO J48_CROSS_20 J48_SUPPLIED M5P_SPLIT_80 M5P_SUPPLIED RL_SPLIT_33 RL_SUPPLIED



23_PRON_338 NO_PH_NUMERICO

_ENT_6423 NO_PH_NOMINAL_ENT_64

23_PRON_338 NO_PH_NUMERICO


23_PRON_338




TEST OPTIONS CROSS VALIDATION SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET

CARACTERÍSTICA TEST FOLDS 20 6423 338 % 80 6423 338 % 33 6423 338



INSTANCIAS 6423 338 6423 1285 338 6423 4303 338

ATRIBUTOS 12 12 12 12


5554 86,4705

% 293 86,6864%


869 13,5295

% 45 13,3136%




0,0834 0,0807



69,948% 70,36% 54,6151% 255,4094% 72,0313% 97,4072%




0,8379 0,574 0,6938 0,3999


18723,1371 27222,434 34126,7282 36483,6142


42268,9949 184938,4554 54264,8928 70531,2045

SELECCIÓN 1 X X X

SELECCIÓN 2 X X


156

Figura 8.4. 1 Arborizadora - NO_ PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 80

$000

$100.000

$200.000

$300.000

$400.000

$500.000

$600.000

$700.000

$800.000

$900.000

$1000.000

1 9

17

25

33

41

49

57

65

73

81

89

97

10

5

11

3

12

1

12

9

13

7

14

5

15

3

16

1

16

9

17

7

18

5

19

3

20

1

20

9

21

7

22

5

23

3

24

1

24

9

25

7

26

5

27

3

28

1

28

9

29

7

30

5

31

3

32

1

32

9

33

7

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Arborizadora NO_PH Valor M2 de Costrucción para datos de Pronóstico

Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Split_80)

157

Figura 8.4. 2 Arborizadora - NO_PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Split 33

$000

$100.000

$200.000

$300.000

$400.000

$500.000

$600.000

$700.000

$800.000

1 9

17

25

33

41

49

57

65

73

81

89

97

10

5

11

3

12

1

12

9

13

7

14

5

15

3

16

1

16

9

17

7

18

5

19

3

20

1

20

9

21

7

22

5

23

3

24

1

24

9

25

7

26

5

27

3

28

1

28

9

29

7

30

5

31

3

32

1

32

9

33

7

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID



158

Figura 8.4. 3 Arborizadora - NO – PH, Comparación Valor m2 de construcción observado, método Árbol de Decisión M5P Split 80 y Regresión

Lineal Split 33

$000

$100.000

$200.000

$300.000

$400.000

$500.000

$600.000

$700.000

$800.000

$900.000

$1000.000

1 9

17

25

33

41

49

57

65

73

81

89

97

10

5

11

3

12

1

12

9

13

7

14

5

15

3

16

1

16

9

17

7

18

5

19

3

20

1

20

9

21

7

22

5

23

3

24

1

24

9

25

7

26

5

27

3

28

1

28

9

29

7

30

5

31

3

32

1

32

9

33

7

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID



Valor M2 de Construcción (M5P - Split_80)

159

8.5 Resultados UPZ 79 Calandaima, Conjunto de datos PH

Al procesar los datos de PH de la UPZ 79 Calandaima, con las características descritas en


Tabla 8.5. 1. Características experimento: Arborizadora, PH ID3- J48 - M5P - RL


CLASIFICADOR ID3- J48 - M5P - RL


UPZ CALANDAIMA

REGLAMENTO PH

DATOS DE MUESTRA 28824


Después de llevara cabo el procedimiento descrito en el capítulo 7, procesando los datos

mediante los métodos de entrenamiento y validación, se obtuvieron los resultados

presentados en los anexos 53, 55, 58 y 60, al realizar las debidas selecciones (Anexos 54,

56, 59, 61) y comparaciones (Anexos 57 y 62), se llegó a la selección final presentada en la

Tabla 8.5.2, los resultados de cada experimento describen la siguiente información:

ID3 Split 80

El experimento ID3 Split 80 corresponde a un experimento de entrenamiento y validación

realizado con el método de clasificación J48 y validado mediante el método Percentage

Split, para esto se empleo el 80% de datos para el entrenamiento y el 20% restante para la

validación, datos que fueron seleccionados aleatoriamente del conjunto de datos de PH con

valores nominales.

160


un 82,5152% de las instancias, siendo un porcentaje significativo en comparación con las

1008 que se clasificaron incorrectamente y que corresponden a un 17,4848% del total de las

instancias.

El estadístico Kappa por estar cercano a 1 con un valor de 0,7752, permite considerar que el


datos.






73,1331% confiable, y por su lado, la raíz del error cuadrático relativo, aunque fue grande,

con un valor de 52,4048%, fue menor que los métodos con los que se le comparó.

ID3 Supplied

El experimento de pronóstico se realizó por medio del método J48 para el entrenamiento y

el método Supplied test set para el pronóstico con conjuntos de 28824 y 1517 datos

respectivamente, ambos conjuntos compuestos de valores nominales.

El árbol generado fue de 219 hojas y un tamaño de 256 niveles.




161

del total de las instancias, asemejandose a los resultados obtenidos del experimento ID3

Split 80.



El error absoluto medio resultante para el experimento fue de 0,0214, permitiento deducir

que los resultados obtenidos son buenos y la raíz del error medio cuadrático con un valor de

0,1035 mayor que el anterior, deja ver como este error castiga fuertemente el hecho de que

el 17,6664% de las instancias no hayan sido clasificadas correctamente, no obstante se

mantiene el hecho de que muestra mejores resultados que el experimento anteriormente

descrito.

Finalmente, el error absoluto relativo con un resultado del 30,249% es aceptable, por dejar

un 69,751% confiable, por su parte, la raíz del error cuadrático relativo, aunque fue grande,

con un valor de 55,1848%, fue menor que el resultado para el método de regresión lineal,

pero mayor al obtenido para el método de árbol de decisión de M5P (Tabla 8.5.2).

M5P Cross 20


M5P y validado mediante el método Cross validation con 20 particiones seleccionadas

aleatoriamente del conjunto de datos de PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo, de 9,9912%, valor de gran significancia

al compararlo con los damás experimentos elaborados, en cuanto a la raíz del error

cuadrático relativo se tuvo un valor de 18,2316%, ambos dando una buena calificación para

el modelo.

162

El experimento desarrolló 91 reglas dando un coeficiente de correlación de 0,9833, que por

su cercanía a 1 indica una relación lineal casi perfecta entre el conjunto de entrenamiento y

el conjunto de validación.


un valor de 17807,4296, considerado bueno, mientras que la raíz del error medio cuadrático

dio como resultado un error de 66169,0974 unidades monetarias, un valor menos aceptable,

pero menor a los valores con los que se le comparó (Tabla 8.5.2).

M5P Supplied


entrenamiento con un conjunto de 28824 datos y el método Supplied test set con un

conjunto de 1517 datos para el pronóstico, ambos conjuntos compuestos de valores

numéricos.

Del experimento se tuvo un error absoluto relativo, de 9,355% , un buen valor, y referente a

la raíz del error cuadrático relativo, se obtuvo como resultado un 11,738%, mostrando una

proporción semejante a la obtenida para el experimento M5P Cross 20.

El experimento desarrolló 91reglas y generó un coeficiente de correlación de 0,9931, que

por su cercanía 1 indica una relación linjeal casi perfecta entre el conjunto de entrenamiento

y el conjunto de validación.


un valor de 16018,9157, y la raíz del error medio cuadrático dio como resultado un error de

37836,2157 unidades monetarias.

163

RL Split 66


lineal y validado mediante el método Percentage split con un 66% del conjunto designado

para entrenamiento y un 34% para validación, datos que son seleccionados aleatoriamente

del conjunto de datos de PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo de 76,3498% un valor elevado y el

mayor de todos los experimentos allí comparados (Tabla 8.5.2) , referente a la raíz del error

cuadrático relativo fue también elevada, pero menor, al tener un valor de 53,2562%.


que existe relación lineal entre el conjunto de entrenamiento y el conjunto de validación.



de 195377,2308 unidades monetarias, valores elevados teniendo en cuenta que superan las

cien mil unidades monetarias.

RL Supplied


conjunto de 28824 de datos y validado mediante el método Supplied test set con un

conjunto con 761 datos, ambos conjuntos de datos de PH con valores numéricos.


todos los experimentos de pronóstico allí comparados (Tabla 8.5.2), por su lado, la raíz del


164


RL Split 66 y que por su distancia a 1 indica relación entre el conjunto de entrenamiento y

el conjunto de validación.

El error medio absoluto, dado en unidades monetarias para este caso, se obtuvo con un


188892,9899 unidades monetarias, valores elevados semejantes a los obtenidos para el

experimento RL Split 66.

Como se puede observar en la Tabla 8.5.3, el experimento de Árbol de decisión M5P Cross

20 mostró mejores resultados que el de Regresión Lineal Split 66 y a su vez, el método para

valores nominales, ID3 Split 80, mostró mejores resultados que la regresión lineal, pero no

tan buenos como el método de M5P, acercándose más a los valores observados y

obteniendo errores relativos más bajos significativamente como se muestra en las Figuras

que contienen sus comparaciones en los Anexos 63, 64 y 65 con el conjunto total de datos y

visualizados de una manera más detallada con el conjunto de datos de pronóstico en las

Figuras 8.5.1, 8.5.2 y 8.5.3, en donde se observa, en la Figura 8.5.1 una notable proximidad

del pronóstico del experimento M5P Cross 20 con los valores observados, incluso en los

valores más péqueños y en los más elevados, aunque no alcanza el valor mayor, no

obstante, el método de regresión lineal presenta diferente variaciones, no alcanza a

contemplar los valores de los extremos y en varios de los valores internos se aleja de

manera significativa de los valores observados como se contempla en la Figura 8.5.2,



porcentaje son los correspondientes al experimento M5P Cross 20.

165

Tabla 8.5. 2 Comparación de errores de la selección de resultados finales, experimento: Calandaima,

PH – ID3 – M5P - RL

166

Tabla 8.5. 3 Selección de resultados finales, experimento: Calandaima, PH ID3 – ID3 - M5P - RL


EXPERIMENTO ID3_SPLIT_80 ID3_SUPPLIED M5P_CROSS_20 M5P_SUPPLIED RL_SPLIT_66 RL_SUPPLIED

NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT

_28824 PH_NOMINAL_ENT_2882

4-PRON_1517 PH_NUMERICO_EN

T_28824 PH_NUMERICO_ENT_28824

-PRON_1517 PH_NUMERICO_EN


-PRON_1517




TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET

CARACTERÍSTICA TEST % 80 FOLDS 20 % 66

NÚMERO DE HOJAS 219 219 219

TAMAÑO DEL ARBOL 256 256 256

INSTANCIAS 28824 5765 1517 28824 1517 28824 9800 1517



4757 82,5152

% 1249 82,3336%


1008 17,4848

% 268 17,6664%




0,1032 0,1035



54,8654% 55,1848% 18,2316% 11,738% 53,2562% 58,6008%



COEFICIENTE DE CORRRELACIÓN 0,9833 0,9931 0,8464 0,8106


17807,4296 16018,9157 136455,5721 134661,4195


66169,0974 37836,2157 195377,2308 188892,9899

SELECCIÓN 1 X X X

SELECCIÓN 2 X X


167

Figura 8.5. 1 Calandaima – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Cross 20

$000

$500.000

$1000.000

$1500.000

$2000.000

$2500.000

$3000.000

$3500.000

$4000.000

$4500.000

$5000.000

13

67

11

06

14

11

76

21

12

46

28

13

16

35

13

86

42

14

56

49

15

26

56

15

96

63

16

66

70

17

36

77

18

06

84

18

76

91

19

46

98

11

01

61

05

11

08

61

12

11

15

61

19

11

22

61

26

11

29

61

33

11

36

61

40

11

43

61

47

11

50

6

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Calandaima PH Valor M2 de Construcción para datos de Pronóstico

Valor M2 Construcción (Observado) Valor M2 de Construcción (M5P - Cross_20)

168

Figura 8.5. 2 Calandaima – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Split 66

$000

$500.000

$1000.000

$1500.000

$2000.000

$2500.000

$3000.000

$3500.000

$4000.000

$4500.000

$5000.000

13

67

11

06

14

11

76

21

12

46

28

13

16

35

13

86

42

14

56

49

15

26

56

15

96

63

16

66

70

17

36

77

18

06

84

18

76

91

19

46

98

11

01

61

05

11

08

61

12

11

15

61

19

11

22

61

26

11

29

61

33

11

36

61

40

11

43

61

47

11

50

6

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Split 66)

169

Figura 8.5. 3 Calandaima – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Cross 20 y Regresión

Lineal Split 66

$000

$500.000

$1000.000

$1500.000

$2000.000

$2500.000

$3000.000

$3500.000

$4000.000

$4500.000

$5000.000

13

67

11

06

14

11

76

21

12

46

28

13

16

35

13

86

42

14

56

49

15

26

56

15

96

63

16

66

70

17

36

77

18

06

84

18

76

91

19

46

98

11

01

61

05

11

08

61

12

11

15

61

19

11

22

61

26

11

29

61

33

11

36

61

40

11

43

61

47

11

50

6

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID



Valor M2 de Construcción (M5P - Cross_20)

170

8.6 Resultados UPZ 79 Calandaima, Conjunto de datos NO_PH

Al procesar los datos de NO_PH de la UPZ 79 Calandaima, con las características descritas

en la Tabla 8.6.1, se obtuvieron los resultados descritos en la Tabla 8.6.2.

Tabla 8.6. 1 Características experimento: Calandaima, NO_PH ID3- J48 - M5P - RL


CLASIFICADOR ID3- J48 - M5P - RL


UPZ CALANDAIMA

REGLAMENTO NO_PH

DATOS DE MUESTRA 2636


A fin de continuar el proceso del experimento, luego de seguir el procedimiento descrito en

el capítulo 7, procesando los datos mediante los métodos de entrenamiento y validación, se

obtuvieron los resultados presentados en los Anexos 66, 68, 71 y 73, al realizar las debidas

selecciones (Anexos 67, 69, 72 y 74) y comparaciones (Anexos 70 y 75), se llegó a la

selección final presentada en la Tabla 8.6.2, los resultados de cada experimento describen la

siguiente información:

ID3 Cross 10

El experimento ID3 Cross 10 de entrenamiento y validación se realizó con el método de

clasificación ID3 y validó mediante el método Cross Validation con 10 particiones (folds),

seleccionadas aleatoriamente del conjunto de datos de PH con valores nominales.

Este experimento dio como resultado 2197 instancias clasificadas correctamente, un

83,346% de las instancias, siendo un porcentaje significativo en conparación con las 371

que se clasificaron incorrectamente y corresponden a un 14,0744% del total de las

instancias.

171

El estadístico Kappa obtuvo un valor de 0,6902, que permite considerar que el experimento

obtuvo un grado de concordancia aceptable.

El error absoluto medio tuvo un valor de 0,0425 que permite deducir que los resultados





64,1788% confiable, y por su lado, la raíz del error cuadrático relativo, aunque fue grande,

con un valor de 72,0379%, fue menor que los métodos con los que se le comparó (Anexo

70).

Es de considerar también el hecho de que en este método quedaron 68 instancias sin

clasificar, las cuales equivales a un 2,5797% del conjunto total de datos.

ID3 Supplied

El experimento ID3 Supplied de pronóstico se realizó por medio del método ID3 para el

entrenamiento con un conjunto de 2636 y el método Supplied test set para el pronóstico con

un conjunto de 139 datos, ambos conjuntos compuestos de valores nominales.




del total de las instancias.

172

El estadístico Kappa por estar relativemente cercano a 1 con un valor de 0.6753, permite

considerar que el experimento obtuvo un grado aceptable de concordancia al ser evaluado

con 139 datos.

El error absoluto medio con un valor de 0,044, permite deducir que los resultados obtenidos

son buenos y la raíz del error medio cuadrático con un valor de 0,1734 mayor que el

anterior, deja ver como este error castiga fuertemente el hecho de que el 15,1079% de las

instancias no hayan sido clasificadas correctamente .


63,5479% confiable, y la raíz del error cuadrático relativo, con un valor de 70,5714%.

Muestra un valor elevado de error.

M5P Split 80

El experimento e entrenamiento y validación M5P fue realizado con el método de

clasificación M5P y validado mediante el método Percentage Split con el 80% de datos

para el entrenamiento y el 20% restante para la validación, seleccionados aleatoriamente

del conjunto de datos de PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo, de 48,2799% , y la raíz del error

cuadrático relativo, obtuvo un valor de 62,6129%, menor que los resultados obtenidos para

la regresión lineal (Tabla 8.6.2).


su cercanía a 1 indica relación lineal entre el conjunto de entrenamiento y el conjunto de

validación.

173


un valor de 23109,9193, considerado aceptable, y la raíz del error medio cuadrático dio

como resultado un error de 45521,15768 unidades monetarias,

M5P Supplied


entrenamiento con un conjunto de 14456 datos y el método Supplied test set para el


numéricos.

Del experimento se tuvo un error absoluto relativo, de 45,6774% y la raíz del error

cuadrático relativo, obtuvo un valor representativo de 110,7754%.


su cercanía a 1 indica relación lineal entre el conjunto de entrenamiento y el conjunto de

validación.


un valor de 22862,4851, y la raíz del error medio cuadrático dio como resultado un error de


RL Cross 20


lineal y validado mediante el método Cross validation con 20 folds (particiones)

seleccionados aleatoriamente del conjunto de datos de PH con valores numéricos.

174

Del experimento se tuvo un error absoluto relativo de 71,4248% que se puede considerar

elevado, y la raíz del error cuadrático relativo, también elevada, con un valor de 76,9862%.

El experimento tuvo un coeficiente de correlación de 0,6623, que por su distancia a 1

muestra que existe relación lineal entre el conjunto de entrenamiento y el conjunto de

validación.




RL Supplied


conjunto de 2636 datos y validado mediante el método Supplied test set con un conjunto

con 761 datos, ambos conjuntos de NO_PH con valores numéricos.

Del experimento se tuvo un error absoluto relativo de 62,7065% considerado alto y la raíz

del error cuadrático relativo fue también elevada pero menor que el anterior, con un valor

de 58,3675%.


con claridad la relación entre el conjunto de entrenamiento y el conjunto de validación.

En cuanto al error medio absoluto, dado en unidades monetarias, se obtuvo un valor de

31385,9328 y la raíz del error medio cuadrático dio como resultado un error de 41208,1789

unidades monetarias.

175

Como se puede observar en la Tabla 8.5.2, los experimentos ID3 Cross 10, M5P Split 80 y

RL Cross 20 muestran valores similares, información verificable al realizar visualizar las

Figuras que contienen sus comparaciones en los Anexos 76, 77 y 78 con el conjunto total

de datos y visualizados de una manera más detallada con el conjunto de datos de pronóstico

en las Figuras 8.6.1, 8.6.2 y 8.6.3, en donde se observa, en la Figura 8.6.1 una aproximaciín

significativa del pronóstico del experimento M5P Split 80 con los valores observados y a su

vez diferentes variaciones identificables para los valores más pequeños y en los más

elevados, de manera semejante, el método de regresión lineal presenta diferente variaciones

y no alcanza a contemplar los valores de los extremos, pero acercándose más en algunos

puntos a los valores observados como se contempla en las Figura 8.6.2 y 8.6.3,



porcentaje son los correspondientes a los experimentos ID3 Cross 10 y M5P Split 80.

176

Tabla 8.6. 2. Comparación de errores de la selección de resultados finales, experimento: Arborizadora,

NO_PH - ID3 - M5P - RL

177

Tabla 8.6. 3 Selección de resultados finales, experimento: Calandaima, NO_PH – ID3 - M5P - RL


EXPERIMENTO ID3_CROSS_10 ID3_SUPPLIED M5P_SPLIT_80 M5P_SUPPLIED RL_CROSS_20 RL_SUPPLIED


ENT_2636

NO_PH_NOMINAL_ENT_26

36-PRON_139

NO_PH_NOMINAL_

ENT_2636

NO_PH_NOMINAL_ENT_26

36-PRON_139

NO_PH_NUMERICO_

ENT_2636

NO_PH_NUMERICO_ENT_2

636-PRON_139


CANTIDAD DE DATOS 2636

2636

2636 2636 139


TEST OPTIONS CROSS VALIDATION SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPPLIED TEST SET

CARACTERÍSTICA TEST FOLDS 10

% 80 % 5 FOLDS 20 % 5

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 2636 139 2636 527 139 2636 139

ATRIBUTOS 10 10 10 10 10 10


CORRECTAMENTE 2197 83,346% 115 82,7338%


INCORRECTAMENTE 371 14,0744% 21 15,1079%




CUADRÁTICO 0,1741 0,1734


RAÍZ DEL ERROR CUADRÁTICO

RELATIVO 72,0379% 70,5714% 62,6129% 110,7754% 76,9862% 58,3675%

INSTANCIAS SIN CLASIFICAR 68 2,5797% 3 2,1583%

NÚMERO DE REGLAS

29 29

COEFICIENTE DE

CORRRELACIÓN 0,7934 0,6153 0,6623 0,8169


($) 23109,9193 22862,4851 33874,0264 31385,9328


CUADRÁTICO ($) 45521,5768 78208,8014 55003,0092 41208,1789

SELECCIÓN 1 X

X

X

SELECCIÓN 2

X

SELECCIÓN FINAL X

X

178

Figura 8.6. 1 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 80

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.000

$1400.000

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101105109113117121125129133137

Val

or

M2

de

Co

stru

cció

n (

$)

ID

UPZ - Calandaima NO-PH Valor M2 de Construcción para datos de Pronóstico

Valor M2 de Costrucción (Observado) Valor M2 de Costrucción (M5P-Split_80)

179

Figura 8.6. 2 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Cross 20

$000

$100.000

$200.000

$300.000

$400.000

$500.000

$600.000

$700.000

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101105109113117121125129133137

Val

or

M2

de

Co

stru

cció

n (

$)

ID


Valor M2 de Costrucción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)

180

Figura 8.6. 3 Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Split 80 y Regresión

Lineal Cross 20

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.000

$1400.000

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101105109113117121125129133137

Val

or

M2

de

Co

stru

cció

n (

$)

ID


Valor M2 de Costrucción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)

Valor M2 de Costrucción (M5P-Split_80)

181

9. Conclusiones

Al implementar las variaciones ID3, J48 y M5P de técnicas de árboles de decisión en el

proceso de determinar el valor de metro cuadrado de construcción, se requirió un

exhaustivo trabajo en el proceso de previamente reclasificar las variables nominales y

numéricas a fin de poder procesarlas, no obstante al tenerlas listas en los respectivos

formatos (.arff), se verificó que su uso fue claro y factible para las bases de datos de

unidades en PH u No PH de las Unidades de Planeación Zonal de Arborizadora, Garcés

Navas y Calandaima, obteniendo en general buenos resultados.

Mediante los resultados obtenidos y analizados, se llegó a determinar que los métodos de

árboles de decisión que trabajan con variables nominales, a saber, ID3 y J48, presentan

resultados más alejados de los valores observados, mientras que en el caso del método

M5P de árboles de decisión, que trabaja con variables numéricas, en la mayoría de los

casos, mostró resultados más acertados, es decir errores significativamente menores hasta

por 20 puntos porcentuales y con una aproximación mayor a los valores observados.

Al realizar el debido procesamiento de las bases de datos de los sectores elegidos para el

proyecto, empleando las herramientas suministradas por el software WEKA, se obtuvieron

resultados como el error absoluto relativo y la raíz del error cuadrático relativo, que

permitieron establecer una comparación entre los métodos de árboles de decisión y el

método de regresión lineal, obteniendo en cada uno de los casos el patrón de que la

selección del experimento elaborado por medio del método de árbol de decisión para

valores numéricos, el método M5P, obtuvo los mejores resultados y errores más pequeños,

182

seguido por los métodos de árbol decisión para valores nominales (ID3 y J48), y finalmente

los resultados de la regresión lineal con resultados de menor proximidad a los valores

observados y errores mayores, determinando de esta manera la validez de la técnica de

árboles de decisión, específicamente del método M5P, en el proceso que implica la

elaboración de avalúos masivos.

Al desarrollar el presente proyecto y llevar a cabo cada etapa indispensable del mismo, se

contó con las herramientas para realizar un análisis de efectividad de la implementación de

los métodos de árboles de decisión ID3, J48 y M5P, en el proceso de conocer el valor del

metro cuadrado de construcción para los predios ubicados en la ciudad de Bogotá, en los

sectores de la localidad 8 de Kennedy, Unidad de Planeamiento Zonal 79 Calandaima;

localidad 19 de Ciudad Bolívar, UPZ 65 Arborizadora y localidad 10 de Engativá, UPZ 73

Garcés Navas, dentro del proceso que implican los avalúos masivos, por los que se puede

afirmar que el método de árboles de decisión cumple con el propósito para el cual se

empleó y es efectivo al realizar pronósticos que muestran conformidad con los valores

reales.

183

10. Recomendaciones

Al desarrollar cada etapa del presente proyecto y verificar resultados útiles para el proceso

que requieren los avalúos masivos se obtuvieron buenos resultados, no obstante se requirió

una inversión de tiempo y trabajo exhaustivo en la etapa de organización de los datos, por

lo que se generaron una serie de recomendaciones a fin de hacer de la implementación del

método de árboles de decisión una herramienta más productiva.

En primer lugar, se sugiere programar un código que realice la clasificación de las variables

que en la base de datos se encuentran presentadas en formato nominal, para hacer su

respectiva clasificación en grupos a fin de presentarla como variable numérica, para el caso

en que se desee trabajar con métodos que trabajen con variables numéricas como el M5P y

de manera semejante, que reclasifique las variables que estén presentadas con valores

numéricos en clases para ser representadas como nominales, para el caso en el que se vayan

a implementar métodos que trabajen con este tipo de variables como el ID3 o el J48; al

tener una herramienta de programación el tiempo de ejecución del proceso disminuirá

notablemente, manteniendo la calidad de los resultados.

En segundo lugar, recomienda crear una interfaz que integre las dos fases del experimento

en una sola, es decir el procesos de reclasificación de variables numéricas a nominales y

viceversa y el proceso de entrenamiento, validación y pronóstico por medio del método de

árboles de decisión.

Se sugiere también actualizar las bases de datos con regularidad y contar con la

información de la totalidad de Unidades de Planeamiento Zonal de la ciudad de Bogotá

184

D.C, a fin de extender el empleo del método a cualquier zona de la ciudad, obteniendo

como resultado buenos pronósticos, que integrados a las recomendaciones anteriores,

pueden proporcionar el material necesario para crear una aplicación de tecnología móvil

del carácter de las aplicaciones (apps), para instalar en dispositivos móviles, empleando el

móvil (teléfono celular, tableta, etc) como extensión o interfaz de un sistema, que emplee

los datos de este, lo alimente y permita visualizar datos de cualquier lugar de la ciudad de

Bogotá y del lugar en que se encuentre localizado en tiempo real, siendo de esta manera

una herramienta que permita tener un panorama general del entorno para usuarios con

diferentes intereses.

Finalmente se recomienda extender la aplicación de este método a nivel nacional,

incluyendo información de sectores tanto urbanos como rurales de diferentes características

y permitir ampliar la información a nivel internacional, estableciendo un instrumento de

comparación y conocimiento de datos de relevancia en el establecimiento de grandes

proyectos de ingeniería

185

11. Anexos

Anexo 1. Resultados, experimento: Garcés Navas, PH-ID3

ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO

EXPERIMENTO ID3_CROSS_10 ID3_CROSS_20 ID3_SPLIT_66 ID3_SPLIT_33 ID3_SPLIT_80 ID3_SPLIT_20 ID3_SUPPLIED


T_14456 PH_NOMINAL_EN





T_14456 PH_NOMINAL_ENT_14456

-PRON_761

REGLAMENTO PH PH PH PH PH PH PH

CANTIDAD DE DATOS 14456 14456 14456 14456 14456 14456 761

CLASIFICADOR J48 J48 J48 J48 J48 J48 J48

TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPPLIED TEST SET

CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 14456 761

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 14456 14456 14456 4915 14456 9686 14456 2981 14456 11565 761

ATRIBUTOS 8 8 8 8 8 8 8


12010 83,0797% 12018 83,135% 4081 83,0315% 8017 82,7689% 2403 83,12% 9439 81,6169% 638 83,8371%


2386 16,5053% 2381 16,4707% 811 16,5005% 1585 16,3638% 478 16,5341% 2009 17,3714% 118 15,5059%

ESTADÍSTICO KAPPA 0,8078 0,8082 0,8075 0,8084 0,8071 0,7967 0,8185

ERROR ABSOLUTO MEDIO 0,0154 0,0154 0,0154 0,0156 0,0153 0,0159 0,0145


0,0898 0,0897 0,0902 0,0906 0,089 0,0932 0,0849

ERROR ABSOLUTO RELATIVO 25,8604% 25,8344% 25,8781% 26,3282% 25,7341% 26,9592% 24,5032%


52,1213% 52,0241% 52,3674% 52,6961% 51,6843% 54,2311% 49,3855%

INSTANCIAS SIN CLASIFICAR 60 0,4151% 57 0,3943% 23 0,468% 84 0,8672% 10 0,3459% 117 1,0117% 5 0,657%

NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

186

Anexo 2. Selección de resultados, experimento: Garcés Navas, PH - ID3


EXPERIMENTO ID3_CROSS_20 ID3_SPLIT_80 ID3_SUPPLIED

NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_14456 PH_NOMINAL_ENT_14456 PH_NOMINAL_ENT_14456-PRON_761

REGLAMENTO PH PH PH

CANTIDAD DE DATOS 14456 14456 761

CLASIFICADOR J48 J48 J48

TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET

CARACTERÍSTICA TEST FOLDS 20 % 80 14456 761

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 14456 14456 2981 761

ATRIBUTOS 8 8 8

INSTANCIAS CLASIFICADAS CORRECTAMENTE 12018 83,135% 2403 83,12% 638 83,8371%

INSTANCIAS CLASIFICADAS INCORRECTAMENTE 2381 16,4707% 478 16,5341% 118 15,5059%

ESTADÍSTICO KAPPA 0,8082 0,8071 0,8185

ERROR ABSOLUTO MEDIO 0,0154 0,0153 0,0145

RAÍZ DEL ERROR MEDIO CUADRÁTICO 0,0897 0,089 0,0849

ERROR ABSOLUTO RELATIVO 25,8344% 25,7341% 24,5032%

RAÍZ DEL ERROR CUADRÁTICO RELATIVO 52,0241% 51,6843% 49,3855%

INSTANCIAS SIN CLASIFICAR 57 0,3943% 10 0,3459% 5 0,657%

NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

187

Anexo 3. Resultados, experimento: Garcés Navas, PH-J48.

ENTRENAMIENTO - VALIDACIÓN

PRONÓSTICO ENTRENAMIENTO -

VALIDACIÓN PRONÓSTICO

ENTRENAMIENTO-VALIDACIÓN

PRONÓSTICO


NOMBRE ARCHIVO WEKA PH_NOMINAL_ENT_1

4456 PH_NOMINAL_ENT_1445

6-PRON_761 PH_NUMERICO_ENT_

14456 PH_NUMERICO_ENT_144

56-PRON_761 PH_NUMERICO_ENT

_14456 PH_NUMERICO_ENT_144

56-PRON_761




TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION SUPLIED TEST SET

CARACTERÍSTICA TEST % 80 % 66 14456 761 FOLDS 20 14456 761



INSTANCIAS 14456 2891 14456 4915 761 14456 761



2406 83,2238% 640 84099.00%


485 16,7762% 121 15,9001%


ERROR ABSOLUTO MEDIO 0,016 0,0152


0,0904 0,0875



52,4048% 50,6862% 23,7862% 260,9827% 78,3007% 81,1613%




0,9713 0,3777 0,622 0,6002


33965,212 73043,4499 221802,7789 226823,3249


137766,6613 1414653,9701 459841,9517 439934,2052

SELECCIÓN 1 X X X

SELECCIÓN 2 X X


188

Anexo 4. Selección de resultados, experimento: Garcés Navas, PH - J48


EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED


REGLAMENTO PH PH PH




CARACTERÍSTICA TEST FOLDS 20 % 80



INSTANCIAS 14456 14456 2891

ATRIBUTOS 8 8 8

INSTANCIAS CLASIFICADAS CORRECTAMENTE 11990 82,9413% 2406 83,2238% 640 84099.00%



ERROR ABSOLUTO MEDIO 0,0161 0,016 0,0152





NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

189

Anexo 5. Comparación de selecciones, experimento: Garcés Navas, PH – J48 - ID3

ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO

EXPERIMENTO J48_CROSS_20 J48_SPLIT_80 J48_SUPPLIED ID3_CROSS_20 ID3_SPLIT_80 ID3_SUPPLIED


_14456 PH_NOMINAL_ENT

_14456 PH_NOMINAL_ENT_14456-

PRON_761 PH_NOMINAL_ENT



PRON_761



CLASIFICADOR J48 J48 J48 J48 J48 J48

TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET

CARACTERÍSTICA TEST FOLDS 20 % 80 FOLDS 20 % 80 14456 761



INSTANCIAS 14456 14456 2891 14456 14456 2981 761



11990 82,9413% 2406 83,2238% 640 84099.00% 12018 83,135% 2403 83,12% 638 83,8371%


2466 17,0587% 485 16,7762% 121 15,9001% 2381 16,4707% 478 16,5341% 118 15,5059%

ESTADÍSTICO KAPPA 0,8022 0,8051 0,8152 0,8082 0,8071 0,8185

ERROR ABSOLUTO MEDIO 0,0161 0,016 0,0152 0,0154 0,0153 0,0145


0,0913 0,0904 0,0875 0,0897 0,089 0,0849



52,8943% 52,4048% 50,6862% 52,0241% 51,6843% 49,3855%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X X

SELECCIÓN 2 X X

SELECCIÓN FINAL X

190

Anexo 6. Resultados experimento: Garcés Navas, PH-M5P


EXPERIMENTO M5P_CROSS_10 M5P_CROSS_20 M5P_SPLIT_66 M5P_SPLIT_33 M5P_SPLIT_80 M5P_SPLIT_20 M5P_SUPPLIED

NOMBRE ARCHIVO WEKA PH_NUMERICO_E

NT_14456 PH_NUMERICO_E





NT_14456 PH_NUMERICO_ENT_1445

6-PRON_761



CLASIFICADOR M5P M5P M5P M5P M5P M5P M5P



NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 14456 14456 14456 4915 14456 9686 14456 2891 14456 11565 761

ATRIBUTOS 8 8 8 8 8 8 8



ESTADÍSTICO KAPPA

ERROR ABSOLUTO MEDIO




45,3064% 49,719% 23,7862% 89,1827% 29,0504% 106,1721% 260,9827%


NÚMERO DE REGLAS 143 143 143 143 143 143 143


0,9018 0,8841 0,9713 0,7151 0,9572 0,6169 0,3777


35042,3641 35872,3167 33965,212 56390,5134 34206,2059 72079,3001 73043,4499


266079,5719 291988,4744 137766,6613 503229,4157 157202,065 607938,8179 1414653,9701

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

191

Anexo 7. Selección de resultados, experimento: Garcés Navas, PH - M5P


EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_66 M5P_SUPPLIED

NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT_14456 PH_NUMERICO_ENT_14456 PH_NUMERICO_ENT_14456-PRON_761

REGLAMENTO PH PH PH


CLASIFICADOR M5P M5P M5P

TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET


NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 14456 14456 4915 761

ATRIBUTOS 8 8 8



ESTADÍSTICO KAPPA






NÚMERO DE REGLAS 143 143 143

COEFICIENTE DE CORRRELACIÓN 0,9018 0,9713 0,3777

MEDIA DEL ERROR ABSOLUTO ($) 35042,3641 33965,212 73043,4499

RAÍZ DEL ERROR MEDIO CUADRÁTICO ($) 266079,5719 137766,6613 1414653,9701

SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

192

Anexo 8. Resultados, experimento: Garcés Navas, PH-RL


EXPERIMENTO RL_CROSS_10 RL_CROSS_20 RL_SPLIT_66 RL_SPLIT_33 RL_SPLIT_80 RL_SPLIT_20 RL_SUPPLIED








6-PRON_761



FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL

TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT PERCENTAGE SPLIT SUPLIED TEST SET


NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 14456 14456 14456 4915 14456 9686 14456 2891 14456 11565 761

ATRIBUTOS 8 8 8 8 8 8 8



ESTADÍSTICO KAPPA





78,3034% 78,3007% 77,7264% 78,4222% 79,0384% 79,235% 81,1613%


NÚMERO DE REGLAS


0,6219 0,622 0,6295 0,6241 0,6146 0,6167 0,6002


221916,8438 221802,7789 219521,8828 230792,2803 218043,9783 236661,6919 226823,3249


459866,6807 459841,9517 450180,8151 442511,486 427704,5767 453697,547 439934,2052

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

193

Anexo 9. Selección de resultados, experimento: Garcés Navas, PH - RL

ENTRENAMIENTO-VALIDACIÓN PRONÓSTICO

EXPERIMENTO RL_CROSS_20 RL_SPLIT_80 RL_SUPPLIED


REGLAMENTO PH PH PH


FUNCIÓN REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL

TEST OPTIONS PERCENTAGE SPLIT SUPLIED TEST SET


NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 14456 14456 2891 761

ATRIBUTOS 8 8 8



ESTADÍSTICO KAPPA






NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

194

Anexo 10. Comparación de selecciones, experimento: Garcés Navas, PH - M5P-RL

ENTRENAMIENTO - VALIDACIÓN PRONÓSTICO ENTRENAMIENTO-VALIDACIÓN PRONÓSTICO

EXPERIMENTO M5P_CROSS_10 M5P_SPLIT_66 M5P_SUPPLIED RL_CROSS_20 RL_SPLIT_80 RL_SUPPLIED

NOMBRE ARCHIVO WEKA PH_NUMERICO_EN


56 PH_NUMERICO_ENT_14456-

PRON_761 PH_NUMERICO_E



4456-PRON_761



CLASIFICADOR M5P M5P M5P REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL

TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPLIED TEST SET

CARACTERÍSTICA TEST FOLDS 10 % 66 14456 761 FOLDS 20 % 80 14456 761

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 14456 14456 4915 761 14456 14456 2891 761




ESTADÍSTICO KAPPA





45,3064% 23,7862% 260,9827% 78,3007% 79,0384% 81,1613%




0,9018 0,9713 0,3777 0,622 0,6146 0,6002


35042,3641 33965,212 73043,4499 221802,7789 218043,9783 226823,3249


266079,5719 137766,6613 1414653,9701 459841,9517 427704,5767 439934,2052


SELECCIÓN 2 X X

SELECCIÓN FINAL X

195

Anexo 11. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Percentage Split 66

-$4000000.0.00

-$2000000.0.00

$.0.00

$2000000.0.00

$4000000.0.00

$6000000.0.00

$8000000.0.00

$10000000.0.00

$12000000.0.00

13

46

69

11

03

61

38

11

72

62

07

12

41

62

76

13

10

63

45

13

79

64

14

14

48

64

83

15

17

65

52

15

86

66

21

16

55

66

90

17

24

67

59

17

93

68

28

18

62

68

97

19

31

69

66

11

00

06

10

35

11

06

96

11

04

11

13

86

11

73

11

20

76

12

42

11

27

66

13

11

11

34

56

13

80

11

41

46

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Garcés Navas PH Valor M2 de Construcción para Datos de Entrenamiento y

Validación

Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Percentage Split_66)

196

Anexo 12. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Cross 20

-$2000000.0.00

$.0.00

$2000000.0.00

$4000000.0.00

$6000000.0.00

$8000000.0.00

$10000000.0.00

$12000000.0.00

13

46

69

11

03

61

38

11

72

62

07

12

41

62

76

13

10

63

45

13

79

64

14

14

48

64

83

15

17

65

52

15

86

66

21

16

55

66

90

17

24

67

59

17

93

68

28

18

62

68

97

19

31

69

66

11

00

06

10

35

11

06

96

11

04

11

13

86

11

73

11

20

76

12

42

11

27

66

13

11

11

34

56

13

80

11

41

46

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Validación

Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal - Cross_20)

197

Anexo 13. Garcés Navas – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión Split 66 y Regresión Lineal Cross

20

-$4000000.0.00

-$2000000.0.00

$.0.00

$2000000.0.00

$4000000.0.00

$6000000.0.00

$8000000.0.00

$10000000.0.00

$12000000.0.00

13

46

69

11

03

61

38

11

72

62

07

12

41

62

76

13

10

63

45

13

79

64

14

14

48

64

83

15

17

65

52

15

86

66

21

16

55

66

90

17

24

67

59

17

93

68

28

18

62

68

97

19

31

69

66

11

00

06

10

35

11

06

96

11

04

11

13

86

11

73

11

20

76

12

42

11

27

66

13

11

11

34

56

13

80

11

41

46V

alo

r M

2 d

e C

on

stru

cció

n (

$)

ID


Validación

Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Percentage Split_66)

Valor M2 de Construcción (Regresión Lineal - Cross_20)

198

Anexo 14. Resultados, experimento: Garcés Navas, NO_ PH-ID3




ENT_17875 NO_PH_NOMINAL_





ENT_17875 NO_PH_NOMINAL_ENT_

17875-PRO_941

REGLAMENTO NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH NO_PH


CLASIFICADOR ID3 ID3 ID3 ID3 ID3 ID3 ID3


CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 17875 17875 17875 6077 17875 11976 17875 3575 17875 14300 941

ATRIBUTOS 11 11 11 11 11 11 11


14468 80,9399% 14485 81,035% 4873 80,1876% 9471 79,0832% 2910 81,3986% 11056 77,3147% 766 81,4028%


2566 14,3552% 2571 14,3832% 869 14,2998% 1721 14,3704% 501 14,014% 2174 15,2028% 138 14,6652%



0,035 0,035 0,0349 0,0346 0,0346 0,0352 0,037


0,1594 0,1591 0,1611 0,1646 0,1588 0,1691 0,1627



66,398% 66,2755% 67,3454% 69,2551% 65,9129% 71,7101% 67,8348%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

199

Anexo 15. Selección de resultados, experimento: Garcés Navas, NO_PH - ID3



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_17875 NO_PH_NOMINAL_ENT_17875 NO_PH_NOMINAL_ENT_17875-PRO_941

REGLAMENTO NO_PH NO_PH NO_PH

CANTIDAD DE DATOS 17875 17875 17875 941

CLASIFICADOR ID3 ID3 ID3



NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 17875 17875 3575 941

ATRIBUTOS 11 11 11




MEDIA DEL ERROR ABSOLUTO 0,035 0,0346 0,037





NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

200

Anexo 16. Resultados, experimento: Garcés Navas, NO_PH-J48.


EXPERIMENTO J48_CROSS_10 J48_CROSS_20 J48_SPLIT_66 J48_SPLIT_33 J48_SPLIT_80 J48_SPLIT_20 J48_SUPPLIED







ENT_17875 NO_PH_NOMINAL_ENT_

17875-PRO_941






NÚMERO DE HOJAS 1775 1775 1775 1775 1775 1775 1775

TAMAÑO DEL ARBOL 1904 1904 1904 1904 1904 1904 1904

INSTANCIAS 17875 17875 17875 6077 17875 11976 17875 3575 17875 14300 941

ATRIBUTOS 11 11 11 11 11 11 11


15162 84,8224% 15166 84,8448% 5123 84,3015% 10004 83,5337% 3035 84,8951% 11788 82,4336% 807 85,7598%


2713 15,1776% 2709 15,1552% 954 15,6895% 1972 16,4663% 540 15,1049% 2512 17,5664% 134 14,2402%



0,0416 0,0415 0,0425 0,0438 0,0418 0,0461 0,0411


0,1513 0,1512 0,1539 0,1581 0,1514 0,1654 0,1488



61,1781% 61,1518% 62,1902% 63,8531% 61,0425% 66,937% 60,7461%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

201

Anexo 17. Selección de resultados, experimento: Garcés Navas, NO_PH - J48



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_17875 NO_PH_NOMINAL_ENT_17875 NO_PH_NOMINAL_ENT_17875-PRO_941








INSTANCIAS 17875 17875 3575 941

ATRIBUTOS 11 11 11









NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

202

Anexo 18. Comparación de selecciones, experimento: UPZ Garcés Navas, NO _PH – J48 - ID3



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_E

NT_17875 NO_PH_NOMINAL_E

NT_17875 NO_PH_NOMINAL_ENT_178

75-PRO_941 NO_PH_NOMINAL_E



875-PRO_941



CLASIFICADOR J48 J48 J48 ID3 ID3 ID3

TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET

CARACTERÍSTICA TEST FOLDS 20 % 80 FOLDS 20 % 80



INSTANCIAS 17875 17875 3575 941 17875 17875 3575 941

ATRIBUTOS 11 11 11 11 11 11


15166 84,8448

% 3035 84,8951% 807 85,7598% 14485 81,035% 2910 81,3986% 766 81,4028%


2709 15,1552

% 540 15,1049% 134 14,2402% 2571 14,3832% 501 14,014% 138 14,6652%


MEDIA DEL ERROR ABSOLUTO 0,0415 0,0418 0,0411 0,035 0,0346 0,037


0,1512 0,1514 0,1488 0,1591 0,1588 0,1627



61,1518% 61,0425% 60,7461% 66,2755% 65,9129% 67,8348%


NÚMERO DE REGLAS





SELECCIÓN 2 X X

SELECCIÓN FINAL X

203

Anexo 19. Resultados experimento: Garcés Navas, NO_PH-M5P



NOMBRE ARCHIVO WEKA NO_PH_NUMERICO

_ENT_17875 NO_PH_NUMERICO





_ENT_17875 NO_PH_NUMERICO_ENT

_17875-PRO_941






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 17875 17875 17875 6077 18875 11976 18875 3575 18875 14300 941


ESTADÍSTICO KAPPA



ERROR ABSOLUTO RELATIVO

26,5921% 35,8525% 29,5417% 30,7227% 27,6891% 33,4519% 25,8274%


55,8677% 850,4083% 63,1655% 67,7582% 55,2316% 59,966% 46,0286%


NÚMERO DE REGLAS 190 190 190 190 190 190 190


0,8363 0,1489 0,7942 0,7757 0,8391 0,8063 0,8882


21004,5739 28318,6237 23217,0101 24268,5254 21789,3356 26351,5823 20101,7549


57097,4629 869116,0151 64560,952 69066,5457 56747,4831 61183,7346 45954,4706

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

204

Anexo 20. Selección de resultados, experimento: Garcés Navas, NO_PH - M5P



NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_17875 NO_PH_NUMERICO_ENT_17875 NO_PH_NUMERICO_ENT_17875-PRO_941






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 17875 18875 3575 941


ESTADÍSTICO KAPPA










SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

205

Anexo 21. Resultados, experimento: Garcés Navas, NO_PH-RL









_ENT_17875 NO_PH_NUMERICO_ENT

_17875-PRO_941






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 17875 17875 17875 6077 17875 11976 17875 3575 17875 14300 941

ATRIBUTOS 11 11 11 11 11 11 11



ESTADÍSTICO KAPPA




51,6084% 51,5979% 51,9574% 51,5144% 52,4821% 51,7858% 52,2463%


62,3944% 62,317% 62,8131% 64,1319% 63,0348% 68,993% 62,6413%


NÚMERO DE REGLAS


0,7815 0,7821 0,7782 0,7698 0,7767 0,7361 0,7795


40764,4956 40755,3571 40833,5809 40692,4208 41299,6537 40794,0708 40663,8247


63767,8312 63687,9119 64200,8245 65370,1997 64764,8373 70393,9967 62540,4607

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

206

Anexo 22. Selección de resultados, experimento: Garcés Navas, NO_PH – RL



NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_17875 NO_PH_NUMERICO_ENT_17875 NO_PH_NUMERICO_ENT_17875-PRO_941






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 17875 17875 6077 941

ATRIBUTOS 11 11 11



ESTADÍSTICO KAPPA






NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

207

Anexo 23. Comparación de selecciones, experimento: UPZ Garcés Navas, NO_PH - M5P-RL



NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_

ENT_17875 NO_PH_NUMERICO_





7875-PRO_941




TEST OPTIONS CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET CROSS VALIDATION PERCENTAGE SPLIT SUPPLIED TEST SET


NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 17875 18875 3575 941 17875 17875 6077 941


ESTADÍSTICO KAPPA





55,8677% 55,2316% 46,0286% 62,317% 62,8131% 62,6413%




0,8363 0,8391 0,8882 0,7821 0,7782 0,7795


21004,5739 21789,3356 20101,7549 40755,3571 40833,5809 40663,8247


57097,4629 56747,4831 45954,4706 63687,9119 64200,8245 62540,4607


SELECCIÓN 2 X X

SELECCIÓN FINAL X

208

Anexo 24. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Split 80

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.000

$1400.000

$1600.0001

40

88

15

12

22

16

29

20

36

24

43

28

50

32

57

36

64

40

71

44

78

48

85

52

92

56

99

61

06

65

13

69

20

73

27

77

34

81

41

85

48

89

55

93

62

97

69

10

17

61

05

83

10

99

01

13

97

11

80

41

22

11

12

61

81

30

25

13

43

21

38

39

14

24

61

46

53

15

06

01

54

67

15

87

41

62

81

16

68

81

70

95

17

50

2

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Garcés Navas NO-PH Valor M2 de Construcción para datos de Entrenamiento y

Validación

Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P-Split_80)

209

Anexo 25. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado y Método Regresión Lineal Cross 20

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.000

$1400.000

$1600.0001

40

88

15

12

22

16

29

20

36

24

43

28

50

32

57

36

64

40

71

44

78

48

85

52

92

56

99

61

06

65

13

69

20

73

27

77

34

81

41

85

48

89

55

93

62

97

69

10

17

61

05

83

10

99

01

13

97

11

80

41

22

11

12

61

81

30

25

13

43

21

38

39

14

24

61

46

53

15

06

01

54

67

15

87

41

62

81

16

68

81

70

95

17

50

2

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Validación

Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)

210

Anexo 26. Garcés Navas – NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P- Split 80 y Regresión

Lineal Cross 20

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.000

$1400.000

$1600.0001

40

88

15

12

22

16

29

20

36

24

43

28

50

32

57

36

64

40

71

44

78

48

85

52

92

56

99

61

06

65

13

69

20

73

27

77

34

81

41

85

48

89

55

93

62

97

69

10

17

61

05

83

10

99

01

13

97

11

80

41

22

11

12

61

81

30

25

13

43

21

38

39

14

24

61

46

53

15

06

01

54

67

15

87

41

62

81

16

68

81

70

95

17

50

2

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Validación

Valor M2 de Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)


211

Anexo 27. Resultados, experimento: Arborizadora, PH-ID3










PRON_497






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 9438 9438 9438 3209 9438 6323 9438 1888 9438 7550 9438

ATRIBUTOS 9 9 9 9 9 9 9


7786 82,4963% 7787 82,5056% 2647 82,4868% 5205 82,3185% 1542 81,6737% 6190 81,9868% 417 83,9034%


1633 17,3024% 1631 17,2812% 559 17,4198% 1098 17,3652% 345 18,2733% 1323 17,5232% 79 15,8954%


MEDIA DEL ERROR ABSOLUTO 0,0153 0,0152 0,0152 0,0153 0,0153 0,0156 0,0147


0,0884 0,0883 0,088 0,0894 0,0886 0,0915 0,0855



56,364% 56,2736% 56,103% 57,0637% 56,5088% 58,3866% 54,5592%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

212

Anexo 28. Selección de resultados, experimento: Arborizadora, PH - ID3









NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 9438 9438 3209 9438

ATRIBUTOS 9 9 9









NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

213

Anexo 29. Resultados, experimento: Arborizadora, PH-J48










PRON_497





CARACTERÍSTICA TEST FOLD

S 10

FOLDS

20 % 66 % 33 % 80 % 20 9438 497

NÚMERO DE HOJAS 572 572 572 572 572 572 572

TAMAÑO DEL ARBOL 608 608 608 608 608 608 608

INSTANCIAS 9438 9438 3209 6323 1888 7550 497

ATRIBUTOS 9 9 9 9 9 9 9


7776 82,3903% 7779 82,4221% 2645 82,4244% 5195 82,1604% 1545 81,8326% 6142 81,351% 414 83,2998%


1662 17,6097% 1659 17,5779% 564 17,5756% 1128 17,8396% 343 18,1674% 1408 18,649% 83 16,7002%




0,0895 0,0896 0,0889 0,0917 0,0909 0,0943 0,0867



57,007% 57,0329% 56,6495% 58,4544% 57,9808% 60,0433% 55,2861%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

214

Anexo 30. Selección de resultados, experimento: Arborizadora, PH - J48




REGLAMENTO PH PH PH







INSTANCIAS 9438 3209 497

ATRIBUTOS 9 9 9









NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

215

Anexo 31. Comparación de selecciones, experimento: Arborizadora, PH – J48 - ID3









PRON_497

REGLAMENTO PH PH PH NO_PH NO_PH NO_PH



TEST OPTIONS PERCENTAGE SPLIT SUPPLIED TEST SET PERCENTAGE SPLIT SUPPLIED TEST SET




INSTANCIAS 9438 3209 497 9438 9438 3209 9438



7779 82,4221% 2645 82,4244% 414 83,2998% 7787 82,5056% 2647 82,4868% 417 83,9034%


1659 17,5779% 564 17,5756% 83 16,7002% 1631 17,2812% 559 17,4198% 79 15,8954%




0,0896 0,0889 0,0867 0,0883 0,088 0,0855



57,0329% 56,6495% 55,2861% 56,2736% 56,103% 54,5592%


NÚMERO DE REGLAS





SELECCIÓN 2 X X

SELECCIÓN FINAL X

216

Anexo 32. Resultados experimento: Arborizadora, PH-M5P




NT_9438 PH_NUMERICO_EN

T_9438 PH_NUMERICO_E





-PRON_497






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 9438 9438 9438 3209 9438 6323 9438 1888 9438 7550 9438 497

ATRIBUTOS 11 11



ESTADÍSTICO KAPPA





14,005% 13,4237% 48,6698% 17,9549% 16,4997% 29,338% 10,8541%


NÚMERO DE REGLAS 107 107 107 107 107 107 107

COEFICIENTE DE CORRRELACIÓN 0,9903 0,9911 0,8952 0,9846 0,9865 0,956 0,9943


15604,5303 15259,6423 18323,3334 20464,0073 16450,7848 25841,5007 14004,6511


32993,0762 31623,8977 114514,184 42057,8845 38822,1862 69315,5111 24848,6865

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

217

Anexo 33. Selección de resultados, experimento: Arborizadora, PH - M5P




REGLAMENTO PH PH PH





NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 9438 9438 1888 9438 497

ATRIBUTOS 11



ESTADÍSTICO KAPPA










SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

218

Anexo 34. Resultados, experimento: Arborizadora, PH-RL










-PRON_497






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 9438 9438 9438 2184 9438 6323 9438 1888 9438 7550 497

ATRIBUTOS 9 9 9 9 9 9 9



ESTADÍSTICO KAPPA





77,1033% 77,1095% 76,2215% 76,9817% 76,4406% 77,2846% 77,4944%


NÚMERO DE REGLAS

COEFICIENTE DE CORRRELACIÓN 0,6367 0,6366 0,6481 0,6383 0,6456 0,6344 0,6318


127046,2716 127049,1105 125351,2858 126006,2411 126737,4875 126633,2992 125124,9874


181640,7039 181656,1909 179339,9785 180323,7465 179857,4802 182596,4202 177411,173

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

219

Anexo 35. Selección de resultados, experimento: Arborizadora, PH – RL




REGLAMENTO PH PH PH





NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 9438 9438 2184 497

ATRIBUTOS 9 9 9



ESTADÍSTICO KAPPA






NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

220

Anexo 36. Comparación de selecciones, experimento: Arborizadora, PH - M5P-RL




T_9438 PH_NUMERICO_EN


PRON_497 PH_NUMERICO_EN



PRON_497






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 9438 9438 1888 9438 497 9438 9438 2184 497

ATRIBUTOS 11 9 9 9



ESTADÍSTICO KAPPA





13,4237% 16,4997% 10,8541% 77,1033% 76,2215% 77,4944%



COEFICIENTE DE CORRRELACIÓN 0,9911 0,9865 0,9943 0,6367 0,6481 0,6318

MEDIA DEL ERROR ABSOLUTO ($) 15259,6423 16450,7848 14004,6511 127046,2716 125351,2858 125124,9874


31623,8977 38822,1862 24848,6865 181640,7039 179339,9785 177411,173


SELECCIÓN 2 X X

SELECCIÓN FINAL X

221

Anexo 37. Arborizadora – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P Cross 20

$.0.00

$500000.0.00

$1000000.0.00

$1500000.0.00

$2000000.0.00

$2500000.0.001

22

64

51

67

69

01

11

26

13

51

15

76

18

01

20

26

22

51

24

76

27

01

29

26

31

51

33

76

36

01

38

26

40

51

42

76

45

01

47

26

49

51

51

76

54

01

56

26

58

51

60

76

63

01

65

26

67

51

69

76

72

01

74

26

76

51

78

76

81

01

83

26

85

51

87

76

90

01

92

26

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Arborizadora PH Valor M2 de Construcción para Datos de Entrenamiento y

Evaluación

Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Cross _20)

222

Anexo 38. Arborizadora – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal Split 66

$.0.00

$500000.0.00

$1000000.0.00

$1500000.0.00

$2000000.0.00

$2500000.0.001

22

64

51

67

69

01

11

26

13

51

15

76

18

01

20

26

22

51

24

76

27

01

29

26

31

51

33

76

36

01

38

26

40

51

42

76

45

01

47

26

49

51

51

76

54

01

56

26

58

51

60

76

63

01

65

26

67

51

69

76

72

01

74

26

76

51

78

76

81

01

83

26

85

51

87

76

90

01

92

26

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Evaluación


223

Anexo 39. Arborizadora – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P Cross 20 y Regresión Lineal

Split 66

$.0.00

$500000.0.00

$1000000.0.00

$1500000.0.00

$2000000.0.00

$2500000.0.00

12

26

45

16

76

90

11

12

61

35

11

57

61

80

12

02

62

25

12

47

62

70

12

92

63

15

13

37

63

60

13

82

64

05

14

27

64

50

14

72

64

95

15

17

65

40

15

62

65

85

16

07

66

30

16

52

66

75

16

97

67

20

17

42

67

65

17

87

68

10

18

32

68

55

18

77

69

00

19

22

6

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Evaluación


Valor M2 de Construcción (M5P - Cross _20)

224

Anexo 40. Resultados, experimento: Arborizadora, NO_PH-ID3



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL

_ENT_6423 NO_PH_NOMINAL






423_PRON_338





CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 941

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 6423 6423 6423 2184 6423 4303 6423 1285 6423 5138 338

ATRIBUTOS 12 12 12 12 12 12 12


5339 83,1232% 5344 83,201% 1804 82,6007% 3467 80,5717% 1073 83,5019% 4061 79,0385% 278 82,2485%


848 13,2026% 849 13,2181% 285 13,0495% 618 14,3621% 165 12,8405% 819 15,9401% 44 13,0178%



0,0105 0,0105 0,0108 0,0114 0,0107 0,0114 0,0108


0,0857 0,0853 0,0864 0,091 0,0843 0,0933 0,0867



74,2308% 73,8203% 75,2789% 80,2215% 73,7921% 81,4545% 78,9015%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

225

Anexo 41. Selección de resultados, experimento: Arborizadora, NO_PH - ID3



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_6423 NO_PH_NOMINAL_ENT_6423 NO_PH_NOMINAL_ENT_6423_PRON_338





CARACTERÍSTICA TEST FOLDS 20 % 80 941

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 6423 6423 1285 338

ATRIBUTOS 12 12 12









NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

226

Anexo 42. Resultados, experimento: Arborizadora, NO_PH-J48.



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL







423_PRON_338






NÚMERO DE HOJAS 524 524 524 524 524 524 524

TAMAÑO DEL ARBOL 563 563 563 563 563 563 563

INSTANCIAS 6423 6423 2184 4303 1285 6423 338

ATRIBUTOS 12 12 12 12 12 12 12


5543 86,2992% 5554 86,4705% 1866 85,4396% 3656 84,964% 1104 85,9144% 4345 84,566% 293 86,6864%


880 13,7008% 869 13,5295% 318 14,5604% 647 15,036% 181 14,0856% 793 15,434% 45 13,3136%



0,0129 0,0129 0,0133 0,0137 0,0131 0,0138 0,0122


0,0836 0,0834 0,0858 0,0865 0,085 0,0876 0,0807



70,1235% 69,948% 71,9335% 73,0076% 72,1069% 73,7348% 70,36%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

227

Anexo 43. Selección de resultados, experimento: Arborizadora, NO_PH - J48



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_6423 NO_PH_NOMINAL_ENT_6423 NO_PH_NOMINAL_ENT_6423_PRON_338








INSTANCIAS 6423 1285 338

ATRIBUTOS 12 12 12









NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

228

Anexo 44. Comparación de selecciones, experimento: UPZ Arborizadora, NO_PH – J48 - ID3






3_PRON_338 NO_PH_NOMINAL_E



3_PRON_338





CARACTERÍSTICA TEST FOLDS 20 % 80 6423 338 FOLDS 20 % 80 941



INSTANCIAS 6423 1285 338 6423 6423 1285 338

ATRIBUTOS 12 12 12 12 12 12


5554 86,4705% 1104 85,9144% 293 86,6864% 5344 83,201% 1073 83,5019% 278 82,2485%


869 13,5295% 181 14,0856% 45 13,3136% 849 13,2181% 165 12,8405% 44 13,0178%




0,0834 0,085 0,0807 0,0853 0,0843 0,0867



69,948% 72,1069% 70,36% 73,8203% 73,7921% 78,9015%


NÚMERO DE REGLAS





SELECCIÓN 2 X X

SELECCIÓN FINAL X

229

Anexo 45. Resultados experimento: Arborizadora, NO_PH - M5P



NOMBRE ARCHIVO WEKA NO_PH_NUMERIC

O_ENT_6423 NO_PH_NUMERIC





O_ENT_6423 NO_PH_NOMINAL_ENT_6

423_PRON_338






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 6423 6423 6423 2184 6423 4303 6423 1285 6423 5138 338


ESTADÍSTICO KAPPA




38,7415% 49,2126% 36,1481% 42,8878% 36,799% 46,9919% 53,4121%


167,2111% 605,3878% 59,9018% 76,2646% 54,6151% 162,7878% 255,4094%


NÚMERO DE REGLAS 76 76 76 76 76 76 76


0,4619 0,0851 0,8008 0,6835 0,8379 0,3142 0,574


19845,9391 25208,2067 18569,4439 21841,6078 18723,1371 23992,22 27222,434


125025,3939 452639,7835 45547,2131 57454,0408 42268,9949 121715,0349 184938,4554

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

230

Anexo 46. Selección de resultados, experimento: Arborizadora, NO_PH - M5P



NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_6423 NO_PH_NUMERICO_ENT_6423 NO_PH_NOMINAL_ENT_6423_PRON_338






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 6423 6423 1285 338


ESTADÍSTICO KAPPA










SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

231

Anexo 47. Resultados, experimento: Arborizadora, NO_PH - RL



NOMBRE ARCHIVO WEKA NO_PH_NUMERIC






O_ENT_6423 NO_PH_NOMINAL_ENT_6

423_PRON_338






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 6423 6423 6423 2184 6423 4303 6423 1285 6423 5138 338

ATRIBUTOS 12 12 12 12 12 12 12



ESTADÍSTICO KAPPA




67,4363% 67,4495% 68,3153% 67,0106% 70,6689% 67,5239% 71,5831%


72,2898% 72,3444% 75,7858% 72,0313% 78,5162% 74,3942% 97,4072%


NÚMERO DE REGLAS


0,6914 0,6909 0,6582 0,6938 0,6323 0,669 0,3999


34545,2815 34549,7034 35093,9242 34126,7282 35956,0008 34475,0377 36483,6142


54051,8006 54090,9051 57624,8228 54264,8928 60767,0653 55623,9529 70531,2045

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

232

Anexo 48. Selección de resultados, experimento: Arborizadora, NO_PH – RL



NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_6423 NO_PH_NUMERICO_ENT_6423 NO_PH_NOMINAL_ENT_6423_PRON_338






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 6423 6423 4303 338

ATRIBUTOS 12 12 12



ESTADÍSTICO KAPPA






NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

233

Anexo 49. Comparación de selecciones, experimento: UPZ Arborizadora, NO_PH - M5P-RL






3_PRON_338 NO_PH_NUMERICO_



3_PRON_338






NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 6423 6423 1285 338 6423 6423 4303 338


ESTADÍSTICO KAPPA





167,2111% 54,6151% 255,4094% 72,2898% 72,0313% 97,4072%




0,4619 0,8379 0,574 0,6914 0,6938 0,3999


19845,9391 18723,1371 27222,434 34545,2815 34126,7282 36483,6142


125025,3939 42268,9949 184938,4554 54051,8006 54264,8928 70531,2045


SELECCIÓN 2 X X

SELECCIÓN FINAL X

234

Anexo 50. Arborizadora – NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión M5P - Split 80

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.0001

14

72

93

43

95

85

73

18

77

10

23

11

69

13

15

14

61

16

07

17

53

18

99

20

45

21

91

23

37

24

83

26

29

27

75

29

21

30

67

32

13

33

59

35

05

36

51

37

97

39

43

40

89

42

35

43

81

45

27

46

73

48

19

49

65

51

11

52

57

54

03

55

49

56

95

58

41

59

87

61

33

62

79

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Arborizadora NO_PH Valor M2 de Construcción para datos de Entrenamiento y

Validación

Valor M2 de Construcción (Observado) Valor M2 de Construcción (M5P - Split_80)

235

Anexo 51. Arborizadora – NO_PH, Comparación Valor m2 de Construcción Observado y Método Regresión Lineal – Split 33

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.0001

14

72

93

43

95

85

73

18

77

10

23

11

69

13

15

14

61

16

07

17

53

18

99

20

45

21

91

23

37

24

83

26

29

27

75

29

21

30

67

32

13

33

59

35

05

36

51

37

97

39

43

40

89

42

35

43

81

45

27

46

73

48

19

49

65

51

11

52

57

54

03

55

49

56

95

58

41

59

87

61

33

62

79

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Arborizadora NO_PH Valor M2 de Construcción para Datos de Entrenamiento y

Validación


236

Anexo 52. Arborizadora - NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P - Split 80 y Regresión

Lineal - Split 33

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.0001

14

72

93

43

95

85

73

18

77

10

23

11

69

13

15

14

61

16

07

17

53

18

99

20

45

21

91

23

37

24

83

26

29

27

75

29

21

30

67

32

13

33

59

35

05

36

51

37

97

39

43

40

89

42

35

43

81

45

27

46

73

48

19

49

65

51

11

52

57

54

03

55

49

56

95

58

41

59

87

61

33

62

79

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Arborizadora NO_PH Valor M2 de Construcción para datos de Entrenamiento y

Validación


Valor M2 de Construcción (M5P - Split_80)

237

Anexo 53. Resultados, experimento: Calandaima, PH-ID3










PRON_1517





CARACTERÍSTICA TEST FOLS 10 FOLDS 20 % 66 % 33 % 80 % 20

NÚMERO DE HOJAS 219


INSTANCIAS 28824 28824 28824 9800 28824 19312 28824 5765 28824 23059 1517

ATRIBUTOS 8 8 8 8 8 8 8


23723 82,3029% 23721 82,296% 8075 82,398% 15898 82,3219% 4757 82,5152% 18846 81,7295% 1249 82,3336%


5097 17,6832% 5099 17,6901% 1723 17,5816% 3401 17,6108% 1008 17,4848% 4197 18,2011% 268 17,6664%




0,1036 0,1036 0,1034 0,1039 0,1032 0,1039 0,1035



55,0168% 55,0267% 54,9492% 55,1933% 54,8654% 55,2404% 55,1848%

INSTANCIAS SIN CLASIFICAR 4 0,0139% 4 0,0139% 2 0,0204% 13 0,0673% 16 0,0694%

NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

238

Anexo 54. Selección de resultados, experimento: Calandaima, PH - ID3




REGLAMENTO PH PH PH




CARACTERÍSTICA TEST FOLS 10 % 80



INSTANCIAS 28824 28824 5765 1517

ATRIBUTOS 8 8 8








INSTANCIAS SIN CLASIFICAR 4 0,0139%

NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

239

Anexo 55. Resultados, experimento: Calandaima, PH-J48.










PRON_1517






NÚMERO DE HOJAS 219 219 219 219 219 219 219

TAMAÑO DEL ARBOL 256 256 256 256 256 256 256

INSTANCIAS 28824 28824 28824 9800 28824 19312 28824 5765 28824 23059 1517

ATRIBUTOS 8 8 8 8 8 8 8


23722 82,2995% 23722 82,2995% 8073 82,3776% 15900 82,3322% 4755 82,4805% 18840 81,7035% 1249 82,3336%


5102 17,7005% 5102 17,7005% 1727 17,6224% 3412 17,6678% 1010 17,5195% 4219 18,2965% 268 17,6664%




0,104 0,1039 0,1037 0,1041 0,1036 0,1043 0,1038



55,2326% 55,2054% 55,1134% 55,2942% 55,0614% 55,3858% 55,3254%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

240

Anexo 56. Selección de resultados, experimento: Calandaima, PH - J48




REGLAMENTO PH PH PH







INSTANCIAS 28824 28824 5765 1517

ATRIBUTOS 8 8 8









NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

241

Anexo 57. Comparación de selecciones, experimento: UPZ Calandaima, PH – J48 - ID3









PRON_1517





CARACTERÍSTICA TEST FOLDS 20 % 80 FOLS 10 % 80

NÚMERO DE HOJAS 219 219 219 219

TAMAÑO DEL ARBOL 256 256 256 256

INSTANCIAS 28824 28824 5765 1517 28824 28824 5765 1517



23722 82,2995% 4755 82,4805% 1249 82,3336% 23723 82,3029% 4757 82,5152% 1249 82,3336%


5102 17,7005% 1010 17,5195% 268 17,6664% 5097 17,6832% 1008 17,4848% 268 17,6664%




0,1039 0,1036 0,1038 0,1036 0,1032 0,1035



55,2054% 55,0614% 55,3254% 55,0168% 54,8654% 55,1848%

INSTANCIAS SIN CLASIFICAR 4 0,0139%

NÚMERO DE REGLAS





SELECCIÓN 2 X X

SELECCIÓN FINAL X

242

Anexo 58. Resultados experimento: Calandaima, PH-M5P










4-PRON_1517








INSTANCIAS 28824 28824 28824 9800 28824 19312 28824 5765 28824 23059 1517

ATRIBUTOS 8 8 8 8 8



ESTADÍSTICO KAPPA





19,1534% 18,2316% 24,7208% 22,3483% 30,9208% 22,1274% 11,738%


NÚMERO DE REGLAS 91 91 91 91 91 91 91


0,9815 0,9833 0,9694 0,9748 0,9527 0,9752 0,9931


18554,9344 17807,4296 34168,3453 25315,371 23550,3115 26931,6067 16018,9157


69514,5584 66169,0974 90691,3022 80736,1912 106212,1545 79698,169 37836,2157

SELECCIÓN 1 X X MEJOR X

SELECCIÓN 2 X

SELECCIÓN FINAL

243

Anexo 59. Selección de resultados, experimento: Calandaima, PH - M5P




REGLAMENTO PH PH PH







INSTANCIAS 28824 28824 23059 1517

ATRIBUTOS 8 8



ESTADÍSTICO KAPPA










SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

244

Anexo 60. Resultados, experimento: Calandaima, PH - RL










4-PRON_1517








INSTANCIAS 28824 28824 28824 9800 28824 19312 28824 5765 28824 23059 1517

ATRIBUTOS 8 8 8 8 8 8 8



ESTADÍSTICO KAPPA





54,1553% 54,165% 53,2562% 53,9814% 56,8194% 54,8221% 58,6008%


NÚMERO DE REGLAS


0,8407 0,8406 0,8464 0,8419 0,823 0,837 0,8106


137161,7346 137184,775 136455,5721 138434,8537 136673,4287 137930,3568 134661,4195


196548,9063 196583,8287 195377,2308 195014,9168 195173,0411 197457,3865 188892,9899

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

245

Anexo 61. Selección de resultados, experimento: Calandaima, PH – RL




REGLAMENTO PH PH PH







INSTANCIAS 28824 28824 9800 1517

ATRIBUTOS 8 8 8



ESTADÍSTICO KAPPA






NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

246

Anexo 62. Comparación de selecciones, experimento: UPZ Calandaima, PH - M5P-RL



NOMBRE ARCHIVO WEKA PH_NUMERICO_ENT

_28824 PH_NUMERICO_ENT


824-PRON_1517 PH_NUMERICO_ENT


824 PH_NUMERICO_ENT_28824-

PRON_1517








INSTANCIAS 28824 28824 23059 1517 28824 28824 9800 1517

ATRIBUTOS 8 8 8 8 8



ESTADÍSTICO KAPPA





18,2316% 22,1274% 11,738% 54,1553% 53,2562% 58,6008%



COEFICIENTE DE CORRRELACIÓN 0,9833 0,9752 0,9931 0,8407 0,8464 0,8106

MEDIA DEL ERROR ABSOLUTO ($) 17807,4296 26931,6067 16018,9157 137161,7346 136455,5721 134661,4195


66169,0974 79698,169 37836,2157 196548,9063 195377,2308 188892,9899


SELECCIÓN 2 X X

SELECCIÓN FINAL X

247

Anexo 63. Calandaima – PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión - M5P Cross 20

-$1000.000

$000

$1000.000

$2000.000

$3000.000

$4000.000

$5000.000

$6000.000

$7000.0001

70

7

14

13

21

19

28

25

35

31

42

37

49

43

56

49

63

55

70

61

77

67

84

73

91

79

98

85

10

59

11

12

97

12

00

31

27

09

13

41

51

41

21

14

82

71

55

33

16

23

91

69

45

17

65

11

83

57

19

06

31

97

69

20

47

5

21

18

12

18

87

22

59

32

32

99

24

00

52

47

11

25

41

72

61

23

26

82

92

75

35

28

24

12

89

47

29

65

3

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Calandaima PH. Valor M2 de Costrucción para datos de Entrenamiento y

Validación

Valor M2 Construcción (Observado) Valor M2 de Construcción (M5P - Cross_20)

248

Anexo 64. Calandaima – PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal – Split 66

-$4000.000

-$3000.000

-$2000.000

-$1000.000

$000

$1000.000

$2000.000

$3000.000

$4000.000

$5000.000

$6000.000

$7000.0001

70

7

14

13

21

19

28

25

35

31

42

37

49

43

56

49

63

55

70

61

77

67

84

73

91

79

98

85

10

59

11

12

97

12

00

31

27

09

13

41

51

41

21

14

82

71

55

33

16

23

91

69

45

17

65

11

83

57

19

06

31

97

69

20

47

5

21

18

12

18

87

22

59

32

32

99

24

00

52

47

11

25

41

72

61

23

26

82

92

75

35

28

24

12

89

47

29

65

3

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Validación


249

Anexo 65. Calandaima – PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión M5P– Cross 20 y Regresión Lineal

– Split 66

-$4000.000

-$3000.000

-$2000.000

-$1000.000

$000

$1000.000

$2000.000

$3000.000

$4000.000

$5000.000

$6000.000

$7000.0001

70

7

14

13

21

19

28

25

35

31

42

37

49

43

56

49

63

55

70

61

77

67

84

73

91

79

98

85

10

59

11

12

97

12

00

31

27

09

13

41

51

41

21

14

82

71

55

33

16

23

91

69

45

17

65

11

83

57

19

06

31

97

69

20

47

5

21

18

12

18

87

22

59

32

32

99

24

00

52

47

11

25

41

72

61

23

26

82

92

75

35

28

24

12

89

47

29

65

3

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID


Validación


Valor M2 de Construcción (M5P - Cross_20)

250

Anexo 66. Resultados, experimento: Calandaima, NO_PH - ID3










636-PRON_139





CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 % 5

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 2636 2636 2636 896 2636 1766 2636 527 2636 2109 139

ATRIBUTOS 10 10 10 10 10 12 12


2197 83,346% 2193 83,1942% 747 83,3705% 1405 79,5583% 439 83,3017% 1667 79,0422% 115 82,7338%


371 14,0744% 377 14,302% 127 14,1741% 285 16,1382% 75 14,2315% 342 16,2162% 21 15,1079%




0,1741 0,1755 0,1769 0,1882 0,1767 0,1963 0,1734



72,0379% 72,548% 73,1181% 78,5728% 72,3605% 82,3389% 70,5714%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

251

Anexo 67. Selección de resultados, experimento: Calandaima, NO_PH - ID3



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_2636 NO_PH_NOMINAL_ENT_2636 NO_PH_NOMINAL_ENT_2636-PRON_139


CANTIDAD DE DATOS 2636 2636



CARACTERÍSTICA TEST FOLDS 10 % 80 % 5

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 2636 2636 527 139

ATRIBUTOS 10 10 12









NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

252

Anexo 68. Resultados, experimento: Calandaima, NO_PH-J48.










636-PRON_139






NÚMERO DE HOJAS 315 315 315 315 315 315 315

TAMAÑO DEL ARBOL 351 351 351 351 351 351 351

INSTANCIAS 2636 2636 2636 896 2636 1766 2636 527 2636 2109 139

ATRIBUTOS 10 10 10 10 10 10 12


2198 83,383

9% 2189 83,0425% 757

84,4866%

1437 81,3703

% 442

83,871%

1641 77,8094

% 120 86,3309%


438 16,616

1% 447 16,9575% 139

15,5134%

329 18,6297

% 85

16,129%

468 22,1906

% 19 13,6691%


ERROR ABSOLUTO MEDIO 0,055 0,0553 0,0532 0,0572 0,0554 0,0609 0,0478


0,1772 0,1784 0,1725 0,1873 0,1786 0,1989 0,1614



71,5057% 71,9884% 69,7936% 75,5417% 71,3767% 80,2336% 64,1286%


NÚMERO DE REGLAS




SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

253

Anexo 69. Selección de resultados, experimento: Calandaima, NO_PH - J48



NOMBRE ARCHIVO WEKA NO_PH_NOMINAL_ENT_2636 NO_PH_NOMINAL_ENT_2636 NO_PH_NOMINAL_ENT_2636-PRON_139




TEST OPTIONS CROSS VALIDATION PERCENTAGE-SPLIT SUPPLIED TEST SET




INSTANCIAS 2636 2636 896 139

ATRIBUTOS 10 10 10









NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

254

Anexo 70. Comparación de selecciones, experimento: UPZ Calandaima, NO_PH – J48 - ID3






6-PRON_139 NO_PH_NOMINAL_E



6-PRON_139








INSTANCIAS 2636 2636 896 139 2636 2636 527 139

ATRIBUTOS 10 10 10 10 10 10


2198 83,3839

% 757 84,4866% 120 86,3309% 2197

83,346%

439 83,3017% 115 82,7338%


438 16,6161

% 139 15,5134% 19 13,6691% 371

14,0744%

75 14,2315% 21 15,1079%




0,1772 0,1725 0,1614 0,1741 0,1767 0,1734



71,5057% 69,7936% 64,1286% 72,0379% 72,3605% 70,5714%

INSTANCIAS SIN CLASIFICAR 68 2,5797

% 13 2,4668% 3 2,1583%

NÚMERO DE REGLAS





SELECCIÓN 2 X X

SELECCIÓN FINAL X

255

Anexo 71. Resultados experimento: Calandaima, NO_PH-M5P




_ENT_2636 NO_PH_NUMERIC





O_ENT_2636 NO_PH_NUMERICO_ENT_2

636-PRON_139





CARACTERÍSTICA TEST FOLDS 10 FOLDS 20 % 66 % 33 % 80 % 20 % 5



INSTANCIAS 2636 2636 2636 896 2636 1766 2636 527 2636 2109 139

ATRIBUTOS 10 10 10 10 10 10 10



ESTADÍSTICO KAPPA




53,4341% 53,1922% 50,2936% 62,944% 48,2799% 58,5791% 45,6774%


174,6684% 203,5489% 63,063% 145,2597% 62,6129% 90,4606% 110,7754%


NÚMERO DE REGLAS 29 29 29 29 29 29 29


0,3913 0,3567 0,7856 0,4533 0,7934 0,6171 0,6153


25344,6202 252269979 24584,9209 30420,9934 23109,9193 27729,6349 22862,4851


124803,2538 145425,9896 48688,6072 110201,1641 45521,5768 67048,9939 78208,8014

SELECCIÓN 1 X MEJOR X

SELECCIÓN 2 X

SELECCIÓN FINAL

256

Anexo 72. Selección de resultados, experimento: Calandaima, NO_PH - M5P



NOMBRE ARCHIVO WEKA NO_PH_NUMÉRICO_ENT_2636 NO_PH_NUMÉRICO_ENT_2636 NO_PH_NUMÉRICO_ENT_2636-PRON_139


CANTIDAD DE DATOS 2636 2636




NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 2636 2636 527 139

ATRIBUTOS 10 10 10



ESTADÍSTICO KAPPA










SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

257

Anexo 73. Resultados, experimento: Calandaima, NO_PH-RL









_ENT_2636 NO_PH_NUMERICO_ENT_

2636-PRON_139



CLASIFICADOR REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL


CARACTERÍSTICA TEST FOLS 10 FOLDS 20 % 66 % 33 % 80 % 20 % 5

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 2636 2636 2636 896 2636 1766 2636 527 2636 2109 139

ATRIBUTOS 10 10 10 10 10 10 10



ESTADÍSTICO KAPPA





78,6955% 76,9862% 86,8205% 122,9519% 111,2926% 118,9633% 58,3675%


NÚMERO DE REGLAS


0,6503 0,6623 0,6058 0,4693 0,476 0,5003 0,8169


33980,6498 33874,0264 35813,3822 36887,0887 38005,6223 35532,7166 31385,9328


56229,1146 55003,0092 67030,9455 93277,4184 80913,324 88175,0688 41208,1789

SELECCIÓN 1 X X X

SELECCIÓN 2 X

SELECCIÓN FINAL

258

Anexo 74. Selección de resultados, experimento: Calandaima, NO_PH – RL



NOMBRE ARCHIVO WEKA NO_PH_NUMERICO_ENT_2636 NO_PH_NUMERICO_ENT_2636 NO_PH_NUMERICO_ENT_2636-PRON_139



CLASIFICADOR REGRESION LINEAL REGRESION LINEAL REGRESION LINEAL



NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 2636 2636 896 139

ATRIBUTOS 10 10 10



ESTADÍSTICO KAPPA






NÚMERO DE REGLAS




SELECCIÓN 1 X X

SELECCIÓN 2 X

SELECCIÓN FINAL

259

Anexo 75. Comparación de selecciones, experimento: UPZ Calandaima, NO_PH - M5P-RL






6-PRON_139 NO_PH_NUMERICO_



36-PRON_139





CARACTERÍSTICA TEST FOLDS 10 % 80 % 5 FOLDS 20 % 66 % 5

NÚMERO DE HOJAS

TAMAÑO DEL ARBOL

INSTANCIAS 2636 2636 527 139 2636 2636 896 139

ATRIBUTOS 10 10 10 10 10 10



ESTADÍSTICO KAPPA





174,6684% 62,6129% 110,7754% 76,9862% 86,8205% 58,3675%




0,3913 0,7934 0,6153 0,6623 0,6058 0,8169


25344,6202 23109,9193 22862,4851 33874,0264 35813,3822 31385,9328


124803,2538 45521,5768 78208,8014 55003,0092 67030,9455 41208,1789


SELECCIÓN 2 X X

SELECCIÓN FINAL X

260

Anexo 76. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y método Árbol de Decisión – M5P Split 80

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.0001

61

12

11

81

24

13

01

36

14

21

48

15

41

60

16

61

72

17

81

84

19

01

96

11

02

11

08

11

14

11

20

11

26

11

32

11

38

11

44

11

50

11

56

11

62

11

68

11

74

11

80

11

86

11

92

11

98

12

04

12

10

12

16

12

22

12

28

12

34

12

40

12

46

12

52

12

58

1

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Calandaima NO_PH. Valor M2 de Costrucción para datos de Entrenamiento y

Validación

Valor M2 Construcción (Observado) Valor M2 de Construcción (M5P-Split_80)

261

Anexo 77. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado y método Regresión Lineal – Cross 20

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.0001

61

12

11

81

24

13

01

36

14

21

48

15

41

60

16

61

72

17

81

84

19

01

96

11

02

11

08

11

14

11

20

11

26

11

32

11

38

11

44

11

50

11

56

11

62

11

68

11

74

11

80

11

86

11

92

11

98

12

04

12

10

12

16

12

22

12

28

12

34

12

40

12

46

12

52

12

58

1

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Calandaima NO_PH. Valor M2 de Costrucción para Datos de Entrenamiento y

Validación

Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)

262

Anexo 78. Calandaima – NO_PH, Comparación Valor m2 de Construcción Observado, método Árbol de Decisión – M5P Split 80 y Regresión

Lineal – Cross 20

$000

$200.000

$400.000

$600.000

$800.000

$1000.000

$1200.0001

61

12

11

81

24

13

01

36

14

21

48

15

41

60

16

61

72

17

81

84

19

01

96

11

02

11

08

11

14

11

20

11

26

11

32

11

38

11

44

11

50

11

56

11

62

11

68

11

74

11

80

11

86

11

92

11

98

12

04

12

10

12

16

12

22

12

28

12

34

12

40

12

46

12

52

12

58

1

Val

or

M2

de

Co

nst

rucc

ión

($

)

ID

UPZ - Calandaima NO_PH. Valor M2 de Costrucción para datos de Entrenamiento y

Validación

Valor M2 Construcción (Observado) Valor M2 de Construcción (Regresión Lineal-Cross_20)


263

Bibliografía

Alcaldía mayor de Bogotá. (2004). Decreto 190 de 2004. Bogotá, Colombia: Alcaldía

Mayor de Bogotá.

Alcaldía Mayor de Bogotá D.C - SDP. (2007). UPZ 73, Garcés Navas, Acuerdos para

construir ciudad. Bogotá D.C.

Alcaldía Mayor de Bogotá D.C - SDP. (2008). UPZ 65 Arborizadora, Acuerdos para

construir ciudad. Bogotá, Colombia: Oficina Asesora de Prensa y Comunicaciones

- Secretaría Distrital de Planeación.

Alcaldia Mayor de Bogota D.C. (1993). Decreto 012 de 1993. Bogotá.

Antonelli, S. (2012). Aprendizaje Automático. Buenos Aires, Argentina: Universidad de

Buenos aires.

Arnheim, R. (1995). Hacia una psicología del arte; Arte y Entropía (Vol. 3). Madrid,

España: Alianza Editorial.

Bellogín, A. (2008). Metodos avanzados en aprendizaje autom ´ atico. Madrid, España:

Universidad Autónoma de Madrid.

Bernardo, A. (29 de Enero de 2016). Blogthinkbig.com. Recuperado el 29 de 11 de 2016, de

http://blogthinkbig.com/el-legado-de-marvin-minsky-padre-de-la-inteligencia-

artificial/

Borao, D. (2013). Incidencia del ruido en los datos de test sobre la precisión de modelos de

clasificación y regresión. Valencia, España: Universidad Politécnica de Valencia.

264

Bosogain, X. (2014). Redes neuronales artificiales y sus aplicaciones. Bilbao: Escuela

superior de Ingeniería de Bilbao, EHU.

Caballero, M. (18 de Enero de 2002). El Tiempo. Recuperado el 11 de 29 de 2016, de

http://www.eltiempo.com/archivo/documento/MAM-1315707

Cabrera, S. (1 de Septiembre de 2008). Estadística Descriptiva. Recuperado el 27 de

Diciembre de 2016, de Estadística Descriptiva:

https://wwwyyy.files.wordpress.com/2008/08/estadistica-generalteoria.pdf

Calleja, A,J. (2010). Minería de datos con WEKA para la predicción del precio de

automóviles de segunda mano. Venecia, España: Universidad politécnica de

Valencia, Escuela Técnica superior de Informática aplicada.

Cambridge University. (1995). The Cambridge Dictionary of Philosophy (2 ed.). (R. audi,

Ed.) Cambridge, Inglaterra: Cambridge University Press.

Cardona, A. (2004). Aplicación de árboles de decisión en modelos de riesgo crediticio.

Revista Colombiana de Estadística, 27(2), 139 - 151.

Cazorla,M, Alfonso, M, Escolano, F, Colomina, O, & Lozano, M. (2003). Inteligencia

Artificial; Modelos, Técnicas y Áreas de aplicación. Alicante, España: Paraninfo,

S.A.

Clausius, R. (1865). Ueber verschiedene für die Anwendung bequeme Formen der

Hauptgleichungen der mechanischen Wärmetheorie (Sobre la aplicación de las

principales ecuaciones de la Termodinámica). En Annlen der Pysik und Chemie

(Análisis de la Física y Química) (págs. 351 - 400). Leipzig.

265

Congreso de Colombia. (1994). Ley 142 de 1994, por la cual se establece el régimen de los

servicioc públicos domiciliarios y se dictan otras disposiciones. Bogotá D.C,

Colombia.

Corso, C. (2009). Aplicación de algoritmos de clasificación supervisada usando. Buenos

Aires, Argentina: Universidad Tecnológica Nacional.

Cuevas, A. (1975). Teoría de la Información, Codificación y Lenguajes. Madrid, España:

Servicio del Ministerio de Educación y Ciencia.

Díaz, I. (9 de junio de 2014). ABC.es CIENCIA. Recuperado el 23 de agosto de 2015, de

http://www.abc.es/ciencia/20140609/abci-marvin-minsky-alcanzaremos-

inmortalidad-201406090956.html

Dirección General IGAC. (2003). Valoración con fines catastrales: Metodologías

utilizadas. Bogotá, Colombia: Instituto Geográfico Agustín Codazzi.

García, A. (2012). Inteligencia Artificial. Fundamentos, práctica y aplicaciones. Madrid,

España: RC Libros.

García, F. (2013). Aplicación de técnicas de minería de datos a datos obtenidos por el

Centro Andaluz de Medio Ambiente (CEAMA). Granada, España: Universidad de

Granada.

García,W. (2013). Dinámica de las construcciones por usos de la localidad de Kenedy en

los años 2002 y 2012. Bogotá: Alcaldía mayor de Bogotá, Unidad administrativa

especial de catastro.

Hernández, J. (2006). Práctica de minería de datos, Introducción al Weka. Valencia:

Universidad Politécnica de Valencia.

266

Huang,X, & Jensen,J.R. (Octubre de 1997). A Machine-Learning Approach to Automated

Knowledge-Base Building for Remote Sensing Image Analysis with GIs Data.

Photogrammetric Engineering & Remote Sensing, 63(10), 1185-1194.

Hyndman, R. (1995). The problem with Sturges’ rule for constructing histograms.

Australia: Monash University.

IGAC. (2008). Resolución 620 de 2008. Bogotá, Colombia.

IVSC. (2009). International Valuation Standards Council. Recuperado el 5 de Septiembre

de 2016, de https://www.ivsc.org/

Kirkby, R. (2003). Weka explorer user guide for versión. Waikato, Nueva Zelanda:

Universidad de Waikato.

Marín, C. (2014). Entropía: Un cadáver Exquisito. Aus Art Journal for Research in Art, 223

- 233.

Martin, Q, Cabero, M, & de Paz, Y. (2008). Tratamiento estadístico de datos con SPSS. (C.

M. Rojo, Ed.) Madrid, España: Paraninfo.

McCarthy, J. (24 -27 de Noviembre de 1958). Mechanisation of Thought Processes.

Simposio No. 10, Volumen I. Londres: National Physical Laboratory.

Mitchell, T. (1997). Machine Learning. Potland: McGraw Hill.

Mood, A, Graybill, F, & Boes, D. (1974). Introduction to the Theory of Statistics.

Auckland, Singapore: McGraw Hill.

Morate, D. (2000). Manual de WEKA. Granada, España: Universidad de Granada.

Moya, Francisco. (22 de Abril de 2013). Blogspot.com.co. Recuperado el 11 de Enero de

2017, de http://algoritmoid3.blogspot.com.co/

267

Murphy,K. (2012). Machine Learning A Probabilistic Perspective. Cambridge,

Massachusetts.

Núñez, A. (1992). Estadística básica para planificación. México D.F, México: Siglo

veintiuno editores de Colombia, s.a.

Pino,R, Gómez, A, & de Abajo, N. (2001). Introducción a la Inteligencia Artificial:

Sistemas Expertos, Redes Neuronales Artificiales y Computación Evolutiva.

Asturias, España: Servicios y publicaciones Universodad de Oviedo.

Portilla,B.E. (2011). Modelo basado en aprendizaje de máquinaspara el manejo de riesgo

de falla durante la composición de servios Web. Medellín, Colombia.

Quilan, J. (1996). Improved Use of Continuous Attributes in C4.5. AI Acces Foundation

and Morgan Kaufmann Publishers.

Rodrigo, M. (2011). Modelos de la comunicación. Barcelona: Portal de la Comunicación

InCom-UAB: El portal de los estudios de la comunicación.

Sancho, F. (2016 de Diciembre de 2016). http://www.cs.us.es/. (F. S. Caparrini, Productor)

Recuperado el 13 de 12 de 2016, de Departamento de Ciencias de la Computación e

Inteligencia Artificial, Universidad de Sevilla: http://www.cs.us.es/~fsancho/?e=104

SDP. (2016). sdp.gov.co. Recuperado el 20 de Noviembre de 2016, de

http://www.sdp.gov.co/portal/page/portal/PortalSDP/OrdenamientoTerritorial/upzen

procesoderevision

Secretaría distrital de planeación. (2009). Conociendo la localidad de Kennedy.

Diagnóstico de los aspectos físicos, demográficos y socioeconómicos. Bogotá.

Secretaría Distrital de Planeación. (4 de Junio de 2009). www.sdp.gov.co. Recuperado el 20

de Noviembre de 2016, de

268

http://www.sdp.gov.co/portal/page/portal/PortalSDP/SeguimientoPoliticas/Politicas

Sectoriales/Coyuntura%20Econ%F3mica1/Documentos2009/Las%20Operaciones%

20Estrategicas%20en%20la%20revisi%F3n%20del%20POT.pdf

Secretaria Distrital de Planeación. (2011). 21 Monografías de las Localidades: diagnóstico

de los aspectos físicos, demográficos y socioeconómicos de las localidades – 2011.

# 08 Kennedy. Bogotá.



# 10 Engativá. Bogotá.



# 19 Ciudad Bolivar. Bogotá.

Secretaría general de la Alcaldía Mayor de Bogotá. (19 de Julio de 2005).

www.alcaldiabogota.gov.co. Recuperado el 1 de Diciembre de 2016, de

http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=17290

Secretaría General de la Alcaldía Mayor de Bogotá D.C. (15 de Marzo de 2006).

www.alcaldiabogota.gov.co. Recuperado el 2 de Diciembre de 2016, de

http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=19688

Sontag, E. D, & Tesoro, J. L. (1972). Temas de Inteligencia Artificial. (L. Empresa, Ed.)

Buenos aires, Argentina: Prolam S.R.L.

Suárez, J. (2000). Técnicas de inteligencia artificial aplicadas al análisis de la solvencia

empresarial. Oviedo, España: Universidad de Oviedo.

269

UDFJC. (2016). Universidad Distrital Francisco José de Caldas. Recuperado el 10 de 12

de 2016, de

https://www.udistrital.edu.co/dependencias/tipica.php?id=85#/getContentTipica.php

?m=contactInformation&id=85

Unidad Administrativa Especial de Catastro Distrital. (2005). Usos de la construcción y

destinos económicos de los predios. Bogotá D.C.

Vicente, C. (2004). Sistemas de aprendizaje que proporcionan asesoramiento mediante el

análisis de la colaboración aplicando técnicas de Inteligencia Artificial: Aplicación

a la generación de informes. (D. d. Informáticos, Ed.) Madrid, España: UNED.

Vizcaino, P. A. (2008). Aplicación de técnicas de inducción de árboles de decisión a

problemas de clasificación mediante el uso de WEKA (Waikato Environment for

Knowledge Analysis). (U. K. Lorenz, Trad.) Bogotá, Colombia.

Wiener, N. (1988). Cibernética y Sociedad (Tercera ed.). (J. N. Cerro, Trad.) Buenos Aires,

Argentina: Editorial Suramenricana.

Date post:	03-Oct-2018
Category:	Documents
Upload:	phamdiep
View:	221 times
Download:	0 times

MODELADO Y SIMULACIÓN BASADA EN AGENTES,...

Documents