Redes Neuronales Artificiales
Academia Mexicana deInformática A.C.
Aplicación de Redes Neuronales Artificiales
Angel KuriCentro de Investigación en
ComputaciónI.P.N.
Abril de 1999
El Modelo Conexionista
El paradigma conexionista se caracteriza por la obtención de capacidades decómputo a través de la interconexión demúltiples elementos, cada uno de los cuales posee poca capacidad de proce-so pero que, en su conjunto, exhiben robustez y permiten implementar un tipode aprendizaje interesante.
El Modelo Conexionista
Dentro de los diversos modelos de redes neuronales artificiales (ANNs, por sus iniciales en inglés) uno muy usado es el de los perceptrones multicapa.
En este modelo se interconecta un con-junto de neuronas (perceptrones), en unesquema similar al que se muestra en la siguiente figura.
El Perceptrón Multicapa
Figura 1. Una Red de Perceptrones.
El Perceptrón Multicapa
Un perceptrón consiste de una neurona con pesos adaptables wj j=1,...,n y un umbral u como se muestra en la figura 2.
Los perceptrones (como el que se mues-tra en la figura 2) al ser interconectadosen red logran completez computacional.
El Perceptrón Multicapa
Figura 2. Un Perceptrón.
El Perceptrón Multicapa
La salida del perceptrón es +1 si v>0 y 0 en otro caso. Puede demostrarse que el perceptrón, como unidad lógica, es incompleto. Es decir, existen ciertas funciones lógicas básicas que un perceptrón no puede calcular.
Dado un vector de entradas x ),...,( 1 nxx= la entrada neta a la neurona es
∑=
−=n
jjj uxwv
1
El Perceptrón Multicapa
Sin embargo, el perceptrón multicapa (PM) que se ilustra en la figura 1 puede formar fronteras de decisión de complejidad arbitraria y representar cualquier función booleana. El conjunto de entradas está representado por círculos sólidos. Las entradas y, posteriormente, cada neurona está fuertemente conectada a las neuronas de la siguiente capa.
El Perceptrón Multicapa
Un algoritmo de entrenamiento muy usado para este tipo de redes es eldenominado “de retropropagación”. En este algoritmo es importante tener una función de activación derivable. Por ello, la función escalón de la figura 2 suele reemplazarse por la función sigmoide cuya gráfica se muestra en la figura 3.
El Algoritmo de Retropropagación
1. Inicialice los pesos (wij) a pequeños valores aleatorios.2. Aleatoriamente seleccione un patrón de entrada x(u).3. Propague la señal hacia delante a través de la red.4. Calcule L
iδ en la capa de salida ( Lii yo = ), en donde:
])[(' Li
ui
Li
Li ydhg −=δ
lih representa la entrada neta a la i-ésima unidad de la l-ésima capa y g’ es la derivada de la
función de activación g; iu
d representa la salida deseada.
5. Calcule las deltas para las capas precedentes por medio de la propagación de los erroreshacia atrás;
∑+
=j ij
lw
il
hgil 1
)('δ
para l = (L – 1), ... ,1; g’(h) es la derivada de la función de activación.
El Algoritmo de Retropropagación
6. Actualice los pesos usando
jl
yil
jil
w1−
=∆ δη ; 10 ≤<η
7. Vaya al paso 2 y repita para el siguiente patrón hasta que el error en la capa de salidaesté por debajo de un valor específico o un número máximo de iteraciones sea alcanzado.
La Función Logística
Figura 3.
Derivabilidad de Funciones
Algunas funciones usadas son:Función Derivada
)(1)(1)(')(
))(1()()('1
1)(
1)(
zfzfzf
eeeezf
zfzfzfe
zf
zzf
zz
zz
z
−+=
+−=
−⋅=+
=
=
−
−
−
Derivabilidad de Funciones
La función logística y la tangente hiperbólica (tanh) son fácilmente derivables.
Tanto la logística como la tanh tienen laventaja de que su derivada puede serexpresada usando la función misma.
Caso de Estudio 1:Clasificación de Vinos
Presentamos aquí un caso de estudio endonde se aplica un red de percep-trones.
El problema consiste en lo siguiente:“Dado un conjunto de características químicas (13) de tres diferentes vinos,entrenar a la red para que reconozca a qué tipo corresponde un conjunto dado”.
Vinos
En la siguiente figura se muestra un seg-mento de los datos de entrenamiento.
Nótese que existen 13 características(“features”) y 3 columnas depertenencia (Wine_A, Wine_B, Wine_C).
La tabla de entrenamiento consta de un total de 160 filas.
Vinos
Vinos
Antes de entrenar a la red, es muy importante normalizar los valores. Estose hace usando la siguiente fórmula:
Su aplicación mapea los valores alintervalo
minmax
minnn xx
xxx−
−=*
]1,0[
Vinos
La arquitectura de la red está dictada porel número de entradas, el número desalidas y el número de capas ocultas.
El entrenamiento de la red consiste enencontrar los mejores valores correspondientes a los pesos que mejor ajusten los datos de prueba.
Vinos
Figura 4. Arquitectura de la Red.
Vinos
Figura 5. Resultado del Entrenamiento
Vinos
Figura 6. Resultado del Entrenamiento
Vinos
Figura 7. Interconexiones (vista parcial).
Vinos
En la figura 8 se muestran los resultadosde una prueba.
La parte superior de la figura muestra los valores de los datos de entrenamiento. La parte inferior muestra los resultadosde pasar dichos datos por la red neuronal.
Nótese la concordancia casi perfecta.
Vinos
Figura 8. Resultados de una Prueba
Caso de Estudio 2:Predicción de Demanda de Pasajeros
El segundo caso es el relativo a lapredicción de la demanda de pasajerosen una aerolínea.
Se conoce el comportamiento histórico de la demanda y se desea, en función deéste, predecir el comportamiento futuro.
Predicción de Demanda de Pasajeros
Los datos de la figura 9 indica una tendencia creciente muy clara.
Indican también, sin embargo, una conjunto de factores no lineales debidosa parámetros desconocidos
Predicción de Demanda dePasajeros
Figura 9. Comportamiento Histórico
Predicción de Demanda de Pasajeros
Figura 9a. Promedios Móviles
Promedios Móviles
La tendencia se elimina de los datos restando los promedios móviles, que secalculan de:
En donde f es el tamaño de la ventana.
Nfjxf
xj
fjnnj ,...,1
1=∀= ∑
+−=
Correlaciones
El proceso de análisis de correlaciones es cuantificar la independencia entre parámetros.
La interdependencia entre los valores x e y estádada por:
∑ ∑
∑
= =
=
−−
−−=
N
n
N
nnn
n
N
nn
yyxx
yyxxr
1 1
22
1
)()(
))((
Correlaciones
A r se le llama el coeficiente de correlación Bravais-Pearson en donde:
N = número de datosxn= atributo del objeto n con relación a la característica
X= media de N atributos de la característica X
yn= atributo del objeto n con relación a la característicaY
= media de N atributos de la característica Y
x
y
Predicción de Demanda de Pasajeros
Figura 9b. Datos sin tendencias
Predicción de Demanda de Pasajeros
En este caso, las salidas deseadas serefieren a los mismos datos de entrada desplazados en el tiempo(12 meses).
El primer dato de entrada se refiere a los datos en t=1; el segundo dato deentrada se refiere a los datos en t=2, etc.
Esto se observa en la figura 10.
Predicción de Demanda dePasajeros
Figura 10. Datos de entrenamiento
Predicción de Demanda de Pasajeros
Como en el caso anterior, la arquitectura está dictada por la cantidad de datos de entrada ysalida.
Aquí tenemos 12 neuronas en la capa deentrada, pero solamente una neurona en lacapa oculta y 1 neurona en la capa de salida.
Predicción de Demanda de Pasajeros
Figura 11. La arquitectura de la red neuronal
Predicción de Demanda...
Figura 12. Resultados del entrenamiento
Predicción de Demanda...
Figura 13. Resultados del entrenamiento
Predicción de Demanda...
Figura 14. Interconexiones
Neuronas de Umbral
Las neuronas del PMC incluyen un umbral que condiciona el disparo de la función detransferencia. En las variantes primarias sepensaba que los valores de umbral se podían determinar manualmente.
Los diseños más recientes logran el ajuste deumbrales agragando una capa interna deneuronas que consiste exactamente de una neurona cuya entrada se ajusta a “1”.
Neuronas de Umbral
La denominada “neurona de umbral” (NP) seconecta a todas las neuronas de la red yactúa como un umbral ajustable para excitara las neuronas.
La ventaja de este modelo es que las conexiones de la NP (y sus umbrales) seentrenan junto con las conexiones “normales” del PMC, haciendo que la configuraciónmanual supérflua.
Predicción de Demanda...
Existen varias medidas de ajuste.Cada una de ellas expresa, de manera
diferente, qué tan lejana está la red bajo entrenamiento de los valores deseados.
Algunas de las posibles normas son MAE, MSE, RMSE y MAPE cuyos histogramas se muestran en la figura15.
Predicción de Demanda...
∑=
−=N
iii etTForecast
NMSE
1
2)arg(1
∑=
−=N
iii etTForecast
NRMSE
1
2)arg(1
∑=
−=N
i i
ii
etTetTForecast
NMAPE
1 argarg1
∑=
−=N
iii etTForecast
NMAE
1arg1
Predicción de Demanda...
Figura 15. Medidas de Ajuste de la Red.
Predicción de Demanda...
Figura 16. Valores reales vs. proyectados
Predicción de Demanda...
Figura 17. Valores reales vs. proyectados (sintendencias)
Conclusiones
Las redes neuronales, en particular los perceptrones multicapa, son herra-mientas adecuadas para hacer análisisde datos que nos permiten clasificar ypredecir acertadamente.
El modelo de aprendizaje, aunque efectivo, tiene el inconveniente de notener características explicativas.