Date post: | 30-Dec-2015 |
Category: |
Documents |
Upload: | austin-barry |
View: | 26 times |
Download: | 0 times |
Algoritmo de Retropropagación
Conclusiones de Retropropagación
1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal de error . Ambas están asociadas a la neurona j.
)(ne j
))((' nv jj)(nj
Conclusiones de Retropropagación
2. Si la neurona j es un nodo escondido, es igual al producto de la derivada asociada y la suma pesada de las calculada para las neuronas de la siguiente
capa escondida o de salida que se conectan a la neurona j.
)(nj
s))((' nv jj
Conclusiones de Retropropagación
La corrección aplicada a está definida por la regla delta:
y:)(
)()(
nw
nnw
jiji
)(nw ji )(nw ji
)1()()()( nynnw ijji
Conclusiones
Cuando el nodo j es de salida:
Cuando el nodo j es escondido:
))((')()( nvnen jjjj
))(('))()(()( nvnyndn jjjjj
k
kjkjj nwnnvn )()())((')(
Conclusiones
Logística
Ya que
10)(0
1
1))((
)(
j
j
navjj
ynv
ae
nvj
2)(
)(
1))(('
))(()(
nav
nav
jj
jjj
j
j
e
eanv
nvny
Logística
Entonces
y
para una neurona de salida
))(1)(()]()([))((')()(
nOnOnOndanvnen
jjjj
jjjj
)())(1)(()]()([)( nynOnOnOndanw ijjjjji
Logística
Análogamente
y, para una neurona escondida:
)()())(1)((
)()())((')(
nwnnynay
nwnnvn
Kkjkjj
Kkjkjjj
)()]()())(1)(([)( nynwnnynaynw iK
kjkjjji
Logística
Nótese que es máxima en 0.5 y mínima en o (de (1)).
Para una logística, entonces, los pesos sinápticos se cambian más para aquellas neuronas en donde las señales de la función están en los rangos medios.
))((' nv jj0)( ny j 1)( ny j
Tangente Hiperbólica
))())(((
))]((1[
))(())(('0),())(())((
2
nyanyaa
bnbvtanhab
nbvsechabnvba
nbvtanhanv
jj
j
j2
jj
jjj
Tangente Hiperbólica
Para la capa de salida
)]()][()][()([
))((')(
nOanOanOnda
bnvn
jjjj
jjj
)()]()][()][()([)( nynOanOanOnda
bnw ijjjjji
Tangente Hiperbólica
Para una capa escondida:
)()()]()][(([
)()())((')(
nwnnyanyab
a
nwnnvn
Kkjkjj
Kkjkjjj
)()]()()]()][(([)( nynwnnyanyab
anw i
Kkjkjjji
Momento
El algoritmo de RP “aproxima” la trayectoria en el espacio de los pesos por el método de gradiente máximo.
A una pequeña corresponden pequeños cambios en la trayectoria del descenso y éstos son más suaves. Si es grande los cambios pueden ser inestables (oscilatorios).
Momento
Una forma de incrementar y evitar inestabilidad consiste en modificar la regla delta, de esta manera:
En donde es la constante de momento. Controla el lazo de retroalimentación que se ilustra en la siguiente figura. En ésta es el operador de retardo unitario.
)2()()()1()( nynnwnw ijjiji
1z
Momento
Momento
Si re-escribimos (2) como una serie de tiempo con un índice t, en donde t va desde el instante 0 hasta el tiempo actual n, tenemos:
n
tij
tnji tyttw
0
)()()(
Momento
Ya que
y
vemos que
)())((')()(
)(nynvne
nw
nijjj
ji
))((')()( nvnen jjjj
)(
)()()(
nw
nnyn
jiij
Momento
y podemos escribir, entonces
n
t ji
tnji tw
ttw
0)(
)()(
Momento
Comentarios:– El ajuste actual representa la suma
de una serie de tiempo ponderada exponen-cialmente. Para que converja:
– Cuando tiene el mismo signo en iteraciones consecutivas, crece en magnitud y se ajusta en cantidades grandes.
)(nw ji
10 )(/)( twt ji
)(nw ji)(nw ji
Momento
– Cuando tiene signos diferentes en iteraciones consecutivas, la suma
– disminuye de tamaño y se ajusta en pequeñas cantidades.
El momento acelera el descenso en direcciones de bajada constantes
El momento estabiliza el proceso en direcciones que cambian de sentido
)(/)( twt ji)(nw ji
)(nw ji
Heurísticos
pequeño es más lento pero permite convergen-cia más profunda
entonces produces una conver-gencia más rápida.
implica que para garantizar convergencia
0 1
1 0
Heurísticos
Tamaño del conjunto de prueba– N = tamaño de conjunto de entrenamiento– W = número de pesos en la red
– (razón de entrenamiento)
– W>>1
)1(2
1121
W
Wr
Wr
2
11
Heurísticos
Ejemplo: W=150 ropt=0.07 93% de los datos (140) se usan para
entrenamiento 7% de los datos (10) se usan para prueba
Heurísticos
Función de Activación– Una red RP puede aprender más rápidamente si
la sigmoide es antisimétrica:
– por ejemplo
)()( vv
)()( bvtanhav
Heurísticos
Valores adecuados para a y b (determinados experimentalmente) son:– a=1.7159– b=2/3
Por lo tanto:– a)– b)
1)1(1)1( y
1424.16667.07159.1
)0(
ab
Heurísticos
Es decir, en el origen, la pendiente (la ganancia activa) es cercana a la unidad– c) La segunda derivada de es máxima en
v=1. )(v
Heurísticos
Heurísticos
Los valores objetivo deben ser elegidos en el rango de la función de activación
La respuesta deseada en la capa L debe de ser desplazada del valor límite.
Por ejemplo:
17159.0
j
jdsi
ad
Heurísticos
El valor medio (sobre el conjunto de entrenamiento) debe ser 0 o pequeño comparado con
Los valores no debe estar correlacionados Las variables deben escalarse de manera que sus
covarianzas sean aproximadamente iguales.– Esto garantiza que las ws se aprendan a las
mismas velocidades aproximadamente.
Heurísticos
Las variables deben ser equi-espaciadas en el intervalo de observación– Si esto no es posible, es conveniente usar un
spline natural para completar los datos faltantes
Heurísticos (Inicialización)
Consideremos una RPR con tanh como función de activación. Si el umbral es 0 :
Sea
y
m
iijij ywv
1
iyE iy 0
Heurísticos
Si las entradas no están correlacionadas
Tomemos las de una distribución uniforme con
ik
ikyyE ki 0
1
sw ji '0
),(0][ jipareslostodosparawE jiw
Heurísticos
Entonces la media y la varianza de son:
y
jv
m
iiji
m
iiji
m
iijijv
yEwEywE
ywEvE
11
1
Heurísticos
2
1
2
1 1
1 1
222 ][)(
w
m
iji
m
iki
m
kjkji
m
i
m
kkijkji
jjjv
mwE
yyEwwE
yywwE
vEvE
Heurísticos
en done m es el número de conexiones sinápticas a una neurona.
Es decir, queremos inicializar de manera que esté en la transición de la parte lineal y
saturada de su función de activación tanh. Para tanh, como se especificó antes, esto se logra (a=1.7159; b=0.6667) haciendo que en
y
jiw
v
22wv m
1v 2/1mw
Heurísticos
Es decir, deseamos una distribución de la cual las se tomen con y igual al
recíproco del número de conexiones sinápticas sw ji ' 0 2
mw12
Heurísticos