Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México




descargar 304.79 Kb.
títuloLas redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México
página5/7
fecha de publicación05.12.2015
tamaño304.79 Kb.
tipoDocumentos
med.se-todo.com > Economía > Documentos
1   2   3   4   5   6   7

El Perceptrón Multicapa


Si añadimos capas intermedias (ocultas) a un perceptrón simple, obtendremos un perceptrón multicapa o MLP (Multi-Layer Perceptrón). Esta arquitectura suele entrenarse mediante el algoritmo denominado retropropagación de errores o BP, o bien haciendo uso de alguna de sus variantes o derivados, motivo por el que en muchas ocasiones el conjunto arquitectura MLP + aprendizaje BP suele denominarse red de retropropagación, o simplemente BP.
Como se describe en el proceso de desarrollo del BP resulta una curiosa historia de redescubrimientos y olvidos. Al parecer, fue Werbos quien introdujo por primera vez el BP en su tesis doctoral en 1974, pero el hecho no tuvo demasiada repercusión en la época. Años más tarde, hacia 1984, el BP fue redescubierto por D. Parker, y casi a la vez (1985) por el grupo de PDP quienes realmente lo popularizaron. Además, existe un procedimiento matemático recursivo empleado en control, de apariencia similar al BP, que data de 1969.
Pese a todo, el mérito del éxito de BP se debe al trabajo del grupo PDP, que lo presentaron a la comunidad internacional como una técnica útil de resolución de problemas complejos, lo que despertó el interés, no solo por el perceptrón, sino por el campo de la neurocomputación en general. Los importantes requisitos de cómputo que el algoritmo BP precisa no podían ser satisfechos con los medios disponibles a principios de los setenta, por lo que el primer descubrimiento del BP era quizás algo prematuro. Por fin en los años ochenta los computadores eran suficientemente potentes como para permitir la aplicación del BP a problemas de interés, lo cual permitió que el grupo PDP pudiera mostrar su gran potencial de aplicabilidad a la resolución de tareas complejas.
La estructura del MLP se presenta en las Figuras 2.10 y 2.11 Denominaremos a las entradas de la red, serán las salidas objetivo (target). Por otro lado, son los pesos de la capa oculta y sus umbrales, los pesos de la capa de salida y sus umbrales. La operación de un MLP con una capa oculta y neuronas de salida lineal (estructura que constituye, como veremos, un aproximador universal de funciones) se expresa matemáticamente de la siguiente manera:

Siendo ƒ (.) de tipo sigmoideo (Figura 2.10), como por ejemplo, las siguientes:



Proporcionando la primera una salida en el intervalo [0,+1] la segunda.
Ésta es la arquitectura más común de MLP, aunque existen numerosas variantes, como incluir neuronas no lineales en la capa de salida (del mismo tipo que las (2.47), solición que se adopta especialmente en problemas de clasificación), introducir más capas ocultas, emplear otras funciones de activación, limitar el número de conexiones entre una neurona y las de la capa siguiente, introducir dependencias temporales o arquitecturas recurrentes [Werbos 90], etc.


        1. EL MLP como aproximador universal de funciones


El desarrollo del MLP durante los últimos treinta años ha resultado curioso. Partiendo de un perceptrón monocapa y observando sus limitaciones computacionales, se llegó a la arquitectura perceptrón multicapa, y aplicándolo a numerosos problemas, se comprobó experimentalmente que éste era capaz de representar complejos mappings y de abordar problemas de clasificación de gran envergadura, de una manera eficaz y relativamente simple. Sin embargo, faltaba una demostración teórica que permitiese explicar sus aparentemente enormes capacidades computacionales.
Este proceso histórico comienza con McCulloch y Pitts, quienes mostraron que mediante su modelo de neurona (esencialmente un dispositivo de umbral) podría representarse cualquier función booleana; mucho más tarde, Denker y otros demostraron que toda función booleana podía ser representada por una red unidireccional multicapa de una sola capa oculta. Por las mismas fechas, Lippmann mostró que un perceptrón con dos capas ocultas bastaba para representar regiones de decisión arbitrariamente complejas.
Por otra parte, Lapedes y Farber demostraron que un perceptrón de dos capas ocultas es suficiente para representar cualquier función arbitraria (no necesariamente boolena). Más tarde, Hecht-Nielsen aplicando el teorema de Kolmogrov demostró que una arquitectura de características similares al MLP, con una única capa oculta, resultaba ser un aproximador universal de funciones. Por fin, a finales de la década, diverso grupos propusieron casi a la par teoremas muy similares que demostraban matemáticamente que un MLP convencional, de una única capa oculta (ecuación 2.46), constituía, en efecto, un aproximador universal de funciones. A título de ejemplo, enunciaremos uno de estos teoremas.
Teorema [Funahashi 89]. Sea ƒ(x) una función no constante, acotada y monótona creciente. Sea K un subconjunto compacto (acotado y cerrado) de . Sea un número real , y sean un entero tal que que fijamos. En estas condiciones, se tiene que:
Cualquier mapping , con sumables en K, puede ser aproximado en el sentido de la topología en K por el mapping entrada-salida representado por una red neuronal unidireccional (MLP) de k capas (k-2 ocultas), con ƒ(x) como función de transferencia d las neuronas ocultas, y funciones lineales para las de las capas de entrada y de salida. En otras palabras:
MLP de las características anteriores, que implementa el mapping

De manera que


Es más fácil observar que las funciones sigmoideas empleadas habitualmente en el MLP (ecuación (2.47)) cumplen las condiciones exigidas a ƒ(x). Hornik llega a un resultado similar, considerando funciones de activación sigmoideas, no necesariamente continuas.
En resumen, un MLP de una única capa oculta puede aproximar hasta el nivel deseado cualquier función continua en un intervalo , por lo tanto, las redes neuronales multicapa unidireccionales son aproximadores universales de funciones. A partir de la expresión que define la operación de este tipo de red.

Podemos observar que la g’(x) dada por el MLP representa una cierta función g(x), como un desarrollo en funciones sigmoideas , lo cual posee una clara analogía con la representación convenciónal de una función periódica como un desarrollo en serie de Fourier de sinusoides. También se han establecido paralelismos entre el MLP y otros tipos de transformaciones, como la de Gabor o las wavelets.
Los teoremas citados resultan de vital importancia, puesto que proporcionan una sólida base teórica al campo de las redes neuronales, al incidir sobre un aspecto (la aproximación funcional) y un modelo (el MLP) centrales en la teoría de las redes neuronales artificiales. No obstante, todavía quedan muchos asuntos abiertos. Por ejemplo, estos teoremas no informan sobre el número de nodos ocultos necesarios para aproximar una función determinada, simplemente se afirma que hay que colocar lo necesario para lograr el nivel de aproximación requerido. Para un problema concreto, muy bien pudiera ocurrir que el número de neuronas ocultas para alcanzar una cierta cota de error sea tan elevado que su aplicación resulte inabordable en la práctica.
Una solución al problema de entrenar los nodos de las capas ocultas de las arquitecturas multicapa la proporciona el algoritmo de retropropagación de errores o BP (back-propagation). En el marco conceptual que estamos describiendo la deducción del BP aparece como una consecuencia natural de extender el algoritmo LMS a las redes multicapa. Para ello, se planteará un funcional de error similar al (2.43), y se derivará, no sólo en función de los pesos de la capa de salida, sino también en función de los pesos de las neuronas ocultas, haciendo uso de la regla de la cadena; en consecuencia, habrá que exigir que las funciones de transferencia de las neuronas sean derivables.
Sean un MLP de tres capas, cuya arquitectura se presenta en la Figura 2.11, con las entradas, salidas pesos y umbrales de las neuronas definidas en la sección anterior. Dado un patrón de entada ,( recordemos que la operación global de esta arquitectura se expresa del siguiente modo:
Dibujo pag. 66



g(.) es la función de activación de las neuronas de salida y ƒ(.) la de las ocultas. Ambas pueden ser sigmoideas (2.47), aunque a menudo la función de las neuronas de salida g(.) se considera la identidad (2.46) De nuevo partimos del error cuadrático medio como función costo.


Cuya minimización se lleva a cabo mediante descenso por el gradiente; en esta ocasión habrá un gradiente respecto de los pesos de la capa de salida () y otro respecto de los de la oculta

Las expresiones de actualización de los pesos se obtienen derivando teniendo en cuenta las dependencias funcionales y aplicando la regla de la cadena


son los potenciales postsinápticos (o locales). La actualización de los bias (o umbrales) se realiza haciendo uso de las expresiones anteriores, considerando que el bias es un caso particular de peso sináptico, cuya entrada es una constante igual a -1, como vimos ya en el caso de adaline (sección 2.4.1).
En estas expresiones está implícito el concepto de propagación hacia atrás de los errores (backpropagation) que da nombre al algoritmo. En primer lugar se calcula la expresión (2.54), que denominaremos señal de error, por ser proporcional al error de la salida actual de la red, con el que calculamos la actualización de los pesos de las sinapsis, proporcionando así las señales de errores (2.55), correspondientes a las sinapsis de la capa oculta; con éstas se calcula la actualización de las sinapsis ocultas. El algoritmo puede extenderse fácilmente a arquitecturas con más de una capa oculta siguiendo el mismo esquema.
En resumen, el procedimiento a seguir para entrenar mediante BP una arquitectura MLP dada es el siguiente:


  1. Establecer aleatoriamente los pesos y umbrales iniciales (t:=0).

  2. Para cada patrón del conjunto de aprendizaje:

2.1) Llevar a cabo una fase de ejecución para obtener la respuesta de la red ante el patrón (2.51).

2.2) Calcular las señales de error asociadas según (2.54-55)).

3) Calcular el incremento total (para todos los patrones) actual de los pesos según (2.54-55). Hacer lo mismo para los umbrales.

4) Actualizar pesos y umbrales.

5) Calcular el error actual (2.52), t:= t+1, y volver a 2) si todavía no es satisfactorio.
Se debe comenzar siempre con pesos iniciales aleatorios (normalmente números pequeños, positivos y negativos), ya que si se parte de pesos y umbrales iniciales nulos el aprendizaje no progresará (puesto que las salidas de las neuronas y el incremento en los pesos serán siempre nulos). En la siguiente sección se explicará una heurística que permite elegir unos pesos iniciales adecuados.
En el esquema presentado, que surge de forma natural del proceso de descenso por le gradiente, se lleva a cabo una fase de ejecución para todos y cada uno de los patrones del conjunto de entrenamiento, se calcula la variación en los pesos debida a cada patrón, se acumulan, y solamente entonces se procede a la actualización de los pesos.
Este esquema se suele denominar aprendizaje por lotes (batch). Otra posibilidad consiste en actualizar los pesos sinápticos tras la presentación de cada patrón (en vez de presentarlos todos y luego actualizar), esquema denominado aprendizaje en serie (on line). Recientemente se ha demostrado que el aprendizaje en serie estima mejor el gradiente, permite emplear ritmos de entrenamiento mayores y suele ser más rápido (hasta varios órdenes de magnitud). El modo serie es habitualmente empleado en aquellos problemas en los que se dispone de extensos conjuntos de patrones de aprendizaje. Si se emplease en este caso el modo por lotes, el tener que procesar todos los patrones antes de actualizar los pesos demoraría considerablemente el entrenamiento (además de precisar el almacenamiento de numerosos resultados parciales).
Es importante considerar que en el aprendizaje en serie el orden en la presentación de los patrones debe ser aleatorio, puesto que si siempre se siguiese un mismo orden el entrenamiento estaría viciado a favor del último patrón del conjunto de entrenamiento, cuya actualización, por ser la última, siempre predominaría sobre las anteriores. Además, esta aleatoriedad presenta una importante ventaja, puesto que en ocasiones permite escapar de mínimos locales alcanzándose mínimos del error más profundos.
El algoritmo BP constituye un método de gran generalidad, lo que presenta ventajas e inconvenientes. Su ventaja principal es que se puede aplicar a multitud de problemas diferentes, proporcionando con frecuencia buenas soluciones con no demasiado tiempo de desarrollo. No obstante, si se requiere una solución realmente excelente, habrá que dedicar más tiempo al desarrollo del sistema neuronal, teniendo en cuenta diferentes cuestiones adicionales que todavía no hemos abordado (partir de una arquitectura óptima, selección de los pesos iniciales, estilo de aprendizaje, preprocesamiento de los datos de entrada, conjunto de patrones de aprendizaje empleado, utilización de técnicas que eviten el sobreajuste, etc.).
Un inconveniente del BP es su lentitud de convergencia, precio a pagar por disponer de un método general de ajuste funcional que no requiere (en principio) información apriorística. Sin embargo, se debe tener en cuenta que el BP no requiere tanto esfuerzo computacional como el que sería necesario si se tratasen de obtener los pesos de la red mediante la evaluación directa de las derivadas; en ese sentido se ha comparado el BP con la transformada rápida de Fourier, que permite calcular la transformada de Fourier con un muy inferior esfuerzo computacional.
Otro problema del BP es que puede incurrir en el denominado sobre aprendizaje (sobreajuste), fenómeno directamente relacionado con la capacidad de generalización de la red a partir de los ejemplos presentados, y sobre el que profundizaremos en la próxima sección. Po otra parte, debe tenerse en cuenta que el algoritmo BP no garantiza alcanzar el mínimo global de la función error, tan sólo un mínimo local, por lo que el proceso de aprendizaje puede estancarse en uno de estos mínimos locales.

1   2   3   4   5   6   7

similar:

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconLas Redes Neuronales surgieron del movimiento conexionista, que nació...

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconLas redes sociales aplicadas a la práctica docente Juan José de Haro Introducción

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconRedes neuronales en macroeconomia

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconLos pictogramas se desarrollan para simplificar la comunicación de...

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconLos organofosforados son un grupo de pesticidas artificiales aplicados...

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconOmi en la Ciudad de Toluca, Capital del Estado de México, del día...

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconResumen Las redes sociales tienen un gran potencial en Educación,...

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconEl comercio de fármacos falsificados también abarca a los medicamentos...

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconResumen El artículo expone las nociones, conceptos y referentes básicos...

Las redes neuronales artificiales aplicadas a los riesgos de negocios de las pyme’s de servicios en la Ciudad de México iconNinja Saga es uno de los juegos online más populares disponibles...


Medicina



Todos los derechos reservados. Copyright © 2015
contactos
med.se-todo.com