Tipo de Funciones de Activación en Redes Neuronales

'Activation Functions in Neural Networks'

Las funciones de activación para redes neuronales son una parte esencial del aprendizaje profundo ya que deciden la precisión y eficiencia del modelo de entrenamiento utilizado para crear o dividir una red neuronal a gran escala y la salida de los modelos de aprendizaje profundo. La función de activación es una herramienta valiosa para las redes neuronales ya que les permite centrarse en los datos relevantes mientras descartan el resto. Al igual que cualquier otra función, la función de activación (la función de transferencia) toma una entrada y devuelve una salida proporcional a esa entrada. La función de activación de un nodo en una red neuronal especifica la salida del nodo en respuesta a una entrada o grupo de entradas específicas.

Eligen eficazmente qué neuronas activar o desactivar para lograr el resultado deseado. La entrada también se transforma no linealmente para mejorar el rendimiento en una red neuronal sofisticada. Cualquier información en el rango de 1 a -1 puede tener su salida normalizada con la función de activación. Dado que las redes neuronales a menudo se entrenan con millones de puntos de datos, es esencial que la función de activación sea rápida y que minimice la cantidad de tiempo necesaria para calcular los resultados.

Echemos un vistazo a la estructura de las redes neuronales ahora y veamos cómo se organiza la arquitectura de las redes neuronales y qué elementos están presentes en las redes neuronales.

Una red neuronal artificial contiene una gran cantidad de neuronas individuales vinculadas. Se especifica la función de activación, el sesgo y el peso de cada una.

  • Capa de entrada – Los datos sin procesar del dominio se envían a la capa de entrada. Esta capa es el nivel más bajo donde se realiza cualquier cálculo. Lo único que hacen estos nodos es transmitir datos a la siguiente capa oculta.
  • Capa oculta – Al recibir características de la capa de entrada, la capa oculta realiza varios cálculos antes de pasar el resultado a la capa de salida. Los nodos de la Capa 2 están ocultos a la vista, proporcionando una capa de abstracción para la red neuronal subyacente.
  • Capa de salida – La salida de la capa oculta de la red se reúne en esta capa, que proporciona el valor final de la red.

Importancia de las funciones de activación

Dado que una ecuación lineal es un polinomio de solo un grado, una red neuronal sin una función de activación es simplemente un modelo de regresión lineal. Es fácil de resolver pero está limitado en su capacidad para abordar problemas complicados o polinomios de grado superior.

Una función de activación se utiliza en una red neuronal para proporcionar no linealidad. Aunque el cálculo de la función de activación agrega un paso adicional en cada capa durante la propagación hacia adelante, vale la pena el esfuerzo.

En su ausencia, cada neurona realizará una transformación lineal en las entradas utilizando los pesos y sesgos. La composición de dos funciones lineales es una función lineal en sí misma; por lo tanto, el número total de capas ocultas en la red neuronal no afecta su comportamiento.

Tipos de funciones de activación

La red neuronal se clasifica principalmente en tres partes bajo las cuales se utilizan diferentes funciones de activación.

  1. Función de paso binario
  2. Función lineal
  3. Función de activación no lineal

Función de Activación de Red Neuronal de Paso Binario

  1. Función de Paso Binario

Esta función de activación es bastante simplista, sirviendo principalmente como un clasificador basado en umbrales en el que establecemos un valor de umbral para determinar si se activa la salida de una neurona en particular. Si el valor de la entrada a la función de activación es mayor que un cierto umbral, la neurona se activa y su salida se pasa a la siguiente capa oculta; de lo contrario, la neurona se desactiva.

Limitaciones:

  • No es adecuado para problemas que requieren múltiples valores, como la clasificación multiclase, porque solo proporciona resultados de un solo valor.
  • Dado que la función de paso no tiene un gradiente, el retropropagación encuentra dificultades.

Función de Activación de Red Neuronal Lineal

  1. Función Lineal

Se llama función de activación lineal a una función de activación en la que la salida es igual a la entrada. Esta función también se llama “sin activación” o “función identidad” (x1.0). La función toma la suma ponderada de la entrada y devuelve el valor sin cambiarlo. En otras palabras, nuestra función es proporcional al total de neuronas o entradas. Por lo tanto, tenemos una función de activación lineal. Generar una amplia gama de activaciones es más eficiente utilizando funciones de activación lineales. Una línea con una pendiente positiva puede aumentar la frecuencia de disparo en respuesta a un aumento en la tasa de entrada.

Limitaciones:

  • No se puede utilizar la retropropagación ya que la derivada de la función es constante y no tiene relación con la entrada x.
  • La última capa de la red neuronal siempre es una función lineal de la primera capa. Una función de activación lineal elimina todas sus capas para reducir la red neuronal a su forma más simple. Cuando se aplica una función de activación lineal a una red neuronal, todas las capas se fusionarán efectivamente en una sola supercapa.

Función de Activación No Lineal de la Red Neuronal

  1. Función de Activación Sigmoidal

Esta función acepta números reales como entrada y devuelve enteros entre 0 y 1. El valor de salida estará más cerca de 1.0 cuanto mayor (más positiva) sea la entrada y estará más cerca de 0.0 cuanto menor (más negativa) sea la entrada. Como resultado, encuentra su aplicación más común en modelos cuya salida requiere predicción de probabilidad. Una distribución sigmoide es apropiada ya que todas las probabilidades se encuentran entre 0 y 1. También se le llama función logística.

Limitaciones:

  • Las funciones logísticas no producen resultados simétricos cerca de cero. Esto garantiza que todas las salidas de las neuronas compartan el mismo signo. Esto complica el entrenamiento inherentemente inestable de la red neuronal.

2.  Función de Activación ReLU (Rectified Linear unit)

Hoy en día, ReLU es la función de activación más popular. Esto se debe a que es un componente crucial de cualquier sistema de aprendizaje profundo o red neuronal convolucional. Si bien el rango de 0 a infinito de la función presenta algunos desafíos, el hecho de que los valores negativos se conviertan en cero a una tasa tan alta significa que no se ajustan ni se ajustan correctamente a los datos. El problema crítico es que la función ReLU no activa todas las neuronas simultáneamente. Las neuronas se apagan cuando la transformación lineal produce un valor menor que 0. Dado que ReLU es lineal y no saturante, acelera el enfoque del descenso de gradiente hacia el mínimo global de la función de pérdida.

Limitaciones:

  • Debido a la posibilidad de que los pesos se vuelvan negativos con una tasa de aprendizaje alta, el término de salida también podría ser perjudicial. Reducir la tasa de aprendizaje es una posible solución para esto.
  • La capacidad del modelo para ajustarse o aprender correctamente a partir de los datos se ve afectada ya que todos los valores de entrada negativos se establecen instantáneamente en cero.

3.  Función Tanh

La función Tanh también se conoce como función hiperbólica. Tanh es una versión mejorada de la función sigmoide logística. La función tanh tiene un rango de (-1 a 1). Tanh también es sigmoidal (con forma de S). Las entradas negativas se mapean fuertemente de manera negativa, mientras que las entradas cero se mapean cerca de cero, lo cual es una ventaja al trazar un gráfico de tanh. Podemos diferenciar la función. Si bien la función en sí es monótona, su derivada no lo es.

Limitaciones:

  • Al igual que la función de activación sigmoide, sufre el problema de gradientes que desaparecen. Y el gradiente de la función tanh es mucho más pronunciado que el de la sigmoidal.

4.  Función Leaky ReLU

Debido a su ligera pendiente positiva en la zona negativa, Leaky ReLU es una variante mejorada de la función ReLU que se puede utilizar para evitar el problema del “Dying ReLU”. En consecuencia, los nodos no se apagan y se evita el problema de las neuronas que mueren, ya que los valores negativos no se convierten en 0.

Limitaciones:

  • La tarea de aprender los parámetros del modelo puede ser tediosa cuando el gradiente es mínimo para valores negativos.

5.  Función Parametric ReLU

La función P-ReLU o Parametric ReLU es una variante de la función Leaky ReLU que busca reemplazar la mitad negativa de ReLU con una línea de pendiente.

Limitaciones:

  • Dependiendo del valor del parámetro de pendiente, puede producir resultados variables para diversos problemas.

6.  Función Exponential Linear Units (ELU)

La función de activación ELU es otra opción conocida por su convergencia rápida y salida de alta calidad. Se sustituye una función exponencial modificada para la terminal negativa. Desafortunadamente, esto conlleva una sobrecarga computacional creciente, pero al menos el problema de ReLU ya no es terminal. Reduce la probabilidad de que se produzca el problema de ReLU “muerto” al proporcionar una curva “logarítmica” para los valores de entrada negativos. Ayuda a la red a ajustar sus sesgos y pesos adecuadamente.

Limitaciones:

  • La inclusión de una operación exponencial causa un aumento en el tiempo de procesamiento.
  • El valor de ‘a’ no se adquiere de ninguna manera, y el problema de explosión del gradiente es una de las principales limitaciones.

7.  Función de Unidades Lineales Exponenciales Escaladas

La normalización interna es manejada por SELU, que fue desarrollada para redes de auto-normalización y asegura que la media y la varianza de cada capa se mantengan. Al modificar la media y la varianza, SELU hace posible esta normalización. Debido a que la función de activación ReLU no puede producir valores negativos, SELU puede mover la media de formas previamente imposibles. La varianza puede ser modificada mediante el uso de gradientes.

Para ser amplificada, la función de activación SELU requiere un área con un gradiente mayor a uno. La convergencia de la red ocurre más rápidamente cuando se utiliza una normalización interna mayor a la normalización externa.

8.  Función de Unidades Lineales de Error Gaussiano

Muchos de los modelos de procesamiento de lenguaje natural más populares, como BERT, ROBERTa y ALBERT, son compatibles con la función de activación GELU. Esta función de activación combina las cualidades de Dropout, zoneout y ReLUs. En todas las tareas de visión por computadora, procesamiento de lenguaje natural y reconocimiento de voz, la no linealidad de GELU mejora el rendimiento más que las activaciones ReLU y ELU.

9.  Función de Activación Softmax

De la misma manera que la activación sigmoid asigna un valor a cada variable de entrada en función de su peso, softmax asigna un valor a cada variable de entrada en función de la suma de estos pesos, que en última instancia es uno. Por esta razón, softmax se utiliza típicamente en la capa de salida, la capa final utilizada para la toma de decisiones.

Conclusión

Para comprender y llevar a cabo tareas cada vez más complicadas, la entrada a menudo se somete a una transformación no lineal, y funciones de activación como estas desempeñan un papel crucial en este proceso. Las capas ocultas de una red neuronal suelen tener la misma función de activación. Dado que los parámetros de la red pueden ser aprendidos mediante retropropagación, esta función de activación debe ser diferenciable. Hemos cubierto las funciones de activación más comunes, sus limitaciones (si las hay) y cómo se utilizan.

A pesar de la amplia familiaridad con la “Función de Activación”, a pocos les gusta contemplar sus efectos. Por qué se utilizan, cómo contribuyen, qué se debe decir, etc. Aunque los problemas pueden parecer sencillos, la dinámica subyacente puede ser bastante complicada.

Referencias:

  • https://www.analyticssteps.com/blogs/7-types-activation-functions-neural-network
  • https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6
  • https://thehackweekly.com/8-most-popular-types-of-activation-functions-in-neural-networks/
  • https://www.v7labs.com/blog/neural-networks-activation-functions

El artículo <strong>Tipo de Funciones de Activación en Redes Neuronales</strong> apareció primero en MarkTechPost.