logo

Algoritmo de límite superior de confianza en el aprendizaje por refuerzo

En el aprendizaje por refuerzo, el agente o tomador de decisiones genera sus datos de entrenamiento interactuando con el mundo. El agente debe aprender las consecuencias de sus acciones mediante prueba y error, en lugar de que se le indique explícitamente cuál es la acción correcta.

Problema de bandidos multiarmados

En el aprendizaje por refuerzo, utilizamos el problema de los bandidos armados múltiples para formalizar la noción de toma de decisiones en condiciones de incertidumbre utilizando bandidos armados k. Una persona que toma decisiones o un agente está presente en Multi-Armed Bandit Problem para elegir entre k acciones diferentes y recibe una recompensa según la acción que elija. El problema de Bandit se utiliza para describir conceptos fundamentales en el aprendizaje por refuerzo, como recompensas, pasos de tiempo y valores.



La imagen de arriba representa una máquina tragamonedas también conocida como bandido con dos palancas. Suponemos que cada palanca tiene una distribución separada de recompensas y que hay al menos una palanca que genera la máxima recompensa.

La distribución de probabilidad de la recompensa correspondiente a cada palanca es diferente y desconocida para el jugador (tomador de decisiones). Por lo tanto, el objetivo aquí es identificar qué palanca tirar para obtener la máxima recompensa después de un conjunto determinado de pruebas.

Por ejemplo:

Imagine una prueba de publicidad en línea en la que un anunciante quiere medir la tasa de clics de tres anuncios diferentes para el mismo producto. Cada vez que un usuario visita el sitio web, el anunciante muestra un anuncio de forma aleatoria. Luego, el anunciante controla si el usuario hace clic en el anuncio o no. Después de un tiempo, el anunciante nota que un anuncio parece funcionar mejor que los demás. El anunciante ahora debe decidir entre seguir con el anuncio de mejor rendimiento o continuar con el estudio aleatorio.
Si el anunciante sólo muestra un anuncio, ya no podrá recopilar datos sobre los otros dos anuncios. Quizás uno de los otros anuncios sea mejor, pero por casualidad parece peor. Si los otros dos anuncios son peores, continuar con el estudio puede afectar negativamente a la tasa de clics. Esta prueba publicitaria ejemplifica la toma de decisiones en condiciones de incertidumbre.
En el ejemplo anterior, el papel del agente lo desempeña un anunciante. El anunciante tiene que elegir entre tres acciones diferentes, para mostrar el primer, segundo o tercer anuncio. Cada anuncio es una acción. Elegir ese anuncio genera una recompensa desconocida. Finalmente, el beneficio del anunciante después del anuncio es la recompensa que recibe el anunciante.

Valores de acción:

Para que el anunciante decida qué acción es mejor, debemos definir el valor de realizar cada acción. Definimos estos valores usando la función valor-acción usando el lenguaje de probabilidad. El valor de seleccionar una acción. q*(a) se define como la recompensa esperada Rt recibimos al realizar una acción a del conjunto posible de acciones.


El objetivo del agente es maximizar la recompensa esperada seleccionando la acción que tenga el mayor valor de acción.

Estimación del valor de la acción:

reaccionar estilo en línea

Dado que el valor de seleccionar una acción, es decir q*(a) El agente no lo conoce, por lo que usaremos el promedio de muestra método para estimarlo.

Exploración vs Explotación:

    Acción codiciosa: cuando un agente elige una acción que actualmente tiene el mayor valor estimado. El agente explota su conocimiento actual eligiendo la acción codiciosa. Acción no codiciosa: cuando el agente no elige el valor estimado más grande y sacrifica la recompensa inmediata con la esperanza de obtener más información sobre las otras acciones. Exploración: Permite al agente mejorar su conocimiento sobre cada acción. Con suerte, esto conducirá a un beneficio a largo plazo. Explotación: permite al agente elegir la acción codiciosa para intentar obtener la mayor recompensa por un beneficio a corto plazo. Una selección de acción puramente codiciosa puede llevar a un comportamiento subóptimo.

Se produce un dilema entre exploración y explotación porque un agente no puede elegir explorar y explotar al mismo tiempo. Por lo tanto, utilizamos el Límite superior de confianza algoritmo para resolver el dilema exploración-explotación

Selección de acción con límite de confianza superior:
La selección de acciones con límite superior de confianza utiliza la incertidumbre en las estimaciones del valor de la acción para equilibrar la exploración y la explotación. Dado que existe una incertidumbre inherente en la precisión de las estimaciones del valor de la acción cuando utilizamos un conjunto de recompensas muestreadas, UCB utiliza la incertidumbre en las estimaciones para impulsar la exploración.

parámetro en el script de shell

qt(a) Aquí se representa la estimación actual de acción. a en el momento t . Seleccionamos la acción que tiene el valor de acción estimado más alto más el término de exploración del límite superior de confianza.

P(A) en la imagen de arriba representa la estimación del valor de acción actual para la acción A . Los paréntesis representan un intervalo de confianza alrededor q*(A) lo que dice que estamos seguros de que el valor de acción real de la acción A se encuentra en algún lugar de esta región.

El paréntesis inferior se llama límite inferior y el paréntesis superior es límite superior. La región entre paréntesis es el intervalo de confianza que representa la incertidumbre en las estimaciones. Si la región es muy pequeña, entonces estamos muy seguros de que el valor real de la acción A está cerca de nuestro valor estimado. Por otro lado, si la región es grande, entonces no estamos seguros de que el valor de la acción A está cerca de nuestro valor estimado.

El Límite superior de confianza Sigue el principio de optimismo ante la incertidumbre que implica que si no estamos seguros de una acción, debemos asumir con optimismo que es la acción correcta.

Por ejemplo, digamos que tenemos estas cuatro acciones con incertidumbres asociadas en la imagen siguiente, nuestro agente no tiene idea de cuál es la mejor acción. Entonces, de acuerdo con el algoritmo UCB, seleccionará de manera optimista la acción que tenga el límite superior más alto, es decir, A . Al hacer esto, tendrá el mayor valor y obtendrá la mayor recompensa, o al realizarlo aprenderemos sobre una acción que menos conocemos.

Supongamos que después de seleccionar la acción A Terminamos en el estado que se muestra en la imagen de abajo. Esta vez la UCB seleccionará la acción. B desde Q(B) tiene el límite superior de confianza más alto porque su estimación del valor de la acción es la más alta, aunque el intervalo de confianza sea pequeño.

Inicialmente, UCB explora más para reducir sistemáticamente la incertidumbre, pero su exploración se reduce con el tiempo. Así podemos decir que UCB obtiene una mayor recompensa en promedio que otros algoritmos como Epsilon-greedy, Optimistic Initial Values, etc.