Conoce el término: Aprendizaje por Refuerzo

El aprendizaje por refuerzo, o Reinforcement Learning, es otro tipo de algoritmos de Machine Learning en el que el objetivo es el desarrollo de un sistema (que recibe el nombre de agente) que se desea que mejore su eficiencia realizando cierta tarea basándose en la interacción con su entorno. Para ello, el agente recibe recompensas que le permiten adaptar su comportamiento.

Para simular el aprendizaje de sistemas biológicos reales necesitamos hacer algunas suposiciones que simplifican el comportamiento de nuestros agentes (o aprendices). Estas simplificaciones nos permitirán tener un método más flexible para proyectar diversas situaciones con el mismo sistema y, a la vez, nos permitirá extraer conclusiones más generales acerca de las propiedades de los algoritmos que implementen estos planes de aprendizaje.

El objetivo del aprendizaje por refuerzo es extraer qué acciones deben ser elegidas en los diferentes estados para maximizar la recompensa. En cierta forma, buscamos que el agente aprenda lo que se llama una política, que formalmente podemos verla como una aplicación que dice en cada estado qué acción tomar. Dividiremos la política del agente en dos componentes: por una parte, cómo cree el agente que es una acción buena sobre un estado determinado y, por otra, cómo usa el agente lo que sabe para elegir una de las acciones posibles.

En la economía y la teoría de juegos, aprendizaje por refuerzo se puede utilizar para explicar cómo puede surgir equilibrio bajo la racionalidad limitada. En aprendizaje de máquina, el medio ambiente es formulado generalmente como un proceso de decisión de Markov (MDP), y muchos algoritmos de aprendizaje por refuerzo son altamente relacionados con técnicas de la programación dinámica. La principal diferencia entre las técnicas clásicas y algoritmos de aprendizaje por refuerzo es que este último no es necesario, el conocimiento de los MDP y se dirigen a grandes MDPs donde los métodos exactos se convierten en no viables. Aprendizaje por refuerzo difiere del estándar de aprendizaje supervisado en el que los pares de entradas/salidas correctas nunca se presentan, ni acciones subóptimas corregidas explícitamente. Además, hay un enfoque en el rendimiento en línea, que consiste en encontrar un equilibrio entre la exploración (de un territorio desconocido) y explotación (de los conocimientos actuales).

Para la Inteligencia Artificial la computadora aprende a escoger una de varias acciones posibles para lograr el mejor resultado. En un juego de mesa, por ejemplo, la computadora buscaría el mejor movimiento, dentro de todos los movimientos posibles, para poder ganar al contrincante. En un vehículo de automanejo, la computadora, como chófer del vehículo, efectuaría movimientos sobre el volante, freno y acelerador en cada momento para llevar el vehículo a su destino de manera segura.

De una manera más formal, se puede frasear el aprendizaje por refuerzo en términos de un agente que interactua con un ambiente representado por un estado dentro de un conjunto de estados posibles. Por ejemplo, en un juego de mesa, el estado sería una representación del tablero del juego. El agente cuenta con una serie de posibles acciones para cada estado. Al escoger una acción, se efectúa y el ambiente cambia, devolviéndole un estado nuevo y una remuneración (positiva o negativa) por haber llegado al mismo estado. El objetivo del agente, entonces, es buscar las acciones que le dejan la máxima cantidad de remuneraciones durante la duración de la experiencia. En otras palabras, el agente intenta encontrar la mejor política de escoger acciones en diferentes estado del ambiente para optimizar la valuación que corresponde a la totalidad de esas remuneraciones.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s