Esta página ha sido traducida por una máquina. Otras páginas pueden seguir apareciendo en inglés. View in English

COMRL causal: aprendizaje de meta refuerzo fuera de línea basado en el contexto con representación causal

  • 0School of Software, Shandong University, Jinan, 250101, China.

Resumen

Este resumen es generado por máquina.

CausalCOMRL mejora el aprendizaje de meta-refuerzo fuera de línea mediante el uso de aprendizaje de representación causal para evitar correlaciones espurias. Esto mejora la generalización y el rendimiento de los agentes de aprendizaje por refuerzo en nuevas tareas.

Área De La Ciencia

  • Inteligencia artificial
  • Aprendizaje automático
  • Aprendizaje por refuerzo

Sus Antecedentes

  • El aprendizaje de meta-refuerzo fuera de línea (OMRL) utiliza conjuntos de datos fuera de línea para el aprendizaje de representación de tareas.
  • Los métodos existentes sufren de correlaciones espurias debido a factores de confusión, lo que limita la generalización.
  • Las correlaciones inducidas por confusión degradan el rendimiento de la política cuando las tareas de prueba difieren de las tareas de capacitación.

Objetivo Del Estudio

  • Proponer CausalCOMRL, un nuevo método de OMRL basado en el contexto que integra el aprendizaje de la representación causal.
  • Abordar las correlaciones espurias y mejorar la generalización de los agentes de aprendizaje por refuerzo.
  • Mejorar la distinción de las representaciones de tareas en diferentes tareas.

Principales Métodos

  • Representación causal Aprender a descubrir las relaciones causales entre los componentes de la tarea.
  • Optimización mutua de la información y aprendizaje contrastante para mejorar la distinción de la representación de tareas.
  • Algoritmo Soft Actor-Critic (SAC) para la optimización de las políticas utilizando representaciones de tareas causales.

Principales Resultados

  • COMRL causal demuestra un rendimiento superior en comparación con los métodos existentes en la mayoría de los puntos de referencia de meta-RL.
  • El método mitiga efectivamente el impacto negativo de las correlaciones espurias.
  • Las representaciones de tareas causales conducen a una mejor generalización en los agentes de aprendizaje por refuerzo.

Conclusiones

  • CausalCOMRL ofrece un enfoque sólido para el OMRL basado en el contexto mediante el aprovechamiento de la inferencia causal.
  • La integración del aprendizaje de la representación causal mejora significativamente el rendimiento y la generalización del agente.
  • Este trabajo avanza en el campo de la OMRL al proporcionar un método para superar las limitaciones inducidas por la confusión.

Videos de Conceptos Relacionados

Cognitive Learning 01:21

517

Cognitive learning is based on purposive behavior, incidental learning, and insight learning.
E. C. Tolman's theory of purposive behavior emphasizes that much behavior is goal-directed. He argued that to understand behavior, we must look at the entire sequence of actions leading to a goal. For instance, high school students study hard, not just due to past reinforcement but also to achieve the goal of getting into a good college.
Tolman introduced the idea that behavior is influenced by...

Purposive Learning 01:22

206

E. C. Tolman emphasized the purposiveness of behavior — the idea that much of our behavior is goal-directed. For instance, employees who aim for a promotion work diligently to meet their targets. Tolman argued that when classical conditioning and operant conditioning occur, the organism acquires certain expectations. In classical conditioning, a child might fear a dog because they expect it to bite. In operant conditioning, a person might consistently work overtime because they expect a...

Reinforcement 01:23

341

Positive and negative reinforcement are key concepts in operant conditioning, a learning process where the consequences of a behavior affect the likelihood of that behavior being repeated.
Positive reinforcement occurs when a behavior is followed by the presentation of a rewarding stimulus, increasing the frequency of that behavior. For example:

• If a person smiles at you after you greet them and you continue talking, the smile is a positive reinforcement for your greeting.
•...

Observational Learning 01:12

311

Albert Bandura's observational learning, also known as imitation or modeling, occurs when a person observes and imitates another's behavior. It is a quicker process than operant conditioning. A well-known example is the Bobo doll study, where children who saw an adult acting aggressively towards the doll were more likely to act aggressively when left alone, compared to those who observed a nonaggressive adult. Many psychologists view observational learning as a form of latent learning...

Reinforcement Schedules 01:24

241

Positive reinforcement is a powerful method for teaching new behaviors to both animals and humans. B.F. Skinner demonstrated this with his experiments using rats in a Skinner box. When a rat pressed a lever, it received a food pellet. This immediate reward encouraged the rat to repeat the behavior. This method, where a reward follows every instance of the behavior, is known as continuous reinforcement. It is highly effective for establishing new behaviors quickly.
Once a behavior is learned,...

Associative Learning 01:27

572

Associative learning is a fundamental concept in behavioral psychology, wherein a connection is established between two stimuli or events, leading to a learned response. This process is critical in understanding how behaviors are acquired and modified. Conditioning, the mechanism through which associations are formed, can be divided into two main types: classical conditioning and operant conditioning, each elucidating different aspects of associative learning.
Classical conditioning, also known...