top of page
CS322 - 强化学习高级
Advanced Reinforcement Learning

3学分

12学时

4周

授课老师:

高民权

授课时间:

11月18日 - 12月9日

每周六晚上19:00 - 22:00

关键词:

Self-Playing, Policy Gradient, REINFORCE, PPO, TRPO, GAE, DDPG, Actric-Critic, Continuous Controlling, Robotics Controlling, 多智能体强化学习,HAPPO,HATRPO,AlphaZero原理

课程内容:

在这门高级强化学习课程中,我们将进一步探索强化学习的前沿知识和技术,并学习一些与特定领域相关的应用。通过这门高级强化学习课程,您将深入了解自我对弈、策略梯度、REINFORCE、PPO、TRPO、GAE、DDPG、actor-critic、连续控制、机器人控制、多智能体强化学习、HAPPO、HATRPO和AlphaZero等前沿强化学习算法和应用。这些知识将为您在强化学习领域的研究和实践中提供深入的理解和实用的技能。
首先,我们将介绍自我对弈(Self-Playing)方法,这是一种通过让智能体与自身进行对弈来进行训练的方法。我们将学习如何使用自我对弈来提高智能体的性能和学习效率。我们将学习AlphaGo,AlphaZero的原理并且实现五子棋版本的AlphaZero,通过自我对弈让模型更加智能。
接下来,我们将深入研究策略梯度(Policy Gradient)方法,包括REINFORCE算法、PPO算法和TRPO算法。我们将学习如何直接优化策略,通过梯度上升来更新智能体的参数,从而实现更好的性能和稳定性。
然后,我们将介绍广义优势估计(Generalized Advantage Estimation,GAE)方法,它是一种用于估计动作值函数和策略优势的技术。我们将学习如何使用GAE来提高强化学习算法的效果。
接着,我们将研究深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法和演员-评论家(Actor-Critic)方法。DDPG算法是一种用于连续动作控制的强化学习算法,而演员-评论家方法则是一种结合了策略梯度和值函数估计的方法。
我们还将探讨机器人控制(Robotics Controlling)和多智能体强化学习(Multi-Agent Reinforcement Learning)的应用。我们将学习如何将强化学习应用于机器人控制任务,并研究多智能体环境中的协同与竞争问题。
最后,我们将介绍HAPPO和HATRPO两种先进的强化学习算法。HAPPO算法是一种用于多智能的连续动作控制的高效强化学习算法,而HATRPO算法是一种多智能体的高效TRPO的方法。
这些知识将为您在强化学习领域的研究和实践中提供深入的理解和实用的技能。

© 2023 Advanced Learning. 北京明诠科技工作室91110108MA7DE5KRX7. All rights reserved.

bottom of page