强化学习智能决策
Reinforcement Learning & Decision Making

授课老师:
开课时间:
上课时间:
总长:
学费:
高民权
2023年10月22日
每周六 早上9:00-12:00
四个月
高级研讨班:RMB 5800
综合实战班:RMB 8800
Offer直达班:RMB 13800
* 高级研讨班包括:本方向所有内容。
* 综合实战班包括:本方向所有内容,一个辅修方向(从其他两个方向中选择,与主修同学享有同等待遇,录播长期有效),硬件support( 亚马逊美国服务器的32核CPU服务器集群 + GPU费用课程组cover 60%)
* Offer直达班包括:综合实战班所有权益,外加2个月算法机试强化训练,2次简历修改,2次模拟面试。参加4次由字节,阿里巴巴,百度,华为,微软,Google,Meta,Amazon等技术面试官在线分享招聘进展,用人需求与人才技能模型
总体介绍:
强化学习是一种研究智能体如何具备决策能力的学习方法,例如下围棋、控制游戏AI、控制机器人、无人机等领域,这些应用背后都展现了强化学习的重要能力。强化学习与智能决策方向的学习重点在于培养学习者掌握复杂且前沿的强化学习知识,使他们能够抽象问题并解决实际产业中的挑战,或者参与先进的科研项目。
具体内容包括强化学习的基本原理,如马尔科夫过程和贝尔曼方程。同时,还会学习关于时间差分学习、SARSA、深度强化学习和Q-Learning等方面的知识。另外,还会深入研究基于策略梯度的先进强化学习方法,如策略梯度、PPO、TRPO、GAE,以及多智能体学习方法,如MAPPO、HATRPO和HAPPO等。
此外,我们还将学习强化学习中非常重要的自训练方法,即通过研究AlphaZero的原理,并从头实现AlphaZero的五子棋版本。通过这个项目,学习者将深入了解自训练方法的实际应用,以及如何通过强化学习来实现具有超人水平的五子棋AI。
通过学习强化学习与智能决策方向,学习者将掌握复杂而前沿的强化学习知识,具备解决实际产业问题或参与先进科研项目的能力。他们将了解强化学习的原理,掌握各种强化学习算法,包括基于策略梯度的方法和多智能体学习方法。此外,他们还将通过实践项目深入了解自训练方法,并具备实现类似AlphaZero的强化学习算法的能力。这将使他们在未来的工作中能够应对复杂的决策问题,并在人工智能领域取得卓越的成就。
课程大纲: