CS321 - 基础强化学习
Fundamentals of Reinforcement Learning
3学分
12学时
4周
授课老师:
高民权
授课时间:
10月21日 - 11月11日
每周六晚上19:00 - 22:00
关键词:
蒙特卡洛模拟,马尔科夫决策过程,Temperal Difference Learning, Bellman Equation, SARSA, Q-Learning, Deep Q Learning, Experience Replay, Fixed-Target, Double Q-Leanring, Dueling DeepQ-Learning

课程内容:
在这门课程中,通过这门课程,您将掌握强化学习的基础知识,了解蒙特卡洛模拟、马尔科夫决策过程、Temperal Difference Learning、Bellman Equation、SARSA、Q-Learning、Deep Q Learning、Experience Replay、Fixed-Target、Double Q-Learning和Dueling Deep Q-Learning等强化学习算法的原理和应用。这些知识将为您在强化学习领域的研究和应用中提供重要的基础和实用技能。
首先,我们将介绍蒙特卡洛模拟(Monte Carlo Simulation),它是一种基于随机采样的方法,用于评估和改进强化学习算法的性能。我们将学习如何使用蒙特卡洛模拟来估计价值函数和优化策略。
接下来,我们将深入探讨马尔科夫决策过程(Markov Decision Process,MDP),它是强化学习的数学框架。我们将学习MDP的基本概念,包括状态、动作、奖励、转移概率等,并了解如何使用MDP来建模和求解强化学习问题。
然后,我们将介绍Temperal Difference Learning,它是一种基于差分更新的强化学习算法。我们将学习贝尔曼方程(Bellman Equation),它是Temperal Difference Learning的基础,用于估计状态值函数和动作值函数。
接着,我们将学习两种常见的强化学习算法:SARSA和Q-Learning。SARSA是一种在线学习算法,用于求解马尔科夫决策过程中的控制问题。Q-Learning是一种离线学习算法,通过估计最优动作值函数来求解马尔科夫决策过程中的最优策略。
我们还将介绍深度强化学习(Deep Q Learning),它是一种结合了深度学习和Q-Learning的强化学习算法。我们将学习如何使用神经网络来估计动作值函数,并通过经验回放(Experience Replay)来提高学习效率。
此外,我们将介绍一些改进的深度强化学习算法,包括Fixed-Target、Double Q-Learning和Dueling Deep Q-Learning。这些算法通过引入目标网络、使用两个Q网络以及利用状态值和动作值的优势来提高学习的稳定性和效率。