这门课教的如何识别问题还有使用问题对应的算法,内容顾名思义,围绕的问题是:给一个已知的系统模型(transition和cost),如何找到最优的控制策略。
对于最一般的问题,课程会教你动态规划是的方法从后往前求解。然后如果系统的模型是确定的(所有转移概率都是1)那么系统可以视作最短路径而从前往后求解,所以课程把最短路径算法都过了一遍。再之后如果系统是一直循环的,就可以引入贝尔曼方程,进而(强化学习中也会看到的)value iteration, policy iteration。最后如果系统是连续的,又有连续版的贝尔曼方程,minimun principle和LQR就出来了。
workload: 2021 fall上的都是视频课,每周视频都很短(证一遍理论举一个例子),上不满一节课的时间,所以平时感觉占用不了多少学习精力。习题课的助教很用心,想精进的话可以去上习题课