我没上过CV, 这相当于我第一门和视觉相关的课.
内容: 总体感觉非常deep learning的一门课, 我看之前CV课程评价讲了很多传动方法, MP这门课全是和neural network有关的. 刚开始上来给你讲NN, BP, Conv, transpose conv, RNNs后面会花很大的篇幅讲几种主流的生成模型(Flow, GANs, VAE, AutoRegressive Model)和它们在vision里的应用. 后面还会讲到shape modeling, implicit serface以及vision和RL的一些工作. 老师所展示的例子基本都是3年以内的工作, 所以对于开拓视野有很大的帮助.
平时: 没有考核, 没有记分的作业, 每周会给几道题, 然后给答案. 所以我这学期一直在游离, 考试前突击了一下.
Project(非必要): 固定三个题目, 给出自己的意向然后老师分配. 最多4人一组. 本学期的题目分别是(记不太清楚了)(1) 图片的SMPL inference, (ii) video的human keypoints estimation, (iii) video的hand joints? baseline很高, 也很难, 比较有挑战性, 老师会根据分数和报告综合给加分, 最多加0.25 (/6).
我们小组没有过baseline, 总结一下原因吧: 老师选的题目其实或多或少和他们组的工作相关, 甚至你能找到同一个问题他们的paper, 只不过他们在更多的dataset上训练效果更好. 老师会给skeleton code, 但基本上和他们的paper的code是差不多框架, 基本就是code删掉关键的部分. 不过如果照抄老师的代码, 会扣novelty的分数, 具体标准老师没有说. 我们小组没有过baseline就是因为选了别的组的工作去复现, 但是他们所使用的数据集可能质量更好, 或者是实现原理相差太多, 我们遇到了无法解决的bug,最后没有调参成功. 以老师的work作为参照, 会给自己很大信心, 少走一些弯路. 另外就是, 老师会给每个任务几个SOTA的paper, 一定要注意读读每个paper的计算成本是怎么样的, 用了几张gpu训练了多少epoch, 还有就是之前强调的问题, 每个paper用到的dataset质量可能不一样, 要选和你的任务给你的dataset最接近的那个是最保险的.
其实时间很充裕, 但是我这学期有些忙, 就只拿了最后两周不到来搞proj, 结果不好也是可以预见的.
另外, 学校的Euler服务器排队巨慢, 有钞能力的在外面自己租一个吧….
考试: 3个小时题量很大, 每页纸上的字很稀疏, 但是加起来三十多页也有点让人裂开, 有可能没做完. 但是如果你仔细做cheatsheet, 会发现都是老师上课强调的东西. (PS:在这里安利一下我的, 嘿嘿: https://github.com/quantaji/ETHz-Machine-Perception-cheatsheet) 我还是建议各位自己做cheatsheet, 相当于复习一遍了2333
最后给分还可以.