The Primacy Bias in Deep Reinforcement Learning简介:首先介绍了RL中的Primacy Bias——Agent对前期的经验形成了过拟合,无法学到更好的策略;然后提出了一种易实现、高效的方法来解决强化学习前期的过拟合问题
Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble简介:通过类似ML中的集成方法来集成策略,提高策略的采样效率和多样性,有落地的潜力,为数不多的同类型有源码的论文
Learning from human feedback简介:如果将人类玩家的认知/偏好引入到AI学习中,通过人类玩家的反馈,实现更高效的AI策略生成
Decision Transformer and its variants简介:介绍如何通过Decision Transformer及其变种模型实现基于玩家(历史)数据的决策模型生成;相比于传统BC算法,Decision Transformer的优势及效果分析
Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning简介:Deepmind最近提出的全新无模型MARL算法DeepNash,可以在西洋陆军棋(Stratego)游戏中达到人类水平,通过selfplay的方式可以收敛到近似纳什均衡
DayDreamer: World Models for Physical Robot Learning简介:如何通过学习世界模型让机器狗在10分钟内学到稳如狗的行为
MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge简介:让AI在网络上通过学习各类知识(视频、文字教程、维基百科、论坛讨论),学会如何玩MineCraft。通过大量各类型的数据,预训练出video-language模型,作为给强化学习agent产生reward的基础,而不需要手工设计reward function来引导agent进行学习。
Video Pretraining (VPT) learning to act by watching unlabeled online videos