2019年5月30日讨论班报告
各位老师,同学:
时间:5月30日讨论班 9:00-10:30
地点:教学楼5-308
报告内容:
殷小静 虚拟淘宝:虚拟化现实世界的在线零售环境的强化学习
强化学习对于解决学习序列决策和最大化长期回报这类问题具有比较好的应用。但强化学习算法由于需要与环境进行大量交互,所以在现实世界中直接使用强化学习算法是非常不合适的。在提出了在淘宝上使用强化学习进行更好的商品搜索的目标后,论文考虑构建一个虚拟淘宝平台来运行强化学习算法。首先通过 GAN-SD 生成虚拟客户,并通过 MAIL 生成虚拟交互过程。研究结果表明,“虚拟淘宝” 能够忠实反映真实环境中的特征。这个新构建的“虚拟淘宝”模拟器,可以让算法从买家的历史行为中学习,规划最佳商品搜索显示策略,能在真实环境中让淘宝的收入提高2%。
朱方林 Supervised Reinforcement Learning with Recurrent Neural Network for Dynamic Treatment Recommendation
基于大规模电子健康记录(EHR)的动态治疗推荐系统成为成功改善实际临床结果的关键。先前关于治疗方案推荐的研究使用监督学习(例如匹配表示医生处方的指示信号)或强化学习(例如,最大化评估信号,其指示来自存活率的累积奖励)。然而,这些研究都没有考虑将监督学习和强化学习的好处结合起来。在本文中,我们提出了使用RNN的监督强化学习(SRL-RNN),它将它们融合到一个协同学习框架中。具体而言,SRL-RNN采用off-policy actor-critic 框架来处理多种药物、疾病和个体特征之间的复杂关系。框架中的“actot”通过指标信号和评估信号进行调整,以确保有效的处方和低死亡率。由于在现实世界的中患者的状态可能不会完全观察到,我们用RNN来解决部分观测的马尔可夫决策过程(POMDP)问题。对公共现实世界数据集(即MIMIC-3)的实验表明,我们的模型可以降低估计的死亡率,同时与医生处方的匹配性也得到提高。
下周报告人 孙振超,姜涛