2019年3月14日讨论班报告
各位老师,同学:
时间:3月14日讨论班 9:00-10:30
地点:教学楼5-308
报告内容:
王智超 Multicategory Crowdsourcing Accounting for Variable Task Difficulty, Worker Skill, and Worker Intention
众包允许在网上即时招聘工作人员,为图片、网页或文档数据库添加注释。然而,工作人员的不可靠性阻止了从表面上理解工作人员的响应。因此,来自多个工作者的响应通常聚合在一起,以更可靠地推断基本事实的答案。论文中研究了基于随机模型和基于确定性目标函数的群体聚集方法。这种随机回答生成模型似乎很好地捕捉了工人技能、意图和任务困难之间的相互作用,并捕捉了广泛的工人类型。这种基于确定性目标的方法旨在最大化加权多群体决策的平均总置信度。在这两种方法中,我们都明确地对单个工人的技能和意图进行建模,从而利用这些技能和意图改进群体聚集。正如实验观察到的,论文所提出的方法可以击败“群众的暴政”,特别是当大量不熟练(和恶意)工人中存在少数技术工人时,这种方法尤其有利。
冯辉 Isolation-based Anomaly Detection
异常数据指的是数量少而又不同的数据点。由于这些性质,异常容易受到一种称为隔离机制的影响。本文提出了一种称为隔离森林的方法,它完全基于隔离的概念来检测异常,而不使用任何距离或密度测量——这与现有的所有方法都有本质的不同。因此,iForest能够利用子采样来实现较低的线性时间复杂度和较小的内存需求,并且能够有效地处理掩盖效应和沼泽效应的影响。实验表明,iForest在AUC、处理时间上均优于ORCA、one-class SVM、LOF和随机森林算法。此外,iForest可以很好地处理包含大量不相关属性的高维问题,以及训练样本中没有异常的情况。
下周报告人 张艺馨,刘一帆