会议通知



友情链接
山东大学

电子商务交易技术国家工程实验室

山大地纬软件股份有限公司
会议通知

2019年11月8日讨论班报告

各位老师,同学:

时间:11月8日 15:30

地点:办公楼410会议室

报告内容:

姜涛 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

本文提出了一个新的语言表示模型BERT,是Bidirectional Encoder Representations from Transformers 的缩写。和最近的语言表示模型不同的是,BERT被设计成,通过在所有层中联合调整左右上下文去预先训练来自未标记文本的深层双向表示。 得到这个预训练的BERT模型之后,可以使用一个额外的输出层进行微调,来创建了一个在很多任务上表现很好的模型,比如问答,语言推断,并且无需对特定任务进行实质性的网络结构修改。BERT概念上非常的简单,但是实际效果却很好。它在11种自然语言处理任务上获得了最好的结果,包括将GLUE得分提高到80.5%(绝对提高7.7%),MultiNLI准确度达到86.7%(绝对提高4.6%),SQuAD v1.1问答测试F1至93.2(1.5点的绝对提高),SQuAD V2.0测试F1至83.1(5.1点的绝对改善)。


柏欣雨 Melanoma risk modeling from limited positive samples

有效治疗癌症的关键是及早发现。通过常规收集的临床数据建立的风险模型有机会通过识别高风险患者来改善早期发现。在这项研究中,我们探索了各种机器学习技术来建立黑色素瘤皮肤癌风险模型。该数据集包含遍及美国的9,531,408例常规皮肤科就诊记录。在这些患者中,有17246(0.18%)人患黑色素瘤。我们进行了广泛的实验,以从有限的阳性样本中有效地学习该数据集。我们推导了类别失衡更为严重的数据集,并使用不同的数据采样技术测试了多个分类器,以建立最佳模型。此外,我们探索了数据集的各种属性,以确定类分布与模型性能之间的关系。我们发现,从训练数据集中随机删除阴性案例可以显著提高模型性能。不同实例组的K均值聚类表明,阴性样本具有更高的同质性,并且模型结果反映出删除这些样本可提高整体模型性能。此实验为将来的风险模型提供了参考框架,因为大多数数据集将有大量健康患者,但只有少数几位处于疾病高发风险的关键患者。


下周报告人:殷小静、张艺馨