编者按:数字信息时代人们获取新闻的方式越来越高效,但是获取新闻中关键信息的效率却很低。而 NLP 领域的新闻标题生成任务 (News Headline Generation)则可以基于新闻正文,自动生成包含关键信息的简短标题,使读者可以高效地获知新闻中的重要内容。
为了开展新闻标题生成任务的研究,微软亚洲研究院的研究员们构建了个可以离线评测个性化新闻标题生成方法的基准数据集:PENS(PErsonalized News headlineS)数据集;同时还提出了一种个性化新闻标题生成的通用框架,并且对其进行了效果评估。该论文 “PENS: A Dataset and Generic Framework for Personalized News Headline Geneation" 已被 ACL 2021 收录。
在数字信息时代,由于文本信息的数量、传播速度都以指数形式增长,因此导致信息过载问题日趋严重。以新闻为例,每天新发布的新闻消息不计其数,用户难以在有限的时间内,从海量的新闻中筛选出感兴趣的文章进一步阅读,因而用简明的语言概括新闻的关键信息非常重要。在 NLP 领域,新闻标题生成任务(News Headline Generation)可以基于新闻正文,自动生成包含关键信息的简短标题,使读者高效地获知新闻中的重要内容。由于标题本身是对新闻正文的高度概括,因此生成标题的简洁性、流畅性和事实一致性,对该技术来说是一项挑战。
近年来,随着用户个性化服务的普及与人工智能技术的进步,新闻网站等内容平台希望通过标题来吸引读者的阅读兴趣,但同时又要避免“标题党"现象的发生。因此,生成个性化新闻标题成为标题生成领域的一个全新研究方向。
什么是个性化新闻标题呢?举个例子,有一篇报道篮球比赛的新闻,其潜在的用户受众通常是比赛球队的球迷。如果新闻标题不考虑用户的阅读兴趣,只是客观地描述比赛结果,那么输球一方的球迷进一步阅读这条新闻的概率可能较小,因为当他们看到标题时就已经知道自己支持的球队输了比赛,再具体了解输球过程的意愿就会相对较低。但是,如果考虑用户的阅读兴趣,对不同球队的球迷呈现个性化的标题(如图1所示),那么即使是输球方的球迷,可能也愿意去了解这条新闻的内容。比如,以球迷支持的球星为标题的核心词,突出球员的个人表现。
© 微软亚洲研究院
图1:个性化新闻标题的实例
个性化新闻标题生成任务的定义是:给定用户历史阅读行为数据和候选新闻内容,生成用户专属的不同新闻标题。生成的标题既要引起用户的阅读兴趣,提高用户进一步阅读、获取更高点击和阅读量的可能,又要兼顾新闻标题的事实一致性,保证用户的阅读质量,避免成为标题党。它有两个重点子任务:
①学习用户的个性化阅读兴趣:通过用户历史阅读行为信息,可以对用户的个性化阅读兴趣建模,从而学习用户的个性化表示;
②生成个性化新闻标题:将用户的个性化表示算法与新闻标题生成算法融合,实现为不同阅读兴趣的用户生成不同的新闻标题。
因此,以个性化标题展示的新闻,由于更能引起用户的阅读兴趣,进而可能获得更高的点击和阅读量,将成为新闻平台关注的新兴研究领域。
可离线评测的数据集 PENS
开展个性化新闻标题生成的研究,需要一个大规模的数据集,以开展离线评测。否则,当测试不同算法的表现时,研究者可能需要不断重复线上 A/B 测试,或者通过组织人工评价的方式来观察算法效果,不但实现成本高,而且公平性及可复现性均难以保证。
为了进一步研究个性化新闻标题的生成,微软亚洲研究院的研究员们构建了PENS(PErsonalized News headlineS)数据集,该数据集是个离线评测个性化新闻标题生成方法的基准数据集,且所有数据基于 Microsoft News 用户的匿名化新闻点击记录构建,同时包含了用户行为信息和新闻语料信息。
PENS 的新闻语料库包含了约11万则英文新闻文章,每篇新闻文章都由四部分内容组成:新闻ID、新闻标题、新闻正文和新闻类别标签。所有训练和测试数据中出现的新闻,都与语料库中文章的新闻 ID一一对应。 PENS 的训练数据集则包含了匿名用户的新闻曝光日志(Impression Log),其中包括44万名匿名用户的50万次新闻曝光日志,以及每名用户的历史点击信息。具体而言,每一条训练数据都由五部分内容组成:用户 ID、曝光时间戳、点击新闻列表、未点击新闻列表、用户历史点击新闻列表。所有列表中出现的新闻按曝光时间排序。
为了满足离线评测的需求,研究员们邀请了103名以英语为母语的高校学生(以下简称“标注者"),人工创建 PENS 的测试数据集。其构造过程分为两个阶段:阶段,每位标注者浏览1000条从新闻语料库中随机抽取的新闻标题,并从中选择少50个自己感兴趣的标题,视为该用户的历史点击行为;第二阶段,每位标注者为另外200篇新闻正文撰写心中的理想标题。这些人工撰写的新闻标题由专业新闻编辑审查质量。低质量的标题会被删除(例如过长、过短或与正文不符),剩余合格的标题作为相应用户的个性化新闻标题的 标准。
研究员们认为,这些标注者虽然不具备专业的新闻编辑素养,但其人工撰写的标题能够充分反映他们的个性化阅读兴趣,因此可以作为测试时的“标准答案"。终,这103名标注者构建的点击行为数据和撰写的2万多个个性化新闻标题构成了 PENS 的测试数据集。在此数据集上,个性化新闻标题生成方法可以采用文本生成中常采用的评价指标来评估其效果,如 BLEU、ROUGE 等。
VNS012 14AK FNV R
VNS011 14AK EAR K
VNS011 14SAKEAR 8P1.1
VNS012 14AKEAR 8P1.X
VCS0 9614AKVRZ 5P0.5P0+2*0GF6G
VCSO 9614SKERZ 5PO+1*OGF6G
VCS0 9614AKVRZ 5P0.5P0+2*0GF6G
VCSO 9614SKERZ 5PO+1*OGF6G
VNSO 33 FN14 AKVRZ 40.40
VNS0 22 FN 18 AK VR H 9P1.9P1+2*PQ55
VV8LB3WK4DA11-6Z+6Z-B-A110-X
V8RB3DDDD-4Z+4Z-B-A060
UNS022.18EAR SS 8557-C2
VNS02-18 AKARHU//SS8557-C1//SPOHN & BURKHARDT
VNSO33FN14AKVRHU 40.40
VNSO4FN18SKERZU
VNSO33FN18AKVRHD40.40
VNS04FN14AKEB
UNS022FN18KKUR12 9P1 9P1
VCS07211KKVR H10.PN+OEGP 10U
VNSO13FU18KKVR10.30
VCS09614AKERZ40
VCS09614AKEBZ40
VCS09614AKERZ40
VNSO2 FN 11SKEZ20
VNSO311AKA8P2
VNS022FU18KKVR 5P0.5P0
VNS022FU18AKVRHD 5P0.5P0
VNS022FU18AKVRHDVSS
VNSO 3FN14SKERZ40
NSO2 FN 11SKEZ20
VNSO311AKA8P2
CS0VRH72*72
杰斯曼主令 VV64.3SJ F NO:0.001 1607/2-02
杰斯曼主令 VV64.3SJ F NO:0.001 1607/1-01
CS17214ERZ10
CS17214KKVRZ10.10
UNS022FN18KKUR 1Z 9P1
UNS02FN18SKER 1Z 9P1
VNSO22.18KKEAR9P1.9P1 KOM NR 2024205-5 5/07带编码器及凸轮
VNSO22.18AKEARH 9P1.9P1 KOM NR 2024205-6 5/07带编码器及凸轮
VNSO 2 18 SK FNER2
VNS022FN18AKVRIPZ 5PO.5PO
VNS022FU18KKVRIPI 5PO.5PO
VNSO 3 FN 18 SK ER Z 40
VNSO 33 FN 18 AK VR Z 40,40
PL300-5KO-0-5KO AAV S256
VNS033FN18AKVRIPZ40.40
VCS07211ER HDFUZ240 带安全按钮
VCS09611AKERTBP2+1XOGF6B/2067889.4.2
VNS02218KKEARHDUZ9P19P1+2VER8G
VNS02218KKEARHDUZ9P19P1
VNSO22FN18AKVRIPZ5P0.5PO 2*OELG
VNSO22FU18AKVRIPZ5P0.5PO 3*OELG
NSO 4FN 14 E G1 nach SS 11555-7B