Danqing Wang

【CALMS】多语言摘要中的信息抽取与共享

2021-08-08T07:32:00+00:00

Contrastive Aligned Joint Learning for Multilingual Summarization
Danqing Wang, Jiaze Chen, Hao Zhou, Xipeng Qiu†, Lei Li
ACL 2021 Findings
论文：https://aclanthology.org/2021.findings-acl.242.pdf
代码：https://github.com/brxx122/CALMS
网页：https://dqwang122.github.io/projects/CALMS/
AI科技评论：https://mp.weixin.qq.com/s/DDbpUKiOo1sT6q01deWI3w

引言

在快节奏的生活中，人们往往没有耐心阅读长篇大论，而是希望能够通过简短的文字迅速掌握文章的重点信息，从而判断是否有必要详细阅读。因此不管是在新闻推送还是在论文撰写，为文章提取一个简明扼要的摘要都是十分重要的。以往这项工作都是由文章作者或者专门的编辑进行，而现在，人们可以通过 AI 模型自动为文章提供摘要，大大解救了为总结全文而绞尽脑汁的作者编辑们。

紧随国际化的步伐，我们对于摘要生成的需求也不再局限于单种语言。对于我们熟悉的中文，阅读摘要自然能够节约部分时间，但是对于不熟悉的英法德等语言，我们更需要通过摘要来判断是否有必要花费大量精力对全文进行翻译阅读。然而，为每一种不熟悉的语言建立一个模型实在是过于繁重，我们最希望的是有一个统一的模型，能够同时对多种语言的文章进行阅读理解，同时生成对应语言的摘要输出，这就是多语言摘要的研究核心。

一个优秀的模型除了精心的算法设计，还离不开大量的数据。由于摘要本身撰写难度，人们很难收集到大量高质量的文章-摘要对数据，这个现象在小众的语言上尤为突出。因此，要解决多语言摘要问题，我们首先需要解决的是数据问题。有了数据之后，我们希望能够让模型取长补短，利用资源丰富的语言数据来扶贫资源稀缺的语言。

这里为大家介绍一篇来自 ACL2021 Findings 的多语言摘要工作《Contrastive Aligned Joint Learning for Multilingual Summarization》。

该篇文章由字节跳动人工智能实验室和复旦大学合作完成，主要提供了一个囊括了12种语言，总数据量达到100万的新多语言数据集 MLGSum。同时，该篇工作设计了两个任务来提取文章信息并在多种语言间进行语义对齐，从而来同时提升模型在多种语言上的摘要性能。

多语言摘要数据集 MLGSum

机器学习模型，算法为主，但数据先行。没有高质量的大规模数据只能是巧妇难为无米之炊。然而，目前绝大多数摘要数据集均集中在英文上，最近提出的多语言数据集MLSUM[1]也只提供了5种语言。

因此，作者首先从多语言新闻网站上收集了大量的新闻数据并进行筛选，保留包含人工摘要的部分数据，最终获得了包括 12 种语言，总共文章-摘要对高达100万的大规模数据集。具体语言和数据分布见图 1，其中纵坐标单位为万。

通过柱状图可以看到，德语（De），英语（En），俄罗斯语（Ru），法语（Fr）和中文（Zh）的数据量较多，其余几种语言的数据量较少。因而作者以此为划分，前面5种作为高资源语种，后面7种作为低资源语种。

作者的目标在于，在高资源语种上训练一个联合模型，使得其能够同时在5种语言上获得优于单语言模型的性能。与此同时，该联合模型能够很好地迁移到低资源语种上。

图1：MLGSum的各语言数据量

对比学习的多语言摘要模型 CALMS

针对摘要的任务特性，作者利用对比学习的思想，设计了两个句子级别的辅助任务。

第一个叫 对比句子排序(Contrastive Sentence Ranking, CSR)，其目的是帮助模型分辨出哪些信息更加重要。

具体做法是，首先从文章中随机抽取出若干个句子作为摘要候选；其次将这些候选项和标准摘要进行对比，相似度最高的作为正样本，其余作为负样本。在模型学习过程中，需要将正负样本的表示距离不断拉大，从而分辨出文章中哪些句子对摘要更加重要。

第二个叫 对齐句替换 (Sentence Aligned Substitution, SAS)，其目的是拉近不同语言间相似句子的距离。

具体来说，首先作者从语言A的文章中抽取出一些重要信息句（如前几句），翻译成另一种语言B并且进行替换，模型需要根据替换后的混合文章将原始句子还原出来。这个任务希望能够借助翻译拉近语种间的语义表示。从一方面来说，还原的过程可以认为是对重要信息句做B到A的翻译；从另一个方面来说，可以将其视作利用A文章的剩余内容来还原重要信息句。基于重要信息句的信息量和剩余所有内容的信息量之和相似的假设，可以将这个过程视作自监督摘要。

图2: CSR和SAS任务设计

性能一览

作者利用 mBART 模型[2]作为多语言语言模型初始化，并且利用上述两个任务进行进一步微调，最终获得了模型CALMS（Contrastive Aligned Joint Learning for Multilingual Summarization）。

首先在5种高资源语言上进行了实验，结果如下所示。其中Mono模型为每种语言一个的单语言模型，Multi模型为联合的多语言模型。可以看出，通过上述两个方法的设计，联合模型在每种语言上都优于单语言模型，并且通过针对每种语言的微调可以进一步提升性能。

图3: 各模型在De En Ru Fr Zh五种语言上的性能(以ROUGE-1为例)

此外，针对低资源语言，作者将上述在5种语言上联合训练的模型 CALMS 作为初始化，迁移到低资源语言上。其中 Transformer 和 mBART 为直接在该低资源语言上训练的模型。

可以看到，针对上述5种语言较为相近的几个语系，如Romance罗曼语(Fr Pt Es 法语葡萄牙语西班牙语)和Savic斯拉夫语(Ru Uk 俄语乌克兰语)，CALMS明显优于直接训练的单语言模型，但是对于较远的几个语系，效果有所下降。这是因为CALMS针对上述5个语种进行针对性微调优化，导致语义空间和其余语系更远。同时针对没有被mBART覆盖的Id印度尼西亚语，CALMS取得了优于单语言模型的效果，这是因为CALMS对摘要任务本身提取重要信息的能力也进行了加强。

图4: CALMS迁移到低资源语言上的性能

总结

该篇文章为了解决多语言摘要问题，首先提出了一个包含 12 种语言的摘要数据集 MLGSum；其次针对多语言和摘要两个特性设计了两个辅助任务，来加强模型提取重要信息和语言间对齐的能力。最终联合模型CALMS在5种高资源语言上取得了优于单语言模型的能力，并且证实了其在相似语系中有着良好的迁移能力。

参考文献

[1]Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. 2020. Mlsum: The multilingual summarization corpus. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8051–8067.
[2] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020. Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational Linguistics, 8:726–742.

【CNewSum】具有准确可推断性标注的中文摘要数据集

2020-08-14T07:32:00+00:00

CNewSum: A Large-scale Chinese News Summarization Dataset with Human-annotated Adequacy and Deducibility Level
Danqing Wang, Jiaze Chen, Xianze Wu, Hao Zhou, Lei Li†
NLPCC 2021
论文：https://link.springer.com/chapter/10.1007/978-3-030-88480-2_31
网页：https://dqwang122.github.io/projects/CNewSum/

引言

为长文本提供一个简明扼要的摘要一直是自然语言处理任务中一个重要的生成任务。在日趋成熟的文本生成技术的帮助之下，自动文本摘要已经可以为人们提供流畅自然短文本概括输入的核心思想。然而，距离摘要技术投入我们日常使用仍然有两大壁垒：（1）高质量中文数据集的缺乏（2）如何使生成的摘要更加接近人书写的风格。

没有足够的数据，AI模型就无法进行学习。目前大部分研究集中在英文，而中英之间的差异也使得英文摘要模型很难直接迁移到中文上，这也就导致了最新的摘要模型和技术难以惠及到我们日常中文环境。

此外，自动摘要模型真正落地到生活中还面临着“无中生有”的挑战。在训练过程中，模型的目标是根据输入的文本，尽量生成和标准答案相似的结果。这里的标准答案一般是由标注人员撰写的摘要。然而人们在进行主旨概括的时候，会不自觉进行一些简单推理或者加入常识。这部分无法直接从输入中获得的知识会导致模型的学习过程变得更加困难，同时也限制了自动摘要模型的性能上限。

为了促进中文摘要的研究，字节跳动团队构建了一个新的高质量中文摘要数据集，并且提供了针对充分性和可推断性的标签帮助研究者更有针对性地提升模型性能。

中文数据集 CNewSum

目前大部分摘要研究都集中在英文上，从图1可以看出，最常使用的英文数据集CNN/DailyMail和中文数据集LCSTS都是2015年发表的，但是引用量相差了6倍。此外，其余的英文数据集的引用量也远远高于中文。这一方面是研究者更偏于使用英文，另一方面也需要归咎于目前中文摘要数据集的质量偏低。图2罗列了这些数据集的训练和测试划分，可以发现相较于位于上方的中文数据集，下方的英文数据集都给出了标准训测划分，并且比例相对合理。而中文LCSTS有240万的数据，但是其中测试数据只有700左右。

图1：常见摘要数据集的发布年份以及引用量

图2：常见摘要数据集大小以及划分

鉴于此，作者率先利用今日头条这个新闻分发平台，收录上千种不同来源的新闻数据，并且由运营团队提供人书写的摘要作为参考答案。除此之外，针对网页数据普遍存在的标点缺失等问题，专门训练标点标注模型进行填充和检查。由此整理出30万的中文摘要数据，并且提供和CNN/DailyMail类似的标准训测划分便于后续研究进行比较。此外文章也提供了常见的摘要模型在该数据集上的性能表现。

图3：常见模型在CNewSum上的表现

充分性(Adequacy)和可推断性(Deducibility)

当我们仔细回顾自己如何进行总结的时候，会发现除了整合文章中出现的信息，我们通常还会进行一些简单的推理，并且补充一下常识。比如一些简单的 单位转化（4000克=4千克），数字加减（300+1500=1800），汇率计算（300美元=1938人民币 等都是为了可读性进行的转化。此外，还会进行一些常识补充，比如 “杭州举办亚运会” 可能会向上概括为 “中国浙江举办亚运会” 等。这类无意识地修改将会体现在人类书写的参考摘要里，却很难被模型隐式学习到，这也就成为限制自动摘要模型性能的原因之一。为了解耦合这部分因素，CNewSum格外提供了两个人类标注：充分性(Adequacy)和可推断性(Deducibility)。

图4：人类如何撰写摘要

充分性 Adequacy：参考摘要中的信息是否都能够直接从原文中找到。当Adequacy=1意味着所有信息都被原文覆盖到，从输入文本到输出摘要的生成过程是独立充分。
可推断性 Deducibility：参考摘要中信息是否能够从原文中简单推理得到。当Deducibility=1意味着模型只需要学习一些简单推理，包括前文提到的单位转化、数字加减、汇率计算、名称缩写等。这里的推理基于一些简单的规则，不需要额外的知识。

根据以上规则对CNewSum测试集进行标注，可以发现91.08%都满足Adequacy=1&Deducibility=1，这意味着模型可以简单从数据中学习到摘要生成的模式。此外有4.11%数据Adequacy=0&Deducibility=1，意味着这部分需要模型具有一定的推理能力。在这些区间内分别对常见模型进行性能分析可以发现得到图5的结果，证明目前模型可以在较为简单的数据上取得良好的结果，却在需要推理和外部知识的部分留有较大的性能提升空间。

图5：不同的Adequacy&Deducibility上模型性能

总结

该篇文章提出了一个新的中文摘要数据集CNewSum，包含了30万人类标注的文章-摘要数据，并且额外提供了充分性和可推断性标注。旨在促进中文摘要的发展以及帮助研究者进一步分析当前摘要模型的性能瓶颈。

【HeterSumGraph】异质图神经网络的抽取式摘要模型

2020-05-06T07:32:00+00:00

Heterogeneous Graph Neural Networks for Extractive Document Summarization (ACL 2020)
Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang
论文：https://arxiv.org/abs/2004.12393
代码：https://github.com/dqwang122/HeterSumGraph
知乎：https://zhuanlan.zhihu.com/p/138600416

抽取式摘要的目标是从原文章中选出最为重要的若干个句子，并且将它们重组成摘要。因而，如何构建句子之间的关系，并得到更好的句子表示，就成为抽取式摘要的核心问题。而本文就试图通过引入词结点来扩充句子间的关系，以异构图的方式来建模抽取式摘要，模型被命名为HeterSumGraph (Heterogeneous Summarization Graph)。

图1：HeterSumGraph

建模句间关系

在摘要任务上，建模句间关系的方法可以分成两大类：

以RNN(LSTM)为代表的序列模型
以Graph为核心结构的模型

序列模型较难捕捉到句子级别的长距离依赖，并且它过于依赖句子上下文的局部信息。相对而言，基于全局信息的图结构更加适合摘要任务。早在2004年，图结构就被用于抽取式摘要任务上：LexRank[1]和TextRank[2]以句子为结点，按照句子之间特征的相似度建边，以无监督迭代的方式对结点进行重要性排序，选出最重要的若干个结点作为摘要。然而，对于以相似度建边的图来说，选择合适的阈值并不容易。近来，一些工作试图通过人工定义的特征来判断句子结点之间是否应该连边（如ADG[3]），或者通过修辞手法或者共同指代等关系来构建图（如RST[4]）。还有的试图直接使用全连接图Transformer，让模型自己学习边权。但是这些图都局限于句子这一种结点，没有引入更多的结点信息。

而这篇文章试图通过引入词结点来丰富图结构，更好地建立句子之间的关系。词结点的引入基于以下几方面的考虑：

目前的抽取式摘要系统更多依赖于句子的位置信息，句子的内容信息并没有得到很好的编码[5]。甚至在模型输入时，删除句子里面的名词、动词、形容词等等，都对最终结果的影响不大[6]。引入词结点，并且使它们和句子结点反复迭代更新，能够加强词在句子表示中的作用。
通过共同出现的词，句子之间的关系得到了扩充。早期依靠相似度建边的图结构，本质也是依赖于句子之间内容的重叠程度。引入词结点后，模型不再需要手动确定相似度的阈值，词和句子之间的包含关系是确定的，而拥有越多相同词的句子间关系越紧密。同时，句子之间的关系不再是单一的连边/不连边，而是根据词的不同有不同的关系。
因为词是最小的语义单元，因此它可以作为中介结点链接任何比它大的语义单元。作为句子的中介，它可以更好地建立句子间的关系；作为文章的中介，它同样可以建立多文档关系。因此，模型可以很轻易地从单文档摘要迁移到多文档摘要任务上。

HeterSumGraph（HSG）

HeterSumGraph的结构如上图1所示，主要由三部分构成：

图初始化模块
异质图层迭代更新
句子选择模块

图初始化模块分别对词结点、句子结点以及词和句子的连边进行初始化，其中句子结点分别使用了CNN和LSTM进行内容和位置信息的编码，而连边选用TF-IDF特征作为权重。

异质图层的更新分成两个方向：词到句子和句子到词。

图2：词结点和句子结点的迭代更新

词到句子给了句子结点更好的内容表示，句子到词的更新为词结点提供其出现次数的统计信息，从而使得多次出现的重要词语得到更好的更新。进一步，这个信息将会通过词到句子的再次迭代传递给句子，使得拥有更多重点词语的句子得到更好的表示。这种通过结点度数而得到的频数信息，是图结构区别于基于上下文编码的序列模型的重要特征之一。

句子选择模块主要是对句子进行重要性排序，并且尝试了一些朴素的去冗余操作，如Trigram blocking。

通过添加文章结点，可以从单文档任务迁移到多文档摘要上，如下图所示：

图3：多文档摘要模型HeterDocSumGraph的图结构

实验与分析

HSG分别在单文档和多文档的三个摘要数据集上进行了测试。单文档摘要选择了较为常见的CNN/DailyMail和NYT50数据集，多文档则选择了ACL2019 Fabbri提出的Multi-News[7]：

表1：单文档摘要集CNN/DailyMail和NYT50结果

表2：多文档摘要集Multi-News结果

那么这种收益是什么带来的呢？除了简单的消融实验之外，文章还进行了进一步探究。作者认为，如果引入词结点以及词语出现频率（即词结点度数）是有帮助的话，那么对于词结点平均度数越高的图，收益越是明显。换言之，如果文章中每个词都只出现过一次，那么得到图结构其实和序列模型差别不大，只有在存在多次出现的词语的文章中，词结点才能够获得多个句子的更新。因此文章按照词结点的平均度数对CNN/DM测试集进行了划分，以折线表示BiLSTM和HSG模型的性能，以柱状图表示两个模型的性能差值：

图4：平均词结点度数和多文档输入文章数的探究性实验

可以看到在词结点平均度数越高的区间上，两个模型的性能差值越明显。因此可以验证，HSG引入词结点带来的优势主要在于多个句子对词结点的更新。

此外，文章还对多文档任务进行了探究。通过对输入文档个数对加/不加文章结点的图模型性能探究，验证了引入文章结点来构建文章之间的关系对多文档摘要是非常重要的，并且随着源文档数目的增加，这个影响更加明显。

引用文献

[1] Erkan, G., & Radev, D. R. (2004). LexRank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 22, 457–479.
[2] Mihalcea, R., & Tarau, P. (2004). TextRank: Bringing Order into Texts, 45(4).
[3] Yasunaga, M., Zhang, R., Meelu, K., Pareek, A., Srinivasan, K., & Radev, D. (2017). Graph-based Neural Multi-Document Summarization. CoNLL.
[4] Xu, J., Gan, Z., Cheng, Y., & Liu, J. (2019). Discourse-Aware Neural Extractive Model for Text Summarization
[5] Zhong, M., Liu, P., Wang, D., Qiu, X., & Huang, X. (2019). Searching for Effective Neural Extractive Summarization: What Works and What’s Next, 1049–1058. ACL
[6] Kedzie, C., Mckeown, K., & Daum, H. (2018). Content Selection in Deep Learning Models of Summarization. In Empirical Methods in Natural Language Processing (EMNLP).
[7] Fabbri, A. R., Li, I., She, T., Li, S., & Radev, D. R. (2019). Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model. In ACL. Retrieved from http://arxiv.org/abs/1906.0174