2023年文本摘要进展

走在淡水海岸
NLP
2023-12-21
268热度
0评论

一、前言

LLM太厉害了，Summarization is dead!

以下为2023年NLP领域顶会ACL、EMNLP中文本摘要相关的文章

二、主要文章

1、《Element-aware Summarization with Large Language Models: Expert-aligned Evaluation and Chain-of-Thought Method》

摘要：自动摘要可生成包含源文件关键观点的简明摘要。作为新闻子领域最主流的数据集，CNN/DailyMail 和 BBC XSum 已被广泛用于性能基准测试。然而，这些数据集的参考摘要存在一定的噪声，主要表现在事实幻觉和信息冗余方面。为了应对这一挑战，我们首先按照拉斯韦尔提出的 "拉斯韦尔传播模型"，注释了新的专家写作要素感知测试集，使参考摘要能够客观、全面地关注更细粒度的新闻要素。利用新的测试集，我们观察到了 LLMs 令人惊讶的零样本摘要能力，这解决了之前工作中 LLMs 零样本摘要的人工偏好和自动评估指标结果不一致的问题。此外，我们还提出了一种 "思维链摘要"（SumCoT）技术，诱导 LLM 逐步生成摘要，帮助他们将源文件中更多细粒度的细节整合到最终摘要中，从而与人类的写作思维相关联。实验结果表明，在两个数据集上，我们的方法在 ROUGE-L 中分别以 +4.33/+4.77 的成绩优于最先进的微调 PLM 和零样本 LLM。数据集和代码可通过 https://github.com/Alsace08/SumCoT 公开获取。
关键词：自动摘要；摘要思维链；零样本；

2、《Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization》

摘要：本文介绍了一种新的预训练语言模型Z-Code++，该模型针对抽象文本摘要进行了优化。该模型使用三种技术扩展了最先进的编码器-解码器模型。首先，我们使用两阶段预训练来提高模型在低资源摘要任务中的性能。首先使用文本语料库对模型进行语言理解预训练，然后继续使用摘要语料库对模型进行预训练，以生成基础文本。其次，我们用分离注意力层取代编码器中的自我注意力层，其中每个词使用两个向量表示，分别编码其内容和位置。第三，我们使用融合编码器，这是一种以分层方式对长序列进行编码的简单而有效的方法。Z-Code++在5种语言的13项文本总结任务中的9项创造了新的一流水平。我们的模型参数效率高，在XSum上优于600倍的PaLM540B，在SAMSum上优于200倍的GPT3175B。在zero-shot和few-shot设置中，我们的模型大大优于竞争模型。
关键词：预训练模型；抽象摘要；分离注意力；融合编码器；少样本；两阶段；

3、《Evaluating the Factual Consistency of Large Language Models Through News Summarization》

摘要：虽然大型语言模型（LLMs）已被证明能有效完成各种任务，但它们也会产生信息幻觉。为了衡量 LLM 是否更喜欢对其输入信息进行事实一致的延续，我们提出了一个名为 FIB（事实不一致基准）的新基准，该基准侧重于总结任务。具体来说，我们的基准是比较 LLM 对输入新闻文章的事实一致摘要和事实不一致摘要的评分。对于事实一致的摘要，我们使用人工编写的参考摘要，并将其手动验证为事实一致。要生成与事实不符的摘要，我们会从一套人工标注为与事实不符的摘要模型中生成摘要。模型的事实一致性是根据其准确性来衡量的，也就是说，它给事实一致性摘要打分较高的文档所占的比例。为了验证FIB的实用性，我们评估了包括BLOOM和OPT在内的6个不同模型系列的23个大型语言模型，其参数从1B到176B不等。我们发现，与事实不一致的摘要相比，现有的 LLM 通常会给事实一致的摘要更高的分数。但是，如果事实不一致的摘要在文档中逐字出现，那么 LLM 对这些事实不一致摘要的评分就会高于事实一致摘要。我们验证了基准中的设计选择，包括评分方法和分心摘要的来源。
关键词：信息幻觉；基准；事实不一致；

4、《GEMINI: Controlling The Sentence-Level Summary Style in Abstractive Text Summarization》

摘要：人类专家使用不同的技术编写摘要，包括从文档中提取句子并重写，或者融合文档中的各种信息以对其进行抽象。这些技术非常灵活，因此很难通过任何单一方法来模仿。为了解决这个问题，我们提出了一种自适应模型 GEMINI，它集成了重写器和生成器来分别模仿句子重写和抽象技术。 GEMINI 自适应地选择重写特定的文档句子或从头开始生成摘要句子。实验表明，我们的自适应方法在三个基准数据集上优于纯抽象和重写基线，在 WikiHow 上取得了最佳结果。有趣的是，实证结果表明，在给定上下文的情况下，人类总结句子的总结风格是一致可预测的。

关键词：摘要风格模仿；

5、《OpenAsp: A Benchmark for Multi-document Open Aspect-based Summarization》

摘要：自动摘要模型的性能近年来得到了显著提高。然而，在现实场景中满足用户特定信息需求仍然存在差距，特别是在寻求针对本文提出的定向摘要时，比如在本文中的有用方面基于摘要的设置。之前针对这个设置的数据集和研究主要集中在一个有限的预定义方面上，仅关注单一文档输入，或者依赖合成数据。为了推动关于更现实场景的研究，我们引入了OpenAsp，一个多文档有向 aspect-based 摘要的基准。这个基准是通过一种新颖且经济有效的标注协议从现有通用多文档摘要数据集中提取的。我们分析了OpenAsp的属性，展示了其高质量的内容。此外，我们还证明了在OpenAsp中实现的现实开放方面设置对当前最先进的摘要模型以及大型语言模型都构成了挑战。

关键词：多文档有向摘要；新数据集；

6、《Promoting Topic Coherence and Inter-Document Consorts in Multi-Document Summarization via Simplicial Complex and Sheaf Graph》

摘要：多文档摘要（MDS）的特点是将来自多个源文档的信息压缩为其简洁的摘要。理想的摘要应涵盖所有主题，并准确地对源文档中阐述的跨文档关系进行建模。但是，现有系统要么在编码过程中对标记的长度施加限制，要么在捕获复杂的跨文档关系方面步履蹒跚。这些局限性促使系统产生非事实和不忠实的摘要，从而使读者对主题产生不公平的理解。为了克服这些局限性，促进源文档和生成摘要之间的信息等价性，我们提出了一种新颖的编码器-解码器模型FIBER，它使用预训练的BART来全面分析语言的细微差别，使用简单的复杂层来理解超越成对关联的固有属性，并利用束图注意力来有效地捕获异性属性。我们在四个广泛使用的 MDS 数据集（Multinews、CQASumm、DUC 和 Opinosis）上使用 11 个基线对 FIBER 进行基准测试，并表明 FIBER 在所有评估指标（句法、语义和忠实度）上实现了一致的性能改进。我们通过定性的人工评估进一步证实了这些改进。

关键词：微调预训练模型；多文档；事实一致性；

7、《Improving Summarization with Human Edits》

摘要：最近的研究表明，利用人类反馈范式进行学习有望产生由人类决定的高质量文本。现有工作利用人类反馈在一般领域抽象摘要中训练大型语言模型（LLM），并获得了超越传统似然训练的摘要质量。在本文中，我们专注于一种较少探索的人类反馈形式——人工编辑。我们提出了序列比对（非）似然训练（SALT），这是一种新技术，可以在训练循环中同时使用人工编辑和模型生成的数据。此外，我们还演示了使用来自现有训练数据的地面实况摘要来模拟人工编辑 - 模仿编辑，以及训练后获得的模型生成的摘要，以减少对昂贵的人工编辑数据的需求。在我们的实验中，我们将人类反馈探索从一般领域总结扩展到医学领域总结。我们的研究结果表明，SALT在通过人工编辑和模仿编辑提高摘要质量方面是有效的。通过额外的实验，我们表明，当应用于人类编辑数据时，SALT优于传统的RLHF方法（专为人类偏好而设计） - DPO。我们希望论文中的证据能促使研究人员探索、收集和更好地利用不同的人类反馈方法。

关键词：人类反馈式摘要；新的训练技术；序列比对似然训练；

8、《Boosting Summarization with Normalizing Flows and Aggressive Training》

摘要：本文介绍了 FlowSUM，这是一种基于归一化流的变分编码器-解码器框架，用于基于 Transformer 的汇总。我们的方法解决了变分总结中的两个主要挑战：潜在表征中的语义信息不足和训练过程中的后瘫。为了应对这些挑战，我们采用归一化流程来实现灵活的潜在后验建模，并提出了一种具有改进门机制的受控交替攻击训练（CAAT）策略。实验结果表明，FlowSUM显著提高了生成摘要的质量，释放了知识蒸馏的潜力，同时对推理时间的影响最小。此外，我们研究了归一化流中的后部塌陷问题，并分析了训练策略、门初始化以及使用的归一化流的类型和数量如何影响汇总质量，为未来的研究提供了有价值的见解。

关键词：新的训练策略；知识蒸馏；

9、《Indicative Summarization of Long Discussions》

摘要：在线论坛鼓励就许多主题交换和讨论不同立场。它们不仅提供了一个提出自己论点的机会，而且还可能收集他人论点的广泛横截面。然而，由此产生的长时间讨论很难概述。本文提出了一种新颖的无监督方法，使用大型语言模型（LLM）为长讨论生成指示性摘要，这些摘要基本上用作目录。我们的方法首先对论证句进行聚类，将聚类标签生成为抽象摘要，并将生成的聚类标签分类为论证框架，从而产生两级摘要。基于广泛优化的提示工程方法，我们评估了 19~LLM 用于生成聚类标记和帧分类。为了评估指示性摘要的有用性，我们通过一个名为“讨论资源管理器”的新可视化界面进行了一项目的驱动的用户研究：这表明我们提出的指示性摘要可以作为探索长篇讨论的便捷导航工具。

关键词：新的无监督训练方法；使用大模型生成参考摘要；

10、《Investigating Efficiently Extending Transformers for Long Input Summarization》

摘要：虽然大型预训练 Transformer 模型已被证明在处理自然语言任务方面具有很强的能力，但处理长序列输入仍然是一个重大挑战。其中一项任务是长输入汇总，其中输入长于大多数预训练模型的最大输入上下文。通过一系列广泛的实验，我们研究了哪些模型架构更改和预训练范式可以最有效地使预训练的 Transformer 适应长输入摘要。我们发现，具有全局编码器令牌的交错块局部 Transformer 在性能和效率之间取得了良好的平衡，并且对长序列进行额外的预训练阶段可以有意义地提高下游摘要性能。根据我们的研究结果，我们引入了 PEGASUS-X，这是 PEGASUS 模型的扩展，具有额外的长输入预训练，可处理高达 16K 个代币的输入。PEGASUS-X 在长输入汇总任务上实现了强大的性能，可与更大的模型相媲美，同时添加很少的额外参数，并且不需要模型并行性来训练。

关键词：长文本摘要；PEGASUS系列拓展；

11、《Background Summarization of Event Timelines》

摘要：生成新闻事件的简明摘要是一项具有挑战性的自然语言处理任务。虽然记者经常策划时间表以突出关键的子事件，但新闻事件的新人在追赶其历史背景方面面临挑战。在本文中，我们通过引入背景新闻摘要任务来满足这一需求，该任务通过相关先前事件的背景摘要来补充每个时间线更新。我们通过合并现有的时间线数据集来构建数据集，并要求人工注释者为每个新闻事件的每个时间步长编写背景摘要。我们使用最先进的摘要系统建立了强大的基线性能，并提出了一个以查询为中心的变体来生成背景摘要。为了评估背景摘要的质量，我们提出了一个基于问答的评估指标，即背景效用分数（BUS），它衡量背景摘要回答的有关当前事件时间步长的问题的百分比。我们的实验表明，除了使用 GPT-3.5 的强大零样本性能外，Flan-T5 等指令微调系统的有效性。

关键词：时间线摘要；背景摘要；基于问答的摘要指标；

12、《SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation》

摘要：由于任务的复杂性和主观性，总结系统的可靠自动评估具有挑战性。对于其他语言尤其如此而不是英语，在英语中人类的评价是缺乏的在这项工作中，我们介绍了SEAHORSE，用于多语言、多方面汇总评估的数据集。SEAHORSE由96K个摘要中的人工评分文本质量的6个维度：可理解性、重复性、语法、归因、主体思想和简洁。SEAHORSE封面6语言，9个系统（包括参考文本）和4个摘要数据集。由于其规模和范围，SEAHORSE可以提供两者都作为评估所学习的度量的基准，以及大规模的培训资源这样的度量。我们展示了经过训练的指标与SEAHORSE一起实现强大的性能关于两个领域外元评估基准：TRUE（Honovich et al.，2022）和mFACE（Aharoni等人，2023）。我们制作SEAHORSE数据集和指标可公开用于未来的多语言和多方面总结评价。

关键词：系统性设计了评估指标；多语言摘要；

13、《ORCHID: A Chinese Debate Corpus for Target-Independent Stance Detection and Argumentative Dialogue Summarization》

摘要：多年来，对话代理一直受到越来越多的关注，而大型语言模型（LLM）的最新进展进一步推动了这一趋势。立场检测和对话总结是对话智能体在涉及议论性对话的应用场景中的两个核心任务。然而，由于公共数据集的不足，特别是对于非英语语言，对这些任务的研究受到限制。为了解决这一中文语言资源缺口，我们提出了ORCHID（中文口语辩论），这是第一个用于对目标无关的立场检测和辩论总结进行基准测试的中文数据集。我们的数据集包括 1,218 场真实世界的辩论，这些辩论以中文进行，涉及 476 个独特的主题，包含 2,436 个针对特定立场的摘要和 14,133 个完全注释的话语。除了为未来的研究提供多功能的测试平台外，我们还对数据集进行了实证研究，并提出了一个综合任务。结果显示了数据集的挑战性，并表明有可能将立场检测纳入辩论对话的摘要中。

关键词：立场检测；辩论赛数据集；

14、《FaMeSumm: Investigating and Improving Faithfulness of Medical Summarization》

摘要：医学文本的摘要应忠实于与来源输入一致和真实，这是医疗保健安全和效率的一个重要但研究不足的话题。在本文中，我们调查并提高了对各种医学总结任务的总结的忠实度。我们的调查显示，当前的摘要模型经常为医疗输入文本产生不忠实的输出。然后，我们介绍了 FaMeSumm，这是一个通过微调基于医学知识的预训练语言模型来提高忠诚度的框架。FaMeSumm对设计的忠实和不忠实摘要集进行对比学习，并结合医学术语及其上下文，以鼓励忠实地生成医学术语。我们用两种语言对三个数据集进行了全面的实验：英文的健康问题和放射学报告摘要数据集，以及中文的医患对话数据集。结果表明，FaMeSumm 通过对 BART、T5、mT5 和 PEGASUS 等主流语言模型提供持续的改进，在忠实度和总体质量指标上产生最先进的性能，从而灵活而有效。医生的人工评估还表明，FaMeSumm 会产生更忠实的输出。我们的代码可在 https://github.com/psunlpgroup/FaMeSumm 上找到。

关键词：事实一致性；

15、《Zero-shot Faithfulness Evaluation for Text Summarization with Foundation Language Model》

摘要：尽管在自然语言生成方面有了巨大的改进，但摘要模型仍然存在不忠实的问题。以前的工作要么使用在其他任务上训练的模型或域内合成数据来评估忠诚度，要么使用ChatGPT等大型模型来评估。本文建议仅使用中等大小的基础语言模型进行零样本忠诚度评估。我们引入了一个新的指标 FFLM，它是基于直觉的概率变化组合，即在一段与输出一致的文本前面添加前缀会增加预测输出的概率。实验表明，FFLM 在不一致性检测和忠诚度评级方面都与 ChatGPT 具有竞争力，甚至优于 ChatGPT，参数减少了 24 倍。FFLM 还实现了对其他强基线的改进。

关键词：零样本；事实一致性评估标准；ChatGPT；

16、《What to Read in a Contract? Party-Specific Summarization of Legal Obligations, Entitlements, and Prohibitions》

摘要：审查和理解法律合同中的关键义务、权利和禁令可能是一项繁琐的任务，因为它们的长度和领域特异性。此外，每个缔约方需要审查的关键权利和义务也各不相同。在这项工作中，我们提出了一项新的任务，即对法律合同进行针对特定当事人的抽取摘要，以方便更快地审查和提高对权利和义务的理解。为了促进这一点，我们策划了一个数据集，该数据集由法律专家注释的特定于当事方的成对重要性比较组成，涵盖 ~293K 个句子对，其中包括从租赁协议中提取的义务、权利和禁令。利用这个数据集，我们训练了一个成对重要性排序器，并提出了一个基于管道的抽取式摘要系统，该系统可以生成特定于当事方的合同摘要。通过使用自动和人工评估方法将我们的系统与各种基线进行比较，我们确定了在总结过程中纳入特定领域重要性概念的必要性

关键词：新数据集；法律；

17、《CP-BCS: Binary Code Summarization Guided by Control Flow Graph and Pseudo Code》

摘要：自动生成二进制文件的函数摘要是一项非常有价值但具有挑战性的任务，因为它涉及将低级语言（汇编代码）的执行行为和语义转换为人类可读的自然语言。然而，目前大多数关于理解汇编代码的工作都是面向生成函数名称的，这涉及许多缩写，使它们仍然令人困惑。为了弥合这一差距，我们专注于为二进制函数生成完整的摘要，特别是对于剥离的二进制函数（实际上没有符号表和调试信息）。为了充分利用汇编代码的语义，我们提出了一个控制流图和伪代码引导的二进制代码摘要框架，称为 CP-BCS。CP-BCS 利用双向指令级控制流图和伪代码，结合专业知识来学习全面的二进制函数执行行为和逻辑语义。我们在 3 种不同计算机架构（X86、X64 和 ARM）的 3 个不同的二进制优化级别（O1、O2 和 O3）上评估 CP-BCS。评估结果表明，CP-BCS具有优越性，显著提高了逆向工程的效率。

关键词：二进制函数摘要；

18、《Reinforcement Replaces Supervision: Query focused Summarization using Deep Reinforcement Learning》

摘要：以查询为中心的摘要（QfS）处理基于查询从文档生成摘要的系统。基于强化学习（RL）为自然语言生成提供了对监督学习（SL）的泛化，因此（经验上）优于 SL 的见解，我们使用基于 RL 的方法完成 QfS 的这项任务。此外，我们还解决了在 Transformers 中使用 RL 与教师强迫的冲突。我们开发了多个策略梯度网络，在各种奖励信号上进行了训练：ROUGE、BLEU 和语义相似性，这比基准数据集（ELI5）的 ROUGE-L 指标上的最先进的方法提高了 10 点。我们还展示了我们的方法在另一个基准数据集（DebatePedia）的零样本设置中的性能 - 我们的方法导致的结果与基线相当，基线是在DebatePedia上专门训练的。为了帮助RL训练，我们提出了一种更好的语义相似性奖励，这是通过使用聚类假设开发的新型通道嵌入方案实现的。最后，我们贡献了一个黄金标准的测试数据集，用于 QfS 和长篇问答（LfQA）的进一步研究。

关键词：查询式摘要；强化学习；

19《Can LMs Generalize to Future Data? An Empirical Analysis on Text Summarization》

摘要：最近的预训练语言模型（PLM）在现有的抽象摘要数据集中取得了可喜的结果。然而，现有的总结基准在时间上与标准的预训练语料库和微调数据集重叠。因此，PLM 的强大性能可能依赖于在预训练和微调期间记忆的参数知识。此外，PLM 记忆的知识可能很快就会过时，从而影响 PLM 对未来数据的泛化性能。在这项工作中，我们提出了 TempoSum，这是一个包含 2010 年至 2022 年数据样本的新基准，以了解抽象摘要模型的时间泛化能力。通过广泛的人工评估，我们表明存储在摘要模型中的参数知识会显着影响生成摘要对未来数据的忠实度。此外，现有的忠实度增强方法无法可靠地提高总结模型对未来数据的忠实度。最后，我们讨论了如何评估和提高文本摘要模型的时间泛化能力对研究界的几点建议。

关键词：事实一致性；时间泛化能力；新数据集；

20、《From Key Points to Key Point Hierarchy: Structured and Expressive Opinion Summarization》

摘要：最近提出了关键点分析（KPA）用于从文本注释集合中获取细粒度的见解。KPA 将数据中的要点提取为简明的句子或短语列表，称为关键点，并量化其流行程度。虽然关键点比词云和关键短语更具表现力，但理解一长串扁平的关键点（通常以不同粒度表达相关想法）可能仍然具有挑战性。为了解决 KPA 的这一局限性，我们引入了根据其特殊性将一组给定的关键点组织到层次结构中的任务。这种层次结构可以被看作是一种新型的文本蕴涵图。我们开发了 ThinkP，这是一个高质量的基准数据集，用于业务和产品评论的关键点层次结构，通过整合多个注释获得。我们比较了预测关键点之间成对关系的不同方法，以及从这些成对预测中推断层次结构的方法。特别是，对于成对关键点关系的计算任务，我们通过将方向分布相似性方法应用于关键点的新分布表示，在现有的强基线上取得了显着的收益，并通过弱监督进一步提高了性能。

关键词：关键点分析；文本蕴含图；新数据集；

21、《DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization. 》

摘要：对话摘要因其广泛的应用范围而最近引起了极大的关注。然而，现有的对话总结方法存在局限性，因为它们没有考虑到对话的内在结构，并且严重依赖标记数据，这可能导致在新领域表现不佳。在这项工作中，我们提出了DIONYSUS（对话摘要预训练中的动态输入优化），这是一种预训练的编码器-解码器模型，用于总结任何新领域中的对话。为了预训练狄俄尼索斯，我们为每个对话示例创建了两个伪摘要：一个由微调的摘要模型生成，另一个是传达重要信息的对话转折的集合。然后，我们根据不同类型对话中信息分布的差异选择这些伪摘要之一。这个选定的伪摘要是使用自监督方法在大型对话语料库上对狄俄尼索斯进行预训练的目标。我们的实验表明，狄俄尼索斯在六个数据集上的表现优于现有方法，正如其在零样本和少样本设置下的ROUGE分数所证明的那样。

关键词：对话摘要；微调预训练模型；

22、《Compositional Data Augmentation for Abstractive Conversation Summarization.》

摘要：最近的抽象对话摘要系统通常依赖于带有注释摘要的大规模数据集。但是，收集和注释这些对话可能是一项耗时且劳动密集型的任务。为了解决这个问题，在这项工作中，我们提出了一种子结构级的组合数据增强方法Compo，用于生成多样化和高质量的对话和摘要对。具体来说，Compo 首先提取对话结构，如主题拆分和动作三元组作为基本单位。然后，我们以组合方式组织这些语义上有意义的对话片段，以创建新的训练实例。此外，我们还在自我训练和联合训练范式中探索了噪声容限设置，以充分利用这些增强样本。我们在基准数据集 SAMSum 和 DialogSum 上的实验表明，Compo 在有限的数据下实现了近 10% 的 ROUGE 分数增长，大大优于以前的基线方法。代码可在 https://github.com/ozyyshr/Compo 上找到。

关键词：对话摘要；数据增强；

23、《Cross-lingual Science Journalism: Select, Simplify and Rewrite Summaries for Non-expert Readers.》

摘要：自动化跨语言科学新闻（CSJ）旨在从英语科学文本中生成科普摘要，供非专业读者使用当地语言。我们将CSJ作为文本简化和跨语言科学摘要的下游任务，以方便科学记者的工作。我们分析了现有解决方案的性能，作为CSJ任务的基线。基于这些发现，我们建议将三个组成部分——选择、简化和重写（SSR）结合起来，为非专业读者制作跨语言的简化科学摘要。我们对维基百科数据集的实证评估表明，SSR 明显优于 CSJ 任务的基线，可以作为未来工作的有力基线。我们还进行了一项消融研究，调查SSR各个成分的影响。此外，我们通过人工评估和深入分析，在高质量、真实世界的 CSJ 数据集上分析了 SSR 的性能，证明了 SSR 对 CSJ 的卓越性能。

关键词：跨语言摘要；

24、《Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization.》

摘要：在抽象总结的背景下，对不忠实的总结问题进行了广泛的讨论。虽然抽取式总结不太容易出现抽象性摘要中常见的不忠实问题，但这是否意味着抽取式等同于忠实性？事实证明，答案是否定的。在这项工作中，我们定义了一种类型学，其中包含五种类型的广泛不忠问题（包括和超越非蕴涵问题），这些问题可能出现在抽取性摘要中，包括不正确的共指、不完全的共指、不正确的话语、不完整的话语，以及其他误导性信息。我们要求人类从16个不同的提取系统产生的1600个英文摘要中标记这些问题。我们发现 30% 的摘要至少存在五个问题中的一个。为了自动检测这些问题，我们发现现有的 5 个用于总结的忠诚度评估指标与人类判断的相关性较差。为了解决这个问题，我们提出了一种新的指标 ExtEval，该指标旨在检测不忠实的抽取摘要，并被证明具有最佳性能。我们希望我们的工作能够提高对抽取式总结中不忠问题的认识，并有助于未来评估和解决这些问题的工作。我们的数据和代码在此 https URL 上公开提供

关键词：事实一致性；新的评估指标；

25、《CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1, 500+ Language Pairs. 》

摘要：我们提出了 CrossSum，这是一个大规模的跨语言摘要数据集，包含 1,500+ 语言对的 168 万篇文章摘要样本。我们通过从多语言抽象摘要数据集中跨语言检索来对齐以不同语言编写的并行文章，并执行受控的人工评估以验证其质量，从而创建 CrossSum。我们提出了一种多阶段数据采样算法，以有效地训练一个跨语言的摘要模型，能够用任何目标语言总结一篇文章。我们还引入了 LaSE，这是一种基于嵌入的指标，用于自动评估模型生成的摘要。LaSE与ROUGE密切相关，与ROUGE不同，即使在没有目标语言的参考文献的情况下，也可以可靠地测量LaSE。在ROUGE和LaSE上的表现表明，我们提出的模型始终优于基线模型。据我们所知，CrossSum 是最大的跨语言摘要数据集，也是第一个不以英语为中心的数据集。我们正在发布数据集、训练和评估脚本以及模型，以促进未来跨语言摘要的研究。可以在以下 https URL 中找到资源

关键词：跨语言摘要；新的数据集；新的评价指标；

26、《Generating EDU Extracts for Plan-Guided Summary Re-Ranking. 》

摘要：两步法，即生成摘要候选人，然后重新排名以返回单个摘要，可以提高 ROUGE 分数，而不是标准的单步方法。然而，标准解码方法（即波束搜索、原子核采样和各种波束搜索）产生的候选内容是冗余的，而且通常是低质量的。在本文中，我们设计了一种新方法来生成解决这些问题的重新排名候选者。我们将每个候选摘要都建立在自己独特的内容计划之上，并使用模型的顶梁生成不同的计划指导摘要。更具体地说，标准语言模型（BART LM）使用抽取复制机制自动回归生成元素话语单元（EDU）内容计划。然后，使用来自内容计划生成器的顶部 K 光束来引导单独的 LM，从而为每个不同的计划生成一个抽象候选者。我们将现有的重新排名器（BRIO）应用于从我们的方法以及基线解码方法生成的抽象候选者。在广泛使用的单文档新闻文章语料库上，我们显示出与以前发表的方法相比，相关性有了很大的改进，在 CNN / Dailymail、NYT 和 Xsum 上，ROUGE-2 F1 的收益分别为 0.88、2.01 和 0.38。对 CNN/DM 的人工评估验证了这些结果。同样，在来自 CNN/DM 的 1k 样本上，我们表明提示 GPT-3 遵循 EDU 计划比基于采样的方法高出 1.05 个 ROUGE-2 F1 点。用于生成和实现计划的代码可在 https://github.com/griff4692/edu-sum 上找到。

关键词：二阶段摘要方法；

27、《Summary-Oriented Vision Modeling for Multimodal Abstractive Summarization.》

摘要：多模态抽象摘要（MAS）的目标是在给定多模态数据（文本和视觉）的情况下生成简明的摘要。现有的MAS研究主要集中在如何有效利用提取的视觉特征上，在高资源的英语数据集上取得了令人瞩目的成功。然而，对摘要的视觉特征质量的关注较少，这可能会限制模型性能，尤其是在低资源和零资源场景下。在本文中，我们提出通过面向摘要的视觉特征来提高摘要质量。为此，我们设计了两个辅助任务，包括视觉到摘要任务和蒙版图像建模任务。结合主要的总结任务，我们通过所有这些任务的训练目标来优化MAS模型。通过这些方法，可以通过捕获面向摘要的视觉特征来增强 MAS 模型，从而产生更准确的摘要。通过对44种语言的实验，覆盖了中高、低、零资源场景，验证了所提方法的有效性和优越性，在所有场景下均能达到最佳性能。此外，我们将为研究界贡献一个大规模的多语言多模态抽象摘要（MM-Sum）数据集。

关键词：少样本；视觉摘要；多模态数据集；

28、《Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation.》

摘要：人工评估是评估汇总系统和自动指标的基础。然而，现有的用于总结的人类评价研究要么表现出较低的注释者间一致性，要么规模不足，并且缺乏对人类评价的深入分析。因此，我们沿着以下几个方面解决了现有摘要评估的缺点：（1）我们提出了一种改进的摘要显著性协议，即原子含量单元（ACUs），该协议基于细粒度语义单元，并允许高注释者间一致性。（2）我们策划了鲁棒性摘要评估（RoSE）基准，这是一个大型人类评估数据集，由三个数据集上 28 个性能最佳系统的 22,000 个摘要级注释组成。（3）我们对四种人类评估方案进行了比较研究，强调了评估设置中的潜在混杂因素。（4）我们使用跨评估协议收集的人工注释评估了 50 个自动指标及其变体，并展示了我们的基准如何导致统计上更稳定和更显着的结果。我们基准测试的指标包括基于大型语言模型（LLM）、GPTScore 和 G-Eval 的最新方法。此外，我们的研究结果对评估 LLM 具有重要意义，因为我们表明，通过人类反馈（例如 GPT-3.5）调整的 LLM 可能会过度拟合不受约束的人类评估，这受到注释者先前的、与输入无关的偏好的影响，需要更强大、更有针对性的评估方法。

关键词：ChatGPT3.5；摘要评估方法；

29、《Incorporating Distributions of Discourse Structure for Long Document Abstractive Summarization.》

摘要：对于文本摘要，话语结构在辨别文本核心内容方面起着至关重要的作用。遗憾的是，以往关于将修辞结构理论（RST）纳入基于转换器的总结模型的研究只考虑了核性注释，从而忽略了话语关系类型的多样性。本文介绍了“RSTformer”，这是一种综合了修辞关系类型和不确定性的新型总结模型。我们的RST注意力机制植根于文档级修辞结构，是最近设计的Longformer框架的延伸。通过严格的评估，本文提出的模型表现出优于最先进模型的显着优势，这从其在多个自动指标和人工评估方面的显着表现可以看出。

关键词：语义结构；

30、《Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback.》

摘要：尽管当代扎根文本生成系统看似成功，但它们往往倾向于生成与输入内容不一致的文本。这种现象在摘要等任务中得到了强调，在这些任务中，生成的摘要应该由其源文章证实。在这项工作中，我们利用文本蕴涵模型的最新进展来直接解决抽象摘要系统的这个问题。我们使用具有无参考、文本蕴涵奖励的强化学习来优化事实一致性并探索随之而来的权衡，因为提高一致性可能会以信息量较少或提取性更强的摘要为代价。根据自动指标和人工评估，我们的结果表明，我们的方法大大提高了生成摘要的忠实度、显著性和简洁性。

关键词：事实不一致；无监督强化学习；

31、《Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization.》

摘要：已经提出了一系列数据集和模型，用于为格式良好的文档（如新闻文章）生成的摘要。然而，对话摘要尚未得到探讨。在本文中，我们提出了第一个具有细粒度事实错误注释的数据集，称为 DIASUMFACT。我们将细粒度事实错误检测定义为句子级多标签分类问题，并在我们的数据集上评估了两个最先进的（SOTA）模型。两种模型的结果都不理想，在 6 个误差类别中，宏观平均 F1 分数约为 0.25。我们进一步提出了一个无监督模型ENDERANKER，通过使用预训练的编码器-解码器模型进行候选排序。我们的模型与SOTA模型的性能相当，同时需要更少的资源。这些观察结果证实了从对话摘要中检测事实错误的挑战，这需要进一步研究，我们的数据集和结果为此提供了坚实的基础。

关键词：细粒度事实不一致；对话摘要；新的用于事实不一致的数据集；

32、《Improving the Robustness of Summarization Systems with Dual Augmentation.》

摘要：一个强大的摘要系统应该能够捕捉文档的要点，而不管输入中的具体单词选择或噪音如何。在这项工作中，我们首先探讨了摘要模型对扰动的鲁棒性，包括词级同义词替换和噪声。为了创建语义一致的替代品，我们提出了一个 SummAttacker，这是一种基于预训练语言模型生成对抗性样本的有效方法。实验结果表明，最先进的汇总模型在对抗性和噪声测试集上的性能显著下降。接下来，我们分析了摘要系统的脆弱性，并探讨了通过数据增强提高鲁棒性的方法。具体来说，我们发现的第一个脆弱性因素是训练输入的低多样性。相应地，我们将编码器暴露给 SummAttacker 在输入空间中创建的更多样化的情况。第二个因素是解码器的脆弱性，我们建议在解码器的潜在空间中进行增强以提高其鲁棒性。具体来说，我们通过流形软混合两个具有相似语义含义的解码器隐藏状态来创建虚拟案例。在Gigaword和CNN/DM数据集上的实验结果表明，我们的方法在强基线上取得了显著的改进，并且在嘈杂、攻击和干净的数据集上表现出更高的鲁棒性

关键词：事实一致性；摘要鲁棒性；噪声；

33、《Attributable and Scalable Opinion Summarization. 》

摘要：我们提出了一种无监督意见总结的方法，该方法将客户评论中的句子编码到分层离散的潜在空间中，然后根据其编码的频率识别常见意见。我们既可以通过解码这些频繁的编码来生成抽象摘要，也可以通过选择分配给相同频繁编码的句子来生成提取摘要。我们的方法是可归因的，因为该模型将用于生成摘要的句子识别为摘要过程的一部分。它很容易扩展到数百个输入审查，因为聚合是在潜在空间中执行的，而不是在长序列的令牌上执行的。我们还证明，我们的 appraoch 实现了一定程度的控制，通过将模型限制在与所需方面（例如，位置或食物）相对应的编码空间部分来生成特定于方面的摘要。对来自不同领域的两个数据集进行自动和人工评估表明，我们的方法生成的摘要比以前的工作信息量更大，并且更符合输入审查。

关键词：无监督摘要；句子编码新方案；

34、《CFSum Coarse-to-Fine Contribution Network for Multimodal Summarization. 》

摘要：关键词：多模态总结通常存在视觉模态贡献不明确的问题。现有的多模态总结方法侧重于设计不同模态的融合方法，而忽略了视觉模态有用的适应条件。因此，我们提出了一种新的多模态汇总从粗到细的贡献网络（CFSum），以考虑图像的不同贡献进行汇总。首先，为了消除无用图像的干扰，我们提出了一个前置滤波模块来放弃无用图像。其次，为了准确利用有用的图像，我们提出了两个层次的视觉补语模块，单词层次和短语层次。具体来说，计算图像贡献并用于引导文本和视觉模态的注意力。实验结果表明，CFSum在标准基准上的表现明显优于多个强基线。此外，该分析还验证了有用的图像甚至可以帮助生成隐含在图像中的非视觉单词。

关键词：视觉摘要；多模态摘要；

35、《Revisiting Cross-Lingual Summarization: A Corpus-based Study and A New Benchmark with Improved Annotation.》

摘要：大多数现有的跨语言摘要（CLS）工作通过简单直接地将预先注释的摘要从一种语言翻译成另一种语言来构建 CLS 语料库，这可能包含摘要和翻译过程中的错误。为了解决这个问题，我们提出了 ConvSumX，一种跨语言对话摘要基准，通过一种新的注释模式，明确考虑源输入上下文。ConvSumX 由 2 个子任务组成，每个子任务涵盖 3 个语言方向。我们对 ConvSumX 和 3 个广泛使用的手动标注 CLS 语料库进行了深入分析，实证发现 ConvSumX 对输入文本更忠实。此外，基于相同的直觉，我们提出了一种两步法，该方法将对话和摘要作为输入来模拟人类标注过程。实验结果表明，两步法在自动评估和人工评估下都超越了ConvSumX的强基线。分析表明，源输入文本和摘要对于跨语言摘要建模至关重要。

关键词：跨语言摘要；二阶段摘要；

36、《Unsupervised Extractive Summarization of Emotion Triggers.》

摘要：了解在大规模危机期间导致情绪的原因很重要，因为它可以为表达的情绪提供基础，并随后提高对持续灾难的理解。最近的方法训练监督模型通过抽象总结来检测情绪和解释情绪触发因素（事件和评估）。然而，获得及时和定性的抽象摘要既昂贵又耗时，需要训练有素的专家注释员。在时间敏感、高风险的情况下，这可能会阻止必要的响应。相反，我们追求从文本中提取触发器的无监督系统。首先，我们引入了 CovidET-EXT，用提取触发器增强了（Zhan 等人，2022 年）的抽象数据集（在 COVID-19 危机的背景下）。其次，我们开发了新的无监督学习模型，可以共同检测情绪并总结其触发因素。我们的最佳方法名为Emotion-Aware Pagerank，将来自外部来源的情感信息与语言理解模块相结合，并优于强大的基线。我们在 https://github.com/tsosea2/CovidET-EXT 发布我们的数据和代码。

关键词：情绪摘要

37、《Concise Answers to Complex Questions: Summarization of Long-form Answers. 》

摘要：长篇问答系统通过提供段落级答案来提供丰富的信息，通常包含可选的背景或辅助信息。虽然这种全面的答案是有帮助的，但并不是回答问题需要所有信息（例如，具有领域知识的用户不需要背景解释）。我们能否通过总结来提供答案的简明版本，同时仍然解决问题？我们对由最先进的模型和我们新提出的提取和去语境化方法生成的汇总答案进行了用户研究。我们发现 ELI5 领域中很大一部分长格式答案（超过 90%）可以由至少一个系统充分总结，而复杂和隐含的答案则难以压缩。我们观察到，去语境化提高了抽取性摘要的质量，体现了其在摘要任务中的潜力。为了促进未来的工作，我们提供了一个提取式摘要数据集，涵盖 1K 长篇答案和我们的用户研究注释。我们共同提出了第一项关于总结长篇答案的研究，为可以提供多粒度答案的 QA 代理向前迈进了一步。

关键词：长问答摘要；去语境化方法；

38、《Automated Metrics for Medical Multi-Document Summarization Disagree with Human Evaluations》

摘要：评估多文档摘要（MDS）质量很困难。在用于生物医学文献综述的MDS中尤其如此，其中模型必须综合不同文件中报告的相互矛盾的证据。先前的研究表明，模型可能会利用使用标准 n-gram 相似度指标（如 ROUGE）难以检测的快捷方式，而不是执行任务。需要更好的自动化评估指标，但在提出指标时，很少有资源来评估指标。因此，我们引入了一个由人工评估的摘要质量方面和成对偏好的数据集，以鼓励和支持开发更好的文献综述 MDS 自动化评估方法。我们利用社区提交的多文档文献综述（MSLR）共享任务来编译生成摘要的多样化和代表性样本。我们分析了自动摘要评估指标如何与生成的摘要的词汇特征、其他自动化指标（包括我们在这项工作中提出的几个指标）以及人工评估摘要质量的各个方面相关联。我们发现，自动化指标不仅无法捕捉到人类评估的质量方面，而且在许多情况下，这些指标产生的系统排名与人类注释者的排名是反相关的。

关键词：多文档摘要；新数据集；自动化评估指标

39、《SIMSUM: Document-level Text Simplification via Simultaneous Summarization. 》

摘要：文档级文本简化是一种特定类型的简化，它涉及通过将多个句子重写为更少或更多的句子来简化由多个句子组成的文档。在本文中，我们提出了一种新的两阶段框架 SIMSUM，用于自动化文档级文本简化。我们的模型设计有明确的总结和简化模型，并使用源文本的主要关键词来指导生成。为了评估我们的新模型，我们使用了两个现有的基准数据集进行简化，即 D-Wikipedia 和 Wiki-Doc。我们将模型的性能与最先进的技术进行比较，并表明 SIMSUM 在 D-Wikipedia 数据集 SARI （+1.20）、D-SARI （+1.64）和 FKGL （-0.35）得分上取得了最高成绩，优于最佳基线模型。为了评估生成文本的质量，我们对不同模型的输出进行了定性分析，并展示了新模型的优点。我们的代码和数据集可用。

关键词：两阶段摘要；

41、《What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization. 》

摘要：摘要模型通常生成的文本对质量指标的校准不佳，因为它们经过训练可以最大限度地提高单个引用（MLE）的可能性。为了解决这个问题，最近的工作增加了一个校准步骤，该步骤将模型暴露于其自己的排名输出以提高相关性，或者在单独的工作中，对比正集和负集以提高忠实度。虽然很有效，但大部分工作都集中在如何生成和优化这些集合上。关于为什么一种设置比另一种设置更有效，我们知之甚少。在这项工作中，我们揭示了有效集合的基本特征。对于每个训练实例，我们形成了一个庞大而多样化的候选者池，并系统地改变用于校准微调的子集。每种选择策略都针对集合的不同方面，例如词汇多样性或正负之间差距的大小。在三个不同的科学长篇摘要数据集（跨越生物医学、临床和化学领域）上，我们发现，除其他外，当负集是抽取性的并且更有可能生成时，忠实度校准是最佳的，而对于相关性校准，候选者之间的度量余量应该最大化，而惊喜——模型和指标定义的候选者排名之间的分歧——最小化。

关键词：事实一致性；校准步骤

42、《Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors. 》

摘要：抽象摘要模型犯事实错误的倾向已经被广泛研究，包括设计用于检测事实错误的度量和当前系统输出中的错误注释。然而，摘要系统、指标和注释基准的不断发展使得事实性评估成为一个不断变化的目标，在指标之间进行清晰的比较变得越来越困难。在这项工作中，我们汇总了来自九个现有数据集的事实性错误注释，并根据基础汇总模型对它们进行分层。我们在这个分层基准上比较了最先进的事实性指标（包括最近基于 ChatGPT 的指标）的性能，并表明它们在不同类型的摘要模型中的性能差异很大。至关重要的是，我们的分析表明，事实性检测领域最近的大部分改进都是基于旧模型（前 Transformer）的摘要，而不是更相关的近期摘要模型。我们进一步对每种错误类型进行更细粒度的分析，并发现不同事实性指标的错误类型之间的性能差异相似。我们的结果表明，没有一个指标在所有设置或所有错误类型中都优于所有错误类型，我们根据这些见解提供了最佳实践建议。

关键词：事实一致性；一致性指标总结

43、《Socratic Pretraining: Question-Driven Pretraining for Controllable Summarization. 》

摘要：在长文档可控摘要中，标记数据稀缺，预训练模型难以适应任务并有效响应用户查询。在本文中，我们介绍了苏格拉底预训练，这是一种问题驱动的无监督预训练目标，专门用于提高总结任务的可控性。通过训练模型在给定上下文中生成和回答相关问题，苏格拉底预训练使模型能够更有效地遵守用户提供的查询并识别要总结的相关内容。我们通过对两个总结领域（短篇小说和对话）以及多种控制策略（关键字、问题和事实 QA 对）的广泛实验来证明这种方法的有效性。我们的预训练方法仅依赖于未标记的文档和问题生成系统，并且优于使用额外监督数据的预微调方法。此外，我们的结果表明，Socratic 预训练将特定于任务的标记数据需求减少了一半，更忠实于用户提供的查询，并在 QMSum 和 SQuALITY 上实现了最先进的性能。

关键词：长文档摘要；无监督预训练；苏格拉底预训练

44、《UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot Summarization.》

摘要：高昂的标注成本和各种摘要任务的多样化需求促使了少样本摘要的发展。然而，尽管出现了许多汇总任务和数据集，但目前针对小样本汇总系统的训练范式忽略了异构数据集中潜在的可共享知识。为此，我们提出了 UniSumm，这是一个统一的小样本摘要模型，该模型使用多个摘要任务进行预训练，并且可以进行前缀调整以在任何小样本摘要任务中表现出色。同时，为了更好地评估小样本摘要器，在多样性和鲁棒性的原则下，我们组装并发布了一个新的基准 SummZoo。它由 8 个总结任务组成，每个任务有多组小样本，涵盖不同的领域。实验结果和分析表明，在自动和人工评估下，UniSumm 在 SummZoo 的所有子任务中都大大优于强基线，并且在人类评估中与 GPT-3.5 模型相比取得了可比的结果。

关键词：少样本训练；异构数据集；新的数据集

45、《ExplainMeetSum: A Dataset for Explainable Meeting Summarization Aligned with Human Intent. 》

摘要：为了增强会议摘要的可解释性，我们构建了一个名为“ExplainMeetSum”的新数据集，这是 QMSum 的增强版本，通过新注释忠实“解释”摘要的证据句子。使用 ExplainMeetSum，我们提出了一种新颖的多提取器引导式汇总，即 Multi-DYLE，它广泛地概括了 DYLE，以便能够使用基于人类对齐的提取预言机的监督提取器。我们进一步提出了一个可解释性感知任务，称为“可解释证据提取”（E3），旨在自动检测支持给定摘要的所有证据句子。在QMSum数据集上的实验结果表明，所提出的Multi-DYLE优于DYLE，ROUGE-1得分增益高达3.13。我们进一步展示了 E3 任务的初始结果，在使用单独和联合评估指标的设置下。

关键词：会议摘要；新数据集；

46、《Dialogue Summarization with Static-Dynamic Structure Fusion Graph. 》

摘要：对话是语言中最基本和最有特权的领域，近年来在网络上越来越普遍。快速浏览冗长的对话上下文并捕获分散在整个对话会话中的突出信息，使许多实际 Web 应用程序（如电子邮件线程摘要和会议纪要草稿）中的用户受益。对话摘要是一项具有挑战性的任务，因为对话具有动态的互动性质，并且可能在不同的发言者之间不一致的信息流。许多研究人员通过使用外部语言工具包对具有预计算静态图结构的对话进行建模来完成这项任务。然而，这些方法很大程度上依赖于外部工具的可靠性，并且静态图的构建与图表示学习阶段脱节，这使得图无法动态适配下游的摘要任务。在本文中，我们提出了一种基于静态-动态图的对话总结模型（SDDS），该模型融合了人类专业知识的先验知识，并以端到端学习的方式自适应地学习图结构。为了验证SDDS的有效性，我们在三个基准数据集（SAMSum、MediaSum和DialogSum）上进行了实验，结果验证了SDDS的优越性。

关键词：对话摘要；静态动态图；

47、《MeetingBank: A Benchmark Dataset for Meeting Summarization. 》

摘要：随着录制的会议数量的增加，利用摘要技术创建这些记录的有用摘要变得越来越重要。然而，开发这项技术严重缺乏带注释的会议语料库，因为收集会议可能很困难，尤其是当讨论的主题是机密的时。此外，由有经验的作家撰写的会议摘要很少，这使得抽象摘要者很难在没有可靠参考的情况下产生合理的输出。这种注释语料库的缺乏阻碍了会议摘要技术的发展。在本文中，我们介绍了 MeetingBank，这是过去十年市议会会议的新基准数据集。MeetingBank 因其分而治之的方法在其他会议语料库中独树一帜，其中包括将专业撰写的会议记录分成较短的段落，并将它们与会议的特定部分保持一致。这将冗长的会议总结为更小、更易于管理的任务的过程分解为更小、更易于管理的任务。该数据集为各种会议摘要系统提供了新的测试平台，也使公众能够深入了解议会决策的制定方式。我们将集合（包括会议视频链接、文字记录、参考摘要、议程和其他元数据）公开提供，以促进开发更好的会议摘要技术。

关键词：会议摘要；新数据集

48、《Reference Matters: Benchmarking Factual Error Correction for Dialogue Summarization with Fine-grained Evaluation Framework. 》

摘要：事实性对于对话总结很重要。模型生成的摘要的事实纠错（FEC）是提高事实性的一种方法。目前依赖于事实性指标的 FEC 评估不够可靠和详细。为了解决这个问题，我们率先手动标注了一个包含4000个条目的FEC数据集进行对话总结，并提出了FERRANTI，这是一个基于参考校正的细粒度评估框架，可以自动评估FEC模型在不同错误类别上的性能。利用该评估框架，我们在各种设置下对FEC方法进行了充分的实验，并找到了最佳的训练模式和现有方法在不同事实误差类别上的性能差异。

关键词：事实一致性；新评估指标；新数据集

49、《Do You Hear The People Sing? Key Point Analysis via Iterative Clustering and Abstractive Summarisation》

摘要：论点总结是一个很有前途的领域，但目前尚未得到充分探索。最近的工作旨在以简明扼要的短文本形式提供文本摘要，即关键点（KP），这是一项称为关键点分析（KPA）的任务。KPA 的主要挑战之一是从数十个论点中找到高质量的关键点候选者，即使是在一个小语料库中也是如此。此外，评估关键点对于确保自动生成的摘要有用至关重要。尽管评估摘要的自动方法多年来取得了长足的进步，但它们主要集中在句子层面的比较上，因此很难从整体上衡量摘要（一组 KP）的质量。使这个问题更加严重的是，人类评估成本高昂且不可重复。为了解决上述问题，我们提出了一个基于神经主题建模和迭代聚类过程的两步抽象总结框架，以生成与人类识别关键点相一致的关键点。我们的实验表明，我们的框架推进了 KPA 的最新技术，在 ROUGE 和我们自己提出的评估指标方面，性能提高了高达 14（绝对）个百分点。此外，我们使用一种新颖的基于集合的评估工具包来评估生成的摘要。我们的定量分析证明了我们提出的评估指标在评估生成的 KP 质量方面的有效性。人工评估进一步证明了我们方法的优势，并验证了我们提出的评估指标比 ROUGE 分数更符合人类判断。

关键词：二阶段摘要；论点总结；关键点分析；新评估指标

50、《Towards Understanding Omission in Dialogue Summarization.》

摘要：对话摘要旨在将冗长的对话浓缩为简明扼要的摘要，最近取得了重大进展。然而，现有方法的结果仍远不能令人满意。以往研究指出，遗漏是影响摘要质量的主要因素，但很少有人进一步探讨遗漏问题，如遗漏如何影响摘要结果、如何检测遗漏等，这对减少遗漏、提高摘要质量至关重要。此外，分析和检测遗漏依赖于带有遗漏标签的摘要数据集（即，在摘要中省略了哪些对话话语），这在当前文献中是没有的。在本文中，我们提出了OLDS数据集，该数据集为对话摘要提供了高质量的省略标签。通过分析该数据集，我们发现通过为摘要模型提供真实遗漏标签来恢复遗漏信息，可以大大提高摘要质量，这证明了遗漏检测对于对话摘要中遗漏缓解的重要性。因此，我们制定了一个遗漏检测任务，并证明了我们提出的数据集可以很好地支持该任务的训练和评估。我们还呼吁根据我们提出的数据集对遗漏检测采取研究行动。我们的数据集和代码是公开的。

关键词：对话摘要；遗漏问题；新数据集

51、《A Needle in a Haystack: An Analysis of High-Agreement Workers on MTurk for Summarization.》

摘要：为了防止在低质量的注释上使用成本高昂且效率低下的问题，我们需要一种方法来创建一个可靠的注释者池，这些注释者可以有效地完成困难的任务，例如评估自动摘要。因此，我们通过两步管道调查了招聘高质量的 Amazon Mechanical Turk 工人。我们表明，我们可以在执行评估之前成功地过滤掉不合格的工人，并获得具有类似资源限制的高一致性注释。尽管我们的员工在他们自己和 CloudResearch 员工之间表现出强烈的共识，但他们与专家对数据子集的判断的一致性并不像预期的那样，需要进一步培训正确性。这篇论文仍然是在其他具有挑战性的注释任务中招募合格注释者的最佳实践。

关键词：高质量标注方法

52、《Towards Unifying Multi-Lingual and Cross-Lingual Summarization. 》

摘要：为了使文本摘要适应多语言世界，以前的工作提出了多语言摘要（MLS）和跨语言摘要（CLS）。然而，由于定义不同，这两项任务被单独研究，这限制了对它们进行兼容和系统的研究。在本文中，我们旨在将 MLS 和 CLS 统一到一个更通用的设置中，即多对多摘要（M2MS），其中单个模型可以处理任何语言的文档，并生成任何语言的摘要。作为迈向 M2MS 的第一步，我们进行了初步研究，表明 M2MS 可以比 MLS 和 CLS 更好地跨不同语言传递任务知识。此外，我们提出了双鱼座，这是一种预训练的M2MS模型，通过三阶段预训练来学习语言建模、跨语言能力和总结能力。实验结果表明，我们的双鱼座明显优于最先进的基线，特别是在零样本方向上，从源语言文档到目标语言摘要都没有训练数据。

关键词：多语言摘要；三阶段摘要

53、《On Improving Summarization Factual Consistency from Natural Language Feedback.》

摘要：尽管最近在语言生成模型方面取得了进展，但它们的输出可能并不总是满足用户的期望。在这项工作中，我们研究了是否可以利用自然语言中的信息反馈来提高生成质量和用户偏好一致性。为此，我们将摘要中的事实一致性，即摘要应仅包含输入文档支持的信息的质量视为用户预期的偏好。我们收集了一个高质量的数据集 DeFacto，其中包含人类演示和信息性自然语言反馈，包括纠正说明、编辑的摘要和对摘要事实一致性的解释。使用我们的数据集，我们研究了三个自然语言生成任务：（1）根据人类反馈编辑摘要，（2）生成人类反馈以编辑原始摘要，以及（3）通过生成人类反馈和编辑的摘要来修改初始摘要以纠正事实错误。我们表明，DeFacto 可以提供事实一致的人工编辑摘要，并进一步深入了解摘要事实一致性，这要归功于其信息性自然语言反馈。我们进一步证明，微调的语言模型可以利用我们的数据集来提高摘要事实的一致性，而大型语言模型在我们提出的需要可控文本生成的任务中缺乏零样本学习能力。

关键词：新数据集；事实一致性；自然语言反馈