2023年文本摘要进展
- NLP
- 2023-12-21
- 268热度
- 0评论
一、前言
LLM太厉害了,Summarization is dead!
以下为2023年NLP领域顶会ACL、EMNLP中文本摘要相关的文章
二、主要文章
1、《Element-aware Summarization with Large Language Models: Expert-aligned Evaluation and Chain-of-Thought Method》
摘要:自动摘要可生成包含源文件关键观点的简明摘要。作为新闻子领域最主流的数据集,CNN/DailyMail 和 BBC XSum 已被广泛用于性能基准测试。然而,这些数据集的参考摘要存在一定的噪声,主要表现在事实幻觉和信息冗余方面。为了应对这一挑战,我们首先按照拉斯韦尔提出的 "拉斯韦尔传播模型",注释了新的专家写作要素感知测试集,使参考摘要能够客观、全面地关注更细粒度的新闻要素。利用新的测试集,我们观察到了 LLMs 令人惊讶的零样本摘要能力,这解决了之前工作中 LLMs 零样本摘要的人工偏好和自动评估指标结果不一致的问题。此外,我们还提出了一种 "思维链摘要"(SumCoT)技术,诱导 LLM 逐步生成摘要,帮助他们将源文件中更多细粒度的细节整合到最终摘要中,从而与人类的写作思维相关联。实验结果表明,在两个数据集上,我们的方法在 ROUGE-L 中分别以 +4.33/+4.77 的成绩优于最先进的微调 PLM 和零样本 LLM。数据集和代码可通过 https://github.com/Alsace08/SumCoT 公开获取。
关键词:自动摘要;摘要思维链;零样本;
2、《Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization》
摘要:本文介绍了一种新的预训练语言模型Z-Code++,该模型针对抽象文本摘要进行了优化。该模型使用三种技术扩展了最先进的编码器-解码器模型。首先,我们使用两阶段预训练来提高模型在低资源摘要任务中的性能。首先使用文本语料库对模型进行语言理解预训练,然后继续使用摘要语料库对模型进行预训练,以生成基础文本。其次,我们用分离注意力层取代编码器中的自我注意力层,其中每个词使用两个向量表示,分别编码其内容和位置。第三,我们使用融合编码器,这是一种以分层方式对长序列进行编码的简单而有效的方法。Z-Code++在5种语言的13项文本总结任务中的9项创造了新的一流水平。我们的模型参数效率高,在XSum上优于600倍的PaLM540B,在SAMSum上优于200倍的GPT3175B。在zero-shot和few-shot设置中,我们的模型大大优于竞争模型。
关键词:预训练模型;抽象摘要;分离注意力;融合编码器;少样本;两阶段;
3、《Evaluating the Factual Consistency of Large Language Models Through News Summarization》
摘要:虽然大型语言模型(LLMs)已被证明能有效完成各种任务,但它们也会产生信息幻觉。为了衡量 LLM 是否更喜欢对其输入信息进行事实一致的延续,我们提出了一个名为 FIB(事实不一致基准)的新基准,该基准侧重于总结任务。具体来说,我们的基准是比较 LLM 对输入新闻文章的事实一致摘要和事实不一致摘要的评分。对于事实一致的摘要,我们使用人工编写的参考摘要,并将其手动验证为事实一致。要生成与事实不符的摘要,我们会从一套人工标注为与事实不符的摘要模型中生成摘要。模型的事实一致性是根据其准确性来衡量的,也就是说,它给事实一致性摘要打分较高的文档所占的比例。为了验证FIB的实用性,我们评估了包括BLOOM和OPT在内的6个不同模型系列的23个大型语言模型,其参数从1B到176B不等。我们发现,与事实不一致的摘要相比,现有的 LLM 通常会给事实一致的摘要更高的分数。但是,如果事实不一致的摘要在文档中逐字出现,那么 LLM 对这些事实不一致摘要的评分就会高于事实一致摘要。我们验证了基准中的设计选择,包括评分方法和分心摘要的来源。
关键词:信息幻觉;基准;事实不一致;
4、《GEMINI: Controlling The Sentence-Level Summary Style in Abstractive Text Summarization》
摘要:人类专家使用不同的技术编写摘要,包括从文档中提取句子并重写,或者融合文档中的各种信息以对其进行抽象。这些技术非常灵活,因此很难通过任何单一方法来模仿。为了解决这个问题,我们提出了一种自适应模型 GEMINI,它集成了重写器和生成器来分别模仿句子重写和抽象技术。 GEMINI 自适应地选择重写特定的文档句子或从头开始生成摘要句子。实验表明,我们的自适应方法在三个基准数据集上优于纯抽象和重写基线,在 WikiHow 上取得了最佳结果。有趣的是,实证结果表明,在给定上下文的情况下,人类总结句子的总结风格是一致可预测的。
关键词:摘要风格模仿;
5、《OpenAsp: A Benchmark for Multi-document Open Aspect-based Summarization》
摘要:自动摘要模型的性能近年来得到了显著提高。然而,在现实场景中满足用户特定信息需求仍然存在差距,特别是在寻求针对本文提出的定向摘要时,比如在本文中的有用方面基于摘要的设置。之前针对这个设置的数据集和研究主要集中在一个有限的预定义方面上,仅关注单一文档输入,或者依赖合成数据。为了推动关于更现实场景的研究,我们引入了OpenAsp,一个多文档有向 aspect-based 摘要的基准。这个基准是通过一种新颖且经济有效的标注协议从现有通用多文档摘要数据集中提取的。我们分析了OpenAsp的属性,展示了其高质量的内容。此外,我们还证明了在OpenAsp中实现的现实开放方面设置对当前最先进的摘要模型以及大型语言模型都构成了挑战。
关键词:多文档有向摘要;新数据集;
6、《Promoting Topic Coherence and Inter-Document Consorts in Multi-Document Summarization via Simplicial Complex and Sheaf Graph》
摘要:多文档摘要 (MDS) 的特点是将来自多个源文档的信息压缩为其简洁的摘要。理想的摘要应涵盖所有主题,并准确地对源文档中阐述的跨文档关系进行建模。但是,现有系统要么在编码过程中对标记的长度施加限制,要么在捕获复杂的跨文档关系方面步履蹒跚。这些局限性促使系统产生非事实和不忠实的摘要,从而使读者对主题产生不公平的理解。为了克服这些局限性,促进源文档和生成摘要之间的信息等价性,我们提出了一种新颖的编码器-解码器模型FIBER,它使用预训练的BART来全面分析语言的细微差别,使用简单的复杂层来理解超越成对关联的固有属性,并利用束图注意力来有效地捕获异性属性。我们在四个广泛使用的 MDS 数据集(Multinews、CQASumm、DUC 和 Opinosis)上使用 11 个基线对 FIBER 进行基准测试,并表明 FIBER 在所有评估指标(句法、语义和忠实度)上实现了一致的性能改进。我们通过定性的人工评估进一步证实了这些改进。
关键词:微调预训练模型;多文档;事实一致性;
7、《Improving Summarization with Human Edits》
摘要:最近的研究表明,利用人类反馈范式进行学习有望产生由人类决定的高质量文本。现有工作利用人类反馈在一般领域抽象摘要中训练大型语言模型(LLM),并获得了超越传统似然训练的摘要质量。在本文中,我们专注于一种较少探索的人类反馈形式——人工编辑。我们提出了序列比对(非)似然训练(SALT),这是一种新技术,可以在训练循环中同时使用人工编辑和模型生成的数据。此外,我们还演示了使用来自现有训练数据的地面实况摘要来模拟人工编辑 - 模仿编辑,以及训练后获得的模型生成的摘要,以减少对昂贵的人工编辑数据的需求。在我们的实验中,我们将人类反馈探索从一般领域总结扩展到医学领域总结。我们的研究结果表明,SALT在通过人工编辑和模仿编辑提高摘要质量方面是有效的。通过额外的实验,我们表明,当应用于人类编辑数据时,SALT优于传统的RLHF方法(专为人类偏好而设计) - DPO。我们希望论文中的证据能促使研究人员探索、收集和更好地利用不同的人类反馈方法。
关键词:人类反馈式摘要;新的训练技术;序列比对似然训练;
8、《Boosting Summarization with Normalizing Flows and Aggressive Training》
摘要:本文介绍了 FlowSUM,这是一种基于归一化流的变分编码器-解码器框架,用于基于 Transformer 的汇总。我们的方法解决了变分总结中的两个主要挑战:潜在表征中的语义信息不足和训练过程中的后瘫。为了应对这些挑战,我们采用归一化流程来实现灵活的潜在后验建模,并提出了一种具有改进门机制的受控交替攻击训练 (CAAT) 策略。实验结果表明,FlowSUM显著提高了生成摘要的质量,释放了知识蒸馏的潜力,同时对推理时间的影响最小。此外,我们研究了归一化流中的后部塌陷问题,并分析了训练策略、门初始化以及使用的归一化流的类型和数量如何影响汇总质量,为未来的研究提供了有价值的见解。
关键词:新的训练策略;知识蒸馏;
9、《Indicative Summarization of Long Discussions》
摘要:在线论坛鼓励就许多主题交换和讨论不同立场。它们不仅提供了一个提出自己论点的机会,而且还可能收集他人论点的广泛横截面。然而,由此产生的长时间讨论很难概述。本文提出了一种新颖的无监督方法,使用大型语言模型(LLM)为长讨论生成指示性摘要,这些摘要基本上用作目录。我们的方法首先对论证句进行聚类,将聚类标签生成为抽象摘要,并将生成的聚类标签分类为论证框架,从而产生两级摘要。基于广泛优化的提示工程方法,我们评估了 19~LLM 用于生成聚类标记和帧分类。为了评估指示性摘要的有用性,我们通过一个名为“讨论资源管理器”的新可视化界面进行了一项目的驱动的用户研究:这表明我们提出的指示性摘要可以作为探索长篇讨论的便捷导航工具。
关键词:新的无监督训练方法;使用大模型生成参考摘要;
10、《Investigating Efficiently Extending Transformers for Long Input Summarization》
摘要:虽然大型预训练 Transformer 模型已被证明在处理自然语言任务方面具有很强的能力,但处理长序列输入仍然是一个重大挑战。其中一项任务是长输入汇总,其中输入长于大多数预训练模型的最大输入上下文。通过一系列广泛的实验,我们研究了哪些模型架构更改和预训练范式可以最有效地使预训练的 Transformer 适应长输入摘要。我们发现,具有全局编码器令牌的交错块局部 Transformer 在性能和效率之间取得了良好的平衡,并且对长序列进行额外的预训练阶段可以有意义地提高下游摘要性能。根据我们的研究结果,我们引入了 PEGASUS-X,这是 PEGASUS 模型的扩展,具有额外的长输入预训练,可处理高达 16K 个代币的输入。PEGASUS-X 在长输入汇总任务上实现了强大的性能,可与更大的模型相媲美,同时添加很少的额外参数,并且不需要模型并行性来训练。
关键词:长文本摘要;PEGASUS系列拓展;
11、《Background Summarization of Event Timelines》
摘要:生成新闻事件的简明摘要是一项具有挑战性的自然语言处理任务。虽然记者经常策划时间表以突出关键的子事件,但新闻事件的新人在追赶其历史背景方面面临挑战。在本文中,我们通过引入背景新闻摘要任务来满足这一需求,该任务通过相关先前事件的背景摘要来补充每个时间线更新。我们通过合并现有的时间线数据集来构建数据集,并要求人工注释者为每个新闻事件的每个时间步长编写背景摘要。我们使用最先进的摘要系统建立了强大的基线性能,并提出了一个以查询为中心的变体来生成背景摘要。为了评估背景摘要的质量,我们提出了一个基于问答的评估指标,即背景效用分数 (BUS),它衡量背景摘要回答的有关当前事件时间步长的问题的百分比。我们的实验表明,除了使用 GPT-3.5 的强大零样本性能外,Flan-T5 等指令微调系统的有效性。
关键词:时间线摘要;背景摘要;基于问答的摘要指标;
12、《SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation》
摘要:由于任务的复杂性和主观性,总结系统的可靠自动评估具有挑战性。对于其他语言尤其如此而不是英语,在英语中人类的评价是缺乏的在这项工作中,我们介绍了SEAHORSE,用于多语言、多方面汇总评估的数据集。SEAHORSE由96K个摘要中的人工评分文本质量的6个维度:可理解性、重复性、语法、归因、主体思想和简洁。SEAHORSE封面6语言,9个系统(包括参考文本)和4个摘要数据集。由于其规模和范围,SEAHORSE可以提供两者都作为评估所学习的度量的基准,以及大规模的培训资源这样的度量。我们展示了经过训练的指标与SEAHORSE一起实现强大的性能关于两个领域外元评估基准:TRUE(Honovich et al.,2022)和mFACE(Aharoni等人,2023)。我们制作SEAHORSE数据集和指标可公开用于未来的多语言和多方面总结评价。
关键词:系统性设计了评估指标;多语言摘要;
13、《ORCHID: A Chinese Debate Corpus for Target-Independent Stance Detection and Argumentative Dialogue Summarization》
摘要:多年来,对话代理一直受到越来越多的关注,而大型语言模型(LLM)的最新进展进一步推动了这一趋势。立场检测和对话总结是对话智能体在涉及议论性对话的应用场景中的两个核心任务。然而,由于公共数据集的不足,特别是对于非英语语言,对这些任务的研究受到限制。为了解决这一中文语言资源缺口,我们提出了ORCHID(中文口语辩论),这是第一个用于对目标无关的立场检测和辩论总结进行基准测试的中文数据集。我们的数据集包括 1,218 场真实世界的辩论,这些辩论以中文进行,涉及 476 个独特的主题,包含 2,436 个针对特定立场的摘要和 14,133 个完全注释的话语。除了为未来的研究提供多功能的测试平台外,我们还对数据集进行了实证研究,并提出了一个综合任务。结果显示了数据集的挑战性,并表明有可能将立场检测纳入辩论对话的摘要中。
关键词:立场检测;辩论赛数据集;
14、《FaMeSumm: Investigating and Improving Faithfulness of Medical Summarization》
摘要:医学文本的摘要应忠实于与来源输入一致和真实,这是医疗保健安全和效率的一个重要但研究不足的话题。在本文中,我们调查并提高了对各种医学总结任务的总结的忠实度。我们的调查显示,当前的摘要模型经常为医疗输入文本产生不忠实的输出。然后,我们介绍了 FaMeSumm,这是一个通过微调基于医学知识的预训练语言模型来提高忠诚度的框架。FaMeSumm对设计的忠实和不忠实摘要集进行对比学习,并结合医学术语及其上下文,以鼓励忠实地生成医学术语。我们用两种语言对三个数据集进行了全面的实验:英文的健康问题和放射学报告摘要数据集,以及中文的医患对话数据集。结果表明,FaMeSumm 通过对 BART、T5、mT5 和 PEGASUS 等主流语言模型提供持续的改进,在忠实度和总体质量指标上产生最先进的性能,从而灵活而有效。医生的人工评估还表明,FaMeSumm 会产生更忠实的输出。我们的代码可在 https://github.com/psunlpgroup/FaMeSumm 上找到。
关键词:事实一致性;
15、《Zero-shot Faithfulness Evaluation for Text Summarization with Foundation Language Model》
摘要:尽管在自然语言生成方面有了巨大的改进,但摘要模型仍然存在不忠实的问题。以前的工作要么使用在其他任务上训练的模型或域内合成数据来评估忠诚度,要么使用ChatGPT等大型模型来评估。本文建议仅使用中等大小的基础语言模型进行零样本忠诚度评估。我们引入了一个新的指标 FFLM,它是基于直觉的概率变化组合,即在一段与输出一致的文本前面添加前缀会增加预测输出的概率。实验表明,FFLM 在不一致性检测和忠诚度评级方面都与 ChatGPT 具有竞争力,甚至优于 ChatGPT,参数减少了 24 倍。FFLM 还实现了对其他强基线的改进。
关键词:零样本;事实一致性评估标准;ChatGPT;
16、《What to Read in a Contract? Party-Specific Summarization of Legal Obligations, Entitlements, and Prohibitions》
摘要:审查和理解法律合同中的关键义务、权利和禁令可能是一项繁琐的任务,因为它们的长度和领域特异性。此外,每个缔约方需要审查的关键权利和义务也各不相同。在这项工作中,我们提出了一项新的任务,即对法律合同进行针对特定当事人的抽取摘要,以方便更快地审查和提高对权利和义务的理解。为了促进这一点,我们策划了一个数据集,该数据集由法律专家注释的特定于当事方的成对重要性比较组成,涵盖 ~293K 个句子对,其中包括从租赁协议中提取的义务、权利和禁令。利用这个数据集,我们训练了一个成对重要性排序器,并提出了一个基于管道的抽取式摘要系统,该系统可以生成特定于当事方的合同摘要。通过使用自动和人工评估方法将我们的系统与各种基线进行比较,我们确定了在总结过程中纳入特定领域重要性概念的必要性
关键词:新数据集;法律;
17、《CP-BCS: Binary Code Summarization Guided by Control Flow Graph and Pseudo Code》
摘要:自动生成二进制文件的函数摘要是一项非常有价值但具有挑战性的任务,因为它涉及将低级语言(汇编代码)的执行行为和语义转换为人类可读的自然语言。然而,目前大多数关于理解汇编代码的工作都是面向生成函数名称的,这涉及许多缩写,使它们仍然令人困惑。为了弥合这一差距,我们专注于为二进制函数生成完整的摘要,特别是对于剥离的二进制函数(实际上没有符号表和调试信息)。为了充分利用汇编代码的语义,我们提出了一个控制流图和伪代码引导的二进制代码摘要框架,称为 CP-BCS。CP-BCS 利用双向指令级控制流图和伪代码,结合专业知识来学习全面的二进制函数执行行为和逻辑语义。我们在 3 种不同计算机架构(X86、X64 和 ARM)的 3 个不同的二进制优化级别(O1、O2 和 O3)上评估 CP-BCS。评估结果表明,CP-BCS具有优越性,显著提高了逆向工程的效率。
关键词:二进制函数摘要;
18、《Reinforcement Replaces Supervision: Query focused Summarization using Deep Reinforcement Learning》
摘要:以查询为中心的摘要 (QfS) 处理基于查询从文档生成摘要的系统。基于强化学习 (RL) 为自然语言生成提供了对监督学习 (SL) 的泛化,因此(经验上)优于 SL 的见解,我们使用基于 RL 的方法完成 QfS 的这项任务。 此外,我们还解决了在 Transformers 中使用 RL 与教师强迫的冲突。我们开发了多个策略梯度网络,在各种奖励信号上进行了训练:ROUGE、BLEU 和语义相似性,这比基准数据集 (ELI5) 的 ROUGE-L 指标上的最先进的方法提高了 10 点。我们还展示了我们的方法在另一个基准数据集(DebatePedia)的零样本设置中的性能 - 我们的方法导致的结果与基线相当,基线是在DebatePedia上专门训练的。为了帮助RL训练,我们提出了一种更好的语义相似性奖励,这是通过使用聚类假设开发的新型通道嵌入方案实现的。最后,我们贡献了一个黄金标准的测试数据集,用于 QfS 和长篇问答 (LfQA) 的进一步研究。
关键词:查询式摘要;强化学习;
19《Can LMs Generalize to Future Data? An Empirical Analysis on Text Summarization》
摘要:最近的预训练语言模型 (PLM) 在现有的抽象摘要数据集中取得了可喜的结果。然而,现有的总结基准在时间上与标准的预训练语料库和微调数据集重叠。因此,PLM 的强大性能可能依赖于在预训练和微调期间记忆的参数知识。此外,PLM 记忆的知识可能很快就会过时,从而影响 PLM 对未来数据的泛化性能。在这项工作中,我们提出了 TempoSum,这是一个包含 2010 年至 2022 年数据样本的新基准,以了解抽象摘要模型的时间泛化能力。通过广泛的人工评估,我们表明存储在摘要模型中的参数知识会显着影响生成摘要对未来数据的忠实度。此外,现有的忠实度增强方法无法可靠地提高总结模型对未来数据的忠实度。最后,我们讨论了如何评估和提高文本摘要模型的时间泛化能力对研究界的几点建议。
关键词:事实一致性;时间泛化能力;新数据集;
20、《From Key Points to Key Point Hierarchy: Structured and Expressive Opinion Summarization》
摘要:最近提出了关键点分析 (KPA) 用于从文本注释集合中获取细粒度的见解。KPA 将数据中的要点提取为简明的句子或短语列表,称为关键点,并量化其流行程度。虽然关键点比词云和关键短语更具表现力,但理解一长串扁平的关键点(通常以不同粒度表达相关想法)可能仍然具有挑战性。为了解决 KPA 的这一局限性,我们引入了根据其特殊性将一组给定的关键点组织到层次结构中的任务。这种层次结构可以被看作是一种新型的文本蕴涵图。我们开发了 ThinkP,这是一个高质量的基准数据集,用于业务和产品评论的关键点层次结构,通过整合多个注释获得。我们比较了预测关键点之间成对关系的不同方法,以及从这些成对预测中推断层次结构的方法。特别是,对于成对关键点关系的计算任务,我们通过将方向分布相似性方法应用于关键点的新分布表示,在现有的强基线上取得了显着的收益,并通过弱监督进一步提高了性能。
关键词:关键点分析;文本蕴含图;新数据集;
21、《DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization. 》
摘要:对话摘要因其广泛的应用范围而最近引起了极大的关注。然而,现有的对话总结方法存在局限性,因为它们没有考虑到对话的内在结构,并且严重依赖标记数据,这可能导致在新领域表现不佳。在这项工作中,我们提出了DIONYSUS(对话摘要预训练中的动态输入优化),这是一种预训练的编码器-解码器模型,用于总结任何新领域中的对话。为了预训练狄俄尼索斯,我们为每个对话示例创建了两个伪摘要:一个由微调的摘要模型生成,另一个是传达重要信息的对话转折的集合。然后,我们根据不同类型对话中信息分布的差异选择这些伪摘要之一。这个选定的伪摘要是使用自监督方法在大型对话语料库上对狄俄尼索斯进行预训练的目标。我们的实验表明,狄俄尼索斯在六个数据集上的表现优于现有方法,正如其在零样本和少样本设置下的ROUGE分数所证明的那样。
关键词:对话摘要;微调预训练模型;
22、《Compositional Data Augmentation for Abstractive Conversation Summarization.》
摘要:最近的抽象对话摘要系统通常依赖于带有注释摘要的大规模数据集。但是,收集和注释这些对话可能是一项耗时且劳动密集型的任务。为了解决这个问题,在这项工作中,我们提出了一种子结构级的组合数据增强方法Compo,用于生成多样化和高质量的对话和摘要对。具体来说,Compo 首先提取对话结构,如主题拆分和动作三元组作为基本单位。然后,我们以组合方式组织这些语义上有意义的对话片段,以创建新的训练实例。此外,我们还在自我训练和联合训练范式中探索了噪声容限设置,以充分利用这些增强样本。我们在基准数据集 SAMSum 和 DialogSum 上的实验表明,Compo 在有限的数据下实现了近 10% 的 ROUGE 分数增长,大大优于以前的基线方法。代码可在 https://github.com/ozyyshr/Compo 上找到。
关键词:对话摘要;数据增强;
23、《Cross-lingual Science Journalism: Select, Simplify and Rewrite Summaries for Non-expert Readers.》
摘要:自动化跨语言科学新闻 (CSJ) 旨在从英语科学文本中生成科普摘要,供非专业读者使用当地语言。我们将CSJ作为文本简化和跨语言科学摘要的下游任务,以方便科学记者的工作。我们分析了现有解决方案的性能,作为CSJ任务的基线。基于这些发现,我们建议将三个组成部分——选择、简化和重写 (SSR) 结合起来,为非专业读者制作跨语言的简化科学摘要。我们对维基百科数据集的实证评估表明,SSR 明显优于 CSJ 任务的基线,可以作为未来工作的有力基线。我们还进行了一项消融研究,调查SSR各个成分的影响。此外,我们通过人工评估和深入分析,在高质量、真实世界的 CSJ 数据集上分析了 SSR 的性能,证明了 SSR 对 CSJ 的卓越性能。
关键词:跨语言摘要;
24、《Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization.》
摘要:在抽象总结的背景下,对不忠实的总结问题进行了广泛的讨论。虽然抽取式总结不太容易出现抽象性摘要中常见的不忠实问题,但这是否意味着抽取式等同于忠实性?事实证明,答案是否定的。在这项工作中,我们定义了一种类型学,其中包含五种类型的广泛不忠问题(包括和超越非蕴涵问题),这些问题可能出现在抽取性摘要中,包括不正确的共指、不完全的共指、不正确的话语、不完整的话语,以及其他误导性信息。我们要求人类从16个不同的提取系统产生的1600个英文摘要中标记这些问题。我们发现 30% 的摘要至少存在五个问题中的一个。为了自动检测这些问题,我们发现现有的 5 个用于总结的忠诚度评估指标与人类判断的相关性较差。为了解决这个问题,我们提出了一种新的指标 ExtEval,该指标旨在检测不忠实的抽取摘要,并被证明具有最佳性能。我们希望我们的工作能够提高对抽取式总结中不忠问题的认识,并有助于未来评估和解决这些问题的工作。我们的数据和代码在此 https URL 上公开提供
关键词:事实一致性;新的评估指标;
25、《CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1, 500+ Language Pairs. 》
摘要:我们提出了 CrossSum,这是一个大规模的跨语言摘要数据集,包含 1,500+ 语言对的 168 万篇文章摘要样本。我们通过从多语言抽象摘要数据集中跨语言检索来对齐以不同语言编写的并行文章,并执行受控的人工评估以验证其质量,从而创建 CrossSum。我们提出了一种多阶段数据采样算法,以有效地训练一个跨语言的摘要模型,能够用任何目标语言总结一篇文章。我们还引入了 LaSE,这是一种基于嵌入的指标,用于自动评估模型生成的摘要。LaSE与ROUGE密切相关,与ROUGE不同,即使在没有目标语言的参考文献的情况下,也可以可靠地测量LaSE。在ROUGE和LaSE上的表现表明,我们提出的模型始终优于基线模型。据我们所知,CrossSum 是最大的跨语言摘要数据集,也是第一个不以英语为中心的数据集。我们正在发布数据集、训练和评估脚本以及模型,以促进未来跨语言摘要的研究。可以在以下 https URL 中找到资源
关键词:跨语言摘要;新的数据集;新的评价指标;
26、《Generating EDU Extracts for Plan-Guided Summary Re-Ranking. 》
摘要:两步法,即生成摘要候选人,然后重新排名以返回单个摘要,可以提高 ROUGE 分数,而不是标准的单步方法。然而,标准解码方法(即波束搜索、原子核采样和各种波束搜索)产生的候选内容是冗余的,而且通常是低质量的。在本文中,我们设计了一种新方法来生成解决这些问题的重新排名候选者。我们将每个候选摘要都建立在自己独特的内容计划之上,并使用模型的顶梁生成不同的计划指导摘要。更具体地说,标准语言模型(BART LM)使用抽取复制机制自动回归生成元素话语单元 (EDU) 内容计划。然后,使用来自内容计划生成器的顶部 K 光束来引导单独的 LM,从而为每个不同的计划生成一个抽象候选者。我们将现有的重新排名器(BRIO)应用于从我们的方法以及基线解码方法生成的抽象候选者。在广泛使用的单文档新闻文章语料库上,我们显示出与以前发表的方法相比,相关性有了很大的改进,在 CNN / Dailymail、NYT 和 Xsum 上,ROUGE-2 F1 的收益分别为 0.88、2.01 和 0.38。对 CNN/DM 的人工评估验证了这些结果。同样,在来自 CNN/DM 的 1k 样本上,我们表明提示 GPT-3 遵循 EDU 计划比基于采样的方法高出 1.05 个 ROUGE-2 F1 点。用于生成和实现计划的代码可在 https://github.com/griff4692/edu-sum 上找到。
关键词:二阶段摘要方法;
27、《Summary-Oriented Vision Modeling for Multimodal Abstractive Summarization.》
摘要:多模态抽象摘要 (MAS) 的目标是在给定多模态数据(文本和视觉)的情况下生成简明的摘要。现有的MAS研究主要集中在如何有效利用提取的视觉特征上,在高资源的英语数据集上取得了令人瞩目的成功。然而,对摘要的视觉特征质量的关注较少,这可能会限制模型性能,尤其是在低资源和零资源场景下。在本文中,我们提出通过面向摘要的视觉特征来提高摘要质量。为此,我们设计了两个辅助任务,包括视觉到摘要任务和蒙版图像建模任务。结合主要的总结任务,我们通过所有这些任务的训练目标来优化MAS模型。通过这些方法,可以通过捕获面向摘要的视觉特征来增强 MAS 模型,从而产生更准确的摘要。通过对44种语言的实验,覆盖了中高、低、零资源场景,验证了所提方法的有效性和优越性,在所有场景下均能达到最佳性能。此外,我们将为研究界贡献一个大规模的多语言多模态抽象摘要(MM-Sum)数据集。
关键词:少样本;视觉摘要;多模态数据集;
28、《Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation.》
摘要:人工评估是评估汇总系统和自动指标的基础。然而,现有的用于总结的人类评价研究要么表现出较低的注释者间一致性,要么规模不足,并且缺乏对人类评价的深入分析。因此,我们沿着以下几个方面解决了现有摘要评估的缺点:(1)我们提出了一种改进的摘要显著性协议,即原子含量单元(ACUs),该协议基于细粒度语义单元,并允许高注释者间一致性。(2) 我们策划了鲁棒性摘要评估 (RoSE) 基准,这是一个大型人类评估数据集,由三个数据集上 28 个性能最佳系统的 22,000 个摘要级注释组成。(3) 我们对四种人类评估方案进行了比较研究,强调了评估设置中的潜在混杂因素。(4) 我们使用跨评估协议收集的人工注释评估了 50 个自动指标及其变体,并展示了我们的基准如何导致统计上更稳定和更显着的结果。我们基准测试的指标包括基于大型语言模型 (LLM)、GPTScore 和 G-Eval 的最新方法。此外,我们的研究结果对评估 LLM 具有重要意义,因为我们表明,通过人类反馈(例如 GPT-3.5)调整的 LLM 可能会过度拟合不受约束的人类评估,这受到注释者先前的、与输入无关的偏好的影响,需要更强大、更有针对性的评估方法。
关键词:ChatGPT3.5;摘要评估方法;
29、《Incorporating Distributions of Discourse Structure for Long Document Abstractive Summarization.》
摘要:对于文本摘要,话语结构在辨别文本核心内容方面起着至关重要的作用。遗憾的是,以往关于将修辞结构理论(RST)纳入基于转换器的总结模型的研究只考虑了核性注释,从而忽略了话语关系类型的多样性。本文介绍了“RSTformer”,这是一种综合了修辞关系类型和不确定性的新型总结模型。我们的RST注意力机制植根于文档级修辞结构,是最近设计的Longformer框架的延伸。通过严格的评估,本文提出的模型表现出优于最先进模型的显着优势,这从其在多个自动指标和人工评估方面的显着表现可以看出。
关键词:语义结构;
30、《Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback.》