夕小瑶科技说 原创
作者 | Richard
自大模型出现以来,其在自然语言处理领域取得了令人瞩目的进展。然而如何有效地将大模型应用于具体的任务中,仍面临诸多挑战。对于复杂的信息抽取任务,模型往往难以直接适应其特定的标注规范。所以大模型在这些任务上的性能欠佳,一般难以和在标注数据集上微调的小模型相匹敌。
针对跨文档事件同指消解这一具有挑战性的任务,浙江大学提出了一种协同式的新方法。该方法巧妙地利用大模型的知识和理解能力,通过对事件进行综合总结,深入把握事件的本质。再将这些见解反馈给针对性训练的小模型,增强小模型对复杂语境的理解。实验结果表明,这种协同方式能有效克服小模型面临的语境理解难题,在多个数据集上取得了最佳性能。
论文标题:
Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Models
论文链接:
https://arxiv.org/pdf/2406.02148.pdf
跨文档事件同指消解是信息抽取领域的一项重要而富有挑战的任务。它要求模型能够在多个文档中识别出指代同一真实世界事件的事件提及,并将它们归类到同一簇中。与篇章内事件同指消解不同,跨文档事件同指消解需要模型具备更强的语境理解能力和知识泛化能力。
这项任务面临着两大挑战:
不同文档中描述相似事件的方式可能非常相似,尤其是对于同一类型的事件。例如,在报道地震新闻时,不同的地震事件可能会使用相似的表述方式,如”震级”、”震中”、”震感”等。模型需要从细微的差异中判断出事件的唯一性。
同一事件在不同文档中的描述可能存在很大差异。例如,在报道同一起地震时,一篇新闻可能侧重于描述地震的烈度和影响,而另一篇新闻则可能更关注灾后的救援工作。模型需要在变化多端的语境中提取可比较的同指证据,并据此做出判断。
传统的跨文档事件同指消解方法主要基于特征工程和机器学习,难以有效应对上述挑战。
近年来,大语言模型(如GPT-4、LLaMA等)展现出了令人印象深刻的语境理解能力和知识泛化能力,为解决这一任务带来了新的希望。然而,如何将大模型有效应用于跨文档事件同指消解仍面临挑战。
首先,由于跨文档事件同指消解任务的复杂性,少量示例难以全面覆盖其标注规范。这导致大模型很难通过上下文学习直接适应该任务,难以达到有监督小模型的精度。其次,跨文档事件同指消解任务需要处理多个文档,对示例中冗长语境的理解提出了更高要求。大模型在处理超长文本时可能会遇到计算瓶颈。
因此,如何发挥大模型在语义理解方面的优势,同时克服其在任务适应和长文本处理方面的局限,成为了跨文档事件同指消解任务亟待解决的问题。这不仅是大模型在信息抽取领域应用的一个新战场,也是自然语言处理领域的一个新挑战。
针对跨文档事件同指消解任务的挑战,本文提出了一种协同式方法,充分发挥大小模型的相对优势。这种方法的核心思想是:
具体来说,协同式方法分为两个阶段:大模型总结和小模型集成。
对于输入的多个文档,首先利用大模型对其中的事件提及进行总结。这里采用了一个两步工作流,如下表所示:
针对每个事件提及,提示大模型在文档语境下对其进行阐释,提取与事件相关的关键信息,如contextual words、entity mentions和other event mentions等。这一步旨在利用大模型的知识和语境理解能力,从复杂的语境中提取事件的关键特征。
在第一步的基础上,进一步提示大模型利用文档内的共指消解(coreference resolution)扩充实体细节,并尽可能提供时间信息。这一步旨在从散布在文档中的线索中补充事件的详细信息,为后续的同指判断提供更丰富的证据。
通过两步工作流,大模型可以为每个事件提及生成一个全面且细粒度的总结。这里采用的是通用的提示,而非特定任务的上下文学习或微调。这种设计可以最大限度地发挥大模型的通用能力,避免过拟合。
将大模型生成的事件总结与原始文档一起输入到小模型中,通过联合表示学习将二者融合。具体而言,将原始文档和事件总结拼接成一个新的文档,然后用一个新的编码器(如RoBERTa)对其进行编码。最终事件提及的向量表示由两部分组成:原始文档中的表示和总结中的表示:
这种联合表示学习的方式可以使小模型在同一个注意力空间中学习原始语境和总结语境,增强对真正与同指相关的词语的理解。在此基础上,小模型可以更准确地判断事件提及之间的同指关系。
总的来说,协同式方法巧妙地结合了大模型的语义理解能力和小模型的任务适应能力,提供了一种全新的解决方案。通过大模型总结提取事件的关键信息,小模型可以更聚焦地学习事件表示;同时,通过联合表示学习融合原始语境和总结语境,小模型可以更全面地理解事件提及。这种优势互补的方式为跨文档事件同指消解任务带来了显著的性能提升。
为了评估协同式方法的有效性,本文在三个跨文档事件同指消解数据集上进行了实验,分别是:ECB+、GVC和FCC。实验结果表明,与单独依赖大模型或小模型的方法相比,协同式方法取得了显著提升。
在所有三个数据集上,协同式方法都达到了最佳性能。与本文的基线方法相比,协同式方法在ECB+、GVC和FCC数据集上的CoNLL F1值分别提高了1.5%、2.7%和7%。这些结果证明了协同式方法的有效性和鲁棒性。
为了进一步分析协同式方法的优势,本文对不同类型的错误进行了统计。结果发现,协同式方法在减少FPA(由论元导致的假阳性)错误方面表现最为突出。在所有三个数据集上,FPA错误都大幅降低,降幅分别达到30%(ECB+和GVC)和90%(FCC)。这说明大模型总结能够有效区分相似但非同指的事件,这也是性能提升的主要贡献所在。
下图给出了一个实例,说明大模型总结如何通过关注事件的关键细节(如日期和具体地点)来区分两个地震事件。
相比之下,协同式方法在减少FN(假阴性)错误方面的改进相对有限。这主要有两方面原因:
同一事件的不同提及在表述方式上可能差异很大;
有些事件提及本身可能缺乏必要的细节信息。
对于这些情况,即使通过大模型总结,也难以提供充分的同指证据。这说明协同式方法在处理表述差异大或信息不足的事件提及时仍有改进空间。
除了与基线方法的比较,本文还探究了大模型总结与大模型释义(paraphrase)的区别。在所有数据集上,大模型总结都明显优于大模型释义。这表明大模型总结的性能提升源于其从复杂语境中提取关键信息的能力,而非仅仅增加了语境的多样性。
此外,本文还通过消融实验考察了两步工作流中每一步的作用。结果表明,第一步在减少FPA错误方面发挥了重要作用,第二步则在减少FN错误方面至关重要。将两步简单拼接成一步会导致性能下降,尤其在FCC数据集上。这说明分解多目标任务并逐步求解是必要的,即使使用的是简单的提示。
最后,本文还评估了GPT-4在跨文档事件同指消解任务上的表现。结果发现,即使采用最优的上下文学习方法(即上下文为包含事件提及的句子,并使用少样本学习),GPT-4的性能也明显落后于协同式方法。具体表现为FPA和FN错误显著增加,这说明GPT-4在区分相似事件和链接表述差异大的同指事件方面能力有限。
大规模实验表明,协同式方法能够显著提升跨文档事件同指消解的性能,优势主要体现在区分相似但非同指事件方面。
本文针对跨文档事件同指消解任务,提出了一种利用大语言模型通用能力的协同式方法,取得了优于最新基线的性能。这种方法巧妙地弥合了大模型的通用能力与特定信息抽取任务复杂标注规范之间的鸿沟。通过利用大模型的内在知识和理解能力加深对事件的认识,协同方式能有效缓解小模型面临的复杂语境理解难题,从而提升性能。
这项研究为如何发挥大模型优势、解决具体任务提供了新的思路。未来可以进一步探索利用大模型的能力,从外部语料中检索补充信息,与给定文档相结合,以期获得更好的性能。此外,随着新的大模型不断涌现,评估它们在协同方式中的表现也是一个值得关注的方向。
微信扫码关注该文公众号作者