本文共 1672 字,大约阅读时间需要 5 分钟。
作者:陈宇飞
单位:燕山大学
本文主要是使用NLP领域的事件抽取方法来解决中国法律领域中的相关问题。其中为了区分相似案件,为事件检测设计了分层的事件特征。此外,为了解决论元分类中的长距离语义依赖和共指消解问题,提出了一种新的pedal注意力机制,该踏板注意力机制的主要工作是通过依存的相邻词来提取两个词之间的语义关系。因为目前中国法律领域的数据集相对匮乏,本文还标注了一份中国法律事件数据集,但是没有开源。。
在传统的事件提取任务中,主要遵循ACE定义的事件结构,将事件抽取分成两个子任务,首先进行触发词的提取,并以此来预测事件类型。然后进行论元提取,提取出与事件相关的参数并预测论元的作用。现在随着自然语言处理领域的发展,开放领域出现了很多优秀的事件抽取技术,但是法律领域的事件抽取任务还是相对较少。目前有使用基于规则的方法提取事件,还有结合神经网络模型进行的法律事件提取。
但是现有的这两个方向存在着一些问题。一方面,传统的事件结构和事件定义不能很好地代表法律事件。例如,如果用AGE作为事件的自变量,会造成歧义。此外,如下图所示的例子中,根据传统的事件定义方法,死亡事件将与刺伤事件分开,从而无法反映受害者死亡与被告行为之间的因果关系。为解决此类问题,本文提出动态分层事件结构根据法律要求表示法律事件,构建过程首先是定义分层类型,然后设计不同的论元类型,以包含法律事件中的关键要素,此外设计一个动态事件结构,它规定事件的论元可以有与事件相关的子论元。如上图所示,在依存句法树中,第一个pei距离死亡很远,会判断第二个pei与死亡有关联,这就丢失了远距离相关词的信息。而本文提出的pedal(踏板)注意力机制的方法,就可以通过一个词和另一个词的依存相邻词之间的注意权重,以确定这两个词之间的语义关系,这个依存相邻词就叫做踏板。
分层事件:所有的事件类型都按照子类型关系有序地组织起来,构成层次化的事件。例如,侵犯财产罪是犯罪的一个子事件。
把论元也分层划分:如果论元T2是论元T1的真子集,则称T2是T1的子类型。如下图,PARTY是ENTITY的子类型。同时还定义了两种特殊的论元类型,STATE和BEHAVIOR分别表示一个事件或其他论证的客观状态和ENTITY的一个子类型。BEHAVIOR可以定义防止事件碎片化,使现有事件更加连贯。比如,escape是一种特定的犯罪行为,是被告人犯罪事实的重要组成部分,对判决产生重大影响。但是逃避作为一个独立事件是没有意义的。如果将这些行为单独定义为事件,那么事件类型将是冗余的,所以将这类事件统一抽象为BEHAVIOR。动态事件结构:如上图中的PARTY具有子参数年龄和状态,把角色定义为为PARTY-AGE和PHYSICAL-STATE。
本文提出的基于踏板注意力的联合分层事件抽取模型主要由以下几个模块组成: 1.提取事件论元并对论元进行分类; 2.构建句子的层次事件类型特征; 3.利用踏板注意机制提取论元和触发词之间的语义关系; 4.预测触发词标签; 5.预测动态事件结构中的事件自变量角色。 上述中的触发词标签使用Bert模型进行预测,最后汇总成一个联合推理模型,将动态事件结构抽象为一棵树,以触发词为根节点,以论元为节点。节点之间的边表示子节点的论元角色。定义了 M t , a M^{t,a} Mt,a和 M i , j t , a M^{t,a}_{i,j} Mi,jt,a的关联概率矩阵,其中 M i , j t , a M^{t,a}_{i,j} Mi,jt,a表示第I个类型事件包含第j个类型论元的概率, M i , j a , a M^{a,a}_{i,j} Mi,ja,a表示第I个类型论元包含第j个类型子论元的概率。 M i , j t , a M^{t,a}_{i,j} Mi,jt,a和 M i , j a , a M^{a,a}_{i,j} Mi,ja,a可以学习训练。转载地址:http://ehmgi.baihongyu.com/