买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:万齐智;万常选;胡蓉;刘德喜
摘要:本发明公开了一种基于规则的中文结构化金融事件缺省补全抽取方法,属于信息抽取技术领域,结合缺省的“三个平面”理论界定,提出了四种常见的缺省结构;针对各种缺省结构,通过分析财经领域和句法语义依存分析事件图中句法语义特点,设计了十种事件成分缺省补全规则,实现了事件缺省成分的补全,解决了抽取的事件成分存在大量缺失的难题。据了解本发明是第一个基于规则的中文结构化金融事件缺省补全抽取方法,不需要人工标注数据,且补全抽取的精确率和召回率较好。
主权项:1.一种基于规则的中文结构化金融事件缺省补全抽取方法,其特征在于,包括以下步骤:结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,补全的成分为Sub和Obj;S1.分析中文语言缺省特征及人们的表达习惯,结合缺省的“三个平面”理论界定,提出四种常见缺省结构;四种常见缺省结构包括:C1.直接成分缺省,包括如下两种情况:C11.简单缺省:缺省成分的结构简单,可单独作为其他事件的某个成分;C12.组合缺省:某个组合的整体作为其他事件的某个成分;C2.介词引发缺省:由介词引发的部分成分缺失,即句法结构上可能不存在缺省,但语义上缺少由介词引导的部分成分;C3.被动语态缺省:由“被”字介词引发的被动语态的成分缺省;C4.间接修饰缺省:语义上存在修饰关系的缺省结构;S2.利用已有方法构建句法语义依存分析事件图;S3.针对各种缺省情况,结合财经领域和句法语义依存分析事件图中句法语义特点,设计十种事件成分缺省补全规则;财经领域和句法语义依存分析事件图中句法语义特点包括:D1.财经领域中主要缺省企业、股票和机构团体名称,其在句法分析中的词性以细分的名词居多,包括机构团体ni、专有名词nz、人名nh和简称j,将这些词性组成的集合记为POL;D2.直接成分缺省为句法结构上的缺省,即句法结构上缺少某个成分,而间接修饰缺省属于语义上的缺省,句法结构上存在某个成分,但其语义不完整;D3.间接修饰缺省中,主要缺省修饰语,且常由公司或机构充当,且位于描述本公司各项指标的定语中,或直接代表默认指标,即充当主语;D4.共享主语的事件间的语义依存关系主要集中于因果eResu、顺承eSucc和目的ePurp关系,称为引发关系;D5.缺省成分一般处于成分缺省事件的前面的关联事件中;D6.在句法语义依存分析事件图中,缺省成分的层级常处于存在成分缺省结点的下一层,而对于间接修饰缺省,二者偶尔处于同一层级;十种事件缺省补全规则具体如下;直接成分缺省补全规则包括:规则1.如果由根结点触发的事件不存在具有语义依存关系sdp的较早事件,则不必补全;规则2.如果存在直接成分缺失,且sdp为非引发关系,若最近关联事件只存在一个主语,则在最近的关联事件中查询获取关联事件的主语,补全缺省主语,即简单缺省补全;规则3.如果存在直接成分缺失,且sdp为引发关系,若最近关联事件存在多个主语,则取最近关联事件中距离当前事件最远的主语,即关联事件第一个主语,补全缺省主语;规则4.当最近关联事件的主语词性不属于POL,且主语存在定语时,则取主语第一个定语补全缺省主语;规则5.当最近关联事件的主语词性不属于POL,且主语不存在定语,则取关联事件整体补全缺省主语,即组合缺失补全;规则6.当最近关联事件的主语词性为名词或属于POL,则直接取关联事件主语补全缺省主语;其中,规则1要求,补全操作的前提必须是共享主语的句子在当前事件之前发生,且存在语义依存关系,这符合语句表达逻辑;因此,规则1是其它缺省规则执行的前提;规则2和规则3分别讨论不同sdp关系下的缺省补全情况,规则2和规则3均是依照人们使用语言的习惯,取关联事件中位于语句最前面的主语作为缺省补全;规则4~规则6,对外是规则3的互补形式,讨论sdp为引发关系但主语唯一的情景;对内则分析关联事件主语词性;介词及被动语态缺省补全规则包括:规则7.如果为介词引发的成分缺省,且sdp为引发关系,则在最近关联事件中查找主语补全缺省的主语或宾语;规则8.如果由被动语态引起的成分缺省,且sdp为引发关系,则取最近关联事件的主语作为缺省事件的宾语成分;间接修饰缺省补全规则包括:规则9.如果关联事件主语的词性属于POL,且主语存在定语,同时定语的词性也属于POL,则在最近关联事件中取距离本事件最远的定语,即关联事件第一个定语,补全主语的缺省修饰部分;规则10.如果关联事件主语的词性属于POL,且主语不存在定语,则取最近关联事件中距离本事件最远的主语,即关联事件第一个主语,补全主语的缺省修饰部分;其中,规则9和规则10一定程度上属于规则6的细化,且同时兼顾了规则4存在定语的情况;不同的是,规则6为句法结构不存在主语时的缺省补全,而规则9和规则10是解决存在主语的修饰缺省;S4.分析句法语义依存分析事件图中每个事件的Sub和Obj,为每个存在缺省成分的结点建立其与缺省成分之间的依存关系;S5.扫描句法语义依存分析事件图中每个事件的核心动词,即事件谓语Pred,分别获取其孩子结点中句法依存关系为SBV的主语作为事件的主语Sub、句法依存关系为VOB的宾语作为事件的Obj,即完成ET形式的结构化金融事件缺省补全抽取。
全文数据:
权利要求:
百度查询: 万齐智 万常选 胡蓉 刘德喜 一种基于规则的中文结构化金融事件缺省补全抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。