首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于翻译机制的实体和关系联合抽取系统和使用方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:本发明提出一种基于翻译机制的实体和关系联合抽取系统及其使用方法,该系统利用翻译机制的思想,又规避掉传统翻译机制对对称关系的处理问题;提出利用NA无关系关系来作为动态阈值对关系预测的正确和错误结果进行分界。实体标注部分使用四个01标注器,对头实体和尾实体独立标注,能够解决单实体重合的问题。对于每一组头尾实体,使用翻译机制的思想利用h+r≈t,用尾实体减去头实体得到关系的向量表示,进而与关系集合中所有关系的向量做相似度计算,利用“与NA关系的相似度”作为动态阈值,取相似度大于该关系的所有关系作为预测结果,这样解决了实体对重叠的问题。在公开数据集上的实验表明,该系统的方法能够达到良好的水平。

主权项:1.一种基于翻译机制的实体和关系联合抽取系统,其特征在于,所述系统包括:编码模块,用于将接收的语句编码为向量序列,并将所述向量序列传送给实体标注模块;实体标注模块,用于对所述向量序列进行实体标注,获得语句中包含的所有头实体向量集合和尾实体向量集合;然后将所述头实体向量集合和尾实体向量集合传送给关系预测模块;关系预测模块,对头实体向量和尾实体向量两两之间蕴含的关系进行预测,从而求得每一对头尾实体之间的关系;所述编码模块中,编码的方法包括:S11、使用字节对编码,将输入的语句进行分词,切分成为词表内所包含的词序列;S12、将所述词序列进行符号嵌入和位置嵌入,相加作为所述词序列的总体嵌入:ti=wi+pi其中的wi和pi分别代表第i个词的符号嵌入和位置嵌入,最终的句子嵌入表示为:[t1,t2,t3,…,tl],l代表句子长度,S13、将所述句子嵌入输入到预训练好的BERT模型中,得到句子的向量序列:s=[e1,e2,e3,…,el]其中l代表该句子的长度;所述关系预测模块中,预测的方法包括:S31、将头实体集合中的每一个头实体hi,分别与尾实体集合中的每一个尾实体tj,做向量减法,得到它们的关系向量r,即: 其中,Wt和Wh为映射矩阵;S32、对关系向量和关系集合中所有关系的关系表示向量做相似度计算,并得到相似度的分级序列,Rank=[x1,x2,x3,…,xN,xNA] 其中的ri代表所有关系的集合中第i个关系的关系表示向量,rNA为无关系的向量表示,N表示关系集合内关系的数量;所有的关系表示向量都由随机初始化之后通过训练模块获得,包括NA关系;xi表示与第i个关系的相似度,xNA表示与无关系的相似度;S33、取相似度比无关系的相似度高的关系作为关系预测结果;如果与无关系的相似度最大,那么取无关系作为预测结果。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于翻译机制的实体和关系联合抽取系统和使用方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术