Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜天津大学窦春柳获国家专利权

恭喜天津大学窦春柳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜天津大学申请的专利基于虚词增强小样本关系抽取的知识图谱构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115062156B

龙图腾网通过国家知识产权局官网在2025-03-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210433696.1,技术领域涉及:G06F16/36;该发明授权基于虚词增强小样本关系抽取的知识图谱构建方法是由窦春柳;张小旺设计研发完成,并于2022-04-24向国家知识产权局提交的专利申请。

基于虚词增强小样本关系抽取的知识图谱构建方法在说明书摘要公布了:本发明公开了一种基于虚词增强小样本关系抽取的知识图谱构建方法,包括从获取的自然语言文本中自动识别出命名实体;以获取的自然语言文本和识别的实体对作为关系抽取模型的输入,输出实体间的关系;对抽取的实体及关系链向知识图谱中相应条目;在已有的知识图谱基础上自动推理出缺失的关系值,进行知识图谱的补全。与现有技术相比,本发明可以避免大量人工标注所带来的耗时耗力,并且通过特定领域的少量标签数据可以快速完成特定领域的关系抽取任务,同时,它对于未见领域可以有很好的泛化性能,实现快速精确的关系抽取。

本发明授权基于虚词增强小样本关系抽取的知识图谱构建方法在权利要求书中公布了:1.一种基于虚词增强小样本关系抽取的知识图谱构建方法,其特征在于,该方法包括以下步骤:步骤1,获取非结构化文本数据,进行实体提取,具体描述如下:步骤1.1,原始的非结构化文本即关系数据集,按照关系类别从关系数据集中抽取M个关系类别数据形成训练集Dtrain,剩余的关系类别数据组成测试集Dval;训练集Dtrain包含M个类别,每个类别下含有N个实例,每个实例为xi=si,hi,ti,xi为第i个实例,si为非结构化句子,hi为si中的头实体,ti为si中的尾实体;从训练集Dtrain中随机抽取M1个类别,从每个类别中随机抽取个N1实例构造支持集Dsuppport,Dsuppport中第j个元素记为rj为实例xj对应的yj关系类别标签;从每个类别剩余的N-N1个样本中随机抽取N2个实例构造查询集Dquery,Dquery中第k个元素记为rk为实例xk对应的关系类别描述,yk为实例xk对应的关系类别标签;步骤1.2,利用文本编码器Bert模型对训练集中实例进行编码,生成上下文嵌入向量:即:对于每一个实例xi=si,hi,ti,si={w1,w2,...,wl}为实例句子si由l个单词wk组成;以句子si作为文本编码器的输入,所生成的上下文嵌入向量记为Si={w1,w2,...,wl},其中每个词d为词向量的维度;对于每一个关系描述ri={w'1,w'2,...,w'k,...,w'l},w'k为关系描述ri中第k个单词,l为关系描述ri中单词总个数,以ri作为文本编码器的输入,生成的每个实例xi的上下文嵌入向量记为Ri={w'1,w'2,...,w'l},其中每个词步骤2,将句子上下文嵌入向量Si与关系描述上下文嵌入向量Ri输入实词级别注意力模块,生成实词级别的关系表示,具体过程描述如下:步骤2.1,计算一个实词注意力向量表达式如下:αi=softmaxSi*uw+sumSiRiTd其中,记忆单元为一个可训练的参数,Si*uw为从句子Si中挑选出具有关键词特征的单词,Si与Ri转置相乘表示从句子Si中挑选出与当前关系描述Ri语义相似的单词,sum·为对矩阵中每一行的所有元素求和的运算符,最后两者相加输入softmax层得到Si中每个实词的重要性步骤2.2,将Si中的每个词按照αi加权求和,形成实词级别的关系表达式如下: 步骤3,输入句子上下文嵌入向量Si,学习一个成分先验矩阵其中的元素Ci,j为句子si中wi与wj属于同一成分的概率,利用成分先验矩阵加强与关键实词相邻的虚词的注意力,以进行后续虚词关系表示的学习,具体描述如下:步骤3.1,计算si中邻近两个词属于同一成分的概率,表达式如下: 其中,sn,n+1为wn和右邻居wn+1属于同一成分的可能性,[·]n为矩阵的第n行;步骤3.2,对单词wn和右邻居wn+1属于同一成分的可能性sn,n+1与单词wn和左邻居wn-1属于同一成分的可能性sn,n+1使用softmax函数,分别得到wn和wn+1属于同一成分的概率pn,n+1与wn和wn-1属于同一成分的概率pn,n-1,表达式如下:pn,n+1,pn,n-1=softmaxsn,n+1,sn,n-1进而得到wn与wn+1相连接的概率an,表达式如下: 步骤3.3,由句子si中wi与wj之间所有的词对应的an计算得到元素Ci,j,表达式如下: 步骤4,将句子上下文嵌入向量Si输入BILSTM模型,通过虚词注意力模块获得虚词级别的关系表示;具体过程如下:步骤4.1,通用虚词重要性分布的计算如下:βgeneral=softmaxE-Siuw其中,为一个全1向量,E-Siuw为降低句子Si中与uw相关实词的重要性,增加与uw无关虚词的重要性,输入softmax层得到虚词重要性通用分布步骤4.2,计算具体句子下虚词重要性表达式如下:Ii=maxαi 其中,Ii为权重最大值的索引,max·为获取一个矩阵最大值的索引,C为成分先验矩阵;步骤4.3,利用两类注意力权重βgeneral与βconstituent生成虚词级别的关系表达式如下:βi=βgeneral+βconstituent 步骤4.4,将通用虚词重要性βgeneral和具体句子下虚词重要性βconstituent相加得到然后将Si中的每个词按照βi加权求和,形成虚词级别的关系表示步骤5,将步骤2得到的实词级别的关系与步骤4得到的虚词级别的关系连接得到短语级关系表示[;]为按列拼接;然后,通过平均支持集Dsuppport中相同类别的N1个句子生成当前关系类别的原型表示步骤6,利用测试样本与步骤5得到的关系类别的原型表示的点积相似性进行类别预测,预测结果即抽取的关系类型:对于测试样本s*,s*·pi为测试样本与第i个关系类别的原型表示的点积,结果最高的当前关系类别的原型表示pi所对应的关系即为抽取的关系类型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。