恭喜大连大学王颖洁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜大连大学申请的专利基于增强序列特征的中文法律文书命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114912453B 。
龙图腾网通过国家知识产权局官网在2025-04-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210549703.4,技术领域涉及:G06F40/295;该发明授权基于增强序列特征的中文法律文书命名实体识别方法是由王颖洁;张程烨;汪祖民设计研发完成,并于2022-05-20向国家知识产权局提交的专利申请。
本基于增强序列特征的中文法律文书命名实体识别方法在说明书摘要公布了:本发明公开了基于增强序列特征的中文法律文书命名实体识别方法,包括:将待识别法律文书中的句子作为字符序列进行处理,对句子中每个字符的拼音、字形和笔画三个特征进行提取,得到字特征向量,所述字特征向量融合预训练词典,得到增强的字特征向量;使用所述增强的字特征向量,对字符序列中的潜在词语进行表示,并标识词语位置信息和长度;设置融合过滤器F,对各个长度的词语进行筛选和融合,得到相同长度的特征向量;使用注意力机制,将字符级特征融入所述,进而得到融合字词的特征向量;所述融合字词的特征向量输入至改进的Transformer法律文书实体抽取模型中,提取所述待识别法律文书中的实体特征序列。本发明大幅提高了实体识别的准确率。
本发明授权基于增强序列特征的中文法律文书命名实体识别方法在权利要求书中公布了:1.基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,包括:将待识别法律文书中的句子S=[c1,c2,...,cn-1,cn]作为字符序列进行处理,对句子中每个字符ci的拼音、字形和笔画三个特征进行提取,得到字特征向量,所述字特征向量融合预训练词典,得到增强的字特征向量使用所述增强的字特征向量,对字符序列中的潜在词语进行表示,并标识词语位置信息和长度;设置融合过滤器F,对各个长度的词语进行筛选和融合,得到相同长度的特征向量使用注意力机制,将字符级特征融入所述特征向量进而得到融合字词的特征向量具体为:首先设定融合过滤器F的窗口大小,对于各个长度的词语,使用softmax函数对其进行筛选和融合,得到相同长度词语的特征向量其中SL-1[*,m:m+1],FL-1K为克罗内克积运算;SL-1表示词长度为L-1的序列,[*,m,m+1]表示对每两个相邻的列进行计算,m表示当前的列数,范围为[0,d-1],d为该长度词向量的个数,bL-1表示词长度为L-1的偏移量,上标K是克罗内克积运算符的表示形式;使用注意力机制,将字符级特征融入所述特征向量得到融合字词的特征向量其中和为哈达玛积运算;为输入控制向量,为特征控制向量,um为输出控制向量:其中 Wi为输入权重矩阵,Wf为特征权重矩阵,bi为输入偏移补偿量,bf为特征偏移补偿量,Ui为输入注意力权重矩阵,Uf为特征注意力权重矩阵;表示长度为L-1的潜在词语;所述融合字词的特征向量输入至改进的Transformer法律文书实体抽取模型中,提取所述待识别法律文书中的实体特征序列改进的Transformer法律文书实体抽取模型包括一个编码器层、一个解码器层和一个注意力层;将融合字词的特征向量输入到编码器层,所述编码器层包括浅层的预训练CNN网络和两层Bi-LSTM神经网络,在CNN网络的输出与最后一层Bi-LSTM神经网络的输出之间建立一个残差连接,得到编码器层的输出特征向量其中CNN网络用于提取融合字词向量的基本特征,Bi-LSTM网络用于提取融合字词向量的上下文信息;在解码器层,将预定义的标签序列进行向量化嵌入处理,再经过两层LSTM神经网络进行信息提取,得到解码器层的输出特征向量然后将编码器层与解码器层的输出特征向量进行维度拼接,再加上其位置编码的计算值pn,共同作为注意力层的输入其中在注意力层,使用残差注意力机制学习权重分布系数,加强对关键字词的关注,捕获输入文本的序列特征同时采用并行计算方式,缩短模型训练时间;所述注意力层输出特征信息向量
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连大学,其通讯地址为:116622 辽宁省大连市经济技术开发区学府大街10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。