首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

利用字典知识的命名体识别方法、装置、电子设备及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:清华大学

摘要:本申请涉及命名体识别技术领域,特别涉及一种利用字典知识的命名体识别方法、装置、电子设备及介质,其中,方法包括:获取文本中文本数据的上下文表示;利用实体词典匹配文本的匹配实体,获取匹配实体的隐向量表示;以及基于上下文表示和隐向量表示获取文本联合实体的表示和实体联合上下文的表示,生成命名体识别结果。由此,解决了在识别命名体时通常需要大量的领域知识及人工标注,且严重依赖标注句子来训练命名体识别模型等问题,通过采用多种模型来得到文本的单词的上下文表示并使用双向门控循环单元对匹配实体进行单词级建模从而得到该实体的表示,通过文本和实体的表示联合学习,提升了命名体识别的性能。

主权项:1.一种利用字典知识的命名体识别方法,其特征在于,包括以下步骤:获取文本中文本数据的上下文表示;利用实体词典匹配所述文本的匹配实体,获取所述匹配实体的隐向量表示;以及基于所述上下文表示和所述隐向量表示获取文本联合实体的表示和实体联合上下文的表示,生成命名体识别结果;其中,在获取所述文本中文本数据的上下文表示之前,还包括:对所述文本数据集进行预处理,并将文本进行分句,转换为第一字符序列;所述获取文本中文本数据的上下文表示,包括:基于字符向量嵌入矩阵,查找所述第一字符序列的文本字符的向量表示;对所述向量表示进行上下文的建模,得到所述上下文表示;在利用所述实体词典匹配所述文本的匹配实体之前,还包括:对所述文本数据集进行实体词典的匹配,并将匹配后的实体转换为第二字符序列;所述利用实体词典匹配所述文本的匹配实体,获取所述匹配实体的隐向量表示,包括:对所述第二字符序列进行双向门控循环单元建模,将首尾的字符向量拼接得到所述实体的隐向量表示;所述基于所述上下文表示和所述隐向量表示获取文本联合实体的表示和实体联合上下文的表示,生成命名体识别结果,包括:使用条件随机场利用所述文本的下文表示和所述隐向量表示解码出标签,得到预测实,并获取当前文本实体标注的loss函数;对实体联合文本训练得到的表示进行分类,获取实体分类任务的loss函数,并和所述实体标注的loss函数加权叠加得到总的loss函数。

全文数据:

权利要求:

百度查询: 清华大学 利用字典知识的命名体识别方法、装置、电子设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。