恭喜科讯嘉联信息技术有限公司冯纯博获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜科讯嘉联信息技术有限公司申请的专利一种基于深度学习模型的地址命名实体识别的调优方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114169332B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111443614.3,技术领域涉及:G06F40/295;该发明授权一种基于深度学习模型的地址命名实体识别的调优方法是由冯纯博;卫海智;李钊辉;黄洋设计研发完成,并于2021-11-30向国家知识产权局提交的专利申请。
本一种基于深度学习模型的地址命名实体识别的调优方法在说明书摘要公布了:本发明涉及自然语言识别,具体涉及一种基于深度学习模型的地址命名实体识别的调优方法,收集相关领域的行业语料,构建行业实体字典,收集线上中文数据,根据任务目标进行人工标注并生成模板,对模板和行业实体字典中的实体名进行数据增强,再进行数据扩充,利用未标注的行业语料和实体字典,在神经网络语言模型的预训练阶段进行掩码机制优化,针对下游识别任务对神经网络语言模型进行模型精调,并选取测试精度最高的神经网络语言模型作为输出模型,收集线上实时数据,将输出模型预测结果低于置信度阈值的实体保存在日志文件中;本发明提供的技术方案能够有效克服现有技术所存在的模型优化需要依赖大量标注数据、模型识别效果较差的缺陷。
本发明授权一种基于深度学习模型的地址命名实体识别的调优方法在权利要求书中公布了:1.一种基于深度学习模型的地址命名实体识别的调优方法,其特征在于:包括以下步骤:S1、收集相关领域的行业语料,构建行业实体字典;S2、收集线上中文数据,根据任务目标进行人工标注并生成模板,对模板和行业实体字典中的实体名进行数据增强,再进行数据扩充;S3、利用未标注的行业语料和实体字典,在神经网络语言模型的预训练阶段进行掩码机制优化;S4、针对下游识别任务对神经网络语言模型进行模型精调,并选取测试精度最高的神经网络语言模型作为输出模型;S5、收集线上实时数据,将输出模型预测结果低于置信度阈值的实体保存在日志文件中,并利用日志文件对输出模型进行优化;S1中收集相关领域的行业语料,构建行业实体字典,包括:S1、对现有的领域内已有公开实体字典进行整合,形成“公开实体字典”;S2、通过该领域专家根据经验构建出来一系列用来对实体匹配的规则,使用字符串匹配或者模式匹配的方法,结合关键词汇、专有词汇或者结构规则实体特征,对收集到的公开语料进行专家经验匹配,抽取实体,构建“专家实体字典”;S3、将“公开实体字典”、“专家实体字典”整合构建“经验实体词典”;S4、通过无监督方式,对词汇出现频率进行统计,通过词频召回大量的待定实体,对其自由度、紧密度进行计算,通过设定阈值筛选出实体,形成“无监督实体字典”;S5、选取少量语料根据词频召回候选词,通过频率、完整性、信息量和共现度筛选候选词,将筛选出的候选词和“经验实体词典”中的交叉词汇作为训练时的正样本集;S6、使用负采样对其他词汇进行随机采样形成负样本集,使用正样本集、负样本集训练Bert模型;S7、使用训练好的Bert模型对所有语料内召回实体的质量进行打分,精选出有效实体;S8、通过AutoNER模型对这些词汇进行类型预测,形成“有监督实体词典”;S9、将“无监督实体字典”、“有监督实体词典”整合构建“挖掘实体字典”。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人科讯嘉联信息技术有限公司,其通讯地址为:230000 安徽省合肥市中国(安徽)自由贸易试验区合肥市高新区创新大道2800号创新产业园二期F5-201/202、305-307;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。