恭喜北京计算机技术及应用研究所宋颖毅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京计算机技术及应用研究所申请的专利一种军事领域标注数据修正与事件检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117217222B 。
龙图腾网通过国家知识产权局官网在2025-06-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310746380.2,技术领域涉及:G06F40/295;该发明授权一种军事领域标注数据修正与事件检测方法是由宋颖毅;张杭;杨雨婷;王又辰;田宗凯;范昕煜;栾真;邹烨;葛志;杜田沣设计研发完成,并于2023-06-25向国家知识产权局提交的专利申请。
本一种军事领域标注数据修正与事件检测方法在说明书摘要公布了:本发明涉及一种军事领域标注数据修正与事件检测方法,属于信息抽取技术领域。本发明使用原始数据集训练模型,并对原始标注数据进行预测,对于预测得分大于一定阈值的样本,将原始数据集的标注结果修改为模型预测结果,从而修正数据集中的错误标注数据和污染数据,提高训练集的质量。本发明在模型训练时引入了分层学习率策略,为靠近下游任务的模型层参数设置更大的学习率,提高预训练模型对于下游任务的适配能力;在模型推理时采用基于投票修正的模型融合方法,通过模型集成的方式提升少样本类别事件的召回率和准确率,融合多个模型的投票结果确定最终预测结果,从而提升模型的鲁棒性。
本发明授权一种军事领域标注数据修正与事件检测方法在权利要求书中公布了:1.一种军事领域标注数据修正与事件检测方法,其特征在于,该方法包括如下步骤:步骤一:数据清洗采用一种模型超参数搜素方法——网格搜索Grid-Search,基于原始的数据集,使用不同的超参数同时训练多个不同的事件检测模型,然后使用训练后的模型对训练集和验证集进行预测,对于置信度得分大于某一阈值的样本,将原始标注结果修改为模型预测结果;步骤二:任务抽象将事件检测任务转化为命名实体识别NER任务,将事件类型看作NER任务中的实体类型,将触发词看作NER任务中需要抽取的实体;具体地,采用“编码-解码”策略,使用开源的预训练模型对事件文本进行编码,并使用一种全局指针网络——GlobalPointer模型进行事件触发词抽取和事件分类;步骤三:模型训练采用分层学习率策略来进行模型的训练,在使用样本在对下游任务进行微调时,我们设置预训练模型第一层的学习率保持在2*e-5,最后一层学习率保持在1*e-4,中间每层学习率保持依次递增,而对于下游的解码网络的学习率设置为1*e-3,从而使得预训练模型能更好地适应下游任务的训练;步骤四:模型集成采用网格搜索方法Grid-Search,使用不同的超参数训练多个不同的事件检测模型,选其中表现最好的模型作为主模型,该模型的输出作为候选结果之一,称之为主模型输出;随后使用其余模型对主模型输出进行修正;其中,所述步骤一具体包括:首先根据事件论元关系对原始数据进行初步的数据清洗,然后根据触发词置信度对数据进行再次清洗,接着基于清洗后的数据采用Grid-Search策略训练多个模型,最后依次遍历训练集和验证集的数据,使用训练的模型对数据进行预测,当计算得到的置信度大于设定的阈值时,则认为原始数据存在污染,使用模型预测结果作为数据标签,否则保留原始标注结果,循环遍历后完成所有数据的修正。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京计算机技术及应用研究所,其通讯地址为:100854 北京市海淀区永定路51号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。