恭喜中国建设银行股份有限公司徐云获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国建设银行股份有限公司申请的专利一种数据集的构建方法、模型训练方法和对应装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114067343B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111421423.7,技术领域涉及:G06V30/413;该发明授权一种数据集的构建方法、模型训练方法和对应装置是由徐云设计研发完成,并于2021-11-26向国家知识产权局提交的专利申请。
本一种数据集的构建方法、模型训练方法和对应装置在说明书摘要公布了:本申请实施例涉及数据处理领域,尤其公开了一种数据集的构建方法、模型训练方法、装置、电子设备及存储介质,该方法包括:获取待处理的票据图像;针对每个票据图像,对票据图像进行OCR识别,确定票据图像中的各个要素实体的要素信息和每个要素实体的位置信息;要素信息包括文字信息、表格信息和签章信息中的至少一个;针对每一个要素实体,根据要素信息和位置信息,确定要素实体的类别;基于每一个要素实体,应用要素实体的类别对应的标签对要素实体进行标注;确定各个待处理的票据图像中的各个标注后的要素实体构成的要素集合为数据集。用以提高收集的票据图像中的数据集的准确性,进而将该数据集应用到票据识别中,提高票据识别的准确性。
本发明授权一种数据集的构建方法、模型训练方法和对应装置在权利要求书中公布了:1.一种数据集的构建方法,其特征在于,包括:获取待处理的票据图像;针对每个所述票据图像,对所述票据图像进行OCR识别,确定所述票据图像中的各个要素实体的要素信息和每个所述要素实体的位置信息;其中,所述要素信息包括文字信息、表格信息和签章信息中的至少一个;针对每一个要素实体,根据所述要素信息和所述位置信息,确定所述要素实体的类别;若需要展示的要素为表格中的要素,则确定要素文本框的属性标签,并将所述属性标签作为所述要素文本框的附属展示信息进行展示;若预设展示形式为html形式,则确定要素文本框,并按照html形式展示所述要素文本框;若所述预设展示形式为json形式,则按照确定的要素键值对的对应关系展示所述要素键值对;其中,所述要素文本框中包括需要展示的要素的属性信息;所述键值对中的key为需要展示的要素的序列号,所述键值对中的value值为需要展示的要素的嵌套json串;基于每一个要素实体,应用所述要素实体的类别对应的标签对所述要素实体进行标注;确定各个所述待处理的票据图像中的各个标注后的要素实体构成的要素集合为数据集;所述应用所述要素实体的类别对应的标签对所述要素实体进行标注,包括:若针对所述要素实体的标注操作为整个标注过程的非首次标注,则通过票据抽取模型,应用所述要素实体的类别对应的标签对所述要素实体进行标注;其中,应用上一次的标注结果对所述票据抽取模型进行更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国建设银行股份有限公司,其通讯地址为:100033 北京市西城区金融大街25号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。