首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

训练数据生成方法、模型训练方法、装置、设备及介质 

申请/专利权人:北京中关村科金技术有限公司

申请日:2024-06-05

公开(公告)日:2024-07-05

公开(公告)号:CN118297189A

主分类号:G06N20/00

分类号:G06N20/00;G06F40/211;G06F40/30;G06F40/109

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.23#实质审查的生效;2024.07.05#公开

摘要:本申请提供了一种训练数据生成方法、模型训练方法、装置、设备及介质,属于自然语言处理技术领域。训练数据生成方法包括:根据初始文本数据,确定多个版块数据;确定各个版块数据与初始文本数据之间的第一关联关系以及多个版块数据之间的第二关联关系;根据第一关联关系和第二关联关系,确定多个版块数据的排版信息;基于排版信息对多个版块数据进行排版,得到目标文本数据;根据初始文本数据、目标文本数据以及目标文本数据中的版块数据与初始文本数据的映射关系,得到训练数据。根据本申请的实施例能够较为便捷地得到合理性和准确性相对较高的训练数据,在利用该训练数据训练识别模型时,可以有效提高训练效果。

主权项:1.一种训练数据生成方法,其特征在于,所述方法包括:根据初始文本数据,确定多个版块数据,所述初始文本数据为结构化数据,所述版块数据为半结构化数据或非结构化数据,且所述版块数据与所述初始文本数据的部分文本之间具有映射关系;确定各个所述版块数据与所述初始文本数据之间的第一关联关系以及多个所述版块数据之间的第二关联关系;根据所述第一关联关系和所述第二关联关系,确定多个所述版块数据的排版信息;基于所述排版信息对多个所述版块数据进行排版,得到目标文本数据;根据所述初始文本数据、所述目标文本数据以及所述目标文本数据中的版块数据与所述初始文本数据的映射关系,得到训练数据;其中,所述训练数据用于训练预设的识别模型,所述识别模型用于对多模态数据进行识别以得到相应的识别文本。

全文数据:

权利要求:

百度查询: 北京中关村科金技术有限公司 训练数据生成方法、模型训练方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。