买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:青岛科技大学
摘要:本发明公开一种利用先验知识构建文档图像数据集的方法,首先采用条件随机场对文档版面进行建模;然后训练条件随机场模型参数,获取文档版面先验知识;使用训练好的模型自动生成文档版面布局;进而根据生成的版面布局,生成文档对象的具体内容;最终将文档转换成文档图像,实现对文档图像数据集的构建。本方案基于条件随机场对文档版面结构进行建模,获取文档版面的先验知识,并利用先验知识自动生成文档图像数据集,节省时间和人力成本,避免由于人工标注带来的无效标注;通过条件随机场及先验知识指导生成文档图像的版面结构,使生成的版面更贴近出版物、符合阅读习惯,提高数据集的利用率及深度学习精度;并且,生成文档图像集的同时,能够提供文档图像中文本对象的文字编码信息。
主权项:1.一种利用先验知识构建文档图像数据集的方法,其特征在于,包括以步骤:步骤A、将文档版面信息刻画为文档对象空间、彩色直方图空间和文档对象类型空间,且文档对象空间元素与彩色直方图空间元素一一对应,彩色直方图空间元素与文档对象类型空间元素一一对应;基于条件随机场对文档版面结构进行建模,得到文档对象彩色直方图序列X与文档对象类型标签序列Y的线性链条随机场;步骤B、采集各种已有文档页面数据,训练条件随机场模型参数,对条件随机场权值进行求解;步骤C、基于高斯混合模型随机生成彩色直方图序列X,根据训练好的模型求解文档对象类型标签序列Y,自动生成文档版面布局;步骤D、采集各种已有文档对象数据,根据生成的文档版面布局,生成文档对象的具体内容;步骤E、将步骤D生成的文档转换成文档图像,构建文档图像数据集,所述文档图像数据集包含文档图像、文档对象空间坐标信息和文档对象具体内容信息。
全文数据:
权利要求:
百度查询: 青岛科技大学 一种利用先验知识构建文档图像数据集的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。