买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆亲笔签数字科技有限公司
摘要:本发明涉及基于自适应空间度量的结构化信息抽取方法、系统及介质,包括:离线模板构建:在模板中标注关键字所在的位置信息;文字识别和排序:对待处理文档图像进行文字识别,得到包含有元素s的集合S;关键字抽取:对于集合S中的每个元素s,计算元素s所对应的文本框移动到与模板中的关键字i所对应的文本框相重叠时所需要移动的最小单元数,记为D1i,找到D1i取值最小的关键字x;判断元素s的字符串中是否包含所需识别的关键字x,若是,则将[x,s‑x,s的位置信息]作为元素r存入结果集合R中,否则,则将[s,s的位置信息]作为元素c存入候选集合C中;对应值重构。本发明具有较高的可迁移性,提升了信息抽取的准确性。
主权项:1.一种基于自适应空间度量的结构化信息抽取方法,其特征在于,包括以下步骤:离线模板构建:在模板中标注关键字所在的位置信息,标注好的模板为包含有元素k的集合K,其中,元素k包括关键字和文本框坐标组信息;文字识别:对待处理文档图像进行文字识别,得到包含有元素s的集合S,其中,元素s包括字符串、文本框位置信息;关键字抽取:对于集合S中的每个元素s,计算元素s所对应的文本框移动到与模板中的关键字i所对应的文本框相重叠时所需要移动的最小单元数,记为D1i,其中,i为1,2,……,m,m为模板中已标注关键字的数量,找到D1i取值最小的关键字x;判断元素s的字符串中是否包含了所需识别的关键字x,若是,则将[x,s-x,s的位置信息]作为元素r存入结果集合R中,其中:s-x表示将元素s的字符串去掉关键字x后剩下的字符串,否则,则将[s,s的位置信息]作为元素c存入候选集合C中;对应值重构:对于候选集合C中的所有元素c,计算元素c所对应的文本框移动到与结果集合R中的元素rj所对应的文本框相邻时所需要移动的最小单元数,记为D2j,其中,j为1,2,……,n,n为结果集合R中元素r的数量,找到D2j取值最小的元素r,并将该元素c的字符串添加到元素r的“值”的位置;所述D2j的计算公式如下:D2jE,F=αE,F·min|Ex1-Fx1|,|Ex1-Fx2|,|Ex2-Fx2|,|Ex2-Fx1|+min|Ey1-Fy1|,|Ey1-Fy2|,|Ey2-Fy1|,|Ey2-Fy2|其中:E表示元素rj所对应的文本框;F表示元素c所对应的文本框;Ex1,Ey1表示文本框E的左上角坐标;Ex2,Ey2表示文本框E的右下角坐标;Fx1,Fy1表示文本框F的左上角坐标,Fx2,Fy2表示文本框F的右下角坐标;αE,F表示文本框E和文本框F的相对位置;所述αE,F的计算方法如下: 其中,k1为尺度参数,若Ex1Fx1,则表示文本框E在文本框F的右侧,若Ex1Fx1,则表示文本框E在文本框F的左侧。
全文数据:
权利要求:
百度查询: 重庆亲笔签数字科技有限公司 基于自适应空间度量的结构化信息抽取方法、系统及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。