首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于企业信息语义检索的多模态数据分块方法及系统 

申请/专利权人:江西风向标智能科技有限公司

申请日:2024-05-07

公开(公告)日:2024-07-05

公开(公告)号:CN118132794B

主分类号:G06F16/583

分类号:G06F16/583;G06V30/414;G06V30/146;G06V20/70

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2024.06.21#实质审查的生效;2024.06.04#公开

摘要:本发明提供了一种基于企业信息语义检索的多模态数据分块方法及系统,该方法通过利用OCR技术定位文档中元素级的图文块,确定图文块的坐标位置,并识别文档中的目标区域,目标区域包括文本区域、表格区域和图片区域;识别出文本区域中包含的主题,并根据主题和图文块的坐标位置,将对应的图文块组合,形成各主题块;根据目标区域的整合规则和图文块的坐标位置,将同一主题块中的图文块进行合并处理,得到合并后的图文块及对应的坐标位置;将合并后的图文块进行语义标注,后进行向量化分块,以完成文档的多模态数据分块,有效提高多模态数据分块的合理性,以便于后续快速、准确地完成企业数据信息检索。

主权项:1.一种基于企业信息语义检索的多模态数据分块方法,其特征在于,所述方法包括:利用OCR技术定位文档中元素级的图文块,所述图文块包括词语块、文本行块及图片块,确定所述词语块、所述文本行块及所述图片块的坐标位置,并识别文档中的目标区域,所述目标区域包括文本区域、表格区域和图片区域;识别出所述文本区域中包含的主题,并根据主题和所述词语块、所述文本行块及所述图片块的坐标位置,将对应的词语块、文本行块及图片块组合,形成各主题块;根据目标区域的整合规则和所述词语块、所述文本行块及所述图片块的坐标位置,将同一主题块中的图文块进行合并处理,得到合并后的图文块及对应的坐标位置;将合并后的图文块进行语义标注,得到带有语义标签的图文块;将带有语义标签的图文块进行向量化分块,以完成文档的多模态数据分块;所述识别出所述文本区域中包含的主题,并根据主题和所述词语块、所述文本行块及所述图片块的坐标位置,将对应的词语块、文本行块及图片块组合,形成各主题块的步骤包括:获取预设文字形态,并判断所述文本区域中是否存在属于所述预设文字形态的文字;若是,则分别确定属于所述预设文字形态的文字对应的词语块或文本行块的坐标位置;以对应的词语块或文本行块的坐标位置为起点,依次向下链接相邻的词语块、文本行块或图片块,直至下一个属于所述预设文字形态的文字对应的词语块或文本行块;分别将链接得到的各图文块定义为一主题块;所述根据目标区域的整合规则和所述词语块、所述文本行块及所述图片块的坐标位置,将同一主题块中的图文块进行合并处理,得到合并后的图文块及对应的坐标位置的步骤包括:判断各主题块中是否存在表格区域;若是,则识别单元格,将表格区域中的词语块根据单元格的排布合并,得到合并后的第一图文块及对应的坐标位置;若否,则获取同类型图文块的坐标位置,确定同类型图文块之间的距离,将距离小于第一预设值的同类型图文块进行组合,得到合并后的第二图文块及对应的坐标位置;获取各词语块和图片块的坐标位置,确定各词语块和图片块之间的距离,将距离小于第二预设值的词语块和图片块进行组合,得到合并后的第三图文块及对应的坐标位置。

全文数据:

权利要求:

百度查询: 江西风向标智能科技有限公司 一种基于企业信息语义检索的多模态数据分块方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。