首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种应用于医疗领域文档的OCR和信息抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京欧应科技有限公司

摘要:本公开的实施例提供了一种应用于医疗领域文档的OCR和信息抽取方法、设备和计算机可读存储介质。所述方法包括获取图像信息;对所述图像信息进行分析,确定所述图像信息内的表格区域和文本区域;通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行;通过OCR文字识别算法将所述文本行转换成文本信息;通过抽取算法提取所述文本信息中的关键信息;将所述关键信息存储到已存的结构化点位信息模版,完成对所述医疗领域文档的抽取。以此方式,可以对文档内容进行智能识别和关键信息的抽取,降低人工抄录和整理的工作量,提高了工作效率。

主权项:1.一种应用于医疗领域文档的OCR和信息抽取方法,其特征在于,包括:获取图像信息;对所述图像信息进行分析,确定所述图像信息内的表格区域和文本区域;通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行;通过OCR文字识别算法将所述文本行转换成文本信息;通过抽取算法提取所述文本信息中的关键信息;将所述关键信息存储到已存的结构化点位信息模版,完成对所述医疗领域文档的抽取;其中,所述对所述图像信息进行分析,确定所述图像信息内的表格区域和文本区域包括:检测图像中倾斜的横线和竖线,并通过透视变换矫正整个图片,其中,所述横线和竖线的来源包括:显示器边框或者屏显内容中的表格线;确定图像中心,根据颜色分布的变化程度从图像中心向上下左右四个方向扫描寻找屏幕边缘,并裁减图像为屏幕区域;确定屏幕区域中心,根据颜色分布的变化程度从所述屏幕区域中心向上下左右四个方向扫描寻找主要内容区域边缘,并裁减图像为主要内容区;其中所述主要内容区域根据区域内四个角的坐标确定,所述主要内容区域包括表格区域和文本区域;所述确定所述图像信息内的表格区域包括:获取所述图像信息中的所有横线和竖线;将任意两条横线和任意两条竖线进行组合;判断所述组合是否符合单元格的构建规则;如是,则将邻近的单元格进行组合形成所述表格区域;其中,所述确定所述图像信息内的表格区域还包括:将相邻的横线进行组合形成横线区域;将相邻的竖线进行组合形成竖线区域;删除长宽比小的横线和或竖线区域;所述长宽比可根据实际情况预先设定;分别对所有横线和竖线进行排序;将任意两条横线和任意两条竖线进行组合,判断是否符合单元格的规则,如是,则保留单元格组合;基于相邻原则将所有单元格进行合并,形成所述表格区域;如邻近单元格有所缺失的,则进行单元格补全以形成完整表格区域;所述通过抽取算法提取所述文本信息中的关键信息包括:获取所述文本区域四个角的坐标;对所述坐标的纵轴的值进行从高到低的排序;通过所述坐标的纵轴的值和所述单元格的高度判断所述文本信息是否同一行内容;如所述坐标的纵轴的值和所述单元格的高度在阈值范围内,则所述文本信息是同一行内容;将属于同一行内容的文本信息进行合并;将合并后的文本信息传进预设函数;根据提取规则提取所述预设函数中的文本信息中的关键信息;所述提取规则包括:根据键值对应的方法确定所述文本信息中的关键信息;对所述关键信息进行依次提取,若第N次提取的关键信息中的键包含第N+1次提取的关键信息中的键,则对第N次提取的关键信息进行截断;所述提取规则还包括:赋予每一个关键信息一个置信度;若提取的任意两条关键信息键一样值不一样时,则提取置信度高的关键信息。

全文数据:

权利要求:

百度查询: 北京欧应科技有限公司 一种应用于医疗领域文档的OCR和信息抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术