一种基于内容的规则及文本分类三段式表字段推断方法

导航：龙图腾网> 最新专利技术> 一种基于内容的规则及文本分类三段式表字段推断方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州古珀医疗科技有限公司

摘要：本发明涉及一种推断方法，尤其涉及一种基于内容的规则及文本分类三段式表字段推断方法。主要通过以下三个阶段完成：阶段一：字段类型识别模块，利用字段内容确定字段可能类型，主要包括日期型、文本型、类别型、整型、浮点型、标志型及其他；阶段二：规则模块字段推断，主要从规则维度对一些存在规范的数据或存在逻辑可推断的字段进行推断，比如身份证号、电话号码及主键等；阶段三：算法模块字段推断，对于规则模块无法推断的文本型数据，将文本通过词嵌入技术转化为向量，进而进行文本分类，文本分类的结果即为推断结果。解决不同厂商多样化的表字段在集成时低效且容易出错的问题。

主权项：1.一种基于内容的规则及文本分类三段式表字段推断方法，其特征在于按以下步骤实现数据表字段自动推断：步骤一：收集一家医疗机构原始数据表，比如患者基本信息表，以下数据仅按照原格式随机生成：步骤二：医疗机构原始数据通常存在缺失、不规范及类型混乱相关问题，为了有效进行数据类型及后续表字段的推断识别，对表格中列数据进行如下处理：1、大小写统一、空格及无意义字符剔除；2、缺失值采用众数填充；步骤三：各字段数据类型识别，主要识别步骤如下：1、定义各字段类型，如下：①日期型：能被合理切分为年、月、日的字符串即认为是日期数据，记为D；②文本型：含有中文字符即认为是文本数据，记为T；③类别型：含有英文字母且不含中文字符及认为是类别数据，记为C；④整型：仅含0-9的阿拉伯数字即认为是整型数据，记为I；⑤浮点型：同时含有0-9的阿拉伯数字且仅含一位小数点即认为是浮点型数据，记为F；⑥标志型：仅含0、1或9数字即认为是标志型，记为G；⑦其他：无法归纳为上述任一种类型，记为O；2、统计各字段不同类型数据占比，记为：Di，Ti，Ci，Ii，Fi，Gi，Oi：Di，其中Di表示第i列日期型占比；Ti表示第i列文本型占比；Ci表示第i列类别型占比；Ii表示第i列整型占比；Fi表示第i列浮点型占比；Gi表示第i列标志型占比，Oi表示第i列其他类型占比；3、确定各字段数据类型，选择占比最大类型作为该列的数据类型，但以下情况需要进行类型修正或者数据修正：①Ii最大，但Fi大于一定阈值，阈值为10％，将该列数据类型修正为浮点型；②如果该列被识别为非文本型，但存在文本数据，则将文本数据修正为空值，以防影响后续表字段推断；经过步骤3字段类型识别，各表字段被识别情况如下：步骤四：规则维度表字段推断识别：1、基于业务规则的识别：对于COL_2、COL_3、COL_7、COL_8及COL_11这种相对规范的数据内容，从此维度进行，具体比如：①姓名：字符长度小于4且首个字符在百家姓字典中，当该字段满足此条件且超过一定阈值，阈值为80％，即被推断为姓名，COL_3即被推断为姓名；②身份证号：15位或者18位数字，最后一位可能是字符“X”且特定位置的数字符合年、月及日相关日期规范，当该字段满足此条件且超过一定阈值，阈值为80％，即被推断为身份证号，COL_2即被推断为身份证号；③邮政编码：字符长度为6位数字且在邮政编码字典中，当该字段满足此条件且超过一定阈值，阈值为80％，即被推断为邮政编码，COL_7即被推断为邮政编码；④联系号码：字符长度位7位或者11位数字组成且符合电话号码规范，当该字段中满足此条件且超过一定阈值，阈值为80％，即被推断为联系号码，COL_8即被推断为联系号码；⑤ICD10编码：字符由数字及字母组成且在ICD10编码字典中，当该字段中满足此条件且超过一定阈值，阈值为80％，即被推断为ICD10编码，COL_11即被推断为ICD10编码；2、基于逻辑规则的识别：①COL_4与COL_9都是日期类型的数据，在医疗机构数据中，日期类是患者的出生日期或者就诊日期；逻辑上，出生日期跨度较大且年份维度差异大，而就诊日期跨度较小，年份维度一般也就中在近10年；基于此，从逻辑上区分COL_4位出生日期，COL_9为就诊日期；另外利用COL_2列为身份证进一步确认COL_4是否为出生日期列；②COL_5为整型数据且分布在0-100范围，再加上COL_2身份证列验证，很容易推断为年龄；③COL_1中各数据值不相同且等于数据总行数，很容易推断为主键；经过上述规则模块推断，各表字段被推断识别情况如下：步骤五：算法维度表字段推断识别：算法推断表字段，涉及标签确定、专家标注、数据修正、特征工程、模型训练及测试相关步骤，最后使用训练好的模型进行表字段推断，详细步骤如下：1、标签确定：基于数据集成标准化后的数据，确定文本数据所有可能标签，记为{L1，L2，...，Li，...，LM}，其中Li标识第i个标签，M表示标签的数量；2、专家标注：收集部分原始数据，业务专家按照上述确定的M种标签对数据进行打标，为后续算法训练准备；3、数据修正：文本数据通常存在多义性，比如COL_10列中“妄想狂|跖骨骨折”及“过敏性肠炎+低血压”均表示多个诊断，为了提高算法推断准确率，需要将其原子化，分别拆分为“妄想症”、“跖骨骨折”和“过敏性肠炎”、“低血压”；4、特征工程构建：基于同业务专家沟通讨论，构建一些有利于表字段推断的特征，比如字符长度、关键词含量；5、模型构建及训练：①将文本数据通过词嵌入相关技术转化为词向量表示，选择word2vec；②词向量同上述特征工程构建的特征联合，为后续算法训练和测试做准备；③将上述数据按照一定比例，采用7：3，划分为训练集和测试集，前者用于模型训练，后者用于模型效果测试；④使用机器学习或者深度学习算法进行模型训练及调优，确定模型最终参数，选择fasttext；⑤使用测试集确定训练好模型效果，选择效果最优模型即可；6、模型预测①使用最终选择的模型进行文本数据的分类预测，预测结果记为Pij,其中i表示第i列数据，j表示{L1，L2，...，Li，...，LM}中第j个标签，即Lj；②选择当前列算法预测标签最多的作为当前列最终字段推断结果，COL_6被推断为“住址”，COL_10被推断为“ICD10诊断”；经过上述算法模块进一步推断，各表字段被推断识别情况如下： COL_1 COL_2 COL_3 COL4 COL_5 COL_6 COL_7 COL_8 COL_9 COL_10 COL_11 COL_12 COL_13 COL_14 主键身份证号姓名出生日期年龄住址邮政编码联系号码就诊日期 ICD10诊断 ICD10编码 F F G 对于COL_12及COL_13这种浮点型字段，仅从内容本身暂时无法给予一个较优的通用推断方法，需要基于业务知识进行个性化处理。

全文数据：

权利要求：

百度查询：杭州古珀医疗科技有限公司一种基于内容的规则及文本分类三段式表字段推断方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于传递和存储用于ESIM设备变更的激活码的方法和装置

下一篇：一种室内立式蔬菜栽培架

相关技术

用于传递和存储用于ESIM设备变更的激活码的方法和装置

一种室内立式蔬菜栽培架

具有悬臂式叶轮的血液泵

一种基于蜣螂优化算法的智能车轨迹跟踪控制方法

投屏声音故障的确定方法、装置、电子设备和存储介质

一种塑管熔接装置

云计算架构多租户任务资源分配调度方法及装置

一种无线电力传输方法、无线电力发送器和无线电力接收器

用于确定泡沫生产的参数的系统和方法

信息展示方法及电子设备

电池、用电设备、制备电池的方法和设备

用于处理振动信号的方法、计算设备和存储介质

三段式相关技术

一种三段线性LED恒流驱动电路_中山市卓满微电子有限公司_202411431423.9

一种四段式液压机械无级传动装置_北京理工大学_202411055097.6

双气垫带式输送机标准段结构_江苏江达机械制造有限公司_202110045420.1

湿式涡旋洗气机的除雾排污段_山东先卓机电科技有限公司_202420209127.3

分段式拱架安装方法和分段式拱架安装台车_中交一公局厦门工程有限公司_201911170102.7

一种段染装置及段染方法_东莞百宏实业有限公司_202411289144.3

一种钢管拱拱肋节段三维位移的调节装置_中国铁建大桥工程局集团有限公司_202420550618.4

一种下沉式防火门非分段式输送物流装置_迪夫伦(苏州)物流设备有限公司_202411448501.6

射频加速段的加速器、射频加速段及离子注入机_青岛四方思锐智能技术有限公司_202411181132.9

一种单面逐段排气式插头焊接工艺_苏州市格范五金塑胶工业有限公司_202411463809.8

分类相关技术

情感分类模型训练方法、系统、情感分类方法及系统_赛力斯汽车有限公司_202411007675.9

电能质量问题分类模型构建及分类方法、设备和介质_河北高速公路集团有限公司_202411420456.3

一种养殖鱼分类装置及分类方法_江苏科技大学_202411026161.8

扁平图像分类任务重组成树形图像分类任务的方法及系统_西安理工大学_202411196336.X

可自动分类的喷印机_江门荣信电路板有限公司_202420749535.8

一种智能垃圾分类柜_张家港市惠氏电器有限公司_202420438035.2

无人FRP管智能分类存储设备_南京龙鑫电子科技有限公司_202323647377.X

一种色母粒分类装置_苏州御冠新材料科技有限公司_202323545512.X

一种试卷分类装置_兰州现代职业学院_202420550976.5

一种垃圾分类系统_萍乡学院_202411185660.1

文本相关技术

基于视觉提示的文本检测模型的训练方法及文本检测方法_杭州海康机器人股份有限公司_202411008089.6

一种政策文本解析方法_福建省金服云征信有限责任公司_202411036343.3

无监督抽取式文本摘要方法_网经科技(苏州)有限公司_202411030676.5

文本搜索方法、终端、可读存储介质_深圳市万普拉斯科技有限公司_202011544265.X

移动设备上的文本渲染_创峰科技_202280094226.5

文本图像恢复超分模型训练方法和文本图像恢复超分方法_北京百舸飞驰科技有限公司_202410794229.0

一种文本关系的分析方法及装置、文本关系网络的构建方法_武汉渔见晚科技有限责任公司_201911197739.5

文本检测方法、装置、电子设备及存储介质_中国科学院自动化研究所_202111057748.1

处理文本数据的方法及设备_腾讯科技(深圳)有限公司_202410668487.4

通过纯文本和半监督训练进行审议_谷歌有限责任公司_202380034352.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于内容的规则及文本分类三段式表字段推断方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务