买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:泰康保险集团股份有限公司
摘要:本发明公开了一种医疗文本数据的标准化处理方法及装置,其中该方法包括:接收脱敏后的原始医疗文本数据;对收到的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合;基于预先构建的医学知识图谱,采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合;计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度,并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合;根据目标医疗标准词集合,对原始医疗文本数据进行标准化处理。本发明利用标准化医疗文本数据进行医院间的学术交流及跨院的远程医疗,能够大大提高学术交流、远程医疗的效率。
主权项:1.一种医疗文本数据的标准化处理方法,其特征在于,包括:接收脱敏后的原始医疗文本数据;对收集到的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合,其中,所述原始医疗文本分词集合中包含:一个或多个原始医疗文本分词;基于预先构建的医学知识图谱,采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合,其中,所述医学知识图谱中包含:多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词;计算所述原始医疗文本分词集合与各个候选医疗标准词集合的相似度,并将相似度最大的候选医疗标准词集合确定为所述原始医疗文本数据的目标医疗标准词集合;根据所述目标医疗标准词集合,对所述的原始医疗文本数据进行标准化处理;对于医学知识图谱中没有的医疗文本分词,无法基于知识图谱查找到对应的医疗标准词,在对采集的原始医疗文本数据进行分词处理,得到原始医疗文本数据对应的原始医疗文本分词集合之后,所述方法还包括:获取预先训练好的医疗文本语义分类模型,其中,所述医疗文本语义分类模型用于预测所述原始医疗文本分词集合对应的候选医疗标准词集合;将所述原始医疗文本分词集合中包含的各个原始医疗文本分词,输入至预先训练好的医疗文本语义分类模型中,输出所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合;基于预先构建的医学知识图谱,采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合,包括:将所述原始医疗文本分词集合中包含的每个原始医疗文本分词与所述医学知识图谱中每条医疗标准的文本分词进行匹配,得到包含所述原始医疗文本分词集合中一个或多个原始医疗文本分词的多条医疗标准;确定所述原始医疗文本分词集合与每条医疗标准的分词交集;将分词交集中包含分词数量超过预设阈值的医疗标准确定为原始医疗文本分词集合对应的候选医疗标准词集合;在根据所述目标医疗标准词集合,对原始医疗文本数据进行标准化处理之后,所述方法还包括:获取标准化医疗文本数据;根据标准化医疗文本数据,构建健康档案数据;根据不同医院同一个就医人员的健康档案数据,来辅助远程医疗。
全文数据:
权利要求:
百度查询: 泰康保险集团股份有限公司 医疗文本数据的标准化处理方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。