买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:成都医星科技有限公司
摘要:本申请提供一种电子病历后结构化标注方法、装置、电子设备及存储介质,涉及医疗大模型训练用数据提取技术,方法包括获取待处理样本,解析html电子病历提取病历组件及其值,根据对应html模板的标注配置进行标准数据元与病历组件的值的取值对应,并依据替换规则组进行优化处理完成后结构化标注;将解析提取的纯文本的电子病历作为输入input,将完成后结构化标注的标注结果作为输出output;将输入input和输出output一同生成为训练所需的json格式文档。本申请提供的方案基于对html格式的电子病历进行自动结构化标注以生成训练所需数据,可提高标注效率,降低标注成本,并利于缩短项目研发周期。
主权项:1.一种电子病历后结构化标注方法,其特征在于,包括:从导入的一批属于某个种类的电子病历中获取一个作为待处理的样本,其包含一份html格式的电子病历以及对应的病历模板编号;每个病历模板编号唯一对应一个预先配置的html模板;根据病历模板编号获取根据其对应的html模板预先配置的标注配置和替换规则组,标注配置中预先设置有标准数据元与html模板中的病历组件的映射关系;解析html格式的电子病历,提取含有id信息的html元素作为病历组件,并提取id信息对应的纯文本内容作为对应的病历组件的值;遍历各标准数据元,根据映射关系完成对各标准数据元与病历组件的值的取值对应:当标准数据元与病历组件的映射关系为一对一时,将病历组件的值提取作为标准数据元的取值;当标准数据元与病历组件的映射关系为一对多时,根据各病历组件所具有的预设组合顺序序号或预设优先级序号进行提取:若具有预设组合顺序序号,则根据组合顺序序号对应的顺序,依次拼接各病历组件的值,将拼接后的结果作为标准数据元的取值;若具有预设优先级序号,则根据优先级序号对应的优先级,选择非空值中优先级最高的病历组件的值作为标准数据元的取值;当标准数据元与病历组件的映射关系为多对一时,根据病历组件是否具有预设的AI辅助标识进行提取:若不具有预设的AI辅助标识,则将病历组件的值同时作为多个标准数据元的取值,若具有预设的AI辅助标识,则表明标注配置中该病历组件所对应映射关系的多个标准数据元的取值是需要通过调用预设的通用生成式AI语言模型的API提取生成,则依据映射关系调用所述通用生成式AI语言模型的API生成标准数据元的取值;根据替换规则组对完成对应取值后的标准数据元进行优化处理,包括根据替换规则组中预设的优先顺序对标准数据元的取值进行字符串替换和或正则表达式替换,完成后结构化标注。
全文数据:
权利要求:
百度查询: 成都医星科技有限公司 电子病历后结构化标注方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。