买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中科南京软件技术研究院
摘要:本发明公开了一种融合数据集的质量评估方法和装置,面向医学领域。所述方法包括:获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件;基于集合特性指标进行集合质量评估,得到集合质量评估值;在集合使用质量合格的情况下,基于关联特性指标进行关联质量评估,得到关联质量评估值;在文件关联质量合格的情况下,若文件关联质量中等和或集合使用质量中等,则确定融合数据集的质量中等;若文件关联质量优且集合使用质量优,则基于数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,获取融合数据集的质量级别。本发明结合融合数据集的特点实现了对融合数据集有针对性、准确、高效的评估。
主权项:1.一种融合数据集的质量评估方法,其特征在于,面向医学领域,所述方法包括:获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件;其中,图像文件包括借助于仪器或介质对患者作用所产生的医学图像,文本文件包括医生为患者诊疗的过程中形成的电子病历,音频文件包括医生为患者诊疗的过程中形成的对话录音;基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值;所述集合特性指标包括数据规模、现时性和保密性,数据规模用于指示融合数据集在文件数量方面的充足程度,现时性用于指示融合数据集在文件生成方面的时间属性,保密性用于指示融合数据集在文件使用方面的保密属性;所述基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值,包括:统计融合数据集中整体文件数量,并基于整体文件数量和数量阈值的比较,对整体文件数量进行归一化处理,得到数据规模度量值;统计融合数据集中文件生成时间位于在先目标时刻与当前时刻之间的特定文件数量,并基于特定文件数量在整体文件数量中的占比,对特定文件数量进行归一化处理,得到现时性度量值;获取融合数据集的保密说明,并基于获取结果确定保密性度量值;基于数据规模度量值、现时性度量值和保密性度量值,计算集合质量评估值;其中,在集合质量评估值指示融合数据集的集合使用质量不合格的情况下,确定融合数据集的质量低;在集合质量评估值指示融合数据集的集合使用质量合格的情况下,基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值;所述关联特性指标包括整体关联性和格式完整性,整体关联性用于指示融合数据集在文件内容方面的关联程度,格式完整性用于指示融合数据集在文件格式方面的完整程度;所述基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值,包括:对融合数据集中的文本文件进行内容解析,确定文本文件所属的样本中图像文件存在的必要性;基于图像文件存在的必要性,对融合数据集中的图像文件、文本文件和音频文件的存在性进行量化处理,并基于量化结果计算格式完整性度量值;基于图像文件存在的必要性,分别获取图像文件、文本文件和音频文件的标签信息,对标签信息进行内容匹配,并基于匹配结果计算整体关联性度量值;基于格式完整性度量值和整体关联性度量值,计算关联质量评估值;其中,在关联质量评估值指示融合数据集的文件关联质量不合格的情况下,确定融合数据集的质量低;在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量中等和或集合质量评估值指示集合使用质量中等,则确定融合数据集的质量中等;在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量优且集合质量评估值指示集合使用质量优,则基于从融合数据集的数据使用层面建立的数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别,包括:获取融合数据集的样本中图像文件存在的必要性;基于图像文件存在的必要性,分别获取图像质量度量值、文本质量度量值和音频质量度量值,并基于质量度量值计算数据质量评估值;若数据质量评估值小于数据质量阈值,则确定融合数据集的质量中等;若数据质量评估值大于或等于数据质量阈值,则确定融合数据集的质量优。
全文数据:
权利要求:
百度查询: 中科南京软件技术研究院 融合数据集的质量评估方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。