买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:安徽大学;安徽医科大学第一附属医院
摘要:本发明公开一种基于视觉‑语言多模态对比学习的超声图像预训练方法,通过单模态局部对比学习与多模态局部对比学习实现特征对齐,并创造性地提出自监督预训练方法,该方法使用医学超声图像数据与诊断报告文本数据学习输入图像和报告文本的单模态和多模态特征表示,利用单模态对比损失与多模态对比损失对齐图像与文本特征。本发明考虑到超声图像与诊断报告的特点,本发明采用局部对比学习的方式来细粒度对齐图像与文本特征。本发明以掩码语言建模和图像文本匹配作为预训练目标进行预训练。
主权项:1.一种基于视觉-语言多模态对比学习的超声图像预训练方法,其特征在于,包括以下步骤:步骤S1、获取一对超声图像与诊断报告,对于超声图像,先对原超声图像按照对应比例进行掩码得到掩码超声图像,然后将原超声图像输入图像编码器、以及将掩码超声图像输入掩码图像编码器,进而分别得到局部图像特征嵌入和中间图像特征嵌入FI;对于诊断报告,先对原诊断报告按照对应比例进行掩码得到掩码后文本,然后将原诊断报告文本输入文本编码器、以及将掩码后文本输入掩码文本编码器,进而得到局部文本特征嵌入和中间文本特征嵌入FT;步骤S2、将中间图像特征嵌入FI送入掩码图像解码器进行特征重建,得到重建后局部图像特征嵌入将中间文本特征嵌入FT送入掩码文本解码器进行特征重建,得到重建后局部文本特征嵌入步骤S3、利用局部图像特征嵌入和重建后局部图像特征嵌入来计算图像模态局部对比损失函数;利用局部文本特征嵌入和重建后局部文本特征嵌入来计算文本模态局部对比损失函数;利用局部图像特征嵌入和局部文本特征嵌入来计算多模态局部对比损失函数;步骤S4、将局部图像特征嵌入与局部文本特征嵌入一起输入多模态编码器进行处理,得到编码后特征嵌入FM;步骤S5、利用预训练阶段的权重来初始化图像编码器、文本编码器和多模态编码器;为生成答案,使用一个带有6层基于Transformer的应答解码器来进行微调,应答解码器接收多模态嵌入并输出文本token,[CLS]token用作解码器的初始输入token,并附加[SEP]token以表示生成序列的结束;下游VQA模型通过掩码语言模型损失进行微调,使用真实答案作为目标。
全文数据:
权利要求:
百度查询: 安徽大学 安徽医科大学第一附属医院 基于视觉-语言多模态对比学习的超声图像预训练方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。