首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于文本提示加权聚合的小样本图像分类方法 

申请/专利权人:中国人民解放军国防科技大学

申请日:2024-03-09

公开(公告)日:2024-07-05

公开(公告)号:CN118298213A

主分类号:G06V10/764

分类号:G06V10/764;G06V10/774;G06V10/82

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.23#实质审查的生效;2024.07.05#公开

摘要:本发明公开了一种基于文本提示加权聚合的小样本图像分类方法,目的是解决现有小样本图像分类方法分类准确度不高的问题。技术方案是:构建由文本提示生成模块,文本特征提取模块、图像特征提取模块、置信度计算模块、软加权模块、主任务模块组成的基于文本提示加权聚合的小样本图像分类系统。构建训练集、验证集和测试集。采用训练集对小样本图像分类系统进行训练并使用验证集对训练后的小样本图像分类系统进行测试,将含有最好文本分类器的超参数加载到小样本图像分类系统中,得到性能最优的训练后的小样本图像分类系统;训练后的小样本图像分类系统对用户输入的图像进行分类,得到图像类别。本发明能缓解文本特征多样性不足,提升分类准确度。

主权项:1.一种基于文本提示加权聚合的小样本图像分类方法,其特征在于包括以下步骤:第一步,构建基于文本提示加权聚合的小样本图像分类系统;小样本图像分类系统由文本提示生成模块,文本特征提取模块、图像特征提取模块、置信度计算模块、软加权模块、主任务模块组成;文本提示生成模块与文本特征提取模块相连,文本提示生成模块引入大语言模型作为提示生成的引擎,通过设计6个提问模板询问大语言模型,得到与类别相关的文本提示;文本提示生成模块采用大语言模型作为文本提示生成的引擎,采用提问模板与大语言模型通过对话的方式得到文本提示,将文本提示发送给文本特征提取模块;文本特征提取模块与文本提示生成模块、置信度计算模块、软加权模块相连,文本特征提取模块采用Transformer架构,对从文本提示生成模块接收的文本提示进行特征提取,得到文本特征,将文本特征发送给置信度计算模块和软加权模块;图像特征提取模块与置信度计算模块和主任务模块相连,在训练时,图像特征提取模块提取训练集图像特征,将训练集图像特征发送给置信度计算模块,为置信度计算和获得超参数做准备;在验证超参数的准确度时,图像特征提取模块提取验证集图像特征,将验证集图像特征发送给主任务模块;在对用户输入的待分类图像进行分类时,将用户输入的待分类图像特征发送给主任务模块;图像特征提取模块采用ResNet或ViT;置信度计算模块与图像特征提取模块、文本特征提取模块、软加权模块相连,其功能是计算每个文本提示的置信度得分;利用文本和图像在同一特征空间内的相互监督关系,对从文本特征提取模块得到的文本特征与从图像特征提取模块得到的图像特征计算置信度得分,作为特征相似度来衡量每个文本的质量;置信度计算模块首先筛选同一类别n的图像和文本,同一类别n的图像用集合表示,同一类别n的文本用集合表示,K为小样本个数,K为正整数;其次,对于类别n,使用分别对进行置信度计算并求和,得到第k个文本提示对应的置信度得分同理,置信度计算模块对小样本图像分类场景数据集中的所有类别都进行相同的操作,将最终的置信度得分发送给软加权模块;软加权模块与文本特征提取模块、置信度计算模块和主任务模块相连,其功能是对从文本特征提取模块得到的文本提示特征进行进一步筛选,根据置信度得分对文本提示特征进行加权聚合,得到文本分类器集合WC,将温度系数t,截断因子l及相应的文本分类器集合WC作为一组超参数进行保存,并将超参数中的文本分类器发送给主任务模块;主任务模块与图像特征提取模块和软加权模块相连,从软加权模块接收文本分类器,在验证超参数的准确度时,从图像特征提取模块接收验证集图像特征,利用验证集图像特征对文本分类器进行测试,得到最优的文本分类器;在对用户输入的待分类图像进行分类时,从图像特征提取模块接收用户输入的待分类图像的特征,利用最优的文本分类器对图像进行分类,得到分类结果;第二步,构建训练集、验证集和测试集,方法是:2.1收集小样本场景图像作为小样本图像分类场景数据集,方法是:使用通用场景数据集ImageNet、遥感图像数据集Eurosat、纹理数据集DTD、花卉数据集Flowers102、汽车数据集StanfordCars、动作数据集UCF101、物体识别数据集Caltech101、场景分类数据集SUN397、飞机分类数据集Aircraft、宠物分类数据集OxfordPets共11个数据集作为小样本图像分类数据集,这11个数据集的每张图像都进行了人工标注,即每张图像都标注了物体的类别及其对应的真实标签;2.2根据研究人员普遍采用的数据集划分文件,将小样本图像分类场景数据集划分为训练集Dtrain,验证集Dval,测试集Dtest;训练集中图像总数为S,验证集中图像总数为V,测试集中图像总数为T,S、V和T均为正整数;2.3根据小样本图像分类中设定的每个类别样本个数K,从训练集Dtrain中每个类别随机采样K个图像构建成一个列表,将此列表加入到新的训练集D′train,D′train中包含N个列表,D′train={dataset1,…,datasetn,…,datasetN},datasetn为存储筛选后的第n类别图像的列表,N为D′train的类别数量,每个列表中有K个图像;第三步,构建多样化文本提示,方法是:3.1获取6个提问模板:从CUPL获取5个提问模板,从CBD的特征相关的文本提示模板中获取1个提问模板;6个提问模板的序号为1~6;模板中均用“{}”表示可替换的类别名称;3.2令类别n=1,初始化文本提示字典P={};3.3令模板序号m=1,初始化第n类别对应的文本提示列表Ln=[];3.4根据第n类别对应标签的类别名称classn,将类别名称classn替换3.1步中第m个模板的“{}”,得到第m个提问模板Qm;3.5文本提示生成模块将提问模板Qm输入到大语言模型,从大语言模型得到相应的文本提示,将这些文本提示加入第n类别对应的文本提示列表Ln;3.6若m6,令m=m+1,转3.4;若m≥6,转3.7;3.7将第n类别对应标签的类别名称classn和该类别对应的文本提示列表Ln构成键值对“classn:Ln”,classn为键,Ln为值,将“classn:Ln”加入到字典P中;3.8若nN,则令n=n+1,转3.3;若n≥N,转3.9;3.9此时N个类别都进行了文本提示生成,得到最终的文本提示字典P,P={class1:L1,…,classn:Ln,…,classN:Ln};第四步,采用训练集对基于文本提示加权聚合的小样本图像分类系统进行训练,得到Nm组超参数,Nm为正整数,方法是:4.1初始化小样本图像分类系统中各模块的模型参数;采用预训练模型CLIP初始化文本特征提取模块中的Transformer的参数及图像特征提取模块中的ResNet或ViT的参数;4.2初始化文本分类器集合WC=[],初始化超参数截断因子l=0.3;4.3令批次序号b=1,表示第b个图像批次,每个批次共B个图像,总批次为NB,B为正整数;4.4图像特征提取模块从训练集D′train读取第b批次的B个图像,记为矩阵形式Itrain,Itrain中包含B个H×W×3的图像;其中H表示输入图像的高,W表示输入图像的宽,“3”代表图像的RGB三个通道;B为一个批次中的图像个数;4.5图像特征提取模块采用图像特征提取方法根据类别标签n筛选出该类别的K个图像样本IK,IK是一个由K个图像组成的列表,提取IK的图像特征fv,将fv发送给置信度计算模块,fv是一个张量,维度为B,D,D是特征维度;4.6文本特征提取模块根据类别标签n对应的类别名称classn,从文本提示字典P中取出属于classn的文本提示列表Ln,Ln是一个由M个文本提示组成的列表,提取Ln的文本提示特征ft,将ft发送给置信度计算模块和软加权模块,ft是一个张量,维度为M,D,D是特征维度;4.7置信度计算模块接收来自图像特征提取模块的图像特征fv和文本特征提取模块的文本提示特征ft,对置信度得分进行计算,得到置信度得分S:S=fv·ftT公式1其中,·表示计算两个向量之间的内积,将置信度得分S发送给软加权模块,S维度为K,M;4.8软加权模块对置信度得分S的第一个维度进行求和,得到求和后的置信度得分S1,再对S1由高到低进行排序,得到排序后的置信度得分S2,采用超参数截断因子l从S2筛选前个置信度较高的置信度得分S′,S1和S2维度为M,S′维度为软加权模块接收来自文本特征提取模块的文本提示特征,并索引S′对应的文本提示特征ft′,初始化超参数温度系数t=1;4.9软加权模块利用超参数温度系数t与置信度得分S′相乘,对置信度得分进行锐化,得到锐化后的置信度得分S″:S″=S′·t公式24.10软加权模块采用softmax函数根据锐化后的置信度得分S″对文本提示特征ft′进行加权聚合,得到第b批次的文本提示特征Wb:Wb=ft′·softmaxS″公式34.11将此时的文本提示特征Wb添加至文本分类器集合WC;4.12若bNB,令b=b+1,转4.4;若b≥NB,说明文本分类器集合构建完毕,WC是一个张量,维度为N,D,D是特征维度,转4.13;4.13将此时的温度系数t,截断因子l及相应的文本分类器集合WC作为一组超参数进行保存;4.14若t10,令t=t+1,转4.9;若t≥10,转4.15;4.15若l1,令l=l+0.1,转4.8;若l≥1,转4.16;4.16得到Nm组超参数,软加权模块将Nm组超参数中的文本分类器发送给主任务模块;第五步,主任务模块使用验证集验证超参数的准确度,保留性能最好的超参数作为基于文本提示加权聚合的小样本图像分类系统的超参数,获得最好的文本分类器和训练后的小样本图像分类系统,方法是:5.1令变量nm=1,令正确分类的总个数total_correct=0;5.2主任务模块从Nm组超参数中取出第nm组超参数的l、t及相应的WC,并读取验证集Dval;5.3令批次序号c=1,表示第c个批次,每个批次包含B′=64个验证集图像,总批次为NC,令正确分类总个数total_correct=0;5.4取出第c个批次的B′个验证集的图像,将这B′个图像记为矩阵形式Ival,Ival中包含B′个H×W×3的图像,B′=64;5.5图像特征提取模块接收B′张验证集Dval中的图像Ival,利用4.1步初始化后的ResNet或ViT网络提取Ival的图像特征fval,fval是一个张量,维度为B′,D,D是特征维度,将征fval发送给主任务模块;5.6主任务模块利用文本分类器WC与fval进行相似度计算,得到N个类别的预测概率logits,logits是一个张量,维度为B′,N:logits=fval·WCT公式4logits中第二个维度的最大值对应的类别即为最终的预测结果;5.7判断预测结果与2.1步数据集获取时的真实标签是否相同,若相同则为正确分类,将正确分类的个数记为correct,转5.8;若不相同则直接转5.8;5.8将正确个数累加至验证集中正确分类的总个数total_correct:total_correct=total_correct+correct公式55.9若cNC,令c=c+1,转5.4;若c≥NC,说明验证完毕,转5.10;5.10计算分类准确度acc,具体过程如公式6所示: 其中,V是验证集的图像个数;5.11若nmNm,令nm=nm+1,转5.2;若nm≥Nm,说明所有超参数组合验证完毕,转5.12;5.12对Nm个超参数进行准确度对比,找到准确度最高的超参数,将该超参数作为小样本图像分类系统选定的超参数,该超参数含有最好的文本分类器将该选定超参数加载到基于文本提示加权聚合的小样本图像分类系统,加载了此选定超参数的基于文本提示加权聚合的小样本图像分类系统成为训练后的基于文本提示加权聚合的小样本图像分类系统,此时主任务模块加载了最优文本分类器第六步,采用训练后的基于文本提示加权聚合的小样本图像分类系统对用户输入的待分类图像进行分类,得到待分类图像的预测结果,方法是:6.1图像特征提取模块接收用户输入的待分类图像集合Itest,Itest中图像数量为Ntest;6.2图像特征提取模块提取Itest的图像特征ftest;6.3主任务模块加载最优文本分类器与测试集图像特征ftest进行相似度计算,得到N个类别的预测概率logits_test,logits_test是一个张量,维度为Ntest,N: logits_test中第二个维度的最大值对应的类别即为待分类图像的预测结果,图像分类结束。

全文数据:

权利要求:

百度查询: 中国人民解放军国防科技大学 一种基于文本提示加权聚合的小样本图像分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。