Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:安徽大学

摘要:一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统,属于计算机视觉技术领域,解决如何为基于鲁棒实例表示的RGBT跟踪找到最佳的融合网络结构,从而进一步提高跟踪性能的问题,本发明的技术方案在离线搜索阶段,为了提取对光照变化、运动模糊和尺度变化等各种挑战具有鲁棒性的共享特征表示,引入了多域学习框架来离线搜索通用融合空间中的融合网络结构。在线跟踪阶段,从实例感知的融合空间中,在线搜索每个视频序列的融合结构以应对特定于实例的挑战;这种两阶段搜索算法可以动态更新视频融合策略,从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构,进一步提高跟踪性能。

主权项:1.一种基于两阶段融合结构搜索的RGBT视觉跟踪方法,其特征在于,包括以下步骤:S1、离线搜索阶段,设计一个通用搜索空间,同时输入一对配准的多模态图像,通过使用多域学习的训练方式以及基于预测器的渐进式搜索方法,离线搜索通用的融合网络结构,使用搜索到的通用的融合网络结构提取图像特征;所述的通用搜索空间包括VGG-M卷积层不同融合的方式以及五种激活函数:Tanh、ReLU、PReLU、LReLU、ReLU6;所述的离线搜索通用的融合网络结构是由堆叠一系列的卷积层、非线性层和池化层所组成;离线搜索阶段具体包括以下步骤:(1)首先使用VGG-M的预训练模型的前三层初始化特征提取器的参数,全连接层是随机初始化的;特征提取器由三个卷积层和激活函数Relu组成,其中前两层有局部响应函数LRN以及最大值池化层函数MaxPool,而卷积核大小分别为7*7*96、5*5*256、3*3*512;(2)初始化融合层数L=1的候选结构描述,根据描述构造融合网络,使用多域方法将融合网络进行训练;(3)使用人工标注好的可见光热红外数据集来训练整个网络,用K个视频来做训练,一共做N次循环,每次循环使用随机梯度法进行K次迭代;在第k次迭代,每个minibatch是从第个视频序列中随机抽取八帧配对的可见光和热红外图片通过高斯分布采样生成的,同时更换对应视频序列的第个层;卷积层学习率设置为0.0001,全连接层的学习率设置为0.0002;保存模型,进行测试,得到网络真实的精度;(4)用步骤(2)中的候选结构描述和对应的真实精度,使用随机梯度下降去训练一个模型预测器,学习率设置为0.001,迭代50次;(5)依次扩展融合层数L=2...4,生成候选结构描述,通过预测器预测候选结构的精度,根据预测精度采样前G个结构描述,根据描述构造前G个融合网络,使用步骤(3)进行训练,然后进行测试,得到网络真实精度;再将这些结构描述和精度去更新预测器;(6)最后得到一个最好的融合网络结构,保存该模型,用于在线跟踪阶段,在线跟踪阶段将其进行固定;S2、在线跟踪阶段,将所述的通用的融合网络结构进行固定,在第一层全连接层处设计一个实例感知搜索空间,根据每个视频的第一帧来选择全连接层的融合网络结构,在后续帧的跟踪中继续使用这一融合网络结构;所述的实例感知搜索空间的模态融合方式包括:加法、减法、取最大值、取最小值、取平均值和拼接;在线跟踪阶段具体包括以下步骤:(1)根据多模态视频序列中提供的一对第一帧真值框,抽取个正样本和个负样本作为训练样本,训练迭代次数设置为30次;使用这5500个样本分别初始化六种网络模型,分别得到新的层;此时固定卷积层的学习率,的学习率设置为0.001,前两个全连接层学习率设置为0.0005;然后计算500个正样本在六种网络模型中的得分,选取得分最大的样本所在的结构作为该视频的融合结构,后续帧继续沿用此融合结构,初始化结束后,把前一帧的目标位置求均值,使用高斯分布采样,以为协方差,产生256个候选样本,其中r为前一帧目标框的宽和高的平均值;(2)将候选样本送入到特征提取网络,分别将最后一个卷积层不同模态的特征图和经过通用融合网络之后的特征图送入不同的全连接层fc4_R、fc4_T、fc4_F,将fc4_R和fc4_T按照上一个步骤选择的融合结构进行融合得到一个向量,然后再和fc4_F进行通道维度的拼接,继续传入下一层的全连接层,在最后一层全连接层送入softmax函数得到二分类得分,分别记为和,而下一帧的目标位置再由下式产生:,其中,表示采样的第i个样本,为预测的目标位置;(3)当目标的得分大于零时,判定为跟踪成功;在当前帧进行正负样本采样,包含50个正样本和200个负样本,把它们加入到正负样本数据集中;在正负样本数据集中帧数超过100个则抛弃最早的那些帧的正样本区域,帧数个数若超过20个则抛弃最早的那些帧的负样本区域;当目标得分小于零时,即跟踪失败时将进行短期更新,从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数,迭代10次,学习率设置为0.00003;S3、把得到的图像特征在最后一个全连接层后送入softmax层,得到样本的得分,正样本中得分最高的就是预测的目标跟踪结果,并根据跟踪结果的成功与否判断是否更新融合网络结构。

全文数据:

权利要求:

百度查询: 安徽大学 一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。