首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于时空注意力的漫画本分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了一种基于时空注意力的漫画本分类方法,包括:1数据获取与处理;2模型构建;3定义损失函数;4参数调优;5漫画本分类。本发明构造了一个用于漫画本准确分类的网络模型,利用漫画本图像序列空间上和时间上的重要信息进行漫画本图像的理解,突破了其它相关多图工作直接应用于漫画本数据的准确度瓶颈,进一步可为其它漫画本理解任务提供解决思路。

主权项:1.基于时空注意力的漫画本分类方法,其特征在于,包括以下步骤:1数据获取与处理采集网络漫画本作为漫画本数据集,分割为漫画本片段;将得到的漫画本数据集和网络漫画平台提供的漫画类型标签相匹配,进行标签标注,得到多标签漫画本数据集,并划分为训练集和测试集;2模型构建针对漫画本数据集的特征,为了提取漫画本片段中时间和空间上的重要信息,并利用多标签之间的相关关系,构建基于时空注意力的网络模型,该模型由空间上的多重注意力模块、时间上的自注意力模块和建模标签相关关系的分类器组成,包括以下步骤:2.1构造空间上的多重注意力模块模型的输入为漫画本片段,每一页漫画首先通过一个ResNet50网络提取初步特征;空间上的多重注意力模块的输入即为初步特征序列;为了提取在同一漫画页上的多个重要区域的信息,在每一页漫画的初步特征上构造多重的空间注意力图: 式中,fj为第j页漫画的初步特征,j=1,2,...,P,P为输入模型的漫画本片段页数;函数gk·输出该页漫画的第k个空间注意力图K为单页特征上产生的空间注意力图总数;函数gk·由ReLU层作为激励函数的两层卷积层组成,并采用Softmax函数归一化;综合多重的空间注意力图关注的区域,获得每一页漫画的代表性特征: 式中,·表示矩阵点乘操作,f'j表示第j页漫画的代表性特征;为了防止原始特征丢失,将代表性特征f'j与初步特征fj相加,获得增强后的单页漫画特征将增强后的单页漫画特征经过全局平均池化层处理后,堆叠K页的特征得到漫画特征序列;2.2构造时间上的自注意力模块为了关注于漫画本片段时间上的重要页面,提出将Transformer编码器作为自注意力模块,应用到基于页序列的视觉媒体上,具体步骤为:漫画特征序列的头部连接一个分类标志,并与位置编码相加,输入L层Transformer编码器模块,分类标志所对应的输出状态即为整个漫画本片段的最终表示,记为x;2.3构造建模标签相关关系的分类器由于多标签漫画本数据集展现出了标签的相关性,提出采用一个由图卷积网络构造建模标签相关关系的分类器,具体步骤为:将输入所有标签的词嵌入作为图卷积网络的初始结点特征,将从数据集中计算得出的标签之间的共现频率作为相关矩阵,将二者构建的类别标签图输入2层图卷积网络,输出的节点最终状态作为每个类别的分类器,记为加权矩阵W;通过将加权矩阵W与漫画本片段的最终表示x相乘,并采用Sigmoid激活函数获得该漫画本片段的类别概率: 式中,σ·表示Sigmoid激活函数,表示漫画本片段的类别概率;3定义损失函数根据时空注意力的特性和多标签分类任务的训练目标,定义训练所需的损失函数,包括以下步骤:3.1定义分类损失:为了防止过拟合问题和解决正负样本不均衡问题,采用带有标签平滑化的焦点损失作为分类损失训练多标签分类器;3.2定义空间注意力的多样性损失:为拉大同一漫画页面的空间注意力图两两之间的距离,使不同的注意力图关注于不同的区域,定义空间注意力的多样性损失Ldiv: 式中,||·||F表示F范数,P为输入模型的漫画本片段页数,Aj是第j页漫画的K个空间注意力图展平后拼接而成的矩阵,I是K×K维的单位向量;3.3定义空间注意力的分散性损失:为了让空间注意力图适应和利用漫画本的多窗格结构,空间注意力的分散性损失将同一漫画页面的不同空间注意力图分散至空间上的不同区域,首先计算第j页漫画的区域注意力和矩阵,即一个K×K维的矩阵Rj,其中的每个元素表示第k个空间注意力图的第q个区域的注意力和,q=1,2,...,K,用公式表示为: 式中,表示第j页漫画的第k个空间注意力图的第t个元素,每个注意力图被均分为K个区域,Δs是每个区域的长度,注意: 定义空间注意力的分散性损失Ldis: 式中,tr·表示矩阵的迹;最小化空间注意力的分散损失等价于使K个空间注意力图分散地关注于K个区域内的重要内容,即使Rj逼近单位矩阵I;3.4定义总损失函数总损失函数为步骤3.1、3.2、3.3中定义的分类损失、空间注意力的多样性损失和分散性损失的加权和,作为模型最终的训练目标;4参数调优使用步骤1中的训练集对步骤2中构建的模型进行训练,获得最优的网络模型参数,即得到最优模型;5漫画本分类将测试集的漫画本输入最优模型,得到漫画本片段上的分类结果,再综合分析漫画本所有的片段分类结果,即可得到漫画本的分类结果。

全文数据:

权利要求:

百度查询: 华南理工大学 基于时空注意力的漫画本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。