首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于层次注意力机制的歌词情感分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工业大学

摘要:本发明公开了基于层次注意力机制的歌词情感分类方法,使用层次注意力机制提取歌词段落间的结构特征,以关注歌词不同段落之间语义的差异。在层次注意力机制的基础上融入歌词的情感强度特征,以捕捉歌词不同段落之间情感强度的变化。本发明使用层次注意力机制对歌词进行层次化的信息提取,设计了基于词级别的注意力机制和基于段落的注意力机制,提取歌词不同段落的结构和语义特征,更好的关注到段落之间语义的差异,改善了现有的歌词情感分类方法没有考虑到歌词结构特征的缺陷,为情感强度高的词语和段落赋予了更高的关注度,使模型关注到段落间情感强度的变化,提升情感分类的效果。

主权项:1.基于层次注意力机制的歌词情感分类方法,其特征在于:包括以下步骤:步骤一:数据集的建立;中文歌曲领域缺乏公开数据集,通过网络爬虫技术在音乐网站爬取歌词,构建中文歌词的数据集;按照VA情感模型进行情感极性标注,通过音乐网站的歌单标签作为情感极性标注的依据;步骤二:歌词编码;将数据集中的歌词进行分段,对段落中的词语进行词嵌入编码,获得词语的向量表示;然后将词向量依次拼接,构成歌词段落的向量表示;步骤三:词注意力机制;歌词段落中不同词语对于情感极性判定的重要程度不同,词注意力层用来学习词语的重要性权重;使用词注意力机制,对步骤二得到的歌词段落编码进行上下文学习以获取词语的注意力权重;计算情感词的情感强度特征,将情感词的情感强度特征与词注意力权重结合,作为段落中词语的最终权重;将词语特征向量与权重加权求和,得到段落的向量表示;步骤四:段落注意力机制;对歌词的每一段落进行步骤三的特征向量编码,使用段落注意力机制对段落特征向量进行上下文学习,为每一段落赋予权重,表示对情感极性判定的重要性;然后计算每一段落的情感强度特征,将每一段落的情感强度特征与注意力权重结合,以捕捉段落间情感强度的变化;最后,将段落特征向量与段落权重加权求和,得到整首歌词的特征向量;步骤五:情感分类;使用softmax函数作为情感分类器,对步骤四得到的歌词特征向量进行有监督的情感分类训练;最终生成中文歌曲情感分类器,用来对歌词进行情感极性的判定;步骤二中,歌词编码层用来对分段后的歌词进行特征向量编码;首先,对段落中的词语进行词嵌入编码,获取词语的向量表示;然后将每个词向量依次拼接,构成段落的向量表示;最后,使用双向长短期记忆网络BiLSTM进行序列化处理,学习上下文之间的语义关联;词向量表示指的是将词语转换为计算机理解的数值或矩阵;歌词的段落较长,使用BiLSTM进行文本的序列化处理;BiLSTM由前向和后向LSTM组成,实现文本从前向后以及从后向前编码,关注到文本上下文之间的关联;对于一段歌词P=[x1,x2,…,xi,…,xn],其中,χi表示段落中词语的词向量编码,i∈1,n,n为歌词长度;使用BiLSTM分别对歌词进行从前向后以及从后向前学习,获取前向与后向的编码并整合,得到歌词段落的初始特征向量,计算过程如式1-式4所示; h=[h1,h2,…,hi,…,hn]4其中,表示前向LSTM,表示后向LSTM,表示t时刻前向LSTM单元的隐藏层输出,表示t时刻后向LSTM单元的隐藏层输出,将二者拼接后得到t时刻对应的第i个词语对应的BiLSTM的输出向量hi,将所有时刻的输出拼接,得到歌词段落的特征向量h;步骤三中,词注意力机制通过对歌词段落的序列化学习,来获取词语对于情感极性判定的重要性权重;首先使用BiLSTM分别进行从前向后以及从后向前学习,获取前向与后向编码并整合;然后将BiLSTM的输出经过一层全连接层的处理得到每一时刻的状态向量ui,如式5所示;ui=tanhWthi+bt5其中,hi表示第i个词语对应的BiLSTM的输出向量,对hi经过线性函数处理后,再通过激活函数tanh将值映射到[-1,1]之间,Wt和bt为模型的训练参数;为了得到每个词语对于整个段落的重要性,将状态向量ui经过线性函数处理后再通过softmax函数进行归一化处理,得到第i个词语的权重值αi,如式6所示; 其中,ui为通过式5计算得到的第i个词语的状态向量,为ui的转置,Ww1和Ww2为模型的训练参数;歌词中情感词的情感强度对分类结果起重要作用,将词注意力权重与情感强度特征相结合,使模型更关注于情感强度高的词语;设计一种基于tf-idf规则的情感词情感强度计算方法,使用情感词的词频、语义相似度、情感极性特征共同计算情感强度;idf表示逆向文件频率,用来评估某个词语对于区分特定歌词和其他歌词的重要性;tf的计算如式7-8所示: 其中,对于词ωi,Ci表示ωi情感极性与整句歌词的情感极性是否一致,pi表示词频,n为段落中词语数目,si表示语义相似度,语义相似度指词ωi与情感词表中对应情感极性词语的余弦相似度;idf表示逆向文件频率,评估某个情感词对于区分特定歌词和其他歌词的重要性,计算过程如式9所示: 其中,|D|表示歌词文档的总数,|{Dj}|表示包含该情感词的歌词文档总数;对歌词中的所有情感词计算情感强度特征,并通过softmax函数进行归一化处理,得到情感强度权重,表示情感词对于整句歌词的重要程度,计算过程如式10-式11所示:fi=softmaxflyrics10flyrics=tfωi×idfωi11其中,tfωi为词ωi的tf值,idfωi为词ωi的idf值,二者相乘后得到的情感特征值flyrics,fi为情感强度权重;将情感强度权重与注意力机制权重以一定的比例结合,得到歌词中情感词的最终权重值;将段落中词语的特征向量与其权重值加权求和,得到段落最终的特征向量;计算过程如式12-式13所示;λi=θαi+1-θfi12 其中,αi表示词注意力权重,计算过程如式6所示,fi表示情感强度权重,计算过程如式11所示;将二者以一定的比例θ结合后得到最终权值λi,将λi与式3计算得到的词语特征向量hi加权求和,得到融入了情感特征的段落特征向量P,将其作为段落注意力机制的输入;步骤四中,对于一首歌词S=[P1,P2,…,Pk,…,PN],其中Pk表示通过步骤三得到的第k段歌词的段落特征向量,N表示歌词的段落数,k∈1,N;使用BiLSTM进行段落间的序列化学习,再通过注意力机制为每一段落赋予不同的权重,计算过程如式14-式16所示;Hk=BiLSTMPk14δk=tanhWvHk+bw15 其中,Hk表示段落特征向量Pk经过BiLSTM处理后的输出,δk表示经过线性函数tanh处理后得到的段落状态向量,表示δk的转置,μk表示该段落通过注意力机制计算后得到的权重值,Wv,bw,Wh为模型的训练参数;将歌词段落中所有情感词的情感强度特征相加,再通过softmax函数进行归一化处理,得到该段歌词的情感权重,计算过程如式17-式18所示; Fk=softmaxFlyrics18其中,fki表示第k个段落中第i个情感词的情感特征值,计算过程如式11所示,n为段落中词语的数量,对段落中所有词语的情感特征值求和得到Flyrics,作为段落的情感特征值,Fk为经过归一化处理后的情感权重;将第k个段落的情感权重Fk与段落注意力权重μk以一定的比例θ加权求和,得到段落的最终权重λk,将段落特征向量Hk与对应的权重加权求和,计算得到的歌词特征向量S;计算过程如式19-式20所示;λk=θFk+1-θμk19 步骤五中,使用softmax函数作为情感分类器,对融合了层次特征和情感特征的歌词向量进行有监督的情感分类训练;最终生成中文歌曲情感分类器,用来对歌曲进行情感极性的判定;pi=softmaxSVa+ba21其中,S为计算得到的歌词特征向量,Va和ba为模型的训练参数;softmax函数将输出节点的输出值范围映射到[0,1],选取预测值最大的类别作为预测的情感极性类别;使用交叉熵损失函数来评估预测值与真实值之间的差异; 其中pdi表示真实的分类结果,pi表示预测的分类结果。

全文数据:

权利要求:

百度查询: 北京工业大学 基于层次注意力机制的歌词情感分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。