首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种教育领域舆情大数据分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中诚力锘(北京)教育咨询集团有限公司

摘要:本发明属于自然语言处理技术领域,具体涉及一种教育领域舆情大数据分类方法;包括:获取教育领域舆情文本并对其进行舆情类别和情感类别标注,得到教育领域舆情数据集;采用继续预训练的编码模型对教育领域舆情数据集进行编码,得到舆情文本向量;从舆情文本向量中提取舆情文本特征向量;对舆情文本特征向量和舆情文本向量进行处理,得到舆情类别第一概率矩阵和情感类别第一概率矩阵;构建提示模板和选择题模板并采用多任务学习得到舆情类别第二概率矩阵和情感类别第二概率矩阵;融合舆情类别第一概率矩阵和第二概率矩阵得到舆情分类结果,融合情感类别第一概率矩阵和第二概率矩阵得到情感分类结果;本发明可提高分类精确度,有助于舆情控制。

主权项:1.一种教育领域舆情大数据分类方法,其特征在于,包括:S1:获取教育领域的舆情文本并对其进行舆情类别标注和情感类别标注,得到教育领域舆情数据集;S2:采用继续预训练的编码模型对教育领域舆情数据集进行编码,得到舆情文本向量;编码模型继续预训练过程中集成了绝对旋转位置编码方式的注意力机制;绝对旋转位置编码方式的注意力机制表示为: 其中,self-attentionmn表示位置m的token和位置n的token的注意力分数,softmax表示softmax归一化函数;ω表示注意力超参数,qm表示第m个token对应的词向量集成绝对旋转位置信息之后的query向量,kn表示第n个token对应的词向量集成绝对旋转位置信息之后的key向量,vn表示第n个token对应的词向量集成绝对位置信息之后的value向量,dk表示key向量的维度;S3:采用首尾重要性循环神经网络从舆情文本向量中提取舆情文本特征向量;舆情文本特征向量包括尾部侧重特征和首部侧重特征;提取舆情文本特征向量的过程包括:S31:将舆情文本向量按照原始顺序送入首尾重要性循环神经网络中得到尾部侧重特征chorder;S32:将舆情文本向量按照原始顺序的逆顺序送入首尾重要性循环神经网络中得到首部侧重特征chreverse;首尾重要性循环神经网络表示为: ot=reluV*st其中,st表示隐藏层第t步的状态,tanh表示tanh激活函数,U表示输入层连接矩阵,xt表示第t步的输入向量,W表示权重矩阵,st-1表示上一时刻隐藏层的状态,表示包含xt的词的数量,nword表示文档中词的数量,sumtext表示文档的总数,表示包含xt的文档的总数,ot表示第t步的输出,relu表示relu激活函数,V表示输出层的连接矩阵;S4:融合舆情文本特征向量和舆情文本向量,得到最终特征向量;采用两个不同的分类器对最终特征向量进行处理,得到舆情类别第一概率矩阵和情感类别第一概率矩阵;S5:根据教育领域的舆情文本构建提示模板和选择题模板;根据提示模板和选择题模板,采用多任务学习得到舆情类别第二概率矩阵和情感类别第二概率矩阵;对当前文本构造提示学习模板为:[这属于[MASK1]事件][当前文本][情感倾向是[MASK2]];对当前文本构造选择题模板为:[当前文本][描述的是教育相关的哪方面的事件?作者的态度是?];多任务学习的损失函数为: 其中,loss表示训练总损失,表示第一遮蔽位置的类别数量,ym表示当前样本真实标签是否为m,pm表示当前样本属于m的预测概率,表示第二遮蔽位置的类别数量,yn表示当前样本真实标签是否为n,pn表示当前样本属于n的预测概率,ω′表示权重系数,nchoice表示选择题任务的类别数目,αt表示多任务学习超参数列表,h表示当前样本真实类别的one-hot向量,pt表示输出概率分布,γ表示多任务学习超参数;S6:融合舆情类别第一概率矩阵和舆情类别第二概率矩阵得到舆情分类结果,融合情感类别第一概率矩阵和情感类别第二概率矩阵得到情感分类结果。

全文数据:

权利要求:

百度查询: 中诚力锘(北京)教育咨询集团有限公司 一种教育领域舆情大数据分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。