买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:长沙理工大学
摘要:本发明公开了一种多类自然语言隐写分析方法,包括以下步骤:步骤1.将隐写分析任务数据集表示为词向量矩阵;步骤2.文本的深度多任务隐写分析特征表示获取;步骤3.多任务隐写分析模型的训练;步骤4.使用最优多任务隐写分析模型对测试集文本进行隐写分析;其中,步骤1包括:1.1定义多个隐写分析任务,分别为:1生成式隐写文本与正常文本隐写分析任务;2生成式隐写文本与自然文本隐写分析任务;3嵌入式隐写文本与正常文本隐写分析任务;4嵌入式隐写文本与自然文本隐写分析任务;5正常文本和自然文本分类任务;1.2将每个隐写分析任务的数据集中的文本通过词向量矩阵进行表示。
主权项:1.一种多类自然语言隐写分析方法,其特征在于包括以下步骤:步骤1.将隐写分析任务数据集表示为词向量矩阵;步骤2.文本的深度多任务隐写分析特征表示获取;步骤3.多任务隐写分析模型的训练;步骤4.使用多任务隐写分析模型对测试集文本进行隐写分析;其中,步骤1包括:1.1定义多个隐写分析任务,分别为:1生成式隐写文本与正常文本隐写分析任务;2生成式隐写文本与自然文本隐写分析任务;3嵌入式隐写文本与正常文本隐写分析任务;4嵌入式隐写文本与自然文本隐写分析任务;5正常文本和自然文本分类任务;1.2将每个隐写分析任务的数据集中的文本通过词向量矩阵进行表示;步骤1.2包括:获取每个隐写分析任务数据集,将数据集分为训练集和测试集,数据集包括大量已经进行了分类的文本,所述文本为句子;对数据集中的文本进行分词和预处理,得到数据集的文本的词向量矩阵,如下: 其中Dk表示任务k中包含Nk个文本的数据集,和分别表示任务k中的一个文本表示向量矩阵和对应的分类标签,V表示文本中某个单词的词向量,l表示文本长度,d表示向量的维度;k取1-5之间的自然数;步骤2包括:2.1为每一个隐写分析任务构建各自的卷积神经网络,称为私有卷积神经网络,获取每个隐写分析任务特有的特征表示,如下:2.1.1随机抽取某一个隐写分析任务训练集中的一个文本,将此文本的词向量矩阵输入该文本所属隐写分析任务的私有卷积神经网络,使用多个不同宽度的卷积核矩阵同时提取特征信息,生成候选特征表示:ct=fcW·xt:t+h-1+b其中W为一个卷积核矩阵;h为卷积核矩阵的宽度,b为偏置项;fc为非线性激活函数;x表示所选文本的词向量矩阵;2.1.2对于不同卷积核矩阵得到的特征,进行最大化池化操作,即将每个候选特征表示取最大值,得到最大池化特征: 2.1.3将不同卷积核矩阵得到的最大池化特征连接在一起,得到该文本的私有特征表示,具体表示为: 其中m为卷积核矩阵的个数;2.2为所有任务构建同一个卷积神经网络,称为共享卷积神经网络,捕获与特定隐写分析任务关联性较低的共享特征表示,如下:2.2.1在步骤2.1.1将随机抽取文本的词向量矩阵输入所属文本所在隐写分析任务的私有卷积神经网络的同时,将该文本的词向量矩阵输入预先构建好的共享卷积神经网络,使用多个不同宽度的卷积核矩阵同时提取特征信息,生成候选特征表示:st=fsW·xt:t+h-1+b其中W为一个卷积核矩阵;h为卷积核矩阵的宽度,b为偏置项;fs为非线性激活函数;x表示所抽取文本的词向量矩阵;2.2.2对于不同卷积核矩阵得到的特征,进行最大化池化操作,即将每个候选特征表示取最大值,得到最大池化特征: 2.2.3将不同卷积核矩阵得到的最大池化特征连接在一起,得到该文本的共享特征表示,具体表示为: 其中m为卷积核矩阵的个数;2.3将文本的私有卷积神经网络输出的特征表示和共享卷积神经网络输出的特征表示拼接在一起得到文本的深度多任务隐写分析文本表示向量:H=z·o;步骤3包括:将步骤2中得到的随机抽取文本的深度多任务隐写分析文本表示向量输入文本所属任务的softmax层,其公式表示为: 利用所有隐写分析任务的训练集文本训练多任务隐写分析模型,使用反向传播更新网络参数,通过模型的迭代优化来最小化损失函数,得到最优多任务隐写分析模型;损失函数定义如下: 其中K表示隐写分析任务的数量,Nk表示第k个隐写分析任务数据集的样本数量,βk表示第k个隐写分析任务的权重,表示第k个隐写分析任务中第i个样本的真实标签,表示第k个隐写分析任务中第i个样本蕴含隐写信息的概率。
全文数据:
权利要求:
百度查询: 长沙理工大学 一种多类自然语言隐写分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。