买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:齐鲁工业大学
摘要:本发明公开了一种基于细粒度方面特征的智能新闻推荐方法和系统,属于人工智能领域和自然语言处理领域。本发明要解决的技术问题为基于主题的新闻推荐方法无法准确识别细粒度方面Aspect‑level特征,从而导致推荐结果不准确和缺少多样性的问题,采用的技术方案为:该方法具体如下:S1、构建新闻推荐模型的训练数据集;S2:构建基于细粒度方面特征的新闻推荐模型:具体如下:S201、构建Aspect‑level新闻编码器;S202、构建Aspect‑level用户编码器;S203、构建点击率预测器;S3、训练基于细粒度方面特征的新闻推荐模型。该系统包括训练数据集生成单元、基于细粒度方面特征的新闻推荐模型构建单元和模型训练单元。
主权项:1.一种基于细粒度方面特征的智能新闻推荐方法,其特征在于,该方法通过构建并训练由Aspect-level新闻编码器、Aspect-level用户编码器、点击率预测器所构成的新闻推荐模型,将所有候选新闻依据点击率大小由高到低进行排序,将Top-K条新闻推荐给用户;具体如下:构建Aspect-level新闻编码器,以新闻的标题、摘要、主类别和子类别信息作为输入,使用卷积神经网络、注意力机制和K-means聚类算法分别从上述四类信息中学习基于细粒度方面特征的新闻向量;构建Aspect-level用户编码器,以用户浏览记录为输入,使用Aspect-level新闻编码器和注意力机制得到基于细粒度方面特征的用户向量;构建点击率预测器,根据候选新闻向量和基于细粒度方面特征的用户向量,计算用户对每一条候选新闻的点击率;将所有候选新闻依据点击率大小由高到低进行排序,将Top-K条新闻推荐给用户;其中,所述Aspect-level新闻编码器由新闻特征提取器、Aspect-level特征提取器共同组成;通过联接新闻特征提取器所输出的新闻特征向量r和Aspect-level特征提取器所输出的基于细粒度方面特征的新闻向量rd得到Aspect-level新闻向量表示n,公式如下:n=[r;rd];其中,所述新闻特征提取器,包括四个模块:标题学习模块、摘要学习模块、分类学习模块和注意力模块,具体如下:构建标题学习模块,针对数据集中每一个单词构建单词映射表,并将表中每一个单词映射成唯一的数字标识,映射规则为:以数字1为起始,随后按照每个单词被录入单词映射表的顺序依次递增排序,从而形成单词映射转换表;使用Glove预训练语言模型,得到每个单词的词向量表示;在嵌入层将每一个新闻标题T=[w1,w2,...,wN]转换成向量表示,记为E=[e1,e2,...,eN],其中,N表示一个新闻标题的长度,eN表示第N个单词wN的向量表示;针对E=[e1,e2,...,eN]使用卷积神经网络CNN进行特征提取,得到上下文特征向量[c1,c2,…,cN],公式如下:ci=ReLUQw×ei-k:i+k+bw;其中,i表示相应词向量在新闻标题中的相对位置,k表示距离i相对位置的差值,ei-k:i+k表示聚合了i-k到i+k位置的词向量,Qw表示CNN过滤器的卷积核,bw表示偏置,ReLU为一种激活函数,运算符×为矩阵乘法;对上下文特征向量[c1,c2,...,cN],使用注意力机制进一步提取关键特征,得到最终的新闻标题向量rt,公式如下: 其中,q是由上下文特征向量得到的注意力查询向量,V和v是从训练过程中学到的参数,tanh为一种激活函数,运算符×为矩阵乘法,exp为对数函数运算,ai是第i个单词的注意力分值,αi是第i个单词的注意力权重,N是上下文特征向量[c1,c2,...,cN]的长度;构建摘要学习模块,具体步骤同构建标题学习模块,得到摘要向量ra;构建分类学习模块,在嵌入层通过词向量方法将主类别标签和子类别标签分别映射到低维空间向量得到每个类别标签的词向量表示ec和esc,然后使用激活函数ReLU生成类别标签的最终向量rc和rsc,公式如下:rc=ReLUVc×ec+vc;rsc=ReLUVsc×esc+vsc;其中,ReLU是一种激活函数,Vc,Vsc,vsc和vc是从训练过程中学到的参数,运算符×为矩阵乘法;构建注意力模块:针对标题、摘要、主类别标签和子类别标签的向量rt、ra、rc和rsc,使用激活函数tanh分别计算各自的注意力分数,即at、aa、ac、asc,然后进一步通过注意力机制分别得到各自的注意力权重,公式如下: 其中,Vt、Va、Vc、Vsc、vt、va、vc、vsc为计算标题注意力分数at、摘要注意力分数aa、主类别标签注意力分数ac和子类别标签注意力分数asc的参数,是由标题向量rt生成的注意力查询向量,是由摘要向量ra生成的注意力查询向量,是由主类别标签向量rc生成的注意力查询向量,是由子类别标签向量rsc生成的注意力查询向量,tanh为一种激活函数,运算符×为矩阵乘法,exp为对数函数运算,αt是标题的注意力权重,αa是摘要的注意力权重,αc是主类别标签的注意力权重,αsc是子类别标签的注意力权重;最终的新闻特征向量r由标题向量rt、摘要向量ra、主类别标签向量rc和子类别标签向量rsc以及各自的注意力权重决定,公式如下:r=[αtrt;αara;αcrc;αscrsc];其中,符号;表示联接操作。
全文数据:
权利要求:
百度查询: 齐鲁工业大学 基于细粒度方面特征的智能新闻推荐方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。