买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广东省华南技术转移中心有限公司
摘要:本发明公开了一种基于网络爬虫的科技政策信息自动抽取与推荐方法及系统,包括,利用网络爬虫方法获取与科技有关的政策资讯网页数据,协同云平台将预处理后政策资讯网页数据进行科技政策信息的抽取及存储;确定用户的目标科技政策关键词,在云平台汇聚的科技政策信息中进行数据抓取,生成科技政策信息的初始推送数据集;利用用户浏览记录构建协同知识图谱表征用户的潜在偏好信息;构建科技政策推荐模型输出用户对科技政策信息的预测概率,进行科技政策信息的后续推送。本发明融合科技政策信息,解决了因科技政策分散及文本结构与语义复杂为政策推荐所带来的问题,提高科技政策检索的效率,实现科技政策信息的个性化推送。
主权项:1.一种基于网络爬虫的科技政策信息自动抽取与推荐方法,其特征在于,包括以下步骤:利用网络爬虫方法获取与科技有关的政策资讯网页数据,将所述政策资讯网页数据进行预过滤,协同云平台将预处理后政策资讯网页数据进行科技政策信息的抽取及存储,实现科技政策的准实时聚集;构建科技政策关键词库,确定用户的目标科技政策关键词,利用所述目标科技政策关键词在云平台汇聚的科技政策信息中进行数据抓取,生成科技政策信息的初始推送数据集;获取用户对所述初始推送数据集的浏览交互,利用用户浏览记录构建协同知识图谱表征用户的潜在偏好信息;基于图卷积网络构建科技政策推荐模型,根据所述潜在偏好信息实现用户与科技政策的表示学习,输出用户对科技政策信息的预测概率,根据所述预测概率进行科技政策信息的后续推送;利用用户浏览记录构建协同知识图谱表征用户的潜在偏好信息,具体为:在科技政策关键词库中确定不同类别科技政策对应实体和实体之间的关系,通过实体及关系构建三元组生成科技政策关键词对应的知识图谱;根据获取用户在预设时间内与初始推送数据集的浏览交互数据,利用用户浏览记录确定用户对初始推送数据集中的科技政策信息是否有交互记录,构建短期交互矩阵,通过所述知识图谱及短期交互矩阵构建短期协同知识图谱;根据用户的身份信息、终端的地址信息、IP地址及物理地址筛选用户的历史交互数据,根据所述历史交互数据构建长期交互矩阵,通过所述长期交互矩阵及知识图谱构建长期协同知识图谱;在所述短期协同知识图谱及长期协同知识图谱中,利用TransR方法将三元组中的实体进行关系空间的特征映射,在关系空间中引入关系注意力机制,将实体及邻居实体聚合为新的实体表示;通过多层传播得到科技政策实体的嵌入表示,生成短期科技政策嵌入序列及长期科技政策嵌入序列,利用GUR单元对短期科技政策嵌入序列及长期科技政策嵌入序列进行学习;通过GUR单元输出的隐层状态表示用户的短期偏好及长期偏好,结合权重信息获取用户的潜在偏好信息;在所述短期科技政策嵌入序列及长期科技政策嵌入序列计算相邻两个科技政策交互项目的时间间隔;将所述时间间隔进行编码获取每对科技政策项目之间的时间相关性,利用编码后的时间间隔结合自注意力机制获取短期科技政策嵌入序列及长期科技政策嵌入序列的权重信息,编码后的时间间隔表示为:,为激活函数,为第i个及第i-1个科技政策交互项目的时间戳,为变换矩阵,为偏置;利用自注意力机制计算长期偏好和短期偏好的不同权重完成对长短期偏好的融合,自注意力机制输出权重信息为:,为第i个及第i-1个科技政策交互项目,为矩阵转置。
全文数据:
权利要求:
百度查询: 广东省华南技术转移中心有限公司 基于网络爬虫的科技政策信息自动抽取与推荐方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。