买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国铁道科学研究院集团有限公司科学技术信息研究所;中国铁道科学研究院集团有限公司
摘要:本申请提供一种铁路科技文献的批量分类方法及装置,涉及铁路科技文献分类技术领域。该方法包括:基于所述融合域外评分确定待分类的当前批次的所述初始文献中属于域内文献的铁路科技文献;针对每个所述铁路科技文献对历史批次的所述第一铁路科技文献特征提取模块中的参数进行优化,基于所述第一铁路科技文献特征提取模块的历史参数对历史批次的所述第二铁路科技文献特征提取模块的参数优化;基于当前批次的所述第一铁路科技文献特征提取模块和分类器,对当前批次的铁路科技文献进行分类。与传统的科技文献分类系统相比,将能够更加准确地得到更加完备的分类信息,提高铁路科技文献分类的效果以及用户体验。
主权项:1.一种铁路科技文献的批量分类方法,其特征在于,包括:确定历史批次的第一铁路科技文献特征提取模块和历史批次的第二铁路科技文献特征提取模块,所述第一铁路科技文献特征提取模块和所述第二铁路科技文献特征提取模块的结构相同、参数不同,所述历史批次的第一铁路科技文献特征提取模块和所述历史批次的第二铁路科技文献特征提取模块基于历史批次的文献训练得到;将当前批次的初始文献输入到历史批次的所述第一铁路科技文献特征提取模块中得到每个所述初始文献的第一密集特征向量集合,并将所述第一密集特征向量集合输入预先确定的域外评分模块得到第一域外评分;将当前批次的所述初始文献输入到历史批次的所述第二铁路科技文献特征提取模块中得到每个所述初始文献的第二密集特征向量集合,并将所述第二密集特征向量集合输入预先确定的域外评分模块得到第二域外评分;将每个所述初始文献的所述第一域外评分和所述第二域外评分进行融合,得到每个所述初始文献的融合域外评分;基于所述融合域外评分确定待分类的当前批次的所述初始文献中属于域内文献的铁路科技文献;针对每个所述铁路科技文献生成第一样本,并利用图编码器为每个所述铁路科技文献生成对应的第二样本,所述第二样本为与其属于同一所述铁路科技文献对应的所述第一样本的正样本,所述第二样本为与其属于不同所述铁路科技文献对应的所述第一样本的负样本;将所述第一样本输入历史批次的所述第一铁路科技文献特征提取模块中得到第三密集特征向量集合,将所述第一样本的正样本和负样本输入历史批次的所述第二铁路科技文献特征提取模块中分别得到第四密集特征向量集合;基于所述第三密集特征向量集合与所述第四密集特征向量集合的差别,确定所述第一样本与正样本的差别,以及所述第一样本与负样本的差别;通过拉近所述第一样本与正样本的差别,以及拉远所述第一样本与负样本的差别,对历史批次的所述第一铁路科技文献特征提取模块中的参数进行优化,基于所述第一铁路科技文献特征提取模块的历史参数对历史批次的所述第二铁路科技文献特征提取模块的参数优化,得到当前批次的所述第一铁路科技文献特征提取模块和当前批次的所述第二铁路科技文献特征提取模块;基于当前批次的所述第一铁路科技文献特征提取模块和分类器,对当前批次的铁路科技文献进行分类;基于如下公式确定所述第一域外评分和所述第二域外评分: ; 其中,第一密集特征向量集合为,第二密集特征向量集合为,n为当前批次的初始文献的数量,为每个类的平均向量,其中,C是类的数量,为所有类的共享协方差矩阵,为的伪逆矩阵;基于如下公式确定融合域外评分: ;其中,为权重系数。
全文数据:
权利要求:
百度查询: 中国铁道科学研究院集团有限公司科学技术信息研究所 中国铁道科学研究院集团有限公司 铁路科技文献的批量分类方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。