首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于NLP的公文数据采集分析方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江度衍信息技术有限公司

摘要:本发明涉及电子数字数据处理技术领域,具体涉及基于NLP的公文数据采集分析方法及系统,包括:收集公文数据,获取标题词集合,根据预设参考时间段内公文标题词的数量特征和在公文中的位置,确定标题词的第一关键性和第二关键性,根据参考时间段内公文标题的数量和标题字数,确定公文标题词的最终关键性,进一步获取所有公文的标题关键词,获取每篇公文标题关键词的相关词,确定相关词之间的相似性,根据相关词之间的相似性和相关词的数量特征,确定公文之间的相似性,根据公文之间的相似性对公文数据进行分类。本发明对公文标题的关键词进行准确提取,提高了公文之间相似性计算的准确性,提高了公文数据分类的准确率。

主权项:1.基于NLP的公文数据采集分析方法,其特征在于,该方法包括以下步骤:获取公文数据,所述公文数据包含公文标题词和正文词,获取由公文标题词组成的标题词集合;预设参考时间段,根据在参考时间段内公文标题词的数量特征,确定标题词的第一关键性,根据公文的标题词在公文中的位置和数量特征,确定标题词的第二关键性;根据参考时间段内公文标题的数量和标题字数,确定公文标题和参考时间段内其他公文标题之间的重复度,根据公文标题词的关键性特征和公文标题之间的重复度,确定公文标题词的最终关键性,获取所有公文的标题关键词;获取每篇公文标题关键词的相关词,根据相关词的数量特征,确定相关词之间的相似性,根据相关词之间的相似性和相关词的数量特征,确定公文之间的相似性,根据公文之间的相似性对公文数据进行分类;所述确定公文标题和参考时间段内其他公文标题之间的重复度,包括的具体方法为: 式中,αw表示第w篇公文的标题与参考时间段内其他公文标题之间的重复度;K表示参考时间段内的标题数量;nw表示第w篇公文的标题字数;nk表示参考时间段内第k篇公文的标题字数;ew,k表示第w篇公文和参考时间段内第k篇公文的标题相同的字数;norm表示归一化函数;所述获取所有公文的标题关键词,包括的具体方法为:将公文标题词的第一关键性、第二关键性、公文标题和参考时间段内其他公文标题之间的重复度结合,进一步确定公文标题词的最终关键性;将最终关键性大于预设第一阈值的标题词作为标题关键词,得到所有公文数据的标题关键词;所述确定公文标题词的最终关键性的具体计算方法为:根据第w篇公文的标题与参考时间段内其他公文标题之间的重复度、第w篇公文的标题词i的第一关键性和第二关键性,确定第w篇公文的标题词i的最终关键性,所述第w篇公文的标题与参考时间段内其他公文标题之间的重复度和第w篇公文的标题词i的第一关键性呈正比例关系。

全文数据:

权利要求:

百度查询: 浙江度衍信息技术有限公司 基于NLP的公文数据采集分析方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。