买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海助通信息科技有限公司
摘要:本发明涉及文本特征提取技术领域,且公开了一种基于关键词频率的文本特征提取方法,包括以下步骤:SP01:构建包含多个类别关键词训练集合,生成集合中的各个特征,获取特征之间相似度;SP02:对于集合中的各个特征,计算其在整个关键词的集合中出现的次数,相似度高的特征关键词频率汇总得到实际关键词频率,相似度低的特征关键词频率无需汇总得到实际关键词频率;SP03:根据实际关键词频率由高至低排序,分选出关键词频率高的特征组成新的特征集合;SP04:分选出关键词频率低的特征作为稀有词条特征,本发明使得稀有词条的剔除过程得到优化,能够防止稀有词条因低于某个设定的阈值直接滤除掉,有利于改善文本特征提取精度。
主权项:1.一种基于关键词频率的文本特征提取方法,其特征在于,包括以下步骤:SP01:构建包含多个类别关键词训练集合,生成集合中的各个特征,获取特征之间相似度;SP02:对于集合中的各个特征,计算其在整个关键词的集合中出现的次数,相似度高的特征关键词频率汇总得到实际关键词频率,相似度低的特征关键词频率无需汇总得到实际关键词频率;SP03:根据实际关键词频率由高至低排序,分选出关键词频率高的特征组成新的特征集合;SP04:分选出关键词频率低的特征作为稀有词条特征,将稀有词条特征与所在类别训练集合特征进行匹配分析;SP05:根据匹配分析结果判断是否将稀有词条特征进行剔除;SP06:依据稀有词条判断结果生成最终有效内容,并将最终有效内容向用户进行推荐。
全文数据:
权利要求:
百度查询: 上海助通信息科技有限公司 一种基于关键词频率的文本特征提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。