买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东方财富信息股份有限公司
摘要:本发明的一个技术方案是一种实现资讯高质量打标打分的词群算法。本发明的另一技术方案是提供了一种上述词群算法的应用。本发明建立了一个通用的算法框架用于文章打标打分,其特点是:本发明通过文章4类标签相关性打分,解决文章打标主次不分的相关性问题。本发明通过提取文章核心句子,得到文章信息量打分,解决文章质量高低不分问题。本发明通过文章核心句子在不同层次上的分布,得到文章个性化向量,解决文章个性化推荐问题。通用性体现在:能适用于各类垂直搜索引擎,不用频繁动态修改词群算法,只需要修改依赖的知识图谱即可。相比规则引擎,词群算法可以实现资讯更高质量的打标打分,具有降本增效的作用。
主权项:1.一种实现资讯高质量打标打分的词群方法,其特征在于,所述词群方法包括以下步骤:步骤1、基于不同的公司标签、人物标签、行业标签和概念标签建立知识图谱,在知识图谱中,依据具体标签之间的关系,通过边将相应的节点连接起来,从而每个具体的公司标签、人物标签、行业标签以及概念标签分别对应一个词群;同时基于用户认知能力作为细分变量,将用户群体分为核心层、中间层和表象层,则在知识图谱中还建立对应的核心层词群、中间层词群和表象层词群;步骤2、对整篇文章进行分词处理,把字符串打散成分词序列;步骤3、获取分词序列中出现的公司标签、人物标签、行业标签、概念标签的名字分词,别名分词和或代码分词其中之一,将该分词作为标签加入到对应的{公司标签候选集}、{人物标签候选集}、{行业标签候选集}、{概念标签候选集}中;步骤4、将知识图谱中与{公司标签候选集}、{人物标签候选集}、{行业标签候选集}、{概念标签候选集}中的标签所对应的词群与步骤2获得的分词序列做交集,将交集的大小作为{公司标签候选集}、{人物标签候选集}、{行业标签候选集}、{概念标签候选集}每个标签的绝对得分;步骤5、统计{公司标签候选集}、{人物标签候选集}、{行业标签候选集}、{概念标签候选集}中绝对得分最高的公司标签、人物标签、行业标签以及概念标签,将原文中公司标签、人物标签、行业标签以及概念标签的代词用得分最高的公司标签、人物标签、行业标签以及概念标签替换后,重复步骤2至步骤4,重新计算知识图谱中的词群与分词序列的交集,得到公司标签、人物标签、行业标签以及概念标签在代词修正后的绝对得分;步骤6、挑选代词修正后的绝对得分Top1和Top2的标签作为主角和配角,则得到作为主角的公司一、作为配角的公司二、作为主角的人物一、作为配角的人物二、作为主角的行业一、作为配角的行业二、作为主角的概念一、作为配角的概念二,共8个标签;步骤7、从整篇文章挑选出主语和宾语为上述八个标签中任意一个的句子,将这些句子作为核心句子;步骤8、统计核心句子在整篇文章中的数量,将该数量作为当前文章的文章信息量;步骤9、分别统计核心句子的分词包含核心层词群、中间层词群和表象层词群的句子数量,作为核心层绝对得分、中间层绝对得分以及表象层绝对得分,得到向量:[核心层绝对得分、中间层绝对得分、表象层绝对得分]。
全文数据:
权利要求:
百度查询: 东方财富信息股份有限公司 实现资讯高质量打标打分的词群算法以及应用
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。