首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于主题语义信息的关键词向量化方法及其应用 

申请/专利权人:南京邮电大学

申请日:2021-12-30

公开(公告)日:2024-07-02

公开(公告)号:CN114298020B

主分类号:G06F40/279

分类号:G06F40/279;G06F40/216;G06F40/30;G06F18/2321

优先权:

专利状态码:有效-授权

法律状态:2024.07.02#授权;2022.04.26#实质审查的生效;2022.04.08#公开

摘要:本发明公开一种基于主题语义信息的关键词向量化方法及其应用,具体包括:首先利用Sentence‑BERT模型为每个文档生成具有文档语义信息的向量;再通过UMAP降维算法对生成的文档向量进行降维并突显局部语义特征;然后,在降维后的文档向量上进行HDBSCAN主题聚类,并将每个文档归类到一个或多个主题中;最后,利用文档和主题之间的关系,计算主题中每一个关键词的主题词频率‑逆主题频率TTF‑ITF得分,对该关键词与每个主题的主题词频率‑逆主题频率TTF‑ITF得分进行合并,生成最终的关键词向量。本发明实现高精度表征主题语义信息的关键词向量化,可应用于主题词提取、文本分类和文档检索。

主权项:1.一种基于主题语义信息的关键词向量化方法,其特征在于,所述方法包括以下实现步骤:步骤S1,使用Sentence-BERT模型输入文档集D进行训练,提取文档中蕴含的语义信息,生成文档向量矩阵行向量是文档di的文档向量;步骤S2,使用UMAP降维算法将文档向量矩阵降维后形成文档向量矩阵为行向量是文档di降维后的文档向量;步骤S3,采用HDBSCAN聚类算法将降维后的文档向量进行聚类,形成m个聚类聚类主题T={t1,t2,…,tm},然后将各文档根据其主题信息,归类到对应的主题中;根据应用场景的不同,对HDBSCAN聚类算法进行选择,若应用于文档分类中主题词的提取,采用HDBSCAN常规聚类方式;若在信息检索领域中,需要获得文档的主题向量表示,采用HDBSCAN软聚类方式;所述HDBSCAN常规聚类方式,具体为将D中每个文档di归类到某个主题tj中,记为di→tj,表示文档di被归类到主题tj中;所述HDBSCAN软聚类方式,具体为将D中每个文档di生成一个软集群成员向量Φ[i],Φ[i]向量也是di的文档主题向量;所有文档的文档主题向量构成文档-主题矩阵Φ,Φ[i][j]表示文档di属于主题tj的概率;对于D中的每个文档di,计算与di最相关的前k个主题,记为k-Topicdi,计算方法如下:k-Topicdi={tj|Φ[i][j]∈topk{Φ[i][k]|tk∈T}}其中topk{}表示获取集合中最大的k个元素,对于任一主题ti,计算ti关联的文档集合,记为Docsti,计算方法如下:Docsti={dj|dj∈D∧ti∈k-Topicdj}其中,k-Topicdj是与文档di最相关的前k个主题;步骤S4,利用主题词频率-逆主题频率的计算方式,计算关键词集合W中每一个关键词wi与主题T中每个主题的主题词频率-逆主题频率得分,将该得分合并得到关键词主题向量θi。

全文数据:

权利要求:

百度查询: 南京邮电大学 一种基于主题语义信息的关键词向量化方法及其应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。