一种基于主题关联度与关键词联想的短文本特征扩展方法

导航：龙图腾网> 最新专利技术> 一种基于主题关联度与关键词联想的短文本特征扩展方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京邮电大学

摘要：本发明提供一种基于主题关联度与关键词联想的短文本特征扩展方法，该方法首先对原始文本数据进行预处理，进行分词、去除噪声等操作并进行词的向量化；然后利用TF‑IDF结合信息增益对词进行重要性量化计算，在此基础之上再通过信息增益构建决策树，利用决策树的分类效果进行主题关联度的量化计算；然后根据关联度对词向量降序排序，筛选TopK的词向量组成关键词集合；再结合外部语料库对关键词集合进行近义词扩展，然后根据关键词集合进行联想扩展，分为自关联联想扩展和外部库联想扩展两种方式；最后将扩展后的候选关联词集合再次进行主题关联度的计算，筛选TopK的词向量组成最终的关联词集合，加入到原始文本数据集，完成短文本的特征扩展。

主权项：1.一种基于主题关联度与关键词联想的短文本特征扩展方法，其特征在于，包括以下步骤：步骤1、对原始文本数据集进行预处理工作，包括分词、去躁、向量化；步骤2、利用词频-逆向文件频率和信息增益对词与主题的关联程度进行权重量化计算；词向量的主题关联度权重计算如下：步骤2.1、在预处理结束后的文本数据集上，文本中词向量与主题是否相关的概率分布为PX＝xi＝pi,i＝1,2，其中xi表示与主题是否相关，有x1、x2两种取值，分别表示与主题相关和与主题不相关，pi即表示对应的概率；根据信息熵的定义，文本集合X的熵为：文本中的特征Y和文本集合X的联合分布为：PX＝xi,Y＝yi＝pij,i＝1,2；j＝1,2,...,m式中，m表示特征数，xi表示与主题是否相关，有x1、x2两种取值，分别表示与主题相关和与主题不相关，yi表示第j个特征，pij即表示对应概率；每个特征的条件熵为：HX表示文本集合的熵，即对文本X分类的不确定性，HY|X则表示在文本集合X中，特征Y对分类的不准确性；信息增益IGX,Y为：IGX,Y＝HX-HX,Y；步骤2.2、首先计算词频TF：式中，ni,d表示特征fi在文档d中出现的次数，∑knk,d表示文档d中所有特征出现的次数；再计算逆文档频率：式中，N表示文档总数，ni表示出现特征fi的文档数；那么TF-IDF的值即为词频与逆文档频率的乘积：TF-IDF＝TFfi×IDFfi对词频进行归一化操作，然后在TF-IDF基础上引入信息增益得最后的词重要性量化公式：式中，IG表示信息增益；步骤2.3、对原始数据集进行k次简单随机抽样，构造k个数据集，数据集分别记为D1,D2,D3,....,Dk；对k个数据集构造决策树，将会产生k个决策树；之后通过给特征添加噪声对比对分类结果的影响，对于i个数据集Di，第j个特征的主题关联度量为Iij＝|Mij-Nij|，其中Mij表示在第i个数据集中对第j个特征添加噪声前的分类正样本的个数，Nij表示在第i个数据集中对第j个特征添加噪声后的分类正确的个数；对于每棵树都可以得到某个特征的主题关联度量，因此对其取平均值得最后的主题关联度量为其中Iji表示第i个特征在第j个树上的主题关联度；步骤2.4、将步骤2.2所得TF-IDF-IG值与步骤2.3所得I进行乘运算，得最后的主题关联度，计算公式如下：步骤3、根据权重对词进行降序排序，选取排序中TopK的词作为与主题关联程度高的关键词，并构建关键词集合；步骤4、将步骤3构建的关键词集合结合外部语料库进行近义词扩展；步骤5、根据关键词集合进行联想扩展，分为自关联联想扩展和外部库联想扩展两种方式，并生成候选关联词集合；然后对候选关联词集合重新进行词频-逆向文件频率与信息增益的权重计算，筛选TopK的词向量组成最终的关联词集合；将关联词集合加入到原始文本数据集中，完成短文本的特征扩展。

全文数据：

权利要求：

百度查询：南京邮电大学一种基于主题关联度与关键词联想的短文本特征扩展方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种冷却塔外壳拼装结构

下一篇：一种白蚁引诱灭杀一体化饵料棒

相关技术

一种冷却塔外壳拼装结构

一种白蚁引诱灭杀一体化饵料棒

一种热解气化焚烧炉

一种具有随温度而自适应速度变化的闭门器

一种折叠式无线充支架的走线结构

一种沼气发电用沼气预处理装置

一种组合式口腔护理吸痰管

吸管杯及其杯盖

电缆耐压测试机构

一种垃圾炉烟尘废气排放检测装置

一种基于PWM的智慧路灯控制装置及系统

一种新型空气压缩机推力调整块

短相关技术

重型短轴吊装翻身工装_中船动力镇江有限公司_202420393544.8

玻璃短切原丝毡的卷绕体的形成方法以及玻璃短切原丝毡的卷绕体_日本电气硝子株式会社_202380017823.2

基于短或长联络线的列车转线作业实现方法、设备及介质_卡斯柯信号有限公司_202410644282.2

一种聚四氟乙烯波纹短管切割设备_江阴市江南氟塑有限公司_202323265865.4

用于模拟短壁连采连充物料流动规律的实验装置及方法_山东科技大学_202310052548.X

一种座椅上短行程位移电动调节机构_重庆宏汇汽车部件有限公司_202420861241.4

基于北斗三号短报文通信的风电机组监测系统_国能联合动力智慧能源(张家口)有限公司_202323565468.9

基于北斗定位及短报文系统的数据连接分配方法及装置_深圳市智寻信息技术有限公司_202410845501.3

一种多波束北斗短报文发射机_中国电子科技集团公司第五十四研究所_202410746064.X

一种Cu-Ti合金的非真空短流程制备加工方法_北京科技大学_202210590881.1

文本相关技术

短文本智能分析与分类优化方法_国家计算机网络与信息安全管理中心_202410750428.1

训练文本获取方法、装置、设备和存储介质_科大讯飞(北京)有限公司_202410656447.8

文本纠错方法、控制装置、存储介质及设备_北京国双科技有限公司_202310198735.9

文本处理方法、对话处理方法_浙江阿里巴巴机器人有限公司_202410046485.1

一种情感文本数据标注方法、装置、系统及电子设备_联通沃悦读科技文化有限公司_202111382797.2

一种记录手机通话语音内容为文本内容的方法_北京基软科技有限公司_202410632504.9

一种文本处理方法、装置、电子设备和存储介质_奇点智保(北京)科技有限公司_202410686082.3

基于知识库和大模型的文本处理系统及方法_武汉TCL集团工业研究院有限公司_202410704574.0

基于句法图构建的文本到语音生成方法、装置及电子设备_南京硅基智能科技有限公司_202411059713.5

基于结构模式与文本模式融合引导的方法名称推荐方法_重庆大学_202410727292.2

联想相关技术

一种联想预取方法、装置和用于联想预取的装置_北京搜狗科技发展有限公司_202011219447.X

一种语音联想识别纠错方法及其系统_润芯微科技(江苏)有限公司_202410433041.3

联想词确定方法、装置、存储介质和电子设备_珠海格力电器股份有限公司_202010854522.3

搜索联想模型生成方法、搜索联想方法、装置及设备_广州视源电子科技股份有限公司_202310117166.0

基于语义的跨模态知识联想方法、装置、设备及存储介质_季华实验室_202410580190.2

一种基于深度学习的生物元件联想研发应用方法_智菲科技集团有限公司_202410904179.7

一种基于主题关联度与关键词联想的短文本特征扩展方法_南京邮电大学_202210132473.1

模拟人类记忆功能的联想性长期记忆方法_于翔宇_202410548411.8

在搜索界面提供联想词的方法及相关设备_北京字节跳动网络技术有限公司_202210138416.4

一种理化表单自动联想录入功能的实现方法及系统_青岛诺亚信息技术有限公司_202410294760.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于主题关联度与关键词联想的短文本特征扩展方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务