基于条件熵下随机游走的FW-LDA主题识别方法

导航：龙图腾网> 最新专利技术> 基于条件熵下随机游走的FW-LDA主题识别方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：安徽理工大学

摘要：本发明公开了一种基于条件熵下随机游走的FW‑LDA主题识别方法，该方法首先采用条件熵计算所有资源中任意两个资源之间的关联关系，并生成资源关系图；根据资源关系图使用随机游走方法获取每个资源的权重值；将每个资源的权重值作用于每个资源的特征词上并进行特征词加权方法计算；根据每个特征词的对应的权值形成一组加权向量并作用于FW‑LDA中，以及将文档输入FW‑LDA中用于获取文档资源的潜在主题。本发明充分考虑的不同资源的之间的潜在关联关系，有效提升模型对潜在主题的挖掘和语义理解性上的提高。

主权项：1.一种基于条件熵下随机游走的FW-LDA主题识别方法，其特征在于该方法包括以下步骤：步骤1、基于原始互联网文本资源，包括社会化标签和评论，构建语料库；对语料库进行停止词预处理，得到预处理后的语料库，其中以文档集合的形式表示，假设有M个资源，记为R＝{r1,r2,…,ri,…,rM}，并构建所有资源的资源分布图re_G＝R；步骤2、计算所有预处理后的语料库中的任意两个文本之间的条件熵记为hri|rj，且当i＝j时，hri|rj＝0；根据所有资源中任意两个文本之间的条件熵hri|rj建立资源之间条件熵矩阵，由资源之间条件熵矩阵获取二者中的最大值maxhri|rj,hrj|ri，假设maxhri|rj,hrj|ri为hri|rj，则在图re_G中为资源ri和rj之间添加一条由ri指向rj的有向边，并形成资源关联关系有向图G＝R,E,W；步骤3、使用随机游走方法计算各个资源的权值，将各个资源权值作用到每个特征词上，通过特征词加权方法形成特征词加权向量：步骤3.1、使用随机游走方法计算资源关联关系有向图G中各个资源的权值μm，m∈{1,…,M}；假设M个资源包含了V个特征词，其频次向量为FVm＝[v1,fv1,m；v2,fv2,m；…；vi,fvi,m；…；vV,fvV,m]，其中fvi,m表示资源m中特征词vi出现的频次；步骤3.2、资源m的权威度分数为μ，资源及其特征词的加权表示形式为g_FVm＝[v1,gfv1,m；v2,gfv2,m；…；vi,gfvi,m；…；vV,gfvV,m]，其中表示资源m中特征词vi的加权出现的频次；步骤3.3、M个资源中V个特征词的赋权向量为γv＝[v1,γgfv1；v2,γgfv2；…；vi,γgfvi；…；vV,γgfvV]，其中表示将所有资源中的特征词vi加权后出现的频次进行累加，即M个资源中对于特征词vi加权后出现的频次进行累加，即每一个特征词vi拥有对应的权重值形成γ向量；步骤4、采用吉布斯采样方法训练FW-LDA模型，并进行主题识别：步骤4.1、设定模型的主题个数为K和超参数α，β，将预处理后的语料库和超参数γ输入，其中γ的取值来自于步骤3的γ特征词加权向量值；步骤4.2、根据公式1进行采样并进行更新；其中zi表示第i个词所属主题，k表示主题编号；表示去除掉第i个词的主题向量，表示为词向量；表示第t个词属于第k号主题且不包含第i号词的个数，αk表示第k个主题的狄利克雷先验分布，βt表示词t的狄利克雷先验分布，γt表示词t的狄利克雷先验分布，表示非i；步骤4.3、重复以上语料库的吉布斯采样直至吉布斯采样收敛；步骤4.4、统计各个文本各个特征词的主题，得到主题分布θm,k和词分布ωk,t；步骤4.5、输出模型结果，统计各个文档的高频主题，获取最大概率分布的潜在主题。

全文数据：

权利要求：

百度查询：安徽理工大学基于条件熵下随机游走的FW-LDA主题识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：云计算架构多租户任务资源分配调度方法及装置

下一篇：基于高强柔性索环连接的混凝土圆形筒状结构与预制筒片

相关技术

云计算架构多租户任务资源分配调度方法及装置

基于高强柔性索环连接的混凝土圆形筒状结构与预制筒片

热回收系统的控制方法、控制装置及计算机可读存储介质

基于比例时滞惯性模糊CG神经网络的保密通信方法

一种音频信号的处理方法、装置、系统和智能音箱设备

公路软土路基超载预压时超载比的确定方法、装置及介质

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

一种AGV随行系统、方法、装置、设备及存储介质

一种无施工平台的远岸成品钢管桩的测量方法

一种平开窗

设备健康预测方法和计算机可读存储介质

一种风电场景下超大二维码定位识别系统及方法

游走相关技术

量子游走和量子热力学的电网动态知识图谱链接预测方法_国网山西省电力公司电力科学研究院_202411132667.7

TNSA机制下基于随机游走的高产额离子束靶设计方法_中国人民解放军国防科技大学_202411373937.3

一种基于时间游走与结构感知动态图的商品推荐方法_山东科技大学_202410888722.9

基于异构图注意力网络和随机游走的恶意加密流量检测方法_山东省计算中心(国家超级计算济南中心)_202411336317.2

基于超图重启双随机游走的在线医生推荐方法及系统_中国人民解放军联勤保障部队第九八九医院_202411365530.6

基于深度图游走的工具推荐方法及系统_中国移动通信集团浙江有限公司_202311575832.1

游走式按摩器_佛山市小熊健康电器有限公司_202411067258.3

基于社区感知和自适应随机游走的景点推荐方法及系统_福州大学_202210352673.8

基于条件熵下随机游走的FW-LDA主题识别方法_安徽理工大学_202110197982.8

基于深度游走词向量图嵌入技术的预测方法_上海数鸣人工智能科技有限公司_202111597115.X

FW-LDA相关技术

基于RTT-LDA的水声传感器网络传输层拥塞控制方法_天津大学_202410993610.X

基于条件熵下随机游走的FW-LDA主题识别方法_安徽理工大学_202110197982.8

一种基于高维映射与LDA降维的目标物识别方法_重庆大学_202410757835.5

基于LDA主题模型的数据挖掘方法、装置、设备及介质_同方知网数字出版技术股份有限公司_202410490889.X

一种基于改进型LDA的化工生产流程中的故障检测方法_南通理工学院_202410623185.5

基于LDA的高级持续性威胁组织判别方法_上海交通大学_202310054321.9

一种基于LDA-KMEDOIDS的改进KNN故障分类方法_湖州师范学院_202010324991.4

一种使用LDA的文本分类筛选方法_上海金桥信息股份有限公司_202011123125.5

一种基于LDA模型分析风电技术专利的系统_上海应用技术大学_202410596494.8

一种大环内酰胺化合物FW05328-d及其高效发酵方法_福建省微生物研究所_202011548542.4

随机相关技术

用于随机接入过程的重复指示_高通股份有限公司_202180032310.X

随机接入的方法和通信装置_华为技术有限公司_202310541289.7

量子随机数生成装置_三菱电机株式会社_202280094015.1

用于物理随机接入信道掩码和随机接入响应窗口的增强配置的方法和装置_高通股份有限公司_201980101958.0

一种量子随机数发生器及量子随机数生成方法_清华大学_201810299104.5

一种随机接入方法及相关设备_荣耀终端有限公司_202310538524.5

迭代法引导滤波压制随机噪音方法_中国石油化工股份有限公司_202310543915.6

掘锚机随机电缆吊挂装置及系统_内蒙古蒙泰不连沟煤业有限责任公司_202420576535.2

磁阻随机存储器及其制备方法_青岛海存微电子有限公司_202411441862.8

随机接入过程中的波束关联_高通股份有限公司_202080037657.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于条件熵下随机游走的FW-LDA主题识别方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务