首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于条件熵下随机游走的FW-LDA主题识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:安徽理工大学

摘要:本发明公开了一种基于条件熵下随机游走的FW‑LDA主题识别方法,该方法首先采用条件熵计算所有资源中任意两个资源之间的关联关系,并生成资源关系图;根据资源关系图使用随机游走方法获取每个资源的权重值;将每个资源的权重值作用于每个资源的特征词上并进行特征词加权方法计算;根据每个特征词的对应的权值形成一组加权向量并作用于FW‑LDA中,以及将文档输入FW‑LDA中用于获取文档资源的潜在主题。本发明充分考虑的不同资源的之间的潜在关联关系,有效提升模型对潜在主题的挖掘和语义理解性上的提高。

主权项:1.一种基于条件熵下随机游走的FW-LDA主题识别方法,其特征在于该方法包括以下步骤:步骤1、基于原始互联网文本资源,包括社会化标签和评论,构建语料库;对语料库进行停止词预处理,得到预处理后的语料库,其中以文档集合的形式表示,假设有M个资源,记为R={r1,r2,…,ri,…,rM},并构建所有资源的资源分布图re_G=R;步骤2、计算所有预处理后的语料库中的任意两个文本之间的条件熵记为hri|rj,且当i=j时,hri|rj=0;根据所有资源中任意两个文本之间的条件熵hri|rj建立资源之间条件熵矩阵,由资源之间条件熵矩阵获取二者中的最大值maxhri|rj,hrj|ri,假设maxhri|rj,hrj|ri为hri|rj,则在图re_G中为资源ri和rj之间添加一条由ri指向rj的有向边,并形成资源关联关系有向图G=R,E,W;步骤3、使用随机游走方法计算各个资源的权值,将各个资源权值作用到每个特征词上,通过特征词加权方法形成特征词加权向量:步骤3.1、使用随机游走方法计算资源关联关系有向图G中各个资源的权值μm,m∈{1,…,M};假设M个资源包含了V个特征词,其频次向量为FVm=[v1,fv1,m;v2,fv2,m;…;vi,fvi,m;…;vV,fvV,m],其中fvi,m表示资源m中特征词vi出现的频次;步骤3.2、资源m的权威度分数为μ,资源及其特征词的加权表示形式为g_FVm=[v1,gfv1,m;v2,gfv2,m;…;vi,gfvi,m;…;vV,gfvV,m],其中表示资源m中特征词vi的加权出现的频次;步骤3.3、M个资源中V个特征词的赋权向量为γv=[v1,γgfv1;v2,γgfv2;…;vi,γgfvi;…;vV,γgfvV],其中表示将所有资源中的特征词vi加权后出现的频次进行累加,即M个资源中对于特征词vi加权后出现的频次进行累加,即每一个特征词vi拥有对应的权重值形成γ向量;步骤4、采用吉布斯采样方法训练FW-LDA模型,并进行主题识别:步骤4.1、设定模型的主题个数为K和超参数α,β,将预处理后的语料库和超参数γ输入,其中γ的取值来自于步骤3的γ特征词加权向量值;步骤4.2、根据公式1进行采样并进行更新; 其中zi表示第i个词所属主题,k表示主题编号;表示去除掉第i个词的主题向量,表示为词向量;表示第t个词属于第k号主题且不包含第i号词的个数,αk表示第k个主题的狄利克雷先验分布,βt表示词t的狄利克雷先验分布,γt表示词t的狄利克雷先验分布,表示非i;步骤4.3、重复以上语料库的吉布斯采样直至吉布斯采样收敛;步骤4.4、统计各个文本各个特征词的主题,得到主题分布θm,k和词分布ωk,t;步骤4.5、输出模型结果,统计各个文档的高频主题,获取最大概率分布的潜在主题。

全文数据:

权利要求:

百度查询: 安徽理工大学 基于条件熵下随机游走的FW-LDA主题识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。