买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:人民网股份有限公司
摘要:本发明公开了一种基于无监督的长短影评细粒度观点挖掘方法,其特征在于:1从社交平台和电影平台进行多维度的影评文本信息获取;2基于开源中文情感词典,采用SO‑PMI词典扩展方法构建影评情感词典;3采用基于关联规则方法和word2vec挖掘全局评价对象和个性化评价对象,再通过K‑means形成完整短影评评价对象;4采用MG‑LDA结合word2vec发现长影评的主题分布以及词分布,构建长影评评价对象;5对评价对象进行情感分析并形成影评观点摘要。本发明所公开无监督长短影评细粒度观点挖掘方法,较现有的影评挖掘方法相比,可以获取更丰富的影评文本数据,充分挖掘影评文本信息,针对影评长短采用不同的模型获取评价对象,使得本发明的观点挖掘和情感分析效果更佳。
主权项:1.一种基于无监督的长短影评细粒度观点挖掘方法,其特征在于,包括以下步骤:步骤1,影评文本数据采集:以社交网络平台和在线电影社区平台的历史数据为数据源,获取热门电影的评论文本信息、评论电影评分信息和评论文本投票数,根据影评的长短,分别得到由n部电影组成的短影评集合MS={ms1,ms2,…,msi…,msn}以及长影评集合Ml={ml1,ml2,…,mli…,mln},其中,msi表示第i部电影的短影评集合,mli表是第i部电影的长影评集合;步骤2,情感词典的构建:将开源的中文情感词典作为基准情感词典,根据从基准情感词典中选出的在步骤1采集的影评数据中出现次数最多的正面和负面情感词,采用情感词典扩展方法,在影评文本中识别出在情感词典中没有出现过的观点词并判断其情感倾向,最终构建出一个适用于影评文本的情感词典D={wpositive,wn2gative},其中,wpositive表示正面情感词,wnegative表示负面情感词;步骤3,短影评评价对象识别:针对从步骤1所构建的短影评集合,挖掘出全部电影短影评数据中共有的全局评价对象和每部电影影评独有的个性化评价对象,利用词向量模型扩展出上下文语义相似的词补充到全局评价对象和个性化评价对象,再通过机器学习聚类算法将表达形式不同但意义相近的评价对象词归为同一类,形成完整的全局评价对象和个性化评价对象,结合两者生成每部电影的短影评评价对象;步骤4,长影评评价对象识别:针对从步骤1所构建的长影评集合,采用主题模型LDA的变种模型多粒度LDA发现长影评的主题以及每个主题下的词分布,再结合词向量模型进一步发现具有大于设定语义相似性的词,从而获取每部电影的长影评评价对象;步骤5,细粒度观点挖掘分析:将步骤2所采集的影评文本数据的情感词典,分别应用在步骤3所获取的短影评评价对象与步骤4所获取的长影评评价对象,提取细粒度观点并对其进行分析统计,结合影评的电影评分数和该影评的推荐数,形成影评观点摘要。
全文数据:
权利要求:
百度查询: 人民网股份有限公司 一种基于无监督的长短影评细粒度观点挖掘方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。