买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国传媒大学
摘要:本申请公开了一种针对新闻的人物言论观点挖掘方法、设备及介质,涉及电数字数据处理技术领域。方法包括:从新闻语料中抽取符合触发词的人物言论;生成人物言论对应的标签,并构建用于连接人物言论及其对应的标签词的提示模板;根据提示模板构建训练样本,训练得到中心观点识别模型,并通过中心观点识别模型,判断人物言论是否属于中心观点;对人物言论进行聚类,得到由若干言论类别组成的聚类结果,并对聚类结果进行分词,得到分词后的人物言论分词列表;从人物言论分词列表中,选取指定的人物言论分词作为言论类别对应的主题事件;根据主题事件和人物言论,生成人物言论对应的知识图谱,以通过知识图谱,实现对人物言论的观点挖掘。
主权项:1.一种针对新闻的人物言论观点挖掘方法,其特征在于,所述方法包括:采集新闻文档并对所述新闻文档进行预处理,得到对应的新闻语料,并基于预设的触发词词典,从所述新闻语料中抽取符合触发词的人物言论;生成所述人物言论对应的标签,并构建用于连接所述人物言论及其对应的标签词的提示模板;其中,每个标签对应一个标签词;根据所述提示模板构建训练样本,训练得到中心观点识别模型,并通过所述中心观点识别模型,判断所述人物言论是否属于中心观点;对所述人物言论进行聚类,得到由若干言论类别组成的聚类结果,并对所述聚类结果进行分词,得到分词后的人物言论分词列表;针对每个言论类别,从所述人物言论分词列表中,选取指定的人物言论分词作为所述言论类别对应的主题事件;根据所述主题事件和所述人物言论,生成所述人物言论对应的知识图谱,以通过所述知识图谱,实现对所述人物言论的观点挖掘;中心观点识别模型按照层级连接顺序依次包括提示模板层、输入层、遮蔽语言模型层和标签词映射层,根据所述提示模板构建训练样本,训练得到中心观点识别模型,具体包括:将所述提示模板录入至所述提示模板层;通过所述输入层,获取所述提示模板层录入的提示模板,根据所述映射关系,将所述人物言论对应的标签映射为对应的标签词,并将所述提示模板与所述人物言论、所述新闻标题、所述标签词进行拼接,得到训练样本;将所述训练样本输入到所述遮蔽语言模型层,通过所述遮蔽语言模型层中的ERNIE预训练语言模型,将所述训练样本转换为包含上下语义的训练向量,并将所述训练向量输入到所述标签词映射层;在所述提示模板为离散型模板的情况下,通过所述标签词映射层,将所述训练向量映射到所述ERNIE预训练语言模型的预设词表中,通过所述预设词表中与所述标签词相关的各词向量对应的概率,预测得到所述人物言论对应不同标签词的概率;在所述提示模板为连续型模板和动态连续型模板的情况下,将所述训练向量与所述标签词对应的词向量进行点积,得到所述人物言论对应不同标签词的概率。
全文数据:
权利要求:
百度查询: 中国传媒大学 一种针对新闻的人物言论观点挖掘方法、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。