首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于无监督特征聚类的突发热点事件检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:暨南大学

摘要:本发明公开了基于无监督特征聚类的突发热点事件检测方法,所述方法包括:下载互联网内容平台的文本,进行数据预处理,得到分词列表和文章列表;使用预训练语言模型编码分词列表和文章列表,得到分词特征列表和文章特征列表;对分词特征列表和文章特征列表进行无监督特征聚类,得到所有分词簇和所有文章簇;根据所有分词簇和所有文章簇计算出包含突发热点事件的文章;对包含突发热点事件的文章进行总结,得到突发热点事件集合。本发明下载互联网上的海量内容,利用预训练语言模型具有判别性的特征空间,通过无监督的特征聚类实现突发热点事件的有效检测,并利用大语言模型对其归纳总结,不需要训练模型,在较低的计算成本下实现了有效的事件检测。

主权项:1.基于无监督特征聚类的突发热点事件检测方法,其特征在于,所述方法包括:步骤1,下载互联网内容平台的文本,进行数据预处理,得到分词列表和文章列表;步骤2,使用预训练语言模型编码分词列表和文章列表,得到分词特征列表和文章特征列表;步骤3,对分词特征列表和文章特征列表进行无监督特征聚类,得到所有分词簇和所有文章簇;步骤4,根据所有分词簇和所有文章簇计算出包含突发热点事件的文章;步骤5,对包含突发热点事件的文章进行总结,得到突发热点事件集合;所述的对分词特征列表和文章特征列表进行无监督特征聚类,得到所有分词簇和所有文章簇,包含以下步骤:使用聚类算法对所述的分词特征列表和文章特征列表进行聚类,表达式为: ;其中,表示文章特征列表,表示分词特征列表,表示聚类算法,表示所有文章簇,表示所有分词簇,表示所有文章簇中的第i个文章簇,表示所有分词簇中的第i个分词簇,表示所有文章簇的簇数,表示所有分词簇的簇数,表示第个分词,表示第个文章;所述的聚类算法包括DBSCAN、OPTICS、GMM、Mean-Shift中的一种或多种;所述的根据所有分词簇和所有文章簇计算出包含突发热点事件的文章,包含以下步骤:步骤401,根据所有分词簇中各个分词簇的大小,选出热点分词簇,表达式为: ;其中,表示热点分词簇,表示计算簇的大小,表示降序排序函数,表示对所有分词簇降序排序后的第个分词簇,是预设的超参数表示热点分词簇的数量;步骤402,根据所有文章簇中各个文章簇的大小,选出热点文章簇,表达式为: ;其中,表示热点文章簇,表示所有文章簇,表示所有文章簇中的第i个文章簇,表示对所有文章簇降序排序后的第个文章簇,是预设的超参数表示热点文章簇的数量;步骤403,根据热点分词簇对热点文章簇进行精炼,去除掉热点文章簇中不包含热点分词簇的分词的文章,得到目标文章簇,表达式为: ;其中,表示目标文章簇,表示目标文章簇中的第个簇,表示第个文章,表示对进行分词得到的分词集合,表示所述的所有分词簇中的第k个分词簇;目标文章簇中的每个簇的文章就是所述的包含突发热点事件的文章;所述的对包含突发热点事件的文章进行总结,得到突发热点事件集合,包含以下步骤:步骤501,初始化突发热点事件集合为空集,取出所述的目标文章簇中一个簇,作为当前簇,转到步骤502;步骤502,若当前簇为空集,则从目标文章簇中删除当前簇,转到步骤501,否则转到步骤503;步骤503,把当前簇的文章输入大语言模型中,利用大语言模型对当前簇的文章记载的共同事件进行归纳总结,得到当前突发热点事件,把当前突发热点事件加入突发热点事件集合中,从目标文章簇中删除当前簇,转到步骤504;步骤504,若目标文章簇为空集,输出突发热点事件集合,否则转到501;所述的大语言模型包括GPT、LLaMA、claude、文心一言、通义千问中的一种或多种。

全文数据:

权利要求:

百度查询: 暨南大学 基于无监督特征聚类的突发热点事件检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。