首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于网络新闻的时评类作文素材语料库的构建方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中央民族大学

摘要:本发明提供一种基于网络新闻的时评类作文素材语料库的构建方法及系统,涉及自然语言处理技术领域。本技术方案对原始网络语料数据先后进行清洗、预处理,以及向量化、特征提取等处理,然后利用K‑Means++策略优化算法和单边增量聚类的方法对传统K均值聚类算法进行改进,再利用改进后的K均值聚类算法对目标文本进行聚类,从而可以实现运用一个概率公式来选取K个聚类中心,通过事先设定相似度比较阈值,快速判断新增文本的主题类别,然后再根据主题类别提取主题词构建语文时评类作文写作素材语料库。本技术方案提高了构建时评类作文写作素材语料库的效率和准确率。

主权项:1.一种基于网络新闻的时评类作文素材语料库的构建方法,其特征在于,所述方法包括:基于原始网络新闻语料获取时评类作文写作的初始素材语料库;利用逻辑回归模型构建文本分类器对所述初始素材语料库中的多条初始语料进行分类和筛选以获取适用于中学生语文时评类作文写作的新闻语料的目标文本;基于K-Means++策略选取初始聚类中心,以及基于K-Means++的单边增量聚类算法判定新增目标文本的主题类别,对所述目标文本和新增目标文本进行聚类,并抽取所有目标文本中的主题词,构建素材语料库;其中,所述基于K-Means++策略选取初始聚类中心包括:步骤1、设定初始聚类中心数量K,设定无标签数据集X=[x1,x2,…,xm];从目标文本数据集D中随机选取一个样本点作为第一个簇心C1;步骤2、计算剩余样本点与所有簇心的最短距离Dxi;Dxi=min[distxi,C1,distxi,C2,...,distxi,Cn]其中,xi表示第i个样本;n表示簇心的总个数;distxi,C1表示样本xi与簇心C1之间的距离;步骤3、任意一个样本点x被选为下一个簇心的概率为: 步骤4、重复步骤2和步骤3选出K个簇心;所述基于K-Means++的单边增量聚类算法判定新增目标文本的主题类别包括:对新增网络新闻语料进行清洗和预处理,再对经过清洗和预处理后的新增网络新闻语料进行向量化和特征提取,获取新增网络新闻语料文本;利用Jaccard距离度量法分别计算新增网络新闻语料文本与K个簇心的相似度,并选出最大相似度值maxValue和其所对应的主题t;将最大相似度值maxValue与阈值θ进行比较,若最大相似度maxValue大于阈值θ,则将新增网络新闻语料文本归类到主题t中;否则,将新增网络新闻语料文本归类到新创建新的主题类别中。

全文数据:

权利要求:

百度查询: 中央民族大学 基于网络新闻的时评类作文素材语料库的构建方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。