买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:苏州闻道网络科技股份有限公司
摘要:本发明揭示了一种基于少量标签的文章文本分类方法,在准备阶段依次完成制备文章文本、制备文本类别对、制备抽取式文本摘要模型,制备文本摘要相似度模型,制备句子集相似度模型,生成文本的表征向量,制备文章类型标签。而在预测阶段对待分类文章处理得文本、文章结构、句子数据,并利用抽取式摘要模型和摘要相似度模型处理得到文章结构各部分的摘要,再处理得到各部分的表征向量后计算与对应项目的相似度,通过加权和计算和设定阈值完成类别归属。本发明在文章文本分类过程中充分考虑文章题目、结构及内容相关性对类别确定的影响,突出文章中关键句的重要性,提升了分类准确性;有利于快速增加新分类且降低了成本。
主权项:1.基于少量标签的文章文本分类方法,其特征在于包括步骤:S1、制备文章文本,从网络上爬取文章数据,并提取文章结构,所述文章结构包括题目、首段、中间段落和尾段;S2、制备【文本,类别】对,根据已有的文本类别和新增类别在互联网上寻找对应的文章,并参照S1实施,以【文本,类别】对的形式存储;S3、制备抽取式文本摘要模型,S1后记录【文本,文章结构】的对应关系;并对文章按结尾符号做分句,记录【文本,文章结构,句子】的对应关系并做人工标注,并按BertSum的方法训练对应首段、中间段落、尾段的抽取式摘要模型;S4、制备文本、摘要相似度模型,基于S3所得【文本,文章结构,句子,摘要】数据和各抽取式摘要模型,按MatchSum的方法训练文本、摘要相似度模型;S5、制备句子集相似度模型,收集若干相似句子集,且每个句子集中至少包含6-8个句子,并按SimBert的方法训练句子集相似度模型;S6、生成文本的表征向量,将S3所得的句子输入S5所得的句子集相似度模型,得到每个句子的表征向量,再将所有句子的表征向量求平均得到文本表征;S7、制备文章类型标签,组合S2所得的【文本,类别】数据和S3所得的【文本,文章结构,句子,摘要】数据,得到【类别,文章结构,摘要】数据,制作文章题目的表征向量和类别题目表征向量集,制作文章首段的表征向量和类别首段表征向量集,制作文章中间段落的表征向量和类别中间段落表征向量集,制作文章尾段的表征向量和类别尾段表征向量集,记录【类别,类别题目表征向量集,类别首段表征向量集,类别中间段落表征向量集,类别尾段表征向量集】;S8、预测待分类文章的文本类型,根据S3处理待分类文章得【文本,文章结构,句子】数据,并根据抽取式摘要模型分别处理得到首段、中间段落、尾段中各句子的摘要得分,并使用S4的文本、摘要相似度模型处理得到首段、中间段落、尾段的摘要;按照S7分别得到待分类文章的题目表征向量、首段表征向量、中间段落表征向量和尾段表征向量,并依次计算待分类文章的题目、首段、中间段落和尾段与各类别对应项目的相似度,对每一个类别分别计算四个相似度的加权和,得到待分类文章与各类别的相似度;设定一个判定阈值,若待分类文章与各类别中最高相似度高于判断阈值,则将待分类文章归于与之相似度最高的类别,否则将待分类文章归于未知分类。
全文数据:
权利要求:
百度查询: 苏州闻道网络科技股份有限公司 基于少量标签的文章文本分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。