买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东济宁烟草有限公司
摘要:本发明涉及深度学习技术领域,公开了利用深度学习的烟草行业文档自动分类与存储方法,包括以下步骤:模型选择;模型预训练过程:MLM阶段、动态掩码生成阶段;数据准备与预处理:数据收集、文档格式转换、文本清洗、分词处理、停用词去除、数据增强;模型微调策略:定义任务特定的模型架构、选择合适的损失函数和优化器、参数设置和调整策略;模型微调过程:数据分批处理、早停法;实体识别与标签化;性能评估:数据集构建、性能评估指标、对比模型设置、实验环境;实验结果:文档分类任务、相似文档检索任务、训练和推理时间。本发明通过微调RoBERTa预训练模型,使其具有强大的上下文理解能力、灵活的微调能力、高效的数据处理能力,还改善了用户体验。
主权项:1.利用深度学习的烟草行业文档自动分类与存储方法,其特征在于,包括以下具体步骤:S1:模型选择:考虑到烟草行业大量的中文文档和需要准确理解复杂管理知识的需求,选择了RoBERTa作为预训练模型基础,RoBERTa的高效的信息处理机制和对中文语料优异的理解能力,使其成为构建知识库和实现智能搜索功能的理想选择;S2:模型预训练过程:S2a:MaskedLanguageModel(MLM)阶段:模型随机掩盖输入文本的一部分词汇,然后预测这些掩盖的词汇,通过这种方式学习语言的深层语义关系;S2b:动态掩码生成阶段:与BERT不同,RoBERTa在每次数据传递时动态改变掩码词汇,增加了模型训练的难度和多样性;S3:数据准备与预处理:S3a:数据收集:从烟草公司的内部数据库中收集行业文档;S3b:文档格式转换:利用自动化脚本将所有非文本格式文档转换为纯文本格式,去除格式化元素,以便后续处理;S3c:文本清洗:对转换后的文本内容进行清洗,去除无关信息,同时剔除或替换文本中的特殊字符和非结构化信息;S3d:分词处理:考虑到中文文档的特点,采用基于深度学习的中文分词工具进行分词处理,确保文本被正确切分成词或短语,并将所有文本标准化为小写(对于英文部分),以统一数据格式;S3e:停用词去除:根据预先定义的停用词表,去除文本中的常见停用词,如“的”、“是”、“在”等,这些词虽然使用频繁,但对理解文档含义贡献有限;S3f:数据增强:为避免模型训练时的数据偏差,采取数据增强策略,例如通过同义词替换、句子重组等方法生成新的文本实例,可以帮助模型学习到更加泛化的语言特征,提高在不同类型文档上的性能;S4:模型微调策略:S4a:定义任务特定的模型架构:对于知识库构建而言,通常涉及文档分类或相似文档检索等任务,因此在RoBERTa语言模型顶部添加一个或多个全连接层作为输出层,以适应这些任务;S4b:选择合适的损失函数和优化器:根据任务的不同,选择合适的损失函数来指导模型训练;对于分类任务,使用交叉熵损失函数;对于相似度匹配任务,使用余弦相似度作为损失函数;同时选择一个有效的优化器(如AdamW)来调整模型参数,以达到更好的训练效果;S4c:参数设置和调整策略:对学习率、批处理大小和训练周期进行设定和调整;S5:模型微调过程:将预处理后的文档数据输入RoBERTa模型,并根据任务特定层的输出计算损失,然后通过反向传播算法调整模型参数;S5a:数据分批处理:由于文档数据集可能相当庞大,通常需要将数据分批次(Batch)输入模型,这样既可以提高内存利用率,也有助于模型的泛化能力;S5b:早停法(EarlyStopping):为了避免过拟合,可以在验证集的性能不再提升时提前终止训练,这种方法可以帮助我们在提高模型性能和防止过拟合之间找到一个平衡点;S6:实体识别与标签化:在模型微调完成后,利用微调后的RoBERTa模型执行命名实体识别任务,通过定义一套针对管理创新成果文档的实体类型,模型能够自动识别文档中的关键信息,并将其标记为相应的实体,为文档的自动标签化提供支持;S7:性能评估:S7a:数据集构建:从烟草公司收集的管理创新成果文档中,随机选取80%作为训练集、10%作为验证集、剩余10%作为测试集,确保数据集覆盖广泛的管理创新主题和内容类型;S7b:性能评估指标:为了全面评价模型的性能,选用了几种常见的评估指标,包括精确度(Precision)、召回率(Recall)、F1分数(F1Score)和模型在测试集上的准确率(Accuracy),这些指标能够综合反映模型在分类或相似文档检索任务上的表现;S7c:对比模型设置:为了验证微调后RoBERTa模型的有效性,选取了几个基线模型进行比较,包括未经微调的原始RoBERTa模型、BERT以及传统的TF-IDF加机器学习分类器(如SVM)的组合作为基准进行比较分析,这样的比较可以直观地展示微调过程对模型性能的提升;S7d:实验环境:所有实验均在具有NVIDIATeslaGPU支持的高性能计算环境中进行,以确保训练和测试过程的高效率;S8:实验结果:S8a:文档分类任务:微调后的RoBERTa模型在测试集上的准确率达到了92%,相比之下,未经微调的原始RoBERTa模型的准确率为85%,而传统的BERT模型和TF-IDF加SVM分类器的组合分别为87%和83%,这一结果表明,微调过程显著提高了RoBERTa模型在特定任务上的性能;S8b:相似文档检索任务:使用余弦相似度作为相似度评分标准,微调后的RoBERTa模型在检索任务上的表现同样优于比较组,具体的,基于微调RoBERTa模型的检索系统在Top-5准确率上达到了90%,而原始RoBERTa模型和BERT模型分别为82%和85%,TF-IDF加SVM组合的方法为80%,这进一步证实了微调在提高模型对文档深层语义理解和检索性能方面的重要性;S8c:训练和推理时间:在训练效率方面,微调RoBERTa模型的过程耗时相较于从头训练模型大大缩短,具体而言,微调整个过程在实验环境中平均耗时约为2小时,而训练一个从头开始的相似规模的模型可能需要超过12小时。
全文数据:
权利要求:
百度查询: 山东济宁烟草有限公司 利用深度学习的烟草行业文档自动分类与存储方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。