首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于持续学习的林业预训练语言模型构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国林业科学研究院资源信息研究所;祁连山国家公园青海服务保障中心

摘要:一种基于持续学习的林业预训练语言模型构建方法,属于人工智能及计算机程序技术领域。林业语料库的构建:采用网络爬虫、数据库查询和信息提取方法从中国林业信息网、林业类北大核心期刊渠道收集与林业相关的术语、法律法规、文献三个主题的文本数据,并对其进行去除特殊符号、重复值以及分词等数据清洗和预处理后,得到三个用于预训练的林业语料库,并使用这三个不同主题的林业语料库,基于持续学习方法对通用领域的预训练语言模型BERT进行持续预训练,增强通用领域预训练语言模型在林业领域内的知识,最终形成能够持续学习的林业预训练语言模型ForestryBERT。

主权项:1.一种基于持续学习的林业预训练语言模型构建方法,其特征在于,含有以下步骤:步骤1、林业语料库的构建:采用网络爬虫、数据库查询和信息提取方法从中国林业信息网、林业类北大核心期刊渠道收集与林业相关的术语、法律法规、文献三个主题的文本数据,并对其进行去除特殊符号、重复值以及分词数据清洗和预处理后,得到三个用于预训练的林业语料库,步骤2、模型的持续预训练:使用三个不同主题的林业语料库,基于持续学习方法对通用领域的预训练语言模型BERT进行持续预训练,增强通用领域预训练语言模型在林业领域内的知识,最终形成能够持续学习的林业预训练语言模型ForestryBERT,步骤3、模型的微调:步骤3.1、林业标注数据集的构建,步骤3.1.1林业文本分类数据集,从中国林业信息网抓取的原始数据具有分类标签,但每个主题都有不同的分类标准和数量,合并了每个主题中标签相似的样本,然后从每个数据集中按1%~10%的比例随机抽取样本,限制数量较多的类别,最终得到三个不同主题的林业文本数据集,步骤3.1.2林业抽取式问答数据集,使用有标签的中文阅读理解数据集对预训练语言模型进行微调,以构建能够生成问答对的模型,从三个林业语料库中随机选取文本,并使用该模型为每个上下文生成相应的答案和问题,经过人工验证后构建了一个由2280个样本组成的林业抽取式问答数据集,步骤3.2、微调:根据构建的两个标注数据集对持续预训练过程产生的三个模型进行微调,以评估林业预训练语言模型的性能以及持续学习方法的有效性。

全文数据:

权利要求:

百度查询: 中国林业科学研究院资源信息研究所 祁连山国家公园青海服务保障中心 一种基于持续学习的林业预训练语言模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。