一种基于持续学习的林业预训练语言模型构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国林业科学研究院资源信息研究所;祁连山国家公园青海服务保障中心

摘要：一种基于持续学习的林业预训练语言模型构建方法，属于人工智能及计算机程序技术领域。林业语料库的构建：采用网络爬虫、数据库查询和信息提取方法从中国林业信息网、林业类北大核心期刊渠道收集与林业相关的术语、法律法规、文献三个主题的文本数据，并对其进行去除特殊符号、重复值以及分词等数据清洗和预处理后，得到三个用于预训练的林业语料库，并使用这三个不同主题的林业语料库，基于持续学习方法对通用领域的预训练语言模型BERT进行持续预训练，增强通用领域预训练语言模型在林业领域内的知识，最终形成能够持续学习的林业预训练语言模型ForestryBERT。

主权项：1.一种基于持续学习的林业预训练语言模型构建方法，其特征在于，含有以下步骤：步骤1、林业语料库的构建：采用网络爬虫、数据库查询和信息提取方法从中国林业信息网、林业类北大核心期刊渠道收集与林业相关的术语、法律法规、文献三个主题的文本数据，并对其进行去除特殊符号、重复值以及分词数据清洗和预处理后，得到三个用于预训练的林业语料库，步骤2、模型的持续预训练：使用三个不同主题的林业语料库，基于持续学习方法对通用领域的预训练语言模型BERT进行持续预训练，增强通用领域预训练语言模型在林业领域内的知识，最终形成能够持续学习的林业预训练语言模型ForestryBERT，步骤3、模型的微调：步骤3.1、林业标注数据集的构建，步骤3.1.1林业文本分类数据集，从中国林业信息网抓取的原始数据具有分类标签，但每个主题都有不同的分类标准和数量，合并了每个主题中标签相似的样本，然后从每个数据集中按1％～10％的比例随机抽取样本，限制数量较多的类别，最终得到三个不同主题的林业文本数据集，步骤3.1.2林业抽取式问答数据集，使用有标签的中文阅读理解数据集对预训练语言模型进行微调，以构建能够生成问答对的模型，从三个林业语料库中随机选取文本，并使用该模型为每个上下文生成相应的答案和问题，经过人工验证后构建了一个由2280个样本组成的林业抽取式问答数据集，步骤3.2、微调：根据构建的两个标注数据集对持续预训练过程产生的三个模型进行微调，以评估林业预训练语言模型的性能以及持续学习方法的有效性。

全文数据：

权利要求：

百度查询：中国林业科学研究院资源信息研究所祁连山国家公园青海服务保障中心一种基于持续学习的林业预训练语言模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种道路环保施工用防护装置

下一篇：在球队运动中进行交互的、可说明的且改进的比赛和球员表现预测的方法和系统

相关技术

一种道路环保施工用防护装置

在球队运动中进行交互的、可说明的且改进的比赛和球员表现预测的方法和系统

三卡盘坡口切管机

一种阻尼棒活塞型粘滞阻尼器

一种基于激光雷达的工程车辆定位方法、装置

一种基于风控规则引擎的交易监管系统

一种基于过滤原理的胶内蛋白酶解前处理方法

一种用于光电传感器的高精度装置

一种共递送酸枣仁皂苷和白桦脂酸的双乳液凝胶及其制备方法和应用

眼用组合物

一种分离回收装置、方法及塑料碎片再加工工艺

一种汽车钣金件自动焊接设备及其方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于持续学习的林业预训练语言模型构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务