买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了基于深度学习的基金名称概念提取方法、装置及相关介质,该方法包括构建原始基金数据集,标注原始基金数据集中的概念词,得到训练基金数据集;对训练基金数据集进行数据预处理,得到基金预处理数据;构建基金概念提取模型,并利用基金预处理数据对基金概念提取模型进行训练优化,得到训练后的基金概念提取模型;利用训练后的基金概念提取模型对新输入的基金数据进行概念预测,得到模型预测结果;将模型预测结果进行概念词转换,得到基金名称概念提取结果。本发明通过将新输入的基金数据输入到训练后的基金概念提取模型中进行预测,并利用模型预测结果提取得到基金名称概念提取结果,如此,提高了基金概念提取的准确率,降低维护成本。
主权项:1.一种基于深度学习的基金名称概念提取方法,其特征在于,包括:分别采集申报基金名称数据和发行基金名称数据,以构建原始基金数据集;分别标注所述原始基金数据集中的每条基金数据的概念词,得到训练基金数据集;对所述训练基金数据集进行数据预处理,得到基金预处理数据;构建基金概念提取模型,并利用所述基金预处理数据对所述基金概念提取模型进行训练优化,得到训练后的基金概念提取模型;其中,所述训练优化包括:增大训练数据集、增加批处理大小、采用BPE编码进行文本优化、优化器参数调整、移除NSP任务、采用动态掩码对相同的数据应用不同的掩码方式进行多次训练、应用全词掩码;利用所述训练后的基金概念提取模型对新输入的基金数据进行概念预测,得到模型预测结果;将所述模型预测结果进行概念词转换,得到基金名称概念提取结果;所述构建基金概念提取模型,包括:初始化RoBERTa-wwm模型,并通过所述RoBERTa-wwm模型中的底部Transformer层输出的表层信息特征,通过所述RoBERTa-wwm模型中的中间Transformer层输出的句法信息特征,以及通过所述RoBERTa-wwm模型中的顶部Transformer层输出的语义信息特征;将所述底部Transformer层输出的表层信息特征、中间Transformer层输出的句法信息特征和顶部Transformer层输出的语义信息特征,输入到一个Attention层;基于Attention机制利用所述Attention层学习所有Transformer层的重要程度值,并将学习后的Attention层的输出接入到一个CRF层,得到所述基金概念提取模型;所述利用所述训练后的基金概念提取模型对新输入的基金数据进行概念预测,得到模型预测结果,包括:利用所述训练后的基金概念提取模型对新输入的基金数据进行概念预测,得到新输入的基金数据的每个文本字符预测属于各标签的概率,取概率最大的标签作为对应字符的标签;其中,所述标签包括:概念开始字符、概念中间字符、概念结尾字符、单字成概念的字符、非概念的字符。
全文数据:
权利要求:
百度查询: 招商基金管理有限公司 基于深度学习的基金名称概念提取方法、装置及相关介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。