首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种长序列建模方法、装置、设备、介质及产品 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:湖北珞珈智言科技有限公司

摘要:本公开提供一种长序列建模方法、装置、设备、介质及产品。其中,长序列建模方法包括:对获取的初始长序列数据进行预处理,得到样本数据;利用样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,预先配置的待训练模型包括用于处理长序列任务的待优化模型。利用本公开实施例提供的长序列建模方法,可提高模型处理长序列的能力,同时降低计算资源显存的消耗。

主权项:1.一种长序列建模方法,其特征在于,包括:对获取的初始长序列数据进行预处理,得到样本数据;利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型;其中,所述对获取的初始长序列数据进行预处理,得到样本数据,包括:匹配所述初始长序列数据的类型,确定分割规则;基于所述分割规则,对所述初始长序列数据进行切分,得到多个样本元素;对所述多个样本元素编号,形成一组样本元素序列,作为所述样本数据;其中,当前样本元素作为模型的样本输入时,按照编号,与当前样本元素直接相邻下一样本元素作为样本真值,用于与模型输出进行比对;其中,所述预先配置的初始化条件至少包括:预先配置的一组随机初始化的基向量B、一个矩阵、以及一组初始基状态矩阵和;其中,基向量B、初始基状态矩阵和的向量数量N根据初始长序列的长度确定,向量维度d根据初始长序列的维度确定;矩阵用于存储查询状态,初始化状态为空;初始基状态矩阵用于动态缓存键状态经过线性变换后的状态向量;初始基状态矩阵用于动态缓存值状态经过线性变换后的状态向量;初始基状态矩阵和的矩阵元素初始化为0;其中,所述按照预设训练规则执行模型训练,包括:步骤1、按照样本元素的编号,在所述样本数据中确定输入所述待训练模型的当前样本元素;步骤2、按照样本元素的编号,在所述样本数据中,确定与当前样本元素对应的样本元素真值分布;步骤3、将所述当前样本元素输入所述待训练模型,得到所述待训练模型输出的样本元素估计分布以及对应的矩阵;步骤4、计算所述样本元素估计分布与所述样本元素真值分布之间交叉熵损失,以交叉熵损失为零以及矩阵正交约束作为优化目标,通过调整基向量B和所述待训练模型的相关参数对所述样本元素估计分布进行优化,并迭代步骤3~步骤4,保存优化结束时对应的基向量B与所述待训练模型的相关参数;步骤5、迭代步骤1~步骤4,直至所述样本数据全部训练完毕;其中,在所述步骤3中,待训练模型的数据处理逻辑,包括:根据所述当前样本元素,确定该当前样本元素对应的查询状态、键状态以及值状态;利用所述当前样本元素对应的查询状态以及所述基向量B,确定中间状态,并存储至矩阵;利用所述中间状态,对所述当前样本元素对应的键状态以及值状态进行线性变换,分别得到键状态的变换结果和值状态的变换结果,并将所述键状态的变换结果更新存储至基状态矩阵,将所述值状态的变换结果更新存储至基状态矩阵;利用更新后的基状态矩阵替换显存中已存储的基状态矩阵,利用更新后的基状态矩阵替换显存中已存储的基状态矩阵;利用更新后的基状态矩阵和基状态矩阵,确定自注意力输出值;根据所述自注意力输出值,确定所述样本元素估计分布。

全文数据:

权利要求:

百度查询: 湖北珞珈智言科技有限公司 一种长序列建模方法、装置、设备、介质及产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术