针对口语问答的端到端的多模态大模型的训练方法及系统

导航：龙图腾网> 最新专利技术> 针对口语问答的端到端的多模态大模型的训练方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：上海交通大学

摘要：本发明提供了一种针对口语问答的端到端的多模态大语言模型的训练方法及系统，包括：利用现有语音识别数据集构建针对大语言模型的口语问答数据集；利用语音预训练模型提取输入语音的帧级语音特征向量提取器；利用文本预训练模型提取输入文本的文本特征向量提取器；利用线性变化模块进行语音和文本特征融合的特征融合模块；利用文本预训练大语言模型对融合特征进行解码并产生文本输出的解码器部分。本发明提出了一种便捷的数据集构建方式，并提出分别利用语音，文本预训练模型提取语音和文本的特征向量，两种特征向量通过提出的特征融合模块进行融合后送入文本预训练大语言模型并进行参数微调，以实现端到端的多模态大语言模型训练。

主权项：1.一种针对口语问答的端到端的多模态大语言模型的训练方法，其特征在于，包括：步骤S1：构建口语问答数据集；所述口语问答数据集包括：语音样本以及对应的语音转录文本标注；步骤S2：口语问答数据集中的语音数据利用语音预训练模型提取帧级语音特征向量；口语问答数据集中的文本数据利用文本预训练模型提取文本特征向量；步骤S3：将提取的帧级语音特征向量和文本特征向量进行特征融合，形成综合特征向量；步骤S4：利用文本预训练的大语言模型对综合特征向量进行解码，产生文本回答。

全文数据：

权利要求：

百度查询：上海交通大学针对口语问答的端到端的多模态大模型的训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电信网元实时处理方法、装置、设备、介质及程序产品

下一篇：一种水库运行管理与安全评价系统及安全评价方法

相关技术

电信网元实时处理方法、装置、设备、介质及程序产品

一种水库运行管理与安全评价系统及安全评价方法

化合物、有机电致发光元件用材料、有机电致发光元件和电子设备

叔丁醇的制造方法

一种高功率密度增速齿轮箱的模态测试方法

情感分类模型训练方法、系统、情感分类方法及系统

ZnO/石墨烯复合材料、Zn杂化石墨烯阻燃环氧丙烯酸酯涂层及制备方法

一种粗氨气净化及制取液氨的装置及方法

一种玻璃瓶裂纹检测装置

一种线性工程快速出图方法及系统

一种BODIPY类化合物、制备方法及其应用

大语言模型生成SQL查询语句中的数据权限控制方法及设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

针对口语问答的端到端的多模态大模型的训练方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务