买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天津大学
摘要:本发明公开了一种大语言模型驱动的多模态意见表达识别系统及方法,将提示学习模板和文本序列结合,构造新的文本序列;将文本和语音分别通过大语言模型编码器和语音编码器,生成对应的文本嵌入和语音嵌入;通过模态适配器,将语音特征映射到文本嵌入的空间中;将两个嵌入合并;合并之后的嵌入送入到大语言模型中,进行训练和预测,这一步中为了快速微调大语言模型,在大语言模型中进一步设置了参数微调模块LoRA。与现有技术相比,本发明实现了针对现实场景下的多模态意见表达提出智能识别的解决方法。
主权项:1.一种大语言模型驱动的多模态意见表达识别系统,其特征在于,包括:大语言模型编码模块,用于对待处理的输入文本和提示进行编码,具体是将原始文本数据转换为高纬度的文本嵌入表示Htext;语音编码模块,用于语音输入的细节处理,具体是从语音信号中提取关键的声学特征,包括但不限于音调、音量强度和语言节奏,将语音映射成对应的语音嵌入,从而提取出对应的语音特征嵌入A;模态适配模块,用于实现语音和文本两种模态特征之间的无缝对接和信息融合,将语音特征映射到与文本特征相同的高维向量空间中,得到语音嵌入表示Hspeech;大语言模型融合模态分析模块:用于向系统提供综合模态特征的大语言模型分析,将所述文本嵌入表示Htext与所述语音嵌入表示Hspeech这两种嵌入进行向量级的连接操作,得到融合了多模态信息的综合向量表示H,表达式如下:H=Htext⊕Hspeech其中,⊕代表向量级连接;在成功对接和融合语音和文本模态特征后,综合两种模态的数据进行全面的情感和意见分析。
全文数据:
权利要求:
百度查询: 天津大学 一种大语言模型驱动的多模态意见表达识别系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。