恭喜北京中科闻歌科技股份有限公司罗引获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京中科闻歌科技股份有限公司申请的专利基于多模态大模型的图表问答方法、系统、介质和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117390165B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311409539.8,技术领域涉及:G06F16/3329;该发明授权基于多模态大模型的图表问答方法、系统、介质和设备是由罗引;魏靖烜;陈博;郝艳妮;马先钦;徐楠;曹家;王磊设计研发完成,并于2023-10-27向国家知识产权局提交的专利申请。
本基于多模态大模型的图表问答方法、系统、介质和设备在说明书摘要公布了:本申请涉及图表问答技术领域,特别是涉及一种基于多模态大模型的图表问答方法、系统、介质和设备。该方法包括:提取待处理图表中的目标文本信息,得到图表文本特征向量;提取上述待处理图表中目标图像信息,得到图表图像特征向量;将综合文本特征向量和图表图像特征向量进行对齐;根据对齐后的综合文本特征向量和图表图像特征向量生成待处理图表对应的问题对应的目标回答。本申请对于待处理图表的信息提取分为两部分进行,提供的待处理图表的信息更具针对性,更精确,则最终得到的图标问答对应的回答的准确性也越高。
本发明授权基于多模态大模型的图表问答方法、系统、介质和设备在权利要求书中公布了:1.一种基于多模态大模型的图表问答方法,其特征在于,包括:提取待处理图表中的目标文本信息,得到图表文本特征向量;其中,所述目标文本信息为第一文本信息集和第二文本信息集的交集对应的文本信息;第一文本信息集为基于第一光学字符识别单元得到的文本信息集;第二文本信息集为基于第二光学字符识别单元得到的文本信息集;所述第一光学字符识别单元采用开放功能认证技术或PaddleOCRV3技术;所述第二光学字符识别单元采用开放功能认证技术或PaddleOCRV3技术;且所述第一光学字符识别单元和第二光学字符识别单元采用不同的技术;提取所述待处理图表中目标图像信息,得到图表图像特征向量;将综合文本特征向量和图表图像特征向量进行对齐;其中,所述综合文本特征向量为将图表文本特征向量和问题文本特征向量进行拼接得到的;问题文本特征向量为根据待处理图表对应的问题生成的特征向量;特征对齐模块采用Q-Former算法通过注意力机制计算图表文本特征向量和综合文本特征向量之间的相互关系,并桥接图表文本特征向量和综合文本特征向量之间的差异,以将图表文本特征向量和综合文本特征向量进行对齐,得到图表图像特征向量和综合文本特征向量的一一对应关系;根据对齐后的综合文本特征向量和图表图像特征向量生成待处理图表对应的问题对应的目标回答;所述基于多模态大模型的图表问答系统训练采用的数据集为综合数据集;所述综合数据集为将LLaVAR模型的数据集和mPLUG-DocOwl模型的数据集整合后并将非图表数据清洗后得到的数据集。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科闻歌科技股份有限公司,其通讯地址为:100080 北京市海淀区北四环西路9号楼7层717室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。