首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种表格数据重构方法及装置、问答方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明公开了一种表格数据重构方法及装置、问答方法,包括筛选出与用户问题有关的表头并保留该表头所在的列,得到列重构表格;对列重构后的表格进行行重构:根据单元值将表格的列划分为三类,即连续值列、离散值列、时间值列;提取连续值列的统计量、离散值列的与用户问题有关的类别以及时间值列的最早和最晚时间作为表格的重构特征,并将这些重构特征进行连接得到行重构表格,从而得到完整的重构表格;进一步地,输入大语言模型来生成符合用户问题需求的SQL语句,大大提高了通过自然语言处理表格任务的准确率,在实际的使用场景更加智能与有效。

主权项:1.一种表格数据重构方法,其特征在于,包括以下步骤:步骤一:对表格进行列重构:筛选出与用户问题有关的表头并保留该表头所在的列,得到列重构表格;所述筛选出与用户问题有关的表头并保留该表头所在的列,包括:将各列表头的内容和用户问题输入大语言模型,输出与用户问题有关的表头,保留所述与用户问题有关的表头所在的列;步骤二:对列重构后的表格进行行重构:根据单元值将表格的列划分为三类,即连续值列、离散值列、时间值列;提取连续值列的统计量、离散值列的与用户问题有关的类别以及时间值列的最早和最晚时间作为表格的重构特征;提取离散值列的与用户问题有关的类别作为表格的重构特征,包括:对于离散值列,提取每一列中各个单元值的表征向量,提取用户问题的表征向量,计算出与用户问题的表征向量最相近的前n个单元值的表征向量,将该n个单元值连带其表头作为该列数据的重构特征;n为正整数;所述提取每一列中各个单元值的表征向量,包括:用BGEM3-Embedding模型提取每一列中各个单元值的表征向量;所述提取用户问题的表征向量,包括:用BGEM3-Embedding模型提取用户问题的表征向量;步骤三:将连续值列的重构特征、离散值列的重构特征、时间值列的重构特征进行连接得到行重构表格,从而得到完整的重构表格。

全文数据:

权利要求:

百度查询: 浙江大学 一种表格数据重构方法及装置、问答方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。