首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

中文自然语言的SQL语句生成模型的构建方法及应用 

申请/专利权人:华中科技大学

申请日:2021-10-13

公开(公告)日:2024-07-05

公开(公告)号:CN114020768B

主分类号:G06F16/242

分类号:G06F16/242;G06F40/289;G06F40/30;G06F18/214;G06N3/044

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2022.02.25#实质审查的生效;2022.02.08#公开

摘要:本发明公开了一种中文自然语言的SQL语句生成模型的构建方法及应用,包括:S1、搭建SQL语句生成模型;S2、将采集到训练集中的中文自然语言问题和相关数据库模式作为输入,对应的正确SQL语句作为输出,通过最小化SQL语句生成模型生成的SQL语句与正确SQL语句之间的差异,训练SQL语句生成模型。本发明通过结合不同数据列的类型信息,捕捉中文自然语言问题与数据库模式之间的对齐关系、隐含的指代关系,并通过有向图的方式对数据库模式显式定义的关系和自然语言问题与数据库模式间的链接关系进行了表示;并通过综合考虑非结构化数据和结构化数据之间的特点,将语义特征和关系特征结合起来联合编码,大大提高了SQL语句生成模型的准确率。

主权项:1.一种中文自然语言的SQL语句生成模型的构建方法,其特征在于,包括以下步骤:S1、搭建SQL语句生成模型;其中,所述SQL语句生成模型包括:分词拼接模块、语义编码模块、关系表示模块、关系编码模块和SOL解码模块;所述分词拼接模块用于对中文自然语言问题及相关数据库模式中的数据表命名和数据列命名进行分词操作后,结合数据列类型信息进行拼接,得到非结构化数据的中文自然语言问题与结构化数据的数据库模式的融合表示向量,并输出至所述语义编码模块中;所述语义编码模块用于采用自然语言预训练模型提取所述融合表示向量中的语义特征,得到中文自然语言问题及相关数据库模式中数据表命名和数据列命名的分词结果的语义编码向量,构成联合编码张量后,输出至所述关系编码模块中;所述关系表示模块用于将数据库模式中已定义的关系以及自然语言问题与数据库模式之间的链接关系表示为关系有向图;所述关系有向图中的顶点包括数据表命名、数据列命名和中文自然语言问题的分词结果;所述关系有向图中的边表示顶点间所存在的关系,包括顶点间存在的数据库定义关系、以及中文自然语言问题的分词结果与数据表命名或数据列命名之间的同义和相关关系,并输出至所述关系编码模块中;所述关系编码模块用于对所述联合编码张量和所述关系有向图的对齐关系进行联合编码,提取所述联合编码张量和所述关系有向图中的关系特征,得到关系编码张量,并输出至所述SQL解码模块;所述SOL解码模块用于基于语法树结构将所述关系编码张量解码成SQL语句;S2、将采集到训练集中的中文自然语言问题和相关数据库模式作为输入,对应的正确SQL语句作为输出,通过最小化所述SQL语句生成模型生成的SQL语句与正确SQL语句之间的差异,训练所述SQL语句生成模型。

全文数据:

权利要求:

百度查询: 华中科技大学 中文自然语言的SQL语句生成模型的构建方法及应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。