中文自然语言的SQL语句生成模型的构建方法及应用

导航：龙图腾网> 最新专利技术> 中文自然语言的SQL语句生成模型的构建方法及应用

申请/专利权人：华中科技大学

申请日：2021-10-13

公开（公告）日：2024-07-05

公开（公告）号：CN114020768B

主分类号：G06F16/242

分类号：G06F16/242;G06F40/289;G06F40/30;G06F18/214;G06N3/044

优先权：

专利状态码：有效-授权

法律状态：2024.07.05#授权;2022.02.25#实质审查的生效;2022.02.08#公开

摘要：本发明公开了一种中文自然语言的SQL语句生成模型的构建方法及应用，包括：S1、搭建SQL语句生成模型；S2、将采集到训练集中的中文自然语言问题和相关数据库模式作为输入，对应的正确SQL语句作为输出，通过最小化SQL语句生成模型生成的SQL语句与正确SQL语句之间的差异，训练SQL语句生成模型。本发明通过结合不同数据列的类型信息，捕捉中文自然语言问题与数据库模式之间的对齐关系、隐含的指代关系，并通过有向图的方式对数据库模式显式定义的关系和自然语言问题与数据库模式间的链接关系进行了表示；并通过综合考虑非结构化数据和结构化数据之间的特点，将语义特征和关系特征结合起来联合编码，大大提高了SQL语句生成模型的准确率。

主权项：1.一种中文自然语言的SQL语句生成模型的构建方法，其特征在于，包括以下步骤：S1、搭建SQL语句生成模型；其中，所述SQL语句生成模型包括：分词拼接模块、语义编码模块、关系表示模块、关系编码模块和SOL解码模块；所述分词拼接模块用于对中文自然语言问题及相关数据库模式中的数据表命名和数据列命名进行分词操作后，结合数据列类型信息进行拼接，得到非结构化数据的中文自然语言问题与结构化数据的数据库模式的融合表示向量，并输出至所述语义编码模块中；所述语义编码模块用于采用自然语言预训练模型提取所述融合表示向量中的语义特征，得到中文自然语言问题及相关数据库模式中数据表命名和数据列命名的分词结果的语义编码向量，构成联合编码张量后，输出至所述关系编码模块中；所述关系表示模块用于将数据库模式中已定义的关系以及自然语言问题与数据库模式之间的链接关系表示为关系有向图；所述关系有向图中的顶点包括数据表命名、数据列命名和中文自然语言问题的分词结果；所述关系有向图中的边表示顶点间所存在的关系，包括顶点间存在的数据库定义关系、以及中文自然语言问题的分词结果与数据表命名或数据列命名之间的同义和相关关系，并输出至所述关系编码模块中；所述关系编码模块用于对所述联合编码张量和所述关系有向图的对齐关系进行联合编码，提取所述联合编码张量和所述关系有向图中的关系特征，得到关系编码张量，并输出至所述SQL解码模块；所述SOL解码模块用于基于语法树结构将所述关系编码张量解码成SQL语句；S2、将采集到训练集中的中文自然语言问题和相关数据库模式作为输入，对应的正确SQL语句作为输出，通过最小化所述SQL语句生成模型生成的SQL语句与正确SQL语句之间的差异，训练所述SQL语句生成模型。

全文数据：

权利要求：

百度查询：华中科技大学中文自然语言的SQL语句生成模型的构建方法及应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：具有伤口体积估计的伤口治疗系统

下一篇：一种基于NSGA-Ⅱ-GWO混合算法的风光容量配置优化方法

相关技术

具有伤口体积估计的伤口治疗系统

一种基于NSGA-Ⅱ-GWO混合算法的风光容量配置优化方法

一种叠合板板带模板固定装置

超高斯光束最优发射口径和最优超高斯阶数的计算方法

LNG冷能发电一体化绕管式换热装置、方法和发电系统

基于无监督学习的复合材料纤维信息提取方法、装置和介质

踏板装置及油雾收集系统

一种兼使用功能的空腔式楼梯构造及施工方法

一种楼地面薄层砂浆整平装置及其使用方法

MPCVD新型高功率谐振腔结构及方法

一种卧式双轮电差速舵轮总成

汽车的空调总成以及汽车

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

中文自然语言的SQL语句生成模型的构建方法及应用

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务