买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江苏方天电力技术有限公司;东南大学
摘要:本发明公开了基于限制性约束的带噪NL2SQL方法和装置,包括以下步骤:1NL2SQL知识库构建步骤,构造由查询问题、SQL查询语句以及表结构一一对应的数据条目,初步构建知识库;2带噪NL2SQL数据集构建步骤,用于根据NL2SQL知识库划分训练集、验证集以及测试集,人工引入噪声标签,构建带噪NL2SQL数据集;3带噪NL2SQL模型构建步骤,用于分别构建带噪子任务编码模型、无噪子任务编码模型;为了消除带噪子任务对其他任务的影响,构建限定性约束的方法缓解噪声对模型的影响;4带噪NL2SQL模型训练步骤,用于构建损失函数,构建优化函数。本发明的模型和最近一些先进的方法进行了比较,实验结果显示本发明的方法较之有了很大的提升。
主权项:1.基于限制性约束的带噪NL2SQL方法,其特征在于,包括以下步骤:aNL2SQL知识库构建步骤,利用用户的查询问题,人工编写SQL查询语句,构造由查询问题、SQL查询语句以及表结构一一对应的数据条目,初步构建知识库;b带噪NL2SQL数据集构建步骤,用于根据NL2SQL知识库划分训练集、验证集以及测试集,人工引入噪声标签,构建带噪NL2SQL数据集;c带噪NL2SQL模型构建步骤,用于分别构建带噪子任务编码模型、无噪子任务编码模型;为了消除带噪子任务对其他任务的影响,构建限定性约束的方法缓解噪声对模型的影响;d带噪NL2SQL模型训练步骤,用于构建损失函数,构建优化函数;带噪子任务编码模型具体为:带噪子任务编码模型的优化目标只包含SELECT部分的子任务SELECT-AGG,其中,SELECT_agg=“Max”,使用BERT进行编码的到相应的文本表示Eagg;根据Eagg预测聚合操作SELECT-AGG,取值范围为{“NONE”,“MAX”,“MIN”,“COUNT”,“SUM”,“AVG”},Wsagg为权重; 无噪子任务编码模型具体为:无噪子任务编码模型的优化目标包含WHERE部分的子任务WHERE-COL、WHERE-NUM、WHERE-OP、WHERE-VALUE以及SELECT部分的子任务SELECT-COL,使用BERT进行编码的到相应的文本表示E;根据E预测WHERE子任务,首先预测列名COL使用的数量WHERE-NUM,为权重,公式如下: 在预测完列名COL的数量之后,接下来需要预测对应数量使用的是哪些列名WHERE-COL,取值范围为当前数据表中的所有列名,分类概率分布为权重,公式如下: 在选定使用的列名COL后,还需要预测列名对应的比较操作WHERE-OP,取值范围为{“”,“”,“=”,“!=”,“=”,“=”},假设当前选中的列名COL为数据表T中的hi,为权重,分类概率分布公式如下: 通过对原始的自然语言查询进行序列标注,标注中包含START和END两个特殊标签,在这两个标签之间的文本就是获取的条件值;利用这个整体特征表达,对其构建分类模型,用于判断当前文本类型的VAL值构成的候选条件是否在SQL语句中,以及为权重,二分类问题取值范围为{0,1}; 根据E预测列名SELECT-COL,取值范围为当前数据表中的所有列名,Wscol为权重,分类概率分布公式如下:
全文数据:
权利要求:
百度查询: 江苏方天电力技术有限公司 东南大学 基于限制性约束的带噪NL2SQL方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。