首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于半监督学习和元学习的少样本NL2SQL方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本专利公开了一种基于半监督学习和元学习的少样本NL2SQL方法。本方法能在仅拥有少量标注数据的场景下,通过自训练框架的辅助对模型进行迭代训练,在这过程中逐步优化模型以及伪标签。首先对基础模型利用已有的少量标注数据进行热启动训练后,将其用于大量无标注数据的伪标签以及置信度预测,并使其与标签数据结合使对模型进行半监督学习。在半监督学习的过程中,同时引入元学习算法,它会在训练过程中进行任务采样,利用其特有任务训练机制来提升模型的快速学习以及迁移学习能力。最终得到的NL2SQL模型具有接近使用大量标注数据在有监督条件下训练的模型的准确率,同时针对新数据具有强大的少样本快速学习与微调的能力。

主权项:1.一种基于半监督学习和元学习的少样本NL2SQL方法,其特征在于,该方法包括以下步骤:步骤1构建NL2SQL模型,并进行参数初始化;步骤2利用标注数据进行热启动训练,直至准确率达到阈值;步骤3利用自学习框架对NL2SQL模型参数进行多轮训练和更新,直至模型参数收敛;其中,步骤1构建NL2SQL模型,具体如下,步骤1-1:将自然语言问句Q进行分词,得到Q={x1,x2,...,xn},其中x表示每个词,同时获取到Q所对应的目标表格T={H1,H2,...,Hm},而Hi=hi,Ci,其中Hi表示第i个列,hi表示其列名,Ci表示其包含的多个值,同时对于每个Hi识别它的类型ti,它分为文本类型,日期类型和数字类型Date,Text,Number;步骤1-2:在每个列Hi下,其中表示Ci下第j行的值,在输入到编码器前,每个首先会分词后与Q的单词进行滑窗式文本相似度匹配,在滑窗过程中的最高一次匹配得分作为每个的分数,取得分最高的前k作为剩下的集合步骤1-3:将分词后的自然语言问句Q和其对应表格T中的每个列Hi的信息依次输入到模型的编码器RoBERTa中,具体来说Hi的信息包含ti,hi,C'i,在同样进行分词后与Q的分词结果一起输入到编码器中,步骤1-4:利用步骤1-3得到的向量表示来进行六个子任务的预测,这六个子任务分别是:SELECT部分的选列预测,SELECT部分的聚合函数预测,WHERE部分条件个数的预测,WHERE部分每个条件的列,操作符和值,步骤1-5:综合每一组Q,Hi的预测结果,基于Q和查询目标表格T来最终预测完整的SQL结果,首先对于SC,直接取PSC得分最高的列作为结果;其次综合每个列对WN的预测,并利用关联度得分作为权重来进行带权相加,最终取概率分布中得分最高的数量作为WN的结果,记作n': 之后取前n'个PWC得分最高的列作为WC的结果;与此同时,对于SC的列,取该列所预测的聚合函数中概率最大者作为SA的结果;对于WC的列,取这些列各自所预测的操作符和值区间的概率最大者作为各自所在的条件中的操作符和值,即WO和WV的结果;由此结合预定义的SQL骨架,用子任务的结果进行填充最终形成完整的SQL:SELECT{SA}{SC}WHERE{WC}{WO}{WV}*,其中,{}表示一个待填充的槽位,*表示括号中的部分可能出现0次或多次,由此最终的SQL预测完成。

全文数据:

权利要求:

百度查询: 东南大学 一种基于半监督学习和元学习的少样本NL2SQL方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。