买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于分层问句生成与自博弈的数据扩充方法,首先设计了一个分层的问句生成模型,利用目标查询语句与当前查询语句,经过子句分解、预测子句集生成、子问句转换、问句组合四个步骤预测下一问句。在已有的多轮医疗Text‑to‑SQL数据基础上,借助自博弈思想循环生成新的数据。这种分层的问句生成可以更好地处理复杂SQL语句,生成更自然准确的问句,增加对话流的多样性。经自博弈生成的扩充数据集可以有效缓解医疗会诊场景下多轮Text‑to‑SQL数据集稀缺的问题,提高重训练后Text‑to‑SQL模型的泛化能力,进而提高模型性能。
主权项:1.一种基于分层问句生成与自博弈的数据扩充方法,其特征在于,包括如下步骤:步骤1、获取已有的多轮医疗Text-to-SQL数据集;步骤2、利用数据集中标准的SQL查询问句通过插槽的方法构造新的查询目标SQL语句G;步骤3、将输入的当前查询语句Qt及查询目标SQL语句G分别分解成当前子句集合St和目标子句集合SG,对比其差异后得到非目标序列和填补序列进而预测下一问句的SQL子句序列St+1;步骤4、将自然语言问句拆分为自然语言子问句,基于字符串匹配将SQL子句于自然语言子问句对齐,得到SQL子句-子问句对数据;步骤5、将SQL子句-子问句对数据作为输入,利用预训练的端到端的转换模型,预测的下一问句的SQL子句序列St+1,得到对应的下一问句自然语言子问句序列步骤6、根据SQL语句执行的顺序,将对应的自然语言子问句序列进行拼接,获得完整的所预测的下一句自然语言问句Ut+1,并通过预训练的端到端的Text-to-SQL模型,生成对应的SQL查询语句Qt+1;步骤7、将SQL查询语句Qt+1作为步骤3的输入,重复进行步骤3至步骤6的操作,获得最终的自然语言问句对应的SQL查询语句QT,以及完整的一组多轮对话问句文本及SQL语句数据;步骤8、将最终的自然语言问句对应的SQL查询语句QT利用步骤3的方法分解为最终查询子句集合ST,并对照目标子句集合SG计算子句的平均准确率,将其作为最终问句与目标查询的相似度评分scoreQT,G,根据需求设计准确率阈值,相似度评分较低时丢弃该轮次生成的数据;步骤9、将保留的数据作为输入,重复步骤2至步骤8所叙述的循环中,获取大量的高质量多轮Text-to-SQL训练数据。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 一种基于分层问句生成与自博弈的数据扩充方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。