买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杉数科技(北京)有限公司;上海杉数网络科技有限公司;广州杉数科技有限公司;杉数科技(南京)有限公司;第五范式(深圳)科技有限公司;杉数科技(苏州)有限公司
摘要:本发明公开了一种基于大语言模型的自动化特征工程方法和装置。其方法包括:S1,获取原始表格数据集并划分为训练数据集和预测数据集;S2,对原始表格数据集进行提示词设计,并指定一个适用于预测的机器学习模型和对应的评估指标;S3,将S1和S2获取的数据输入一个具有通用领域知识的大语言模型;S4,引导大语言模型自动构造出新特征和对应代码,并自动运行代码评估新特征,如果提高了评估指标的性能则保留,将当前表格数据集替换为增加新特征的表格数据集,否则丢弃掉;S5,重复步骤S4,直到达到评估指标的性能目标或达到指定的迭代次数停止迭代输出迭代结果。本发明的方案可以挖掘出传统方法难以发现的潜在特征,优化提升特征构造的效果。
主权项:1.一种基于大语言模型的自动化特征工程方法,其特征在于,包括步骤:S1,获取经过预处理的原始表格数据集,将所述原始表格数据集划分为训练数据集和预测数据集;S2,对所述原始表格数据集进行提示词设计,并指定一个适用于预测的机器学习模型和对应的评估指标;S3,将所述原始表格数据集、设计的提示词以及指定的机器学习模型和对应的评估指标输入一个具有通用领域知识的大语言模型;S4,引导所述大语言模型自动构造出一个或一组新特征和对应代码,并自动运行所述代码执行如下操作:基于构造的新特征修改当前表格数据集得到增加了新特征的训练数据集和预测数据集,接着使用增加了新特征的训练数据集训练所述机器学习模型,得到使得所述评估指标性能最优的训练后的机器学习模型,然后使用增加了新特征的预测数据集评估所述训练后的机器学习模型的预测性能,如果增加了新特征的预测数据集提高了所述评估指标的性能,则保留构造的所述新特征,并将当前表格数据集替换为增加了所述新特征的表格数据集,否则丢弃所述新特征;S5,重复所述步骤S4,直到达到所述评估指标的性能目标或达到指定的迭代次数停止迭代,引导所述大语言模型输出每次迭代构造的新特征和对应代码,并给出保留或丢弃的选择结果,以及输出多次迭代累计保留下来的全部新特征和增加了保留下来的全部新特征的表格数据集。
全文数据:
权利要求:
百度查询: 杉数科技(北京)有限公司 上海杉数网络科技有限公司 广州杉数科技有限公司 杉数科技(南京)有限公司 第五范式(深圳)科技有限公司 杉数科技(苏州)有限公司 一种基于大语言模型的自动化特征工程方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。