买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中移动信息技术有限公司;中国移动通信集团有限公司
摘要:本申请提供了一种数据的高维特征获取方法、装置、设备及计算机存储介质。该数据的高维特征获取方法,获取原始数据;对原始数据进行预处理,得到处理后的数据;对处理后的数据进行独热编码,得到第一特征;基于机器学习算法,利用处理后的数据,生成第二特征;将第一特征和第二特征合并,并判断合并后的特征的重要度是否满足预设重要度阈值;在确定满足预设重要度阈值的情况下,复制扩充合并后的特征得到高维特征。根据本申请实施例,能够获取准确率高、特征区分显著的高维特征。
主权项:1.一种数据的高维特征获取方法,其特征在于,包括:获取原始数据;对原始数据进行预处理,得到处理后的数据;对所述处理后的数据进行独热编码,得到第一特征;基于机器学习算法,利用所述处理后的数据,生成第二特征;利用FM算法计算得到交叉项特征;将所述第一特征、所述第二特征和所述交叉项特征合并,并判断合并后的特征的重要度是否满足预设重要度阈值;在确定满足所述预设重要度阈值的情况下,复制扩充所述合并后的特征得到高维特征;其中,所述对所述处理后的数据进行独热编码,得到第一特征,包括:针对非数值型变量,使用独热编码对非数值型变量进行编码,使用i位属性寄存器来对特征的i个属性进行编码,针对数值型变量,使用独热编码对数值型变量进行编码,使用i位数值寄存器来对特征的i个数值进行编码,得到所述第一特征;其中,基于机器学习算法,利用所述处理后的数据,生成第二特征,包括:将数据集S分成两份,记做S1、S2,将S1作为训练集,利用adaboost对训练集训练模型,S2作为预测集,利用adaboost对S2进行预测,得到S2样本的概率,将取概率大于等于0.5的置为1,小于0.5置为0,当AUC大于0.6时,则保存模型,将保存的模型用于预测全量样本,取概率大于等于0.5的置为1,小于0.5置为0,置为新特征;使用训练后LR模型预测的全量样本,取概率大于等于0.5的置为1,小于0.5置为0,置为新特征。
全文数据:
权利要求:
百度查询: 中移动信息技术有限公司 中国移动通信集团有限公司 数据的高维特征获取方法、装置、设备及计算机存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。