买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京融七牛信息技术有限公司
摘要:本发明提出一种基于词嵌入和深度时序模型的自动建模系统,包括:挖掘模块、数据读取模块、数据预处理模块和模型训练模块,挖掘模块基于词嵌入和深度时序模型进行挖掘,生成大数据集群读取数据;数据读取模块从大数据集群读取数据;数据预处理模块对读取的数据进行处理,数据预处理模块进行如下操作:样本抽样、样本分区、特征筛选、缺失值填充和特征值映射;模型训练模块对于训练集数据使用不同的模型进行训练,得到训练集、验证集的模型预测结果。本发明的系统向量维度小,表达效率高,能够快速地计算相似性。
主权项:1.一种基于词嵌入和深度时序模型的自动建模系统,其特征在于,包括:挖掘模块、数据读取模块、数据预处理模块和模型训练模块,挖掘模块进行如下操作:格式转换,将获取的用户行为按用户进行组织,得到每个用户的行为序列;信息映射,利用GloVe方法将用户行为序列中的每一个点击行为加工成向量,进而将整个行为序列表示为多个固定维度向量的时序特征宽表;基于LSTM算法和GRU算法来进行序列挖掘,生成大数据集群读取数据,其中,LSTM、GRU都是由输入层、隐藏层、输出层构成的,上一层的输出是下一层的输入,最后一层输出层的结果是对标签的预测概率,输出层的输入同时也是隐藏层的输出是嵌入维度长的向量;序列挖掘,处理随时间动态变化的序列信息,基于当前的趋势,预测未来的行为;数据读取模块从大数据集群读取数据;数据预处理模块对读取的数据进行处理,数据预处理模块进行如下操作:样本抽样;样本分区;特征筛选统计每一维特征的KS和IV指标;缺失值填充;特征值映射;样本配比和概率校正;模型训练模块对于训练集数据使用不同的模型进行训练,得到训练集、验证集的模型预测结果。
全文数据:
权利要求:
百度查询: 北京融七牛信息技术有限公司 一种基于词嵌入和深度时序模型的自动建模系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。