买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海冰鉴信息科技有限公司
摘要:本发明公开了一种建模样本特征编码方法、装置、设备及存储介质,涉及数学建模技术领域。所述方法是先将建模样本集合拆分为训练样本集合和测试样本集合,然后基于训练样本集合,统计得到各个样本标签类别的先验概率及各个样本特征类别在各个样本标签类别下的后验概率,并自定义权重函数,再然后针对在权重函数中的待优化参数的各个不同取值,基于前述数据对测试样本集合进行特征编码及建模,并得到对应的模型评价效果,再然后将与最优的模型评价效果对应的取值作为最优取值并代入权重函数,同时基于建模样本集合,统计得到新先后验概率,最后基于更新数据对建模样本集合进行特征编码,得到最终特征编码结果,可利于在构造模型时能发挥更好的效果。
主权项:1.一种建模样本特征编码方法,其特征在于,包括:获取建模样本集合,并将所述建模样本集合拆分为训练样本集合和测试样本集合,其中,在所述建模样本集合中的每个建模样本包含有至少一个样本特征并对应有一个样本标签;针对各个样本标签类别,根据所述训练样本集合统计得到对应的先验概率;针对各个样本特征类别,根据所述训练样本集合统计得到对应的且在所述各个样本标签类别下的后验概率;根据所述训练样本集合,自定义如下的权重函数λf: 式中,f表示待优化参数,表示所述训练样本集合的最低完全信任样本量,n表示所述训练样本集合的总样本量;针对所述待优化参数f的各个不同取值,按照如下方式对所述测试样本集合进行特征编码以得到对应的特征编码结果:针对所述各个样本特征类别以及所述各个样本标签类别,将在所述测试样本集合中的、属于对应样本特征类别的且相应样本标签属于对应样本标签类别的样本特征编码为λf×P2+1-λf×P1,其中,P1表示对应样本标签类别的先验概率,P2表示对应样本特征类别的且在对应样本标签类别下的后验概率;针对所述各个不同取值,基于对应的特征编码结果建立模型,并得到对应的模型评价效果;将与最优的模型评价效果对应的取值作为最优取值fopt,并代入所述权重函数λf,得到最优权重λfopt;针对所述各个样本标签类别,根据所述建模样本集合统计得到对应的新先验概率;针对所述各个样本特征类别,根据所述建模样本集合统计得到对应的且在所述各个样本标签类别下的新后验概率;根据所述最优权重λfopt,按照如下方式对所述建模样本集合进行特征编码以得到最终的特征编码结果:针对所述各个样本特征类别以及所述各个样本标签类别,将在所述建模样本集合中的、属于对应样本特征类别的且相应样本标签属于对应样本标签类别的样本特征编码为λfopt×P2′+1-λfopt×P1′,其中,P1′表示对应样本标签类别的新先验概率,P2′表示对应样本特征类别的且在对应样本标签类别下的新后验概率。
全文数据:
权利要求:
百度查询: 上海冰鉴信息科技有限公司 一种建模样本特征编码方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。