Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工商大学;中国检验检疫科学研究院

摘要:本发明公布了一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,包括:采集真假蜂蜜样品并生成洋槐蜜数据;对洋槐蜜数据进行真假标注得到洋槐蜜数据集;通过特征选择得到低维洋槐蜜数据集;构建蜂蜜真假鉴别模型RF‑XGBoost;对模型进行参数优化和模型验证;利用训练好的模型对待测蜂蜜进行真伪鉴别。本发明方法可有效精准地鉴别洋槐蜜的真伪,避免人工查看谱图进行真伪鉴别的误差,有效提高了洋槐蜜真伪鉴别的准确率、均方根误差和AUC值,降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险,是一种鉴别洋槐蜜真伪的有效方法。

主权项:1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,包括:采集真假蜂蜜样品并生成洋槐蜜数据;对洋槐蜜数据进行真假标注得到洋槐蜜数据集;通过谱图特征选择得到低维洋槐蜜数据集;构建蜂蜜真假鉴别模型RF-XGBoost;对模型进行参数优化和模型验证;利用模型对待测蜂蜜进行真伪鉴别;具体包括以下步骤:A:采集和制备蜂蜜样品,包括真蜂蜜样品和假蜂蜜样品,并生成洋槐蜜数据;通过核磁共振技术,对蜂蜜样品进行NOESY1D检测,得到检测蜂蜜样品的一维氢信号谱图,进而对谱图进行数字化转换,得到多个反映洋槐蜜样品谱图特征的真假洋槐蜜数据记录;B:对洋槐蜜数据记录进行真假标注,得到洋槐蜜数据集;对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性,用于表示洋槐蜜为真蜂蜜或掺假蜂蜜;每一条记录按照一定规则再添加一个样本名称属性;将得到的洋槐蜜数据集记为D;洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特征;C:选择谱图特征;从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终特征集合,根据最终特征集合得到低维的洋槐蜜数据集,记为D′,用于模型的构建和训练;具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小,并对特征重要性程度大小进行排序;然后选取前p个特征为最终特征集合;包括如下步骤:C1:构建包含多棵决策树的随机森林;随机森林中的每一棵决策树均为二叉树,即为一个分类器;决策树中的每个节点表示洋槐蜜数据集的一个子集;节点纯度最高的特征作为最优特征;C2:特征重要性评估:计算每个特征Cj的重要性评分VIMj,即计算第j个特征Cj在随机森林所有决策树中节点分裂纯度的平均改变量;计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献;取平均值,得到每个特征的贡献程度即重要性程度,采用基尼Gini指数表示;Gini指数值越小表示集合中被选中的元素被分错的概率越小,也就是集合的纯度越高;通过式4计算得到Gini指数的值: 式中,GIm为决策树中节点m的Gini值;pmk代表节点m中样本属于第k类的概率估计值,K代表样本集的类别个数;类别分为真蜂蜜和假蜂蜜两个类别,即K=2,此时节点m的Gini指数为式5:GIm=2pm1-pm5其中,pm为洋槐蜜样本在节点m属于任意一类的概率估计值;设决策树分枝时,根据特征F是否取某一可能的值f,将洋槐蜜数据集合D分割成D1和D2两部分,即:D1={x,y∈D|Fx=f},D2=D-D1;其中x为洋槐蜜样本,y为样本x对应的标签值;则在特征F在取值f的条件下,集合D的基尼指数定义为式6: 其中,和由式5计算,|D|表示集合D中样本的个数;特征Cj在节点m中的重要性即决策树中的节点m分枝前后的Gini指数变化量,由式7计算得到: 其中,GIL和GIR分别表示分枝之后两个新节点的Gini指数;如果特征Cj在第l棵决策树中出现M次,则Cj在第l棵树的重要性表示为: 若随机森林共有n棵决策树,特征Cj在随机森林中的重要性表示为: 将所有求得的重要性评分进行归一化处理,得到重要性评分VIMj: C3:特征选取;包括:使用洋槐蜜数据集D中176个特征的重要性评分,根据重要性进行降序排序之后得到特征序列λλ1,λ2,…,λp,…,λ176,假定阈值为γ,当前p个特征的重要性之和大于等于γ,即时,选择λ1,λ2,…,λp为最终的特征集合,得到p+2维的洋槐蜜数据集D′;D:构建并训练洋槐蜜真伪鉴别模型,得到训练好的洋槐蜜真伪鉴别模型;D1:基于洋槐蜜数据集D′,利用scikit-learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型,记为RF-XGBoost;基于树集成模型XGBoost,对于每一个洋槐蜜样本xi,根据式11累加多棵树的预测值来计算该样本最终的预测值表示为: 式中,K是决策树的总数量;为样本xi的预测值;fkxi为决策树k对洋槐蜜样本xi的预测值;F是假设空间,表示为式12:F={fx=ωqx}q:R→T,ω∈RT12式中,qx表示将洋槐蜜样本x映射到决策树对应的叶子节点中,T是决策树中叶子节点的个数,ωqx是叶子节点对洋槐蜜样本x的预测值;使用目标函数求解每个叶子节点的最优预测值,使得目标函数最小的ω值即为每个叶子节点对洋槐蜜样本的最优预测值;目标函数Obj由损失函数和正则化项两部分组成,表示为式13: 其中,为损失函数,即训练误差,Ωfk为正则化项,用于控制模型的复杂度;其中的正则化项表示为式14: 式中,T为叶子节点个数;γ用于控制叶子节点个数;λ为通过控制叶子节点的分数,用于防止过拟合;D2:训练洋槐蜜真伪鉴别模型RF-XGBoost;将洋槐蜜数据集D′划分为训练数据集和测试数据集;使用训练数据集对RF-XGBoost进行模型训练,采用GridSearchCV模型调参方法对XGBClassifier方法中的参数进行优化,参数包括:决策树个数、决策树的深度、训练样本子采样比例、训练样本的特征采样比例、惩罚项系数、学习率,得到训练好的洋槐蜜真伪鉴别模型;E、对待鉴别的洋槐蜜样品进行NOESY1D检测,得到待测样品的一维氢信号谱图;并对谱图进行数字化转换,得到反映样品谱图特征的洋槐蜜数据;利用训练好的洋槐蜜真伪鉴别模型进行洋槐蜜真伪鉴别。

全文数据:

权利要求:

百度查询: 北京工商大学 中国检验检疫科学研究院 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。