首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于模拟训练的价格谈判策略模型学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京大学

摘要:本发明公开一种基于模拟训练的价格谈判策略模型学习方法,该方法以1基于机器学习的价格谈判对手模拟器构建、2基于虚拟环境的智能价格谈判策略优化、3价格谈判策略的迁移优化三大模块为特点,解决以往智能价格谈判领域的方案试错成本高、泛化性能差、策略易受攻击的问题。

主权项:1.一种基于模拟训练的价格谈判策略模型学习方法,其特征在于,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现;价格谈判对手模拟环境构造模块中,从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即S0,a0,S1,a1,…,ST序列;利用机器学习方法,从前述状态-动作序列中学习得到两类对手策略模型,即一般买家策略模型和对抗式对手策略模型;将这两类对手策略模型混合,混合后的策略模型作为价格谈判对手模拟器,该模拟器输入当前的状态数据与卖方执行的动作数据,并输出动作数据执行完成后的下一个状态数据;价格谈判对手模拟器构建完成后,卖家策略搜索模块利用策略搜索方法,与价格谈判对手模拟器交互,进行策略优化;策略迁移模块需要收集部署卖家策略搜索模块提供的策略后,交易平台产生的新的交互数据,用于对价格谈判对手模拟器的进一步更新,并通过卖家策略搜索模块重新搜索策略;价格谈判对手模拟器构建过程分为三步:首先,构建一般买家策略模型,该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式;其次,构建对抗式对手策略模型,该模型用于模拟电商交易平台中的恶意用户在价格谈判过程中的行为模式;最后,通过选择一个策略选择函数,将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型,作为价格谈判对手模拟器使用;构建一般买家策略模型时,采用神经网络作为一般买家策略模型,准备好状态-动作序列后,由于模型的输入为当前一步的状态和动作,输出为下一步状态,将从真实环境中收集到的交互数据、即状态-动作序列S0,a0,S1,a1,…,ST进行切分,划分出多个St,at,St+1的元组,其中St为策略模型当前一步的状态,at为当前一步的动作,St+1为策略模型输出的下一步状态;其中St,at作为一般买家策略模型的输入,St+1为输出;一般买家策略模型需要学习这个输入到输出的对应关系;使用监督学习方法对这个对应关系进行学习,具体方案如下:首先,对真实环境中的在线交易平台的历史交互数据进行划分,得到由多个St,at,St+1元组组成的数据集,St+1为St的下一个状态;然后,使用监督学习方法,将St,at作为样本,St+1作为预测目标,从划分后的数据集中训练出模拟器模型;最后,训练后模拟器模型根据输入的状态-动作对St,at,预测下一个状态St+1,作为价格谈判对手模拟器中的一般买家策略模型使用;使用对抗学习训练一般买家策略模型,具体方案如下:1建立若干神经网络作为卖方策略模型和价格谈判对手模型;2建立一个神经网络作为判别器,用于判别某条生成S0,a0,S1,a1,…,Sn序列的可信度;3通过卖方策略模型和价格谈判对手模型进行交互训练,生成一批S0,a0,S1,a1,…,Sn序列,用生成的S0,a0,S1,a1,…,Sn序列和交易平台产生的真实交互数据的S0,a0,S1,a1,…,Sn序列更新判别器,将交易平台产生的真实交互数据的S0,a0,S1,a1,…,Sn序列数据集记为D,训练过程中的生成的S0,a0,S1,a1,…,Sn序列数据集记为D’,更新目标如下: 其中f为判别器,fτ,fτ′分别表示判别器在D中单条S0,a0,S1,a1,…,Sn序列和D’中单条S0,a0,S1,a1,…,Sn序列上输出的可信度;具体实施时,可令判别器f计算出fSt,at,St+1作为状态-动作-状态对St,at,St+1三元组置信度,并按照的方式计算判别器对单条序列输出的置信度;4用更新后的判别器给生成的S0,a0,S1,a1,…,Sn序列打分,即输出可信度,作为序列的期望奖励,用强化学习算法更新卖方策略模型和对抗式对手策略模型;5重复34两步,直到达到最大循环次数;6将通过以上过程训练完成后的价格谈判对手模型作为价格谈判对手模拟器中的一般买家策略模型使用;使用强化学习训练对抗式对手策略模型:1建立一个神经网络作为对抗式对手策略模型;2根据卖家需求或专业知识设计一个能有效反应卖家收益的收益函数,并将该函数取负作为对抗式对手策略模型的奖励函数;3使用对抗式对手策略模型和学习一般买家策略模型时得到的卖方策略模型交互得到M条状态-动作序列,状态-动作序列即S0,a0,S1,a1,…,Sn序列,并根据2中的奖励函数评估得到这些状态-动作序列对应的奖励函数值;4用3中的状态-动作序列和奖励函数值使用强化学习算法对对抗式对手策略模型进行更新;5重复34,直到达到最大迭代次数,并将最后得到的策略模型作为价格谈判对手模拟器中的对抗式对手策略模型;卖家策略搜索模块中,使用强化学习方法或演化学习算法进行策略搜索,寻找最优投放策略,具体如下:1建立一个神经网络作为卖家策略模型;2根据交易平台中卖家对价格谈判策略的需求,设计一个奖励函数,用于评估每次价格谈判的优劣程度;3使用建立的卖家策略模型与价格谈判对手模拟器交互,根据生成的交互数据计算出奖励函数值,并将观测到的状态和奖励函数信息返回;4使用演化算法或强化学习算法,结合上一步返回的状态和奖励函数信息,进行策略搜索来更新卖家策略模型;5重复3和4两步,直至价格谈判策略的期望奖励无法提升或达到最大循环次数;6将经过上述训练搜索过程后的价格谈判策略作为平台中卖方使用的价格谈判策略;卖家策略搜索模块中,通过强化学习算法实现策略搜索:1建立一个神经网络作为卖家策略模型;2用卖家策略模型和价格谈判对手模拟器交互,即先由从平台商品清单中采样一个商品信息作为价格谈判对手模拟器的输入,由价格谈判对手模拟器生成买方的初始状态,卖家策略模型以该初始状态作为输入,输出卖方的下一轮动作;价格谈判对手模拟器再将当前的状态和卖方动作作为输入,输出下一个状态,价格谈判策略再根据当前状态,输出卖方动作,重复以上过程直到达到终止条件;重复M次上述交互过程,得到M条轨迹,每条轨迹都可表述为S0,a0,S1,a1,…,Sn序列,并利用轨迹中的状态计算出奖励函数值;3用2中的轨迹使用强化学习算法对卖家策略模型进行更新;4重复23,直到达到最大迭代次数,并将最后得到的卖家策略模型作为策略搜索结果;策略迁移模块中,根据价格谈判策略在交易平台上部署后的结果,对价格谈判对手模拟器以及卖家策略模型进行增量式的更新,具体的实施方式如下:首先,将在策略搜索模块中进行策略搜索得到的最优价格谈判策略部署到真实的电商交易平台中进行应用;在应用的过程中记录所有由该价格谈判策略与真实用户交互生成的交互数据集D;其次,由卖家策略模型产生的新交互数据集D中与该策略在价格谈判对手模拟器中的期望表现相差大于阈值的数据筛选出来,并保存至一个新数据集Dbad中;然后,使用交互数据集D,对价格谈判对手模拟器和最优价格谈判策略,按照模拟器构建和策略搜索方法进行一次更新,并额外使用Dbad中的数据,按照模拟器构建和策略搜索方法进行一次更新,作为修正;再次,对模拟器和最优价格谈判策略,按照模拟器构建和策略搜索步骤定期使用重新整合的交互数据定期进行全量更新。

全文数据:

权利要求:

百度查询: 南京大学 基于模拟训练的价格谈判策略模型学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。