基于模拟训练的价格谈判策略模型学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京大学

摘要：本发明公开一种基于模拟训练的价格谈判策略模型学习方法，该方法以1基于机器学习的价格谈判对手模拟器构建、2基于虚拟环境的智能价格谈判策略优化、3价格谈判策略的迁移优化三大模块为特点，解决以往智能价格谈判领域的方案试错成本高、泛化性能差、策略易受攻击的问题。

主权项：1.一种基于模拟训练的价格谈判策略模型学习方法，其特征在于，通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现；价格谈判对手模拟环境构造模块中，从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据，并对交互数据进行学习；学习过程中，基于卖方视角对交互数据作状态和动作数据分析，并将状态数据和动作数据分别编码为S和a，编码完成后，根据时间先后顺序，将交互数据排列为对应的状态-动作序列，即S0,a0,S1,a1,…,ST序列；利用机器学习方法，从前述状态-动作序列中学习得到两类对手策略模型，即一般买家策略模型和对抗式对手策略模型；将这两类对手策略模型混合，混合后的策略模型作为价格谈判对手模拟器，该模拟器输入当前的状态数据与卖方执行的动作数据，并输出动作数据执行完成后的下一个状态数据；价格谈判对手模拟器构建完成后，卖家策略搜索模块利用策略搜索方法，与价格谈判对手模拟器交互，进行策略优化；策略迁移模块需要收集部署卖家策略搜索模块提供的策略后，交易平台产生的新的交互数据，用于对价格谈判对手模拟器的进一步更新，并通过卖家策略搜索模块重新搜索策略；价格谈判对手模拟器构建过程分为三步：首先，构建一般买家策略模型，该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式；其次，构建对抗式对手策略模型，该模型用于模拟电商交易平台中的恶意用户在价格谈判过程中的行为模式；最后，通过选择一个策略选择函数，将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型，作为价格谈判对手模拟器使用；构建一般买家策略模型时，采用神经网络作为一般买家策略模型，准备好状态-动作序列后，由于模型的输入为当前一步的状态和动作，输出为下一步状态，将从真实环境中收集到的交互数据、即状态-动作序列S0,a0,S1,a1,…,ST进行切分，划分出多个St,at,St+1的元组，其中St为策略模型当前一步的状态，at为当前一步的动作，St+1为策略模型输出的下一步状态；其中St,at作为一般买家策略模型的输入，St+1为输出；一般买家策略模型需要学习这个输入到输出的对应关系；使用监督学习方法对这个对应关系进行学习，具体方案如下：首先，对真实环境中的在线交易平台的历史交互数据进行划分，得到由多个St,at,St+1元组组成的数据集，St+1为St的下一个状态；然后，使用监督学习方法，将St,at作为样本，St+1作为预测目标，从划分后的数据集中训练出模拟器模型；最后，训练后模拟器模型根据输入的状态-动作对St,at，预测下一个状态St+1，作为价格谈判对手模拟器中的一般买家策略模型使用；使用对抗学习训练一般买家策略模型，具体方案如下：1建立若干神经网络作为卖方策略模型和价格谈判对手模型；2建立一个神经网络作为判别器，用于判别某条生成S0,a0,S1,a1,…,Sn序列的可信度；3通过卖方策略模型和价格谈判对手模型进行交互训练，生成一批S0,a0,S1,a1,…,Sn序列，用生成的S0,a0,S1,a1,…,Sn序列和交易平台产生的真实交互数据的S0,a0,S1,a1,…,Sn序列更新判别器，将交易平台产生的真实交互数据的S0,a0,S1,a1,…,Sn序列数据集记为D，训练过程中的生成的S0,a0,S1,a1,…,Sn序列数据集记为D’，更新目标如下：其中f为判别器，fτ,fτ′分别表示判别器在D中单条S0,a0,S1,a1,…,Sn序列和D’中单条S0,a0,S1,a1,…,Sn序列上输出的可信度；具体实施时，可令判别器f计算出fSt,at,St+1作为状态-动作-状态对St,at,St+1三元组置信度，并按照的方式计算判别器对单条序列输出的置信度；4用更新后的判别器给生成的S0,a0,S1,a1,…,Sn序列打分，即输出可信度，作为序列的期望奖励，用强化学习算法更新卖方策略模型和对抗式对手策略模型；5重复34两步，直到达到最大循环次数；6将通过以上过程训练完成后的价格谈判对手模型作为价格谈判对手模拟器中的一般买家策略模型使用；使用强化学习训练对抗式对手策略模型：1建立一个神经网络作为对抗式对手策略模型；2根据卖家需求或专业知识设计一个能有效反应卖家收益的收益函数，并将该函数取负作为对抗式对手策略模型的奖励函数；3使用对抗式对手策略模型和学习一般买家策略模型时得到的卖方策略模型交互得到M条状态-动作序列，状态-动作序列即S0,a0,S1,a1,…,Sn序列，并根据2中的奖励函数评估得到这些状态-动作序列对应的奖励函数值；4用3中的状态-动作序列和奖励函数值使用强化学习算法对对抗式对手策略模型进行更新；5重复34，直到达到最大迭代次数，并将最后得到的策略模型作为价格谈判对手模拟器中的对抗式对手策略模型；卖家策略搜索模块中，使用强化学习方法或演化学习算法进行策略搜索，寻找最优投放策略，具体如下：1建立一个神经网络作为卖家策略模型；2根据交易平台中卖家对价格谈判策略的需求，设计一个奖励函数，用于评估每次价格谈判的优劣程度；3使用建立的卖家策略模型与价格谈判对手模拟器交互，根据生成的交互数据计算出奖励函数值，并将观测到的状态和奖励函数信息返回；4使用演化算法或强化学习算法，结合上一步返回的状态和奖励函数信息，进行策略搜索来更新卖家策略模型；5重复3和4两步，直至价格谈判策略的期望奖励无法提升或达到最大循环次数；6将经过上述训练搜索过程后的价格谈判策略作为平台中卖方使用的价格谈判策略；卖家策略搜索模块中，通过强化学习算法实现策略搜索：1建立一个神经网络作为卖家策略模型；2用卖家策略模型和价格谈判对手模拟器交互，即先由从平台商品清单中采样一个商品信息作为价格谈判对手模拟器的输入，由价格谈判对手模拟器生成买方的初始状态，卖家策略模型以该初始状态作为输入，输出卖方的下一轮动作；价格谈判对手模拟器再将当前的状态和卖方动作作为输入，输出下一个状态，价格谈判策略再根据当前状态，输出卖方动作，重复以上过程直到达到终止条件；重复M次上述交互过程，得到M条轨迹，每条轨迹都可表述为S0,a0,S1,a1,…,Sn序列，并利用轨迹中的状态计算出奖励函数值；3用2中的轨迹使用强化学习算法对卖家策略模型进行更新；4重复23，直到达到最大迭代次数，并将最后得到的卖家策略模型作为策略搜索结果；策略迁移模块中，根据价格谈判策略在交易平台上部署后的结果，对价格谈判对手模拟器以及卖家策略模型进行增量式的更新，具体的实施方式如下：首先，将在策略搜索模块中进行策略搜索得到的最优价格谈判策略部署到真实的电商交易平台中进行应用；在应用的过程中记录所有由该价格谈判策略与真实用户交互生成的交互数据集D；其次，由卖家策略模型产生的新交互数据集D中与该策略在价格谈判对手模拟器中的期望表现相差大于阈值的数据筛选出来，并保存至一个新数据集Dbad中；然后，使用交互数据集D，对价格谈判对手模拟器和最优价格谈判策略，按照模拟器构建和策略搜索方法进行一次更新，并额外使用Dbad中的数据，按照模拟器构建和策略搜索方法进行一次更新，作为修正；再次，对模拟器和最优价格谈判策略，按照模拟器构建和策略搜索步骤定期使用重新整合的交互数据定期进行全量更新。

全文数据：

权利要求：

百度查询：南京大学基于模拟训练的价格谈判策略模型学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种汽车发动机机油过滤结构

下一篇：一种服装面料用展平装置

相关技术

一种汽车发动机机油过滤结构

一种服装面料用展平装置

一种垃圾炉烟尘废气排放检测装置

一种新型空气压缩机推力调整块

一种沼气发电用沼气预处理装置

一种镭射膜生产用背涂装置

一种基于PWM的智慧路灯控制装置及系统

一种高速内圆磨电主轴电机转子结构

一种自锁式液压顶缸

一种组合式口腔护理吸痰管

电缆耐压测试机构

一种饲料加工粉碎装置

策略相关技术

统一策略代理_慧与发展有限责任合伙企业_202210395962.6

备份策略的动态调整_慧与发展有限责任合伙企业_202311115990.9

引导不确定性-意识策略优化：结合无模型和基于模型的策略用于有效采样学习_辉达公司_202011310402.3

一种基于偏差校准和混合增强策略的弱监督图像分割方法_浙江浙能电力股份有限公司萧山发电厂_202411060761.6

一种复杂场景下道路照明策略的配置下发方法及系统_中节能晶和科技有限公司_202410776424.0

一种车辆加速踏板控制策略设计方法、系统、装置及介质_一汽奔腾汽车股份有限公司_202410790470.6

一种基于模拟退火结合回火策略的边界分析方法及装置_广州海洋地质调查局_202410440954.8

一种桥梁网络韧性评估及加固策略优化方法_兰州理工大学_202410678874.6

一种基于网络攻防博弈的防御策略选择方法及装置_安徽省产品质量监督检验研究院_202410816452.0

结合物理和生物策略的放射增敏剂PAICS及其制备和应用_西安交通大学医学院第一附属医院_202211227866.7

谈判相关技术

用于多国CITES履约谈判文档共享系统_国家林业和草原局竹子研究开发中心_202410053273.6

基于模拟训练的价格谈判策略模型学习方法_南京大学_202010640550.5

一种基于纳什谈判法的多虚拟电厂联合调度方法_国网江苏省电力有限公司盐城供电分公司_202210388049.3

一种基于协作谈判的多智能体强化学习方法_桂林电子科技大学_202410014873.1

基于Agent的智能谈判策略优化方法及系统_中国矿业大学(北京)_202410108055.8

基于Agent的智能谈判策略优化方法及系统_中国矿业大学(北京)_202410108055.8

基于谈判博弈的微电网群多主体共享储能容量配置方法_广东电网有限责任公司_202311631047.3

一种基于纳什谈判准则的人-车合作型博弈控制方法_南京航空航天大学_201910978296.7

基于纳什谈判理论的分布式供氢网和配电网合作规划方法_重庆大学_202310708538.7

一种基于情感分析的人机谈判方法_广西师范大学_202311099888.4

模型相关技术

车辆驱动系统的模型_上海科梁信息科技股份有限公司_202410735998.3

基于上下文模型的Instant-NGP模型压缩方法_上海交通大学_202410704702.1

一种基于NARX模型的大模型训练慢节点检测方法_天翼云科技有限公司_202410864138.X

增强多模态大语言模型视觉感知能力的方法、模型和装置_华中科技大学_202410716799.8

模型训练方法和基于模型的场景流估计方法_天津港(集团)有限公司_202411061324.6

电机轴承剩余寿命预测方法、系统、模型及模型训练方法_成都赛力斯科技有限公司_202411052755.6

模型训练方法、模型推理方法、电子设备及存储介质_上海壁仞科技股份有限公司_202410912446.5

牙齿模型套具及复层根管治疗术练习模型_北京大学口腔医学院_202410865138.1

用于模型解释的方法及装置_支付宝(杭州)信息技术有限公司_202210369552.4

用于分割的双级别模型_脸萌有限公司_202380018666.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于模拟训练的价格谈判策略模型学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务