首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的直播商品实时调度系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京掌心互动网络科技有限公司

摘要:本发明公开了一种基于深度强化学习的直播商品实时调度系统及方法,该系统包括:直播数据获取与预处理模块,用于实时数据采集和处理,提取互动与销售特征;历史数据库管理模块,用于数据的存储和查询;决策策略构建与评估模块,用于创建商品品类选择策略框架,并通过奖励机制评估策略效果;深度强化学习网络模块,用于数据特征分析和策略优化;智能决策模块,结合统计模型分析和强化学习网络模型输出,执行商品品类决策和动作选择;在线学习与模型动态更新模块,用于响应市场变化,持续提升决策质量。与现有技术相比,本发明能够利用历史销售和实时直播数据特征,结合统计模型和强化学习,实现电商直播中多品类商品的有效调度,优于现有技术。

主权项:1.一种基于深度强化学习的直播商品实时调度方法,其特征在于,包括直播数据获取与预处理模块,用于实时数据采集和处理,提取互动与销售特征;历史数据库管理模块,用于数据的存储和查询;决策策略构建与评估模块,用于创建商品品类选择策略框架,并通过奖励机制评估策略效果;深度强化学习网络模块,用于数据特征分析和策略优化;智能决策模块,结合统计模型分析和强化学习网络模型输出,执行商品品类决策和动作选择;在线学习与模型动态更新模块,用于响应市场变化,持续提升决策质量;包括如下方法步骤:S1、通过直播平台的API接口,获取直播间的实时数据;S2、对采集到的直播间实时数据执行初步处理操作,构建原始数据集;S3、对原始数据集进行深度处理,所述深度处理包括直接特征提取、派生特征计算与文本数据深度特征提取;S4、对深度处理后的原始数据集进行数据连接整合,并对整合后的数据集进行数据清洗、异常值处理、格式转换和归一化;S5、对S4集中处理后的数据,所述处理后的数据包括每次单个商品的直播销售活动结束后,所产生的环境特征数据以及相应的时间戳,存储于历史数据库中;S6、根据直播电商中商品品类的决策过程,进行动作编码并构建动作空间;S7、根据S6动作编码结果,每次单个商品的直播销售过程中涉及的动作参数将被编码,并依据S5所述的环境特征数据及相应时间戳,统一存入历史数据库;S8、设立奖励函数以衡量动作策略的效果,所述奖励函数包括即时奖励、延迟奖励与综合奖励;S9、对应时间戳,将奖励值、环境特征数据与动作参数进行对齐,存储入历史数据库,同时,动作参数所产生的新的环境特征数据也记录在此条时间戳的历史数据库中;S10、构建DeepQ-Network模型网络;S11、采用多重综合奖励时间差分误差值对S10中DeepQ-Network模型添加损失函数;S12、利用S9中历史数据库训练DQN网络;S13、将S12训练好的DQN网络部署到直播间;S14、构建历史销售数据统计模型,依据历史销售数据统计模型,确定每月每天直播间首先售卖的商品品类;S15、利用训练好的DeepQ-Network模型网络进行实际调度,网络输出在当前环境下价值最大化的行动策略,即直播间最应该推销的下一个商品品类;S16、利用在线学习策略与即时奖励,对DQN网络模型进行实时更新与策略调整;S17、对DQN网络模型进行再训练,奖励函数选择为综合奖励。

全文数据:

权利要求:

百度查询: 南京掌心互动网络科技有限公司 一种基于深度强化学习的直播商品实时调度系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。