首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种目标对象的控制方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳市腾讯网域计算机网络有限公司

摘要:本申请实施例提供了一种目标对象的控制方法及装置,涉及计算机技术领域,该方法包括:获取目标对象的应用场景图像帧序列;从所述应用场景图像帧序列中获得所述目标对象的特征序列;根据所述特征序列预测所述目标对象的目标动作序列;控制所述目标对象在后续应用场景中执行所述目标动作序列。本申请实施例针对不同的应用场景预测不同的目标动作序列,在目标动作序列决策上实现了灵活性以及自适应性;并预测的是目标动作序列,而不是海量的动作中的某个动作,通过一次预测结果,就可以使目标对象执行一系列动作,极大地压缩了动作空间,也缩短了根据特征序列预测目标动作序列的计算时间,并减少了目标对象在完成一个应用过程中的预测次数。

主权项:1.一种目标对象的控制方法,其特征在于,包括:获取目标对象的应用场景图像帧序列;从所述应用场景图像帧序列中获得所述目标对象的特征序列;将所述特征序列输入至动作序列决策器中,得到所述动作序列决策器根据所述特征序列从设定种类的动作序列中为所述目标对象选择的目标动作序列,所述目标动作序列的种类是根据所述应用的属性信息确定的,其中,所述动作序列是将虚拟对象在应用中将为了达到某一目标而进行的独立动作按照时间排序得到的;控制所述目标对象在后续应用场景中执行所述目标动作序列。

全文数据:一种目标对象的控制方法及装置技术领域本申请涉及计算机技术领域,尤其涉及一种目标对象的控制方法及装置。背景技术在应用中,用户需要操控虚拟对象,并控制虚拟对象执行特定的操作,以便推荐应用的进行。目前,确定虚拟对象的特定操作的方法通常是利用传统的非机器学习的方法,例如使用有限状态机进行硬编码的方法来确定虚拟对象的特定操作或者基于行为树的方法来确定虚拟对象的特定操作,这些方法的优点是能够快速确定虚拟对象需要执行的特定操作,运算开销要求小。但是现有技术中确定虚拟对象的特定操作的方法由于是使用固定的程序来实现特定操作的,所以灵活性较差,不能适用多种不同的应用场景,并且当应用场景的复杂程度增加时,会导致程序的开发成本以及维护成本的增加。综上所述,现有技术中不能提供一种灵活性高,适用于不同应用场景的确定虚拟对象的特定操作的方法。申请内容基于现有技术存在的问题,本申请实施例提供了一种目标对象的控制方法及装置,至少解决了现有技术中存在的问题。一方面,本申请实施例提供了一种目标对象的控制方法,包括:获取目标对象的应用场景图像帧序列;从所述应用场景图像帧序列中获得所述目标对象的特征序列;根据所述特征序列预测所述目标对象的目标动作序列;控制所述目标对象在后续应用场景中执行所述目标动作序列。一方面,本申请实施例提供了一种目标对象的控制装置,包括:获取单元,用于获取目标对象的应用场景图像帧序列;特征序列确定单元,用于从所述应用场景图像帧序列中获得所述目标对象的特征序列;目标动作序列确定单元,用于根据所述特征序列预测所述目标对象的目标动作序列;控制单元,用于控制所述目标对象在后续应用场景中执行所述目标动作序列。可选地,所述获取单元具体用于:将包含当前应用场景图像帧的多个连续的应用场景图像帧作为所述应用场景图像帧序列;所述特征序列确定单元具体用于:针对所述应用场景图像帧序列中的每一帧,根据所述应用场景图像帧中所述目标对象在所述应用中的局部操作区域确定第一特征;根据各个第一特征排序形成第一特征序列,并将所述第一特征序列作为所述目标对象的特征序列。可选地,所述特征序列确定单元还用于:针对所述应用场景图像帧序列中的每一帧,根据所述应用场景图像帧中所述目标对象在所述应用中的全局操作区域确定第二特征;根据各个第二特征排序形成第二特征序列,并将所述第一特征序列以及所述第二特征序列作为所述目标对象的特征序列。可选地,所述特征序列确定单元还用于:针对当前应用场景图像帧,根据所述目标对象在所述应用中的状态信息确定第三特征;将所述第一特征序列、所述第二特征序列以及所述第三特征作为所述目标对象的特征序列。可选的,所述目标动作序列确定单元具体用于:将所述特征序列输入至动作序列决策器中,得到所述动作序列决策器根据所述特征序列从设定种类的动作序列中为所述目标对象选择的目标动作序列,其中所述动作序列决策器是对所述目标对象进行深度强化学习训练得到的,所述目标动作序列的种类是根据所述应用的属性信息确定的。可选的,所述目标动作序列确定单元具体用于:将所述特征序列输入到所述动作序列决策器的神经网络模型的卷积单元中,得到第一目标特征;根据所述第一目标特征的状态值函数以及所述第一目标特征的动作优势函数确定第二目标特征;根据所述第二目标特征确定所述目标对象的目标动作序列。可选的,所述目标动作序列为下列动作序列中的任一个:目标对象移动动作序列;目标对象攻击动作序列;目标对象提升应用等级动作序列;目标对象技能升级动作序列;目标对象获得电子产品动作序列。可选的,所述目标动作序列为所述目标对象攻击动作序列;所述控制单元具体用于:若确定所述目标对象未处于撤退状态,则确定攻击目标是否为设定目标;若确定所述攻击目标为设定目标,则确定攻击技能的优先级,并执行最高优先级的攻击技能。可选的,所述获取单元还用于:根据执行所述目标动作序列后的应用场景图像帧确定所述目标对象的应用场景图像帧序列。可选的,所述装置还包括训练单元,所述训练单元具体用于:获取训练样本,所述训练样本是根据所述目标对象在训练阶段的应用场景图像帧序列以及初始动作序列决策器确定的,所述动作序列决策器的输出结果为训练动作序列,所述训练样本至少包括所述目标对象执行所述训练动作序列的激励值;根据所述训练样本的激励值调整所述初始动作决策控制器输出的动作序列,得到所述动作序列决策器。一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述目标对象的控制方法的步骤。一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行目标对象的控制方法的步骤。通过获取目标对象所在的应用场景图像帧序列,并通过应用场景图像帧序列得到目标对象的特征序列,并通过该目标对象的特征序列进行预测该目标对象将要执行的目标动作序列,最后控制该目标对象完成预测的目标动作序列;本申请实施例中,通过目标对象的应用场景来确定目标对象的将要执行的目标动作序列,与现有技术相比,能够适应不同的应用场景,即本申请实施例针对不同的应用场景,确定不同的特征序列,并根据该特征序列得到不同应用场景预测的目标动作序列,在目标动作序列决策上实现了灵活性以及自适应性;并且,本申请实施例预测的是设定种类的动作序列中的一个,而不是现有技术中的海量的动作中的某个动作,通过一次预测结果,就可以使目标对象执行一系列动作,极大地压缩了动作空间,也缩短了根据特征序列预测目标动作序列的计算时间,并减少了目标对象在完成一个应用过程中的预测次数。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种应用场景示意图;图2为本申请实施例提供的一种目标对象的控制方法的流程示意图;图3为本申请实施例提供的一种应用场景图像帧序列的示意图;图4a为本申请实施例提供的一种完整的游戏玩家操作游戏应用的操作界面的示意图;图4b为本申请实施例提供的一种局部操作区域的示意图;图5a为本申请实施例提供的一种完整的游戏玩家操作游戏应用的操作界面的示意图;图5b为本申请实施例提供的一种全局操作区域的放大示意图;图6为本申请实施例提供的一种目标对象的状态信息的示意图;图7为本申请实施例提供的一种深度强化学习方法的流程示意图;图8为本申请实施例提供的一种深度强化学习方法的流程示意图;图9为本申请实施例提供的一种目标对象移动动作序列的示意图;图10a为本申请实施例提供的一种角色b与战队A中的任一角色a在同一局部操作界面的示意图;图10b为本申请实施例提供的一种控制角色b到下路去的过程示意图;图10c为本申请实施例提供的一种控制角色b攻击角色a的示意图;图11a为本申请实施例提供的一种进入托管模式后角色b向角色a发起攻击的示意图;图11b为本申请实施例提供的一种角色b撤退的过程示意图;图12为本申请实施例提供的一种目标对象的控制装置的结构示意图;图13为本申请实施例提供的一种计算机设备的结构示意图。具体实施方式为了使本申请的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。为了方便理解,下面对本申请实施例中涉及的名词进行解释。应用:一种可执行程序,该可执行程序可以通过控制应用中的一个虚拟对象来推动该可执行程序的进行,该应用可以为MOBAMOBA,multiplayeronlinebattlearena,多人在线战斗竞技场游戏游戏,也可以为RTSReal-TimeStrategyGame,即时战略游戏,也可以为虚拟现实应用,例如导航应用等。虚拟对象:应用中的可操控对象,通过可操控对象的行为来推动应用的进程,若应用为MOBA游戏或者RTS游戏,虚拟对象为游戏中的可控制游戏角色,若应用为虚拟现实应用,虚拟对象为虚拟现实应用中的虚拟现实角色。本申请中的目标对象指的就是应用中的虚拟对象。AI:ArtificialIntelligence,亦称机器智能,是指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通电脑实现的智能,AI也作为虚拟对象中的一种。动作序列:虚拟对象可以进行的操作为独立动作,区别于独立动作,将虚拟对象在应用中为了达到某一目标而进行的独立动作按照时间序列进行排序,得到动作序列。在具体实践过程中,本申请的申请人发现,现有技术中针对应用中的虚拟对象,例如AI,通常会采用非机器学习的方法来确定虚拟对象在应用中的操作内容,即虚拟对象在应用中的动作。非机器学习的方法主要包括有限状态机方法以及行为树方法。有限状态机方法表示的是“设定数量”的状态以及在这些状态之间进行转换Transation和动作Action等行为的数学模型。对于简单的状态,可以通过当前虚拟对象的状态,确定出虚拟对象的动作。但是对于复杂的状态机,例如游戏中角色的行为,会更多更复杂的状态,比如Idle闲散状态、Attack攻击状态、Run跑步状态、Injured受伤状态等等,并且状态之间切换是有条件的,在Idle状态时可以切换到Run、Attack,但游戏角色在Injured攻攻击状态时,是不可以直接切换到idle的,还需要满足某些条件,比如受击动画结束后,才可以进行idle状态切换。同样的,虽然行为树方法相较于有限状态机方法更具有灵活性,但是对于复杂的状态仍不能很好的根据状态预测虚拟对象的动作。由于机器学习具有自学习功能、以及高速寻找优化解的能力,所以本申请的申请人构思了一种使用机器学习方法来预测虚拟对象的目标动作的方法,利用机器学习解决上述复杂状态不能很好的预测虚拟对象的动作的问题。本申请的申请人根据虚拟对象对应的应用场景确定虚拟对象的特征,并作为机器学习的输入,机器学习的输出为虚拟对象的一个预测动作。但是本申请的申请人又发现,在复杂应用中,例如MOBA游戏或者RTS游戏,由于游戏画面华丽,应用场景元素繁多,可操作动作丰富等带来的状态空间和动作空间都很巨大,直接使用该方案的确定虚拟对象的预测动作的难度较大。本申请的申请人进一步地的改进了使用机器学习确定虚拟对象的预测动作的方法,在获取了虚拟对象的应用场景图像帧序列后,确定虚拟对象的特征序列,也就是表征当前虚拟对象状态的特征数据,根据虚拟对象的特征序列能够确定虚拟对象的目标动作序列,也就是说,在应用中将为了达到某一目标而进行的独立动作按照时间序列进行排序得到的动作序列作为输出结果,能够极大的压缩动作的种类空间,减少了机器学习的难度,并进一步的缩短了机器学习的训练时间。本申请实施例中的目标对象的控制方法可以应用于如图1所示的应用场景,在该应用场景中包括终端101、应用服务器102。终端101是具备网络通信能力的电子设备,该电子设备可以是智能手机、平板电脑或便携式个人计算机等。终端101上安装有应用程序,比如游戏类应用程序、导航类应用程序等。用户在使用终端101的应用程序时,比如启动游戏应用程序打游戏时,终端101发送数据包至应用服务器102,应用服务器102返回响应数据包至终端101。终端101通过无线网络与应用服务器102连接,应用服务器102是一台服务器或若干台服务器组成的服务器集群或云计算中心。用户在执行安装在终端101上的应用程序时,将应用程序中的任一虚拟对象作为目标对象,终端101将目标独享的应用场景图像帧序列发送至应用服务器102,应用服务器102在应用场景图像帧序列中提取目标对象的特征序列,并根据目标对象的特征序列确定目标对象的目标动作序列,将目标对象的目标动作序列发送给终端101,在终端101中执行该目标动作序列。基于图1所示的应用场景图,本申请实施例提供了一种目标对象的控制方法的流程,该方法的流程可以由目标对象的控制装置执行,如图2所示,包括以下步骤:步骤S201,获取目标对象的应用场景图像帧序列。具体地,目标对象为应用中的任一可操控对象,示例性的,应用为游戏应用,则目标对象为任一可操控游戏角色,包括在游戏中的玩家角色或者游戏中的敌方角色。也就是说,目标对象可以为游戏中的玩家角色,也可以是游戏中的人工智能角色,例如与玩家角色进行对抗的角色。在本申请实施例中,获取目标对象的应用场景图像帧序列就是获取至少一个包括目标对象的应用场景的图像帧,这些场景帧是按照顺序进行排列的,形成应用场景图像帧序列。一种可选的实施例,如图3所示,若应用为游戏应用,目标对象为玩家角色,则可以认为图3中的至少一个包括玩家角色的游戏应用场景作为应用场景图像帧序列。一种可选的实施例,将包括当前应用场景图像帧的多个连续的应用图像帧作为应用场景图像帧序列,例如当前应用场景图像帧为应用中的第10帧,则将第10帧以及第10帧之前的设定数目个连续的应用图像帧作为应用场景图像帧序列。一种可选的实施例,将当前应用场景图像帧、当前应用场景图像帧前的设定数目的应用图像帧以及当前应用场景图像帧后的多个应用图像帧作为应用场景图像帧序列。一种可选的实施例,根据经验值可知,将当前应用场景图像帧以及当前应用场景图像帧前的连续3个应用场景图像帧作为应用场景图像帧序列,即示例性的,若当前应用场景图像帧为应用中的第10帧,则将应用中的第7帧、第8帧、第9帧以及第10帧作为应用场景图像帧序列。步骤S202,从所述应用场景图像帧序列中获得所述目标对象的特征序列。具体的,在获取了应用场景图像帧序列后,从应用场景图像帧序列中确定目标对象的特征序列,该序列用于表征目标对象在应用场景中的特征,该特征可以为颜色特征、纹理特征或者是空间特征等,也可以是目标对象在应用场景中的其它特征,例如目标对象的在应用场景中的状态等。一种可选的实施例,由于应用场景的复杂和多样性,应用场景图像帧中包括的特征信息较多,可以通过对应用场景图像帧中的部分特征分别提取,并按照顺序进行排序,得到目标对象的特征序列。可选的,可以从应用场景帧序列中的每一帧中提取第一特征,第一特征用于表征目标对象在应用中的局部操作区域的特征。目标对象在应用中的局部操作区域可以理解为在用户使用在终端上的应用时,用户可以看到的包括目标对象的操作区域,并且该操作区域包含的区域面积是所有应用中的部分区域。例如,应用为游戏应用时,目标对象为游戏玩家控制的游戏角色,局部操作区域为游戏玩家操控游戏角色的最大化区域,该最大化区域为游戏界面中的一部分区域。如图4a以及图4b所示,在图4a表示的是完整的游戏玩家操作游戏应用的操作界面,图4b表示的是局部操作区域。在确定了各第一特征后,按照应用场景帧的顺序将各第一特征进行排序,形成第一特征序列,该第一特征序列为目标对象的特征序列。一种可选的实施例,除了针对应用场景图像帧序列中的每一帧,确定第一特征之外,还可以根据目标对象在应用中的全局操作区域确定应用场景图像帧序列中的每一帧的第二特征,第二特征用于表征目标对象在应用中的全局操作区域的特征。目标对象在应用中的局部操作区域可以理解为在用户使用在终端上的应用时,用户可以看到的包括目标对象的全部操作区域,并且该操作区域包含的区域面积是应用中的所有区域。例如,应用为游戏应用时,目标对象为游戏玩家控制的游戏角色,局部操作区域为游戏玩家操控游戏角色的最大化区域,而全局操作区域是指游戏玩家操作游戏角色的小区域,该小区域表示区域范围为该游戏应用的所有区域,可以认为局部操作区域就是对全局操作区域中的部分区域进行放大,并展示给游戏玩家的。如图5a以及图5b所示,在图5a表示的是完整的游戏玩家操作游戏应用的操作界面,在图5a的左上部分表示全局操作区域,在图5b表示的是全局操作区域的放大示意图。在确定了各第二特征后,按照应用场景帧的顺序将各第二特征进行排序,形成第二特征序列,可以将第二特征序列作为目标对象的特征序列。一种可选的实施例中,除了针对应用场景图像帧序列中的每一帧,确定第一特征,以及根据目标对象在应用中的全局操作区域确定应用场景图像帧序列中的每一帧的第二特征之外,还可以通过目标对象在当前应用场景图像帧中的状态信息来确定第三特征。目标对象在应用中的状态信息可以表征目标对象在应用中的等级、技能状态以及生存状态等,例如应用为游戏应用,状态信息可以为游戏角色的游戏等级,可以用LV-N来表示,N大于等于1,即当前游戏角色的游戏等级为LV1等;状态信息也可以包括游戏角色的生存状态,可以用血量来表示;状态信息还可以包括游戏技能状态,比如游戏技能1是否可用,游戏技能2是否可能等等。如图6所示,图6中的游戏角色的血量代表了目标对象的生存状态,由图6可知目标对象当前的游戏级别为1级,图6右下角的三个图标表示的是目标对象的技能等级。可选的,在本发明实施例中,将根据应用场景图像帧序列确定的第一特征序列作为目标对象的特征序列,或者将根据应用场景图像帧序列确定的第一特征序列以及第二特征序列作为目标对象的特征序列,或者将根据应用场景图像帧序列确定的第一特征序列以及第二特征序列,以及根据当前应用场景图像帧确定的第三特征作为目标对象的特征序列,也就是说,将四帧图像的第一特征进行排序并组合,将四帧图像的第二特征进行排序并组合并且将当前应用场景图像帧确定的第三特征一起作为目标对象的特征序列。步骤S203,根据所述特征序列预测所述目标对象的目标动作序列。具体的,根据确定的目标对象的特征序列来预测目标对象下一步的目标动作序列。一种可选的实施例中,本申请采用机器学习的方法来确定目标对象的目标动作序列,也就是说,将目标对象的特征序列作为机器学习的输入,将目标对象的目标动作序列作为机器学习的输出,机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。示例性的,机器学习的方法包括监督学习方法、无监督学习方法以及强化学习方法等。一种可选的实施例中,将特征序列输入到动作序列决策器中,动作序列决策器就是通过机器学习的方法确定的,具体的,动作序列决策器是通过深度强化学习这一机器学习的方法来确定的,动作序列决策器可输出的目标动作序列的种类是根据应用的属性信息来确定的,也就是说,应用的属性不同,在应用中为了完成某种任务并推进应用进程而执行的多个独立动作构成的动作序列不同。示例性的,若应用为MOBA游戏,则在游戏中,为了争取游戏的胜利,通常需要进行移动、攻击、升级技能等操作,所以将多个独立的移动动作构成动作序列,或者将多个独立的攻击动作构成动作序列,或者将多个独立的升级技能动作构成动作序列;若应用为导航类应用,则在导航中,为了顺利进行导航,一般需要进行移动、加速、减速等操作,则将多个独立的移动动作构成动作序列,将多个独立的加速动作构成动作序列,将多个独立的减速动作构成动作序列;若应用为视频类应用,为了能够进行视频的播放,一般需要选择类别播放、快进、后退、发射弹幕等操作,则将多个独立的选择类别播放动作构成动作序列,将多个独立的快进动作构成动作序列,将多个独立的后退动作构成动作序列,将多个独立的发射弹幕动作构成动作序列。在本申请中,深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,是一种更接近人类思维方式的人工智能方法。具体的,在本申请中,动作序列决策器包括神经网络模型,神经网络模型又包括卷积单元,为了得到目标对象的目标动作序列,则将特征序列输入到动作序列决策器的神经网络模型的卷积单元,通过卷积单元能够提取目标特征,根据卷积单元提取的目标特征从设定种类的动作序列中确定目标动作序列。一种可选的实施例中,为了更好的提取特征,将特征序列中的第一特征序列、第二特征序列以及第三特征分别输入到卷积单元中,通过不同的卷积单元的处理,得到目标特征。示例性的,以深度强化学习方法DQN为例进行说明,如图7所示,在本申请中,第一特征序列输入至卷积单元中,并依次通过第一卷积层、第二卷积层、第一池化层、第三卷积层、第二池化层以及第四卷积层得到第一部分的目标特征;将第二特征序列输入至卷积单元中,并依次经过第五卷积层以及第六卷积层得到第二部分的目标特征,第三部分的目标特征就是第三特征,再将第一部分的目标特征、第二部分的目标以及第三部分的目标特征输入到全连接层,就能够得到目标动作序列,其中,在卷积单元中,卷积层用于产生更多的特征向量,池化层用于归一化,全连接层用于输出特征向量对应的目标动作序列。一种可选的实施例中,还可以采用基于竞争构架Q网络的机器学习的方法--DuelingDQN算法来确定目标动作序列,DuelingDQN算法将卷积层提取的抽象特征分流到两个支路中:其中上路代表状态值函数,表示静态的状态环境本身具有的价值;下路代表依赖状态的动作优势函数,表示选择某个动作序列额外带来的价值。最后这两路再聚合到一起得到目标动作序列。具体的,将特征序列输入到动作序列决策器的神经网络模型的卷积单元中,得到第一目标特征;根据第一目标特征的状态值函数以及第一目标特征的动作优势函数确定第二目标特征;根据第二目标特征确定目标对象的目标动作序列。示例性的,如图8所示,在本申请中,第一特征序列输入至卷积单元中,并依次通过第一卷积层、第二卷积层、第一池化层、第三卷积层、第二池化层以及第四卷积层得到第一部分的目标特征;将第二特征序列输入至卷积单元中,并依次经过第五卷积层以及第六卷积层得到第二部分的目标特征,第三部分的目标特征就是第三特征,再将第一部分的目标特征、第二部分的目标以及第三部分的目标特征输入到全连接层后,分别分流到两个支路上,一个是上路一个是下路,并通过上路以及下路的两路结果确定目标动作序列。也就是说,在本发明实施例中,将所述特征序列输入至动作序列决策器中,得到所述动作序列决策器根据所述特征序列从设定种类的动作序列中为所述目标对象选择的目标动作序列。步骤S204,控制所述目标对象在后续应用场景中执行所述目标动作序列。具体的,在确定了需要执行的目标动作序列后,则控制目标对象在后续的应用场景中执行目标动作序列。一种可选的实施例,在确定了目标动作序列后,能够确定将目标动作序列分解为每帧应用场景图像帧中可执行的动作,加载可执行的动作对应的应用场景图像帧,并执行每帧应用场景图像帧可执行的动作,从而控制目标对象完成目标动作序列。为了更好的说明目标对象执行的目标动作序列的具体动作内容,在本发明实施例中,以应用为MOBA游戏为例进行说明,可以认为在MOBA游戏中,通过动作序列决策器输出的目标动作序列的种类为下列动作序列中的任一个:目标对象移动动作序列、目标对象攻击动作序列、目标对象提升应用等级动作序列、目标对象技能升级动作序列、目标对象获得电子产品动作序列。在MOBA游戏中,目标对象将对方的核心建筑物攻破即可赢取胜利,而在攻击路线的选择上可以进行上路攻击、中路攻击以及下路攻击,我方高地指的是目标对象的核心建筑物区域。目标对象移动动作序列可以包括到MOBA游戏的上路、中路、下路、我方高地共4个区域的连续动作,即目标对象到上路的动作序列就是从当前位置移动到上路,同理目标对象到中路的动作序列就是从当前位置移动到中路,目标对象到下路的动作序列就是从当前位置移动到下路,目标对象到我方高地的动作序列就是从当前位置移动到我方高地。具体的,如图9所示,在图9中,我方高地用一个高塔来表示,目标对象的移动序列动作就是朝上路移动,朝中路移动或者朝下路移动。目标对象攻击动作序列可以包括边打边跑攻击动作序列、始终保持自己在最远位置攻击动作序列、当同屏中我方游戏角色数量大于等于敌方游戏角色数量时主动攻击动作序列、紧随我方游戏角色中心攻击动作序列、以及撤退,远离敌方单位后回城动作序列。通过上述内容可以看出,本申请在撤退动作序列以外都存在攻击行为,而攻击行为除了普通攻击行为外,还可以通过释放游戏角色的技能进行攻击,则可选的,当控制目标对象执行目标对象攻击动作序列时,若确定目标对象未处于撤退状态,则确定攻击目标是否为设定目标,例如敌方的主要游戏角色;若确定攻击目标为设定目标,则确定攻击技能的优先级,并执行最高优先级的攻击技能,例如目标对象有攻击技能1、攻击技能2以及攻击技能3,攻击技能3的优先级最高,所以优先释放攻击技能3。目标对象提升应用等级动作序列是指为了提升目标对象的等级的连续动作,例如攻打野怪等,具体的,可以分为攻打有利于提升应用等级的野怪动作序列,例如攻打能够给角色的普通攻击附带减速效果和真实伤害的灼烧效果的野怪的动作序列,例如红BUFF怪;或者攻打能够给角色提供冷却缩减以及巨额的提升魔法值回升速度的野怪的动作序列,例如蓝BUFF怪;或者攻打能够整个战队获得电子产品增益以及状态增益的对象的动作序列,例如主宰或者暴君;只攻击我方区域的野怪动作序列等。目标对象技能升级动作序列指的是目标对象技能升级的动作序列,例如目标对象有技能1、技能2以及技能3,这些技能可以为攻击技能,也可以是其它技能。技能1的升级可以是从技能1的第一级别升级到第二级别直到满级别,技能2的升级可以是技能2的第一级别升级到第二级别直到满级别,技能3的升级可以是技能3的第一级别升级到第二级别直到满级别。目标对象获得电子产品动作序列指的是目标对象在MOBA游戏优势状况下进行获得电子产品动作序列,例如稳健发育出装动作序列;以及目标对象在MOBA游戏劣势情况下进行获得电子产品动作序列,例如劣势局出装动作序列,电子产品可以是MOBA游戏中的装备或者其它虚拟商品。通过上述内容可以确定,本申请一种可选的实施例中包括5个大类的目标动作序列,其中5个大类的目标动作序列中又包括17个具体的目标动作序列,通过上述目标动作序列,可以完成该MOBA游戏。在控制目标对象在后续的应用场景中执行目标动作序列后,根据目标动作序列后的应用场景图像帧确定所述目标对象的应用场景图像帧序列。也就是说,在控制目标对象执行完目标动作序列后,根据完成目标动作序列时的应用场景图像帧确定目标对象的应用场景图像帧序列,然后再根据目标对象的应用场景图像帧序列预测目标对象的目标动作序列。示例性的,在执行完到中路的动作序列后,将到中路时的应用场景图像帧以及到该应用场景图像帧前的连续三帧应用场景图像帧构成目标对象的特征序列,并根据目标对象的特征序列确定目标对象的下一个目标动作序列。在发明实施例中,动作序列决策器是对目标对象进行深度强化学习训练得到的,具体包括:获取训练样本,训练样本是根据目标对象在训练阶段的应用场景图像帧序列以及初始动作序列决策器确定的,动作序列决策器的输出结果为训练动作序列,训练样本至少包括目标对象执行训练动作序列的激励值;根据训练样本的激励值调整初始动作决策控制器输出的动作序列,得到动作序列决策器。在本申请中,初始动作序列决策器配置了不同的目标动作序列,初始动作序列决策器的输出结果为训练动作序列,初始动作序列决策器配置的目标动作序列的种类是根据应用的属性来确定的;将目标对象在训练阶段的应用场景图像帧序列输入至初始动作序列决策器,能够得到训练动作序列;根据执行训练动作序列得到的激励值,即很好的推进了应用进程,激励值为正值,若不能推进应用进行,则激励值为负值,通过激励值调整初始动作决策控制器输出的动作序列,得到动作序列决策器。具体的,为了更好的解释训练过程,在此先解释深度强化学习的一些概念,深度强化学习是将Q-learning和卷积神经网络CNN结合在一起,当深度强化学习被引入到应用的时候,深度神经网络的输出是某个应用状态下某个概率最大的动作,其训练过程中产生的大量数据往往是计算机执行应用的过程,比如动作、状态以及动作带来的奖励信息形成的经验元组。模型学习的结果是最终的应用的状态和策略的非线性表示。具体的,深度强化学习的步骤为:Step1:用一个神经网络模型作为Q值的网络,参数为ω,其中Q即为Qs,a,指的是目标对象在某一时刻的s状态下,采取动作序列a动作能够获得收益的期望,在训练过程中,动作序列是提前进行配置的,也就是说,根据应用的属性能够确定出设定种类的动作序列,动作序列a为设定种类的动作序列中的人一个:Qs,a,w≈Qπs,a公式1Step2:在Q值中使用均方差来定义目标函数以及损失函数,其中目标函数用另一个神经网络模型来确定:Lw=E[r+γ·maxa'Qs',a',w-Qs,a,w2]公式2公式2中的s',a'表示的下一个状态和动作序列。Step3:计算参数ω关于损失函数的梯度:Step4:使用随机梯度下降算法SGD实现优化目标。有了上面的梯度,而可以从深度神经网络模型中进行计算,因此,就可以使用SGD随机梯度下降来更新参数,从而得到最优的Q值。上述训练的数据是从记忆库中随机提取的,记忆库记录着每一个状态下的动作序列,奖励,和下一个状态的结果。记忆库的大小有限,当记录满了数据之后,下一个数据会覆盖记忆库中的第一个数据。上述实施例中的深度强化学习方法只是示例性说明,其它深度强化学习方法,例如A3CActor-CriticAlgorithm,元素评论算法,UNREALUNsupervisedREinforcementandAuxiliaryLearning,无监督强化和辅助学习算法,PPOProximalPolicyOptimization,近端策略优化算法算法同样适用于上述确定目标动作序列的方法。为了更好的解释本申请实施例,下面结合具体的实施场景描述本申请实施例提供的一种目标对象的控制方法,该方法由目标对象的控制装置执行,在本申请中,目标对象为MOBA游戏中的用户使用的游戏角色的对抗角色,可以理解为,在MOBA游戏中,任一用户使用的游戏角色为战队A中的角色,则目标对象为战队B中的任一角色。本申请实施例中,通过确定目标对象的目标动作序列,实现与战队A中的游戏角色进行对抗的目的,具体的过程为,如图10a~图10c所示:在进行MOBA游戏时,当用户选择了战队A中的任一角色a后,目标对象选择为战队B中的角色b;在MOBA游戏开始后,将角色b的当前应用场景图像帧以及当前应用场景图像帧前的连续三帧应用场景图像帧输入至动作序列决策器中,得到角色b的目标动作序列为到下路去,则控制角色b移动到下路去,并在到达下路后,将角色b的当前应用场景图像帧以及当前应用场景图像帧前的连续三帧应用场景图像帧继续输入至动作序列决策器中,得到在到达下路后的目标动作序列为攻击动作序列,则控制角色b向战队A中的任一角色进行攻击,并在攻击后,再将角色b的当前应用场景图像帧以及当前应用场景图像帧前的连续三帧应用场景图像帧继续输入至动作序列决策器中,得到攻击动作序列后的下一个目标动作序列,直到游戏结束。在图10a中,目标对象即角色b与战队A中的任一角色a在同一局部操作界面中,得到角色b的目标动作序列为到下路去,图10b表示的就是控制角色b到下路去的过程,在到达下路后,确定角色b的目标动作序列为攻击动作序列,如图10c所示,角色b对战队A中的任一角色a进行攻击。在另一中可选的实施例中,当用户在使用游戏过程中,选择了托管模式,则为了能够更好的代替用户进行游戏,并尽量取得胜利,使用本申请的方法来确定用户使用的游戏角色目标动作序列。具体的,在用户选择托管模式时刻,确定了当前游戏场景图像帧,并将托管模式时刻前的连续三帧一并作为游戏场景图像帧序列输入至动作序列决策器中,得到游戏角色b的目标动作序列为攻击,则控制游戏角色b对角色a进行攻击;将游戏角色b攻击后的当前应用场景图像帧以及当前应用场景图像帧前的连续三帧应用场景图像帧继续输入至动作序列决策器中,得到下一个目标动作序列为撤退,再将角色b的当前应用场景图像帧以及当前应用场景图像帧前的连续三帧应用场景图像帧继续输入至动作序列决策器中,得到攻击动作序列后的下一个目标动作序列,直到游戏结束,具体过程如图11a以及图11b所示。在图11a中,在进入托管模式后,角色b向角色a发起攻击,在图11b中,角色b开始撤退。上述两个实施例只是以目标对象为用户使用的游戏角色的对抗角色以及目标对象为托管模式的用户使用的游戏角色为例进行说明的,处理上述实施例中的场景,本申请使用的场景还可以是目标对象为进行应用自动化测试时,在自动化测试中的测试对象,或者在辅助应用开发进行平衡性测试,通过与目标对象来进行对抗验证新设计的应用角色是否符合平衡性要求;并且使用本申请中的目标对象的控制方法能够解决应用初期上线的冷启动问题。基于相同的技术构思,本申请实施例提供了一种目标对象的控制装置,如图12所示,该装置1200包括:获取单元1201,用于获取目标对象的应用场景图像帧序列;特征序列确定单元1202,用于从所述应用场景图像帧序列中获得所述目标对象的特征序列;目标动作序列确定单元1203,用于根据所述特征序列预测所述目标对象的目标动作序列;控制单元1204,用于控制所述目标对象在后续应用场景中执行所述目标动作序列。可选地,所述获取单元1201具体用于:将包含当前应用场景图像帧的多个连续的应用场景图像帧作为所述应用场景图像帧序列;所述特征序列确定单元1202具体用于:针对所述应用场景图像帧序列中的每一帧,根据所述应用场景图像帧中所述目标对象在所述应用中的局部操作区域确定第一特征;根据各个第一特征排序形成第一特征序列,并将所述第一特征序列作为所述目标对象的特征序列。可选地,所述特征序列确定单元1202还用于:针对所述应用场景图像帧序列中的每一帧,根据所述应用场景图像帧中所述目标对象在所述应用中的全局操作区域确定第二特征;根据各个第二特征排序形成第二特征序列,并将所述第一特征序列以及所述第二特征序列作为所述目标对象的特征序列。可选地,所述特征序列确定单元1202还用于:针对当前应用场景图像帧,根据所述目标对象在所述应用中的状态信息确定第三特征;将所述第一特征序列、所述第二特征序列以及所述第三特征作为所述目标对象的特征序列。可选的,所述目标动作序列确定单元1203具体用于:将所述特征序列输入至动作序列决策器中,得到所述动作序列决策器根据所述特征序列从设定种类的动作序列中为所述目标对象选择的目标动作序列,其中所述动作序列决策器是对所述目标对象进行深度强化学习训练得到的,所述目标动作序列的种类是根据所述应用的属性信息确定的。可选的,所述目标动作序列确定单元1203具体用于:将所述特征序列输入到所述动作序列决策器的神经网络模型的卷积单元中,得到第一目标特征;根据所述第一目标特征的状态值函数以及所述第一目标特征的动作优势函数确定第二目标特征;根据所述第二目标特征确定所述目标对象的目标动作序列。可选的,所述目标动作序列为下列动作序列中的任一个:目标对象移动动作序列;目标对象攻击动作序列;目标对象提升应用等级动作序列;目标对象技能升级动作序列;目标对象获得电子产品动作序列。可选的,所述目标动作序列为所述目标对象攻击动作序列;所述控制单元1204具体用于:若确定所述目标对象未处于撤退状态,则确定攻击目标是否为设定目标;若确定所述攻击目标为设定目标,则确定攻击技能的优先级,并执行最高优先级的攻击技能。可选的,所述获取单元1201还用于:根据执行所述目标动作序列后的应用场景图像帧确定所述目标对象的应用场景图像帧序列。可选的,所述装置还包括训练单元1205,所述训练单元1205具体用于:获取训练样本,所述训练样本是根据所述目标对象在训练阶段的应用场景图像帧序列以及初始动作序列决策器确定的,所述动作序列决策器的输出结果为训练动作序列,所述训练样本至少包括所述目标对象执行所述训练动作序列的激励值;根据所述训练样本的激励值调整所述初始动作决策控制器输出的动作序列,得到所述动作序列决策器。基于相同的技术构思,本申请实施例提供了一种计算机设备,如图13所示,包括至少一个处理器1301,以及与至少一个处理器连接的存储器1302,本申请实施例中不限定处理器1301与存储器1302之间的具体连接介质,图13中处理器1301和存储器1302之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。在本申请实施例中,存储器1302存储有可被至少一个处理器1301执行的指令,至少一个处理器1301通过执行存储器1302存储的指令,可以执行前述的目标对象的控制方法中所包括的步骤。其中,处理器1301是计算机设备的控制中心,可以利用各种接口和线路连接终端设备的各个部分,通过运行或执行存储在存储器1302内的指令以及调用存储在存储器1302内的数据,从而获得客户端地址。可选的,处理器1301可包括一个或多个处理单元,处理器1301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1301中。在一些实施例中,处理器1301和存储器1302可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。处理器1301可以是通用处理器,例如中央处理器CPU、数字信号处理器、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器1302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1302可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器RandomAccessMemory,RAM、静态随机访问存储器StaticRandomAccessMemory,SRAM、可编程只读存储器ProgrammableReadOnlyMemory,PROM、只读存储器ReadOnlyMemory,ROM、带电可擦除可编程只读存储器ElectricallyErasableProgrammableRead-OnlyMemory,EEPROM、磁性存储器、磁盘、光盘等等。存储器1302是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1302还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和或数据。基于相同的技术构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行目标对象的控制方法的步骤。本领域内的技术人员应明白,本申请的实施例可提供为方法、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备系统、和计算机程序产品的流程图和或方框图来描述的。应理解可由计算机程序指令实现流程图和或方框图中的每一流程和或方框、以及流程图和或方框图中的流程和或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

权利要求:1.一种目标对象的控制方法,其特征在于,包括:获取目标对象的应用场景图像帧序列;从所述应用场景图像帧序列中获得所述目标对象的特征序列;根据所述特征序列预测所述目标对象的目标动作序列;控制所述目标对象在后续应用场景中执行所述目标动作序列。2.如权利要求1所述的方法,其特征在于,所述获取目标对象应用场景图像帧序列,包括:将包含当前应用场景图像帧的多个连续的应用场景图像帧作为所述应用场景图像帧序列;从所述应用场景图像帧序列中获得所述目标对象的特征序列,包括:针对所述应用场景图像帧序列中的每一帧,根据所述应用场景图像帧中所述目标对象在所述应用中的局部操作区域确定第一特征;根据各个第一特征排序形成第一特征序列,并将所述第一特征序列作为所述目标对象的特征序列。3.如权利要求2所述的方法,其特征在于,所述从所述应用场景图像帧序列中获得所述目标对象的特征序列,还包括:针对所述应用场景图像帧序列中的每一帧,根据所述应用场景图像帧中所述目标对象在所述应用中的全局操作区域确定第二特征;根据各个第二特征排序形成第二特征序列,并将所述第一特征序列以及所述第二特征序列作为所述目标对象的特征序列。4.如权利要求3所述的方法,其特征在于,所述从所述应用场景图像帧序列中获得所述目标对象的特征序列,还包括:针对当前应用场景图像帧,根据所述目标对象在所述应用中的状态信息确定第三特征;将所述第一特征序列、所述第二特征序列以及所述第三特征作为所述目标对象的特征序列。5.如权利要求4所述的方法,其特征在于,所述根据所述特征序列预测所述目标对象的目标动作序列,包括:将所述特征序列输入至动作序列决策器中,得到所述动作序列决策器根据所述特征序列从设定种类的动作序列中为所述目标对象选择的目标动作序列,其中所述动作序列决策器是对所述目标对象进行深度强化学习训练得到的,所述目标动作序列的种类是根据所述应用的属性信息确定的。6.如权利要求5所述的方法,其特征在于,所述将所述特征序列输入至动作序列决策器中,得到所述目标对象的目标动作序列,包括:将所述特征序列输入到所述动作序列决策器的神经网络模型的卷积单元中,得到第一目标特征;根据所述第一目标特征的状态值函数以及所述第一目标特征的动作优势函数确定第二目标特征;根据所述第二目标特征确定所述目标对象的目标动作序列。7.如权利要求6所述的方法,其特征在于,所述目标动作序列的种类包括下列动作序列中的任一个:目标对象移动动作序列;目标对象攻击动作序列;目标对象提升应用等级动作序列;目标对象技能升级动作序列;目标对象获得电子产品动作序列。8.如权利要求7所述的方法,其特征在于,所述目标动作序列为所述目标对象攻击动作序列;所述控制所述目标对象在后续应用场景中执行所述目标动作序列,包括:若确定所述目标对象未处于撤退状态,则确定攻击目标是否为设定目标;若确定所述攻击目标为设定目标,则确定攻击技能的优先级,并执行最高优先级的攻击技能。9.如权利要求1所述的方法,其特征在于,所述控制所述目标对象在后续应用场景中执行所述目标动作序列后,还包括:根据执行所述目标动作序列后的应用场景图像帧确定所述目标对象的应用场景图像帧序列。10.如权利要求5所述的方法,其特征在于,所述动作序列决策器是对所述目标对象进行深度强化学习训练得到的,包括:获取训练样本,所述训练样本是根据所述目标对象在训练阶段的应用场景图像帧序列以及初始动作序列决策器确定的,所述动作序列决策器的输出结果为训练动作序列,所述训练样本至少包括所述目标对象执行所述训练动作序列的激励值;根据所述训练样本的激励值调整所述初始动作决策控制器输出的动作序列,得到所述动作序列决策器。11.一种目标对象的控制装置,其特征在于,所述装置包括:获取单元,用于获取目标对象的应用场景图像帧序列;特征序列确定单元,用于从所述应用场景图像帧序列中获得所述目标对象的特征序列;目标动作序列确定单元,用于根据所述特征序列预测所述目标对象的目标动作序列;控制单元,用于控制所述目标对象在后续应用场景中执行所述目标动作序列。12.如权利要求11所述的装置,其特征在于,所述装置还包括训练单元,所述训练单元用于:将所述特征序列输入至动作序列决策器中,得到所述动作序列决策器根据所述特征序列从设定种类的动作序列中为所述目标对象选择的目标动作序列,其中所述动作序列决策器是对所述目标对象进行深度强化学习训练得到的,所述目标动作序列的种类是根据所述应用的属性信息确定的。13.如权利要求12所述的装置,其特征在于,所述训练单元具体用于:将所述特征序列输入到所述动作序列决策器的神经网络模型的卷积单元中,得到第一目标特征;根据所述第一目标特征的状态值函数以及所述第一目标特征的动作优势函数确定第二目标特征;根据所述第二目标特征确定所述目标对象的目标动作序列。14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~10任一权利要求所述方法的步骤。15.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~10任一所述方法的步骤。

百度查询: 深圳市腾讯网域计算机网络有限公司 一种目标对象的控制方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。