买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请公开了一种模型训练方法,包括:获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。由于该命名实体模型不仅考虑了实体候选项,还考虑了实体候选项所在的整个语句的信息,该信息与实体候选项类别具有较高关联性,可以为实体分类提供帮助,因而提高了实体分类准确率。本申请还公开了命名实体识别方法、装置、设备及介质。
主权项:1.一种模型训练方法,其特征在于,包括:获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;根据所述训练语句中实体的预测类别和类别标签,确定所述命名实体识别模型的损失函数,并根据所述损失函数调整所述命名实体识别模型的参数直到满足训练结束条件;所述命名实体识别模型包括输入层、特征提取层以及输出层,其中,所述特征提取层用于通过多层双向注意力机制网络学习所述训练语句中实体的上下文信息得到所述训练语句中各个词位的编码表示,并向所述输出层输入初始词位的编码表示和或实体词位的编码表示。
全文数据:模型训练方法、命名实体识别方法、装置、设备及介质技术领域本申请涉及数据处理领域,尤其涉及一种模型训练方法、命名实体识别方法、装置、设备及存储介质。背景技术随着互联网技术的不断发展,产生了大量的数据。这些数据可以通过数据挖掘的方式被应用于许多场景,例如商品推荐、知识库构建等等。数据挖掘的一个关键即在于对数据进行命名实体识别NamedEntityRecongition。命名实体识别是自然语言处理中的一项基础任务,具体是指从文本中识别出命名性指称项,为关系抽取等任务做铺垫。目前,业界提供了一种基于弱监督技术的识别方法,首先通过名词短语发现等语言规则发现候选项,然后计算候选项与每个实体类的相似度,将该相似度与预设的相似度阈值进行比较,根据比较结果对候选项进行实体分类,从而实现实体识别。上述方法识别准确率较低,难以满足用户需求。因此,提供一种识别准确率高的命名实体识别方法成为一个亟待解决的问题。发明内容本申请提供了一种模型训练方法,在训练命名实体识别模型时,基于训练语句中实体上下文信息确定实体的预测类别,基于该预测类别和真实的类别标签调整模型参数,如此,训练得到的模型能够基于实体上下文信息进行实体类型预测,提高了准确率。本申请还提供了命名实体识别方法、装置、设备、介质及计算机程序。本申请第一方面提供一种模型训练方法,所述方法包括:获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。本申请第二方面提供一种命名实体识别方法,所述方法包括:获取待识别语句;将所述待识别语句输入命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中的实体以及基于所述待识别语句中实体的上下文信息确定的所述实体的预测类别。本申请第三方面提供一种模型训练装置,所述装置包括:第一获取模块,用于获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;第二获取模块,用于将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;训练模块,根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。本申请第四方面提供一种命名实体识别装置,所述装置包括:获取模块,用于获取待识别语句;识别模块,用于将所述待识别语句输入命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中实体的上下文信息确定的所述实体以及所述实体的预测类别。本申请第五方面提供一种设备,所述设备包括处理器以及存储器:所述存储器用于存储计算机程序;所述处理器用于根据所述计算机程序执行本申请第一方面所述的模型训练方法或第二方面所述的命名实体识别方法。本申请第六方面提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请第一方面所述的模型训练方法或第二方面所述的命名实体识别方法。本申请第七方面提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面所述的模型训练方法或第二方面所述的命名实体识别方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例中提供了一种模型训练方法,在训练命名实体识别模型时,先获取训练样本集,该训练样本集中的训练样本包括训练语句及训练语句中的实体对应的类别标签,然后将训练样本输入命名实体识别模型,该命名实体模型能够基于训练语句中实体的上下文信息确定训练语句中实体的预测类别,基于该预测类别以及真实的类别标签调整命名实体模型的参数,使得预测类别接近真实的类别标签。由于该命名实体模型不仅考虑了实体候选项,还考虑了实体候选项所在的整个语句的信息,该信息与实体候选项类别具有较高语义关联性,可以为实体分类提供帮助,因而提高了实体分类准确率。附图说明图1为本申请实施例中模型训练方法的系统架构图;图2为本申请实施例中模型训练方法的流程图;图3为本申请实施例中命名实体识别模型的结构示意图;图4为本申请实施例中命名实体识别模型的结构示意图;图5为本申请实施例中命名实体识别模型的结构示意图;图6为本申请实施例中模型训练方法的流程图;图7为本申请实施例中命名实体识别方法的系统架构图;图8为本申请实施例中命名实体识别方法的流程图;图9为本申请实施例中模型训练方法及命名实体识别方法的应用场景图;图10为本申请实施例中模型训练装置的一个结构示意图;图11为本申请实施例中模型训练装置的一个结构示意图;图12为本申请实施例中模型训练装置的一个结构示意图;图13为本申请实施例中模型训练装置的一个结构示意图;图14为本申请实施例中命名实体识别装置的一个结构示意图;图15为本申请实施例中命名实体识别装置的一个结构示意图;图16为本申请实施例中终端的一个结构示意图;图17为本申请实施例中服务器的一个结构示意图。具体实施方式为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等如果存在是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。针对目前的命名实体识别方法将实体候选项与每个实体类的相似度,分别与与相似度阈值进行比较所存在的分类准确率低的问题,本申请提供了一种基于命名实体识别模型的命名实体识别方法,在训练命名实体识别模型时,通过引入训练语句中实体的上下文信息进行预测得到实体的预测类别,基于该预测类别和真实的类别标签调整模型参数,与仅基于实体候选项自身预测实体类别相比,通过上述训练方法训练得到的命名实体模型引入与实体候选项高度关联的上下文信息,为实体分类提供帮助,因而具有较高的分类准确率。可以理解,本申请提供的模型训练方法以及命名实体识别方法可以应用于任意具有数据处理能力的处理设备。该设备可以是终端,包括但不限于台式机、笔记本电脑和智能手机,该设备也可以是服务器。在实际应用时,上述方法可以由处理设备独立执行,也可以由多个处理设备如终端和服务器协作执行。本申请提供的模型训练方法以及命名实体识别方法能够以计算机程序的形式存储于处理设备,处理设备通过运行计算机程序,实现上述模型训练方法和命名实体识别方法。其中,计算机程序可以是独立的,也可以是集成于其他计算机程序之上的功能模块、插件或者小程序等。在实际应用时,本申请提供的模型训练方法可以但不限于应用于如图1所示的应用环境中。如图1所示,终端110通过网络与样本数据库120连接,样本数据库120中存储有训练样本集,训练样本集中的训练样本包括训练语句及所述训练语句中实体对应的类别标签,终端110从样本数据库120中获取训练样本集,并将该训练样本集输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别,然后终端110根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。为了使得本申请的技术方案更加清楚、易于理解,下面将从终端角度,结合具体实施例对模型训练方法进行详细说明。参见图2所示的模型训练方法的流程图,该方法包括:S201:获取训练样本集。所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签。考虑到不同领域对实体及其类型的定义有所不同,终端可以针对不同领域分别获取对应的训练语句进行实体类型标注,形成适用于对应领域的训练样本。在具体实现时,终端可以从语料库中获取训练语料,其中,语料库可以是游戏平台提供的评论系统,或者是酒店、餐馆等商家提供的评论系统,训练语料可以是从上述评论系统中爬取得到的评论语句,接着终端可以基于词性、词法等信息识别训练语料得到实体候选项。其中,实体候选项可能是命名实体,例如,“李白”、“鲁班”等,也可能不是命名实体,如“足球生涯”。用户可以人工判断该实体候选项是否属于命名实体,若是,则继续判断该实体候选项对应的类别标签,如此可以生成标注信息,该标注信息表征实体候选项是否属于命名实体,以及所述实体候选项为命名实体时所对应的类别标签。考虑到不同领域的命名实体存在隔离性,终端也可以将其他领域的命名实体作为参考命名实体,通过计算当前实体候选项与参考命名实体的相似度自动确定该实体候选项是否属于命名实体。若该实体候选项与参考命名实体相似度大于预设相似度阈值,则可以认为该实体候选项与参考命名实体不存在隔离,有较大的几率不属于命名实体。根据所述训练语料和针对所述训练语料中实体候选项的标注信息,终端可以生成第一训练样本。在本实施例中,终端以句子为单位对训练语料进行处理,针对训练语料中的每一条语句,在识别得到实体候选项后,可以先采用指定字符替换该实体候选项,如此可以降低后续模型训练过程出现过拟合的概率。若该实体候选项对应的标注信息指示该实体候选项不属于命名实体,则可以将类别标签取值设置为空或者null,在此种情形下,终端根据替换后的语句以及类别标签生成的第一训练样本为负样本,若一条训练语句中所有实体候选项对应的标注信息均指示其属于命名实体,则终端根据替换后的语句以及实体候选项对应的类别标签生成的第一训练样本为正样本。终端还从知识库中获取实体类型以及实体类型对应的实体实例,其中,知识库提供结构化的知识数据,因此,终端可以通过查找方式获取实体类型及其对应的实体实例,例如,在游戏领域中,终端可以获取实体类型“英雄”,并获取“英雄”对应的实体实例,如“李白”、“貂蝉”或者“赵云”等等,又例如,在餐饮领域,终端可以获取实体类型“菜名”,并获取其对应的实体实例,如“鱼香肉丝”、“夫妻肺片”等等。基于语料库中的训练语料以及从知识库中获取的实体类型及其对应的实体实例,终端可以生成第二训练样本,在具体实现时,终端可以将语句中属于相同实体类型的实体候选项随机替换为该实体类型下的实体实例,根据替换后的语句以及对应的实体类型生成第二训练样本,该第二训练样本为正样本。基于此,可以实现自动产生标注语料,大幅降低了人工标注语料的成本。在实际应用时,终端根据所述第一训练样本和所述第二训练样本生成所述训练样本集。其中,第一训练样本至少包括负样本,如此,可以使得生成的训练样本集中包括正样本和负样本,避免单独使用正样本存在分类边界不准确的问题。可以理解,语料库中不同实体候选项的热门程度可以是不同的,考虑到模型训练效果和标注成本问题,终端可以选择语料库中比较热门的实体候选项进行标注,并以此生成第一训练样本。具体地,终端可以按照实体候选项在所述语料库的出现频率对所述实体候选项降序排序,根据排序结果选择排序靠前的N个实体候选项作为种子候选项,其中,N为正整数,然后根据根据所述训练语料以及针对所述训练语料中种子候选项的标注信息生成第一训练样本。通过该方式可以进一步降低标注成本。S202:将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别。训练语句中实体的上下文信息是指当前训练语句除实体或者实体候选项以外的信息。为了便于理解,结合具体实例进行说明,在该示例中,训练语句为“我玩李白玩得不错”,其中“李白”为实体候选项,在训练样本中,该实体候选项被替换为指定字符,其上下文信息具体为“我玩——玩得不错”。当然,在有些情况下,上下文信息也包括实体候选项自身,例如,将实体候选项随机替换为相同类型的实例所生成的训练样本,如“我玩赵云玩得不错”中,其上下文信息还包括“赵云”。在将训练样本输入命名实体识别模型后,命名实体模型能够获取训练语句中实体的上下文信息,基于该上下文信息可以针对各个实体类型确定对应的权重,基于该权重可以确定实体的预测类别。仍以上述示例进行说明,上下文信息为““我玩——玩得不错”,基于语法结构以及语义信息,“——”对应的实体类型是“段位”、“皮肤”的概率较低,可以为这些类型设置较低的权重,而“——”对应的实体类型是“英雄”的概率较高,可以为此类型设置较高的权重,基于此,命名实体识别模块可以根据权重确定预测类别。在实际应用时,命名实体识别模型可以通过注意力机制网络学习上下文信息确定实体的预测类别。在一些实施例中,命名实体识别模型包括输入层、特征提取层以及输出层,其中,特征提取层用于通过多层双向注意力机制网络学习所述训练语句中实体的上下文信息得到所述训练语句中各个词位的编码表示,并向所述输出层输入初始词位的编码表示和或实体词位的编码表示。其中,命名实体识别模型可以根据基于变换器的双向编码表示BidirectionalEncoderRepresentationfromTransformers,BERT框架构建。在具体实现时,命名实体识别模型使用多层Transformer结构,通过注意力机制将任意位置的两个单词的距离转换成1,以解决自然语言处理中的长期依赖问题。其中,上述多层Transformer结构可以作为上文所述的多层双向注意力机制网络,用于学习训练语句中实体的上下文信息得到训练语句中各个词位的编码表示。基于命名实体模型中特征提取层的输出不同,命名实体识别模型可以由多种实现方式,下面将结合附图分别进行说明。在第一种实现方式中,命名实体识别模型具体为仅基于句子Sentence-only-based,SOB的网络模型,请参见图3,其中,sentence表示语句,每个语句在去除无意义的词如一些介词、冠词、语气词之后,可以得到至少一个词例token,其可以通过Tok进行表征,如Sentence可以包括Tok1至TokN,cls表示该特征用于分类模型,一般在句子的起始位置,W表示可学习的权值矩阵,E表示通过输入层得到的嵌入向量,T表示在经过Bert处理后得到的特征向量,也称作编码表示,其中,C、以及T1、T2……Tn即为Bert通过多层双向注意力机制网络学习所述训练语句中实体的上下文信息得到所述训练语句中各个词位的编码表示,该模型将初始词位的编码表示C输出至输出层图中未示出,输出层基于该特征进行映射得到预测类别classlable。在第二种实现方式中,命名实体识别模型具体为仅基于目标Target-only-based,TOB的网络模型,请参见图4,该命名实体识别模型整体框架与SOB模型类似,其区别在于,在经过Bert处理后,将Target对应的编码表示Ttarget也即实体词位的编码表示输入至输出层进行分类。在第三种实现方式中,命名实体识别模型具体为基于句子以及目标Target-sentence-based,TSB的网络模型,请参见图5,该命名实体识别模型整体框架与SOB、TOB类似,其区别在于,在经过Bert处理后,将初始词位的编码表示C以及实体词位的编码表示Ttarget均输入至输出层进行分类。在以上几种实现方式中,输入层具体可以是b*n的矩阵,其中,b代表每次参数更新的的样本数目,n代表句子的长度,输出层具体可以包括一个全连接层和激活函数层,该激活函数层具体可以是softmax。S203:根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。在具体实现时,命名实体识别模型的训练目标是针对实体的预测类别尽可能地接近真实的类别标签,基于此,终端可以根据训练语句中实体的预测类别和类别标签确定命名实体识别模型的损失函数,基于该损失函数调整命名实体识别模型的参数,直至满足训练结束条件。其中,训练结束条件可以是命名实体识别模型的损失函数处于收敛状态,也可以是损失函数小于预设值,其根据实际需求而设置。由上可知,本申请实施例提供了一种模型训练方法,在训练命名实体识别模型时,先获取训练样本集,该训练样本集中的训练样本包括训练语句及训练语句中的实体对应的类别标签,然后将训练样本输入命名实体识别模型,该命名实体模型能够基于训练语句中实体的上下文信息确定训练语句中实体的预测类别,基于该预测类别以及真实的类别标签调整命名实体模型的参数,使得预测类别接近真实的类别标签。由于该命名实体模型不仅考虑了实体候选项,还考虑了实体候选项所在的整个语句的信息,该信息与实体候选项类别具有较高关联性,可以为实体分类提供帮助,因而提高了实体分类准确率。在图2所示实施例基础上,本申请还针对模型训练方法提供了一更为具体的实施例,其包括训练样本收集以及利用训练样本训练模型的完整过程,下面结合附图进行详细说明。参见图6所示的模型训练方法的流程图,该方法包括如下步骤:步骤1、针对特定领域,从外网爬取用户评论数据,构建语料库。步骤2、利用词性、词法等信息对语料库中的语料进行识别得到实体候选项,并使用其他领域的实体候选项对该特定领域的实体候选项进行过滤,针对过滤后的实体候选项按照在语料库中出现频率进行排序。步骤3、从多个结构化数据源对该特定领域的实体类型进行定义,并收集相应的实体实例。步骤4、根据步骤2中排序后的实体候选项,选择top500进行标注,即给出实体候选项是否属于命名实体,以及实体候选项属于命名实体时对应的实体类型。步骤5、基于语料库以及收集的实体类型和对应的实体实例自动产生标注语料,形成训练样本集。步骤6、根据该训练样本集训练命名实体识别模型。需要说明的是,训练样本集包括的训练样本可以均为有标签的训练样本,在此种情形下,终端可以采用有监督学习方式训练命名实体识别模型,当然,训练样本集包括的训练样本也可以是部分有标签的训练样本,在此种情形下,终端可以采用若监督方式训练命名实体识别模型。基于上述模型训练方法训练的命名实体识别模型,本申请还提供了一种命名实体识别方法,下面将对其具体实施方式进行详细说明。可以理解,本申请提供的命名实体识别方法可以但不限于应用于如图7所示的应用环境中。如图7所示,终端710通过网络与服务器720连接,服务器720存储有用户通过评论系统产生的评论数据,终端710可以从服务器720中获取评论数据作为待识别语句,然后将该待识别语句输入至命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中实体的上下文信息确定的所述实体以及所述实体的预测类别。为了使得本申请的技术方案更加清楚、易于理解,下面将从终端的角度,结合具体实施例对命名实体识别方法进行详细说明。参见图8所示的命名实体识别方法的流程图,该方法包括:S801:获取待识别语句。在实际应用时,终端可以从评论系统中爬取评论语句作为待识别语句,当然终端也可以从社交应用中爬取用户发布的日志、状态,并将日志、状态中的每一条语句作为待识别语句。S802:将所述待识别语句输入命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中实体的上下文信息确定的所述实体以及所述实体的预测类别。其中,命名实体识别模型是基于本申请实施例提供的模型训练方法训练得到的,将待识别语句输入命名实体识别模型,该命名实体识别模型可以通过特征提取层,基于多次注意力机制网络学习待识别语句中实体的上下文信息,从而确定出实体以及实体的预测类别。进一步地,在识别出命名实体后,终端还可以将其应用于自然语言处理的多种任务中,例如,应用于关系抽取、用户画像等任务。在一个实现方式中,终端可以针对多条待识别语句进行识别得到针对实体的预测类别,基于多条待识别语句中实体的预测类别可以确定预测类别的分布情况,终端根据所述预测类别的分布情况确定实体类别关注热点,然后根据所述实体类别关注热点进行信息推送。例如,在游戏领域,终端可以对评论系统中的8000条语句进行命名实体识别,得到针对这8000条语句中命名实体的预测类别,通过统计预测类别数据可以确定预测类别的分布情况,假设在该示例中,预测类别主要集中于“英雄”、“皮肤”等实体类型,而较少集中于“道具”,则可以将“英雄”、“皮肤”确定为实体类别关注热点,重点基于“英雄”、“皮肤”等进行信息推送。由上可知,本申请实施例提供了一种命名实体识别方法,其通过利用命名实体识别模型识别待识别语句中的实体,由于该命名实体识别模型在识别实体并对其分类时还考虑了上下文信息,基于该上下文信息确定的实体的预测类别更接近真实类别,因此该命名实体识别方法具有较高的识别率以及分类准确率。本申请还结合游戏这一具体应用场景对本申请提供的模型训练方法以及命名实体识别方法进行介绍。下面将结合附图进行详细介绍。参见图9所示的模型训练方法以及命名实体识别方法的应用场景示意图,该场景中包括第一终端910、第二终端920、服务器930以及知识库940,其中,游戏运营方提供有针对游戏的评价系统,游戏玩家通过各自的第一终端910运行该评价系统发布针对游戏的评论,该评论存储于游戏运营方维护的服务器930中,用户通过第二终端920从服务器930中采集评论,并从知识库940中获取游戏领域的实体类型以及各实体类型对应的实例,根据评论以及实体类型、实体实例生成训练样本集,根据该训练样本集训练命名实体识别模型,在训练完成后,第二终端920可以采集新发布的评论作为待识别语句,输入命名实体识别模型进行识别,得到评论中的实体以及对应的实体类型。该应用场景将多分类任务拆解为多个二分类任务,在此以英雄类实体和非英雄类实体进行示例性说明。下面对实现该二分类任务的各个阶段进行详细说明。第一阶段为样本形成阶段。具体地,用户通过第二终端920从服务器930采集近三个月的游戏玩家评论,然后从中筛选有效评论,形成语料库。针对语料库中的每条评论,可以基于词性和词法信息识别评论中的实体候选项,然后采用其他领域的实体对该实体候选项进行过滤,接着对过滤后的实体候选项按照其在语料库中的出现频率进行降序排序,选择Top500实体候选项,并对其进行标注,生成第一样本,其中,第一样本中包括负样本,用户还通过终端920从知识库940中采集英雄类实体实例以及非英雄类实体实例,根据语料库中的评论以及英雄类实体实例以及非英雄类实体实例生成第二样本,基于第一样本和第二样本可以生成训练样本集。第二阶段为模型训练阶段。在具体实现时,第二终端920可以采用SOB模型、TOB模型或TSB模型中的任意一种作为命名实体模型进行训练。考虑到训练效率,可以为训练样本设置批尺寸batchsize,然后根据该batchsize分批训练,例如可以将batchsize设置为100,则可以在一次训练过程中输入100个训练样本,基于这100个训练样本的预测类别及其真实的类别标签确定损失函数,基于该损失函数更新命名实体识别模型的模型参数,当命名实体识别模型的损失函数处于收敛状态时,可以停止训练。此时,第二终端920还可以利用测试样本集对命名实体识别模型进行测试,测试结果如下所示:表1英雄类测试数据的准确度和召回率模型准确度%召回率%基于SOB84.3086.90基于TOB85.0087.40基于TSB85.2087.61基于相似度阈值61.4071.50由表1可知,SOB模型、TOB模型以及TSB模型在英雄类数据的准确度和召回率明显优于基于相似度阈值的模型,因而具有较好的分类效果。其中,TSB模型相对于SOB模型和TOB模型分类效果更佳。针对某个实体候选项,还可以收集语料库中所有的相关评论数据进行预测,然后针对预测结果统计出标签的分布,占比最大的标签作为该实体候选项的估计类别,基于该估计类别和真实类别可以确定英雄类候选项的准确度和召回率。本申请利用TSB模型测试英雄类候选项,测试结果如下所示:表2英雄类候选项的准确度和召回率模型准确度%召回率%TSB100.0090.00第三阶段为模型应用阶段。在具体实现时,第二终端920还可以采集新发布的评论数据作为待识别语句,在然后将其输入训练好的命名实体识别模型,获取命名实体识别模型基于该评论数据中实体的上下文信息确定的实体以及实体的预测类别。以上为本申请实施例提供的模型训练方法、命名实体识别方法的一些具体实现方式,基于此,本申请实施例还提供了对应的装置,下面将从功能模块化的角度进行介绍。参见图10所示的模型训练装置的结构示意图,该装置1000包括:第一获取模块1010,用于获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;第二获取模块1020,用于将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;训练模块1030,根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。可选的,所述命名实体识别模型包括输入层、特征提取层以及输出层,其中,所述特征提取层用于通过多层双向注意力机制网络学习所述训练语句中实体的上下文信息得到所述训练语句中各个词位的编码表示,并向所述输出层输入初始词位的编码表示和或实体词位的编码表示。可选的,所述命名实体识别模型是根据基于变换器的双向编码表示框架构建的。可选的,参见图11,图11为本申请实施例提供的模型训练装置的一个结构示意图,在图10所示结构的基础上,所述装置1000还包括:第三获取模块1040,用于从语料库中获取训练语料;第一生成模块1050,用于识别所述训练语料得到实体候选项,根据所述训练语料以及针对所述训练语料中实体候选项的标注信息生成第一训练样本,所述第一训练样本至少包括负样本,所述标注信息包括所述实体候选项是否属于命名实体,以及所述实体候选项为命名实体时所对应的类别标签;第二生成模块1060,用于从知识库中获取实体类型以及所述实体类型对应的实体实例,根据所述训练语料、所述实体类型以及所述实体类型对应的实体实例生成第二训练样本,所述第二训练样本包括正样本;第三生成模块1070,用于根据所述第一训练样本和所述第二训练样本生成所述训练样本集。可选的,参见图12,图12为本申请实施例提供的模型训练装置的一个结构示意图,在图11所示结构的基础上,所述装置1000还包括:排序模型1080,用于按照所述实体候选项在所述语料库的出现频率对所述实体候选项降序排序;选择模块1090,用于根据排序结果选择排序靠前的N个实体候选项作为种子候选项,所述N为正整数;则所述第一生成模块1050具体用于:根据所述训练语料以及针对所述训练语料中种子候选项的标注信息生成第一训练样本。可选的,参见图13,图13为本申请实施例提供的模型训练装置的一个结构示意图,在图11所示结构的基础上,所述装置1000还包括:第四获取模块1091,用于获取参考命名实体,所述参考命名实体所属领域与所述实体候选项所属领域不同;确定模块1092,用于根据所述实体候选项与所述参考命名实体的相似度确定所述实体候选项是否属于命名实体。本申请还提供了一种命名实体识别装置,参见图14所示的命名实体识别装置的结构示意图,所述装置1400包括:获取模块1410,用于获取待识别语句;识别模块1420,用于将所述待识别语句输入命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中实体的上下文信息确定的所述实体以及所述实体的预测类别。可选的,参见图15,图15为本申请实施例提供的命名实体识别装置的一个结构示意图,在图14所示结构的基础上,所述装置1400还包括确定模块1430和推送模块1440;所述获取模块1410,具体用于从评论系统中爬取评论语句作为待识别语句;所述确定模块1430,具体用于根据所述预测类别的分布情况确定实体类别关注热点;所述推送模块1440,根据所述实体类别关注热点进行信息推送。基于本申请实施例提供的上述方法和装置的具体实现方式,本申请实施例还提供了一种设备,下面将从硬件实体化的角度对该设备进行说明。本申请实施例提供了一种终端设备,如图16所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括台式机、笔记本电脑、平板电脑、手机、个人数字助理英文全称:PersonalDigitalAssistant,英文缩写:PDA等任意终端设备,以终端为笔记本电脑为例:图16示出的是与本申请实施例提供的终端相关的笔记本电脑的部分结构的框图。参考图16,笔记本电脑包括:射频英文全称:RadioFrequency,英文缩写:RF电路1610、存储器1620、输入单元1630、显示单元1640、传感器1650、音频电路1660、无线保真英文全称:wirelessfidelity,英文缩写:WiFi模块1670、处理器1680、以及电源1690等部件。本领域技术人员可以理解,图16中示出的结构并不构成对笔记本电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。下面结合图16对笔记本电脑的各个构成部件进行具体的介绍:RF电路1610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1680处理;另外,将设计上行的数据发送给基站。通常,RF电路1610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器英文全称:LowNoiseAmplifier,英文缩写:LNA、双工器等。存储器1620可用于存储软件程序以及模块,处理器1680通过运行存储在存储器1620的软件程序以及模块,从而执行笔记本电脑的各种功能应用以及数据处理。存储器1620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序比如声音播放功能、图像播放功能等等;存储数据区可存储根据笔记本电脑的使用所创建的数据比如音频数据、电话本等等。此外,存储器1620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入单元1630可用于接收输入的数字或字符信息,以及产生与笔记本电脑的用户设置以及功能控制有关的键信号输入。具体地,输入单元1630可包括触控面板1631以及其他输入设备1632。触控面板1631,也称为触摸屏,可收集用户在其上或附近的触摸操作比如用户使用手指、触笔等任何适合的物体或附件在触控面板1631上或在触控面板1631附近的操作,并根据预先设定的程式驱动相应的连接装置。可除了触控面板1631,输入单元1630还可以包括其他输入设备1632。具体地,其他输入设备1632可以包括但不限于物理键盘、功能键比如音量控制按键、开关按键等、轨迹球、鼠标、操作杆等中的一种或多种。显示单元1640可用于显示由用户输入的信息或提供给用户的信息以及笔记本电脑的各种菜单。显示单元1640可包括显示面板1641,可选的,可以采用液晶显示器英文全称:LiquidCrystalDisplay,英文缩写:LCD、有机发光二极管英文全称:OrganicLight-EmittingDiode,英文缩写:OLED等形式来配置显示面板1641。进一步的,触控面板1631可覆盖显示面板1641,当触控面板1631检测到在其上或附近的触摸操作后,传送给处理器1680以确定触摸事件的类型,随后处理器1680根据触摸事件的类型在显示面板1641上提供相应的视觉输出。虽然在图16中,触控面板1631与显示面板1641是作为两个独立的部件来实现笔记本电脑的输入和输入功能,但是在某些实施例中,可以将触控面板1631与显示面板1641集成而实现笔记本电脑的输入和输出功能。笔记本电脑还可包括至少一种传感器1650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1641的亮度。至于笔记本电脑还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。音频电路1660、扬声器1661,传声器1662可提供用户与笔记本电脑之间的音频接口。音频电路1660可将接收到的音频数据转换后的电信号,传输到扬声器1661,由扬声器1661转换为声音信号输出;另一方面,传声器1662将收集的声音信号转换为电信号,由音频电路1660接收后转换为音频数据,再将音频数据输出处理器1680处理后,经RF电路1610以发送给比如另一笔记本电脑,或者将音频数据输出至存储器1620以便进一步处理。WiFi属于短距离无线传输技术,笔记本电脑通过WiFi模块1670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块1670,但是可以理解的是,其并不属于笔记本电脑的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。处理器1680是笔记本电脑的控制中心,利用各种接口和线路连接整个笔记本电脑的各个部分,通过运行或执行存储在存储器1620内的软件程序和或模块,以及调用存储在存储器1620内的数据,执行笔记本电脑的各种功能和处理数据,从而对笔记本电脑进行整体监控。可选的,处理器1680可包括一个或多个处理单元;优选的,处理器1680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1680中。笔记本电脑还包括给各个部件供电的电源1690比如电池,优选的,电源可以通过电源管理系统与处理器1680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管未示出,笔记本电脑还可以包括摄像头、蓝牙模块等,在此不再赘述。在本申请实施例中,该终端所包括的处理器1680还具有以下功能:获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。可选的,处理器1680还用于执行本申请实施例提供的模型训练方法任意一种实现方式的步骤。本申请实施例还提供了一种用于命名实体识别的终端,该终端具有与图16相同的结构,在该实现方式中,终端所包括的处理器1680还具有以下功能:获取待识别语句;将所述待识别语句输入命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中实体的上下文信息确定的所述实体以及所述实体的预测类别。可选的,处理器1680还用于执行本申请实施例提供的命名实体识别方法任意一种实现方式的步骤。图17是本申请实施例提供的一种设备结构示意图,该设备具体为服务器,该服务器1700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器centralprocessingunits,CPU1722例如,一个或一个以上处理器和存储器1732,一个或一个以上存储应用程序1742或数据1744的存储介质1730例如一个或一个以上海量存储设备。其中,存储器1732和存储介质1730可以是短暂存储或持久存储。存储在存储介质1730的程序可以包括一个或一个以上模块图示没标出,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1722可以设置为与存储介质1730通信,在服务器1700上执行存储介质1730中的一系列指令操作。服务器1700还可以包括一个或一个以上电源1726,一个或一个以上有线或无线网络接口1750,一个或一个以上输入输出接口1758,和或,一个或一个以上操作系统1741,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。上述实施例中由服务器所执行的步骤可以基于该图17所示的服务器结构。其中,CPU1722用于执行如下步骤:获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。可选的,所述CPU1722还可以用于执行本申请实施例提供的模型训练方法任意一种实现方式的步骤。本申请实施例还提供了一种用于命名实体识别的服务器,该服务器具有与图17相同的结构,在该实现方式中,服务器所包括的CPU1722还具有以下功能:获取待识别语句;将所述待识别语句输入命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中实体的上下文信息确定的所述实体以及所述实体的预测类别。可选的,所述CPU1722还可以用于执行本申请实施例提供的命名实体识别方法任意一种实现方式的步骤。本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例所述的一种模型训练方法或者命名实体识别方法中的任意一种实施方式。本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的一种模型训练方法或者命名实体识别方法中的任意一种实施方式。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可以是个人计算机,服务器,或者网络设备等执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器英文全称:Read-OnlyMemory,英文缩写:ROM、随机存取存储器英文全称:RandomAccessMemory,英文缩写:RAM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
权利要求:1.一种模型训练方法,其特征在于,包括:获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。2.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型包括输入层、特征提取层以及输出层,其中,所述特征提取层用于通过多层双向注意力机制网络学习所述训练语句中实体的上下文信息得到所述训练语句中各个词位的编码表示,并向所述输出层输入初始词位的编码表示和或实体词位的编码表示。3.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型是根据基于变换器的双向编码表示框架构建的。4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:从语料库中获取训练语料;识别所述训练语料得到实体候选项,根据所述训练语料以及针对所述训练语料中实体候选项的标注信息生成第一训练样本,所述第一训练样本至少包括负样本,所述标注信息包括所述实体候选项是否属于命名实体,以及所述实体候选项为命名实体时所对应的类别标签;从知识库中获取实体类型以及所述实体类型对应的实体实例,根据所述训练语料、所述实体类型以及所述实体类型对应的实体实例生成第二训练样本,所述第二训练样本包括正样本;根据所述第一训练样本和所述第二训练样本生成所述训练样本集。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:按照所述实体候选项在所述语料库的出现频率对所述实体候选项降序排序;根据排序结果选择排序靠前的N个实体候选项作为种子候选项,所述N为正整数;所述根据所述训练语料以及针对所述训练语料中实体候选项的标注信息生成第一训练样本包括:根据所述训练语料以及针对所述训练语料中种子候选项的标注信息生成第一训练样本。6.根据权利要求4所述的方法,其特征在于,通过如下方式判断所述实体候选项是否属于命名实体:获取参考命名实体,所述参考命名实体所属领域与所述实体候选项所属领域不同;根据所述实体候选项与所述参考命名实体的相似度确定所述实体候选项是否属于命名实体。7.一种命名实体识别方法,其特征在于,包括:获取待识别语句;将所述待识别语句输入命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中实体的上下文信息确定的所述实体以及所述实体的预测类别。8.根据权利要求7所述的方法,其特征在于,所述获取待识别语句包括:从评论系统中爬取评论语句作为待识别语句;在确定所述评论语句中的实体以及所述实体的预测类别之后,所述方法还包括:根据所述预测类别的分布情况确定实体类别关注热点;根据所述实体类别关注热点进行信息推送。9.一种模型训练装置,其特征在于,所述装置包括:第一获取模块,用于获取训练样本集,所述训练样本集中的训练样本包括训练语句及所述训练语句中的实体对应的类别标签;第二获取模块,用于将所述训练样本输入命名实体识别模型,获得所述命名实体识别模型基于所述训练语句中实体的上下文信息输出的所述训练语句中实体的预测类别;训练模块,根据所述训练语句中实体的预测类别和类别标签,调整所述命名实体识别模型的参数直到满足训练结束条件。10.一种命名实体识别装置,其特征在于,所述装置包括:获取模块,用于获取待识别语句;识别模块,用于将所述待识别语句输入命名实体识别模型,获得所述命名实体识别模型基于所述待识别语句中实体的上下文信息确定的所述实体以及所述实体的预测类别。
百度查询: 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。