首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本要点检测方法、装置、设备、存储介质及评估方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:科大讯飞股份有限公司

摘要:本申请提供了一种文本要点检测方法、装置、设备、存储介质及评估方法,文本要点检测方法包括:获取指定主题的待检测文本;确定待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;基于待检测文本中每个文本单元对应的文本表征信息,确定待检测文本中每个文本单元对应的要点信息,得到整个待检测文本的要点信息。本申请提供的文本要点检测方案不但可以自动从待检测文本中检测出要点信息,而且要点信息的检测正确率较高。

主权项:1.一种文本要点检测方法,其特征在于,包括:获取指定主题的待检测文本;确定所述待检测文本中每个文本单元对应的文本向量,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本向量包含该文本单元对应的句法结构信息和主题词信息;以所述待检测文本中每个文本单元对应的文本向量通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息;所述文本要点检测模型以标注有要点信息的训练文本训练得到,所述训练文本为所述指定主题的文本,所述训练文本以文本单元为单位进行要点信息标注。

全文数据:文本要点检测方法、装置、设备、存储介质及评估方法技术领域本申请涉及信息检测技术领域,尤其涉及一种文本要点检测方法、装置、设备、存储介质及评估方法。背景技术在某些应用领域,需要对文本进行评阅,传统的评阅方式为人工评阅,然而,在某些时候,需要评阅的文本往往很多,人工评阅耗时、耗力,且评阅结果极易受主观因素的影响。鉴于人工评阅方式所存在的问题,出现了文本的自动评阅技术,目前的自动评阅技术主要是基于用词水平和语句连贯性对待评阅文本进行评阅,然而,这种评阅方式对于主题要点部分缺失、但整体呈较高语言表达水准的文本,无法给出客观的评阅结果,为了能够对文本给出客观的评阅结果,亟需一种能够从文本中检测出要点的方案,以便结合文本要点对文本给出客观的评阅结果。发明内容有鉴于此,本申请提供了一种文本要点检测方法、装置、设备、存储介质及评估方法,以从待检测文本中检测出文本要点,其技术方案如下:一种文本要点检测方法,包括:获取指定主题的待检测文本;确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。其中,获得所述待检测文本中的每个文本单元,包括:对所述待检测文本的文本内容进行分词、分句处理,分词、分句处理后得到多个句子;将每一句子,或者,每一句子组作为一文本单元,得到所述待检测文本中的每个文本单元,其中,一个句子组包括多个连续句子。可选的,所述确定所述待检测文本中每个文本单元对应的要点表征信息,包括:通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量,其中,一个文本单元对应的文本向量包含该文本单元对应的句法结构信息和主题词信息;所述基于所述待检测文本中每个文本单元对应的要点表征信息,确定所述待检测文本中每个文本单元对应的要点信息,包括:以所述待检测文本中每个文本单元对应的文本向量通过所述文本要点检测模型,确定所述待检测文本中每个文本单元对应的要点信息;其中,所述文本要点检测模型以标注有要点信息的训练文本训练得到,所述训练文本为所述指定主题的文本,所述训练文本以文本单元为单位进行要点信息标注。可选的,所述通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量,包括:通过所述文本要点检测模型中的信息确定模块,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息;通过所述文本要点检测模型中的文本表征模块,基于所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,生成所述待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。可选的,所述通过所述文本要点检测模型中的信息确定模块,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,包括:对于所述待检测文本中的任一文本单元,通过所述文本要点检测模型中的信息确定模块,确定该文本单元中每个词在该本文单元所隶属的文本片段,获得多个文本片段,基于获得的多个文本片段以及每个文本片段中所包含的词获得该文本单元对应的句法结构信息和主题词信息。可选的,所述文本要点检测模型为基于强化学习思想训练得到的模型,所述文本要点检测模型的训练过程包括:获取标注有要点信息的训练文本;将所述训练文本中的每个文本单元输入所述文本要点检测模型进行训练,以使所述文本要点检测模型针对所述训练文本中的每个文本单元,从该文本单元中挖掘出句法结构信息,并在确定该文本单元对应的文本向量时,将从该文本单元中挖掘出的句法结构信息整合至该文本单元对应的文本向量中,基于整合有句法结构信息的文本向量进行要点分类,所述文本要点检测模型的输出为所述训练文本中每个文本单元对应的要点分类结果,所述文本要点检测模型的训练目标为提升所述训练文本中每个文本单元的要点分类正确率。一种文本评估方法,包括:基于上述的文本要点检测方法检测待评估文本的要点信息;基于所述待评估文本的要点信息对所述待评估文本进行评估。一种文本要点检测装置,包括:文本获取模块、文本表征模块和要点确定模块;所述文本获取模块,用于获取指定主题的待检测文本;所述文本表征模块,用于确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;所述要点确定模块,用于基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。一种文本要点检测设备,包括所述存储器,用于存储程序;所述处理器,用于执行所述程序,所述程序具体用于:获取指定主题的待检测文本;确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。一种可读存储介质,所述计算机程序被处理器执行时,实现所述文本要点检测方法的各个步骤。上述技术方案具有如下有益效果:本申请实施例提供的文本要点检测方法、装置、设备、存储介质,在获得指定主题的待检测文本后,可确定待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本表征信息,由于文本表征信息所包含的句法结构信息和主题词信息为要点检测提供了丰富的信息量,因此,基于待检测文本中每个文本单元对应的文本表征信息可准确确定出待检测文本中每个文本单元对应的要点信息,进而可得到整个待检测文本的要点信息。由此可见,本实施例提供的文本要点检测方法能够基于待检测文本中每个文本单元对应的句法结构信息和主题词信息自动准确地检测出待检测文本的要点信息,检测出的要点可作为后续对文本进行评估或批改的依据。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的文本要点检测方法的流程示意图;图2为本申请实施例提供的通过文本要点检测模型确定待检测文本的要点信息的实现过程的流程示意图;图3为本申请实施例提供的文本要点检测模型的拓扑结构的一示例的示意图;图4为本申请实施例提供的文本要点检测装置的结构示意图;图5为本申请实施例提供的文本要点检测设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为了实现文本的要点检测,本案发明人进行了深入研究:初始阶段的思路是,采用基于监督的要点检测方案,然而,基于监督的要点检测方案存在如下问题:基于监督的要点检测方案在模型选择正确且数据量足够大的时候能有较好表现,但模型往往只学习到单词或者短语级别的信息,而实际上,文本中句法结构信息也是很重要的一部分,若要将句法结构信息嵌入到句子向量中,对训练文本中每个句子的句法结构信息进行正确的人工标注是必不可少的一个环节,考虑到有些文本中有些句子的句法结构不明显,对句子进行句法结构信息标注必然耗费大量的时间和人力。鉴于上述问题,发明人继续进行深入研究,最终提出了一种解决方案,完美解决了上述研发过程中各个问题。接下来通过下述实施例对本申请提供的文本要点检测方法进行介绍。请参阅图1,示出了本申请实施例提供的文本要点检测方法的流程示意图,该方法可以包括:步骤S101:获取指定主题的待检测文本。其中,待检测文本可以为指定主题的考试作文、简答、辩论等文本,待检测文本可以为中文、英文等各种语种类型的文本。其中,待检测文本可以为基于输入设备输入而获得的电子文本文档,也可以为从包含文字内容的图像中,通过图像处理及文字识别等技术获得的文本,其中,包含文字内容的图像可以但不限为对纸质文本采用扫描、拍照等方式获得的图像,另外,待检测文本还可以为对音频数据进行转写得到的文本。步骤S102:确定待检测文本中每个文本单元对应的文本表征信息。其中,一个文本单元为待检测文本中的一个或多个句子。在本实施例中,获得待检测文本中每个文本单元的过程可以包括:对待检测文本的文本内容进行分句处理,分句处理后得到多个句子;将每一句子,或者,每一句子组作为一文本单元,得到待检测文本中的每个文本单元,其中,一个句子组包括多个连续句子。需要说明的是,若待检测文本为对包含文字内容的图像经文字识别等技术获得的文本,则待检测文本可能存在文本内容错误识别粘连在一起的情况,比如包含英文作文的图像经文字识别获得的文本可能存在单词错误识别粘连在一起的情况,为了使错误识别粘连在一起的单词得到正确区分,避免由此导致的OOVoutofvocabulary问题,本实施例在对待检测文本进行分句之前,首先对待检测文本进行分词处理,分词后再进一步进行分句处理。当然,若待检测文本不存在上述情况,则只需对待检测文本进行分句处理。一个文本单元对应的文本表征信息能够对该文本单元进行表征,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息。其中,一个文本单元对应的句法结构信息能够反映出该文本单元是否符合一定的语法,一个文本单元对应的主题词信息用于指示该文本单元是出现指定主题的主题词。需要说明的是,主题词的出现与否很大程度上决定着要点是否被涵盖,比如要点“对足球课的看法”,如果一学生的作文中连足球这一主题词都未出现过,则可以直接判定该作文缺失要点,但作文中出现足球这一主题词也并非就能断言该要点被正确阐述,文本中可能写的是“足球技巧”或者“足球赛”相关信息,此时,如果能从更深层面即待检测文本中各文本单元的句法结构信息对各文本单元进行要点分析,相比于单一的主题词将能得到更多的信息量,从而能够更正确的分析出要点。步骤S103:基于待检测文本中每个文本单元对应的文本表征信息,确定待检测文本中每个文本单元对应的要点信息,得到整个待检测文本的要点信息。由于一个文本单元对应的文本表征信息中包含了与要点相关的句法结构信息和主题词信息,因此,基于该文本单元对应的文本表征信息可确定出该文本单元对应的要点信息。本申请实施例提供的文本要点检测方法,在获得指定主题的待检测文本后,可确定待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本表征信息,由于文本表征信息所包含的句法结构信息和主题词信息为要点检测提供了丰富的信息量,因此,基于待检测文本中每个文本单元对应的文本表征信息可准确确定出待检测文本中每个文本单元对应的要点信息,进而可得到整个待检测文本的要点信息。由此可见,本实施例提供的文本要点检测方法能够基于待检测文本中每个文本单元对应的句法结构信息和主题词信息自动准确地检测出待检测文本的要点信息,检测出的要点可作为后续对文本进行评估或批改的依据。在本申请的另一实施例中,对“步骤S102:确定待检测文本中每个文本单元对应的文本表征信息”和“步骤S103:基于待检测文本中每个文本单元对应的文本表征信息,确定待检测文本中每个文本单元对应的要点信息,得到整个待检测文本的要点信息”进行介绍。在本实施例中,确定待检测文本中每个文本单元对应的要点表征信息的过程可以包括:将待检测文本中的每个文本单元输入预先建立的文本要点检测模型,通过文本要点检测模型,确定待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。则基于待检测文本中每个文本单元对应的要点表征信息,确定待检测文本中每个文本单元对应的要点信息,包括:以待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量通过文本要点检测模型,确定待检测文本中每个文本单元对应的要点信息。即,将待检测文本中的每个文本单元输入预先建立的文本要点检测模型,便可获得文本要点检测模型输出的、各文本单元对应的要点信息,待检测文本中所有文本单元对应的要点信息组成整个待检测文本的要点信息。其中,文本要点检测模型以标注有要点信息的训练文本训练得到,训练文本为指定主题的文本,训练文本以文本单元为单位进行要点信息标注。需要说明的是,本实施例针对不同主题的文本,需要标注不同的训练数据进行训练,以得到针对不同主题的文本要点检测模型。比如,对于主题a,需要获取主题a对应的文本,对其采用主题a对应的要点信息进行标注,将标注有主题a对应的要点信息的文本作为训练文本训练搭建好的模型,从而得到主题a对应的文本要点检测模型,同样地,对于主题b,需要获取主题b对应的文本,对其采用主题b对应的要点信息进行标注,将标注有主题b对应的要点信息的文本作为训练文本训练搭建好的模型,从而得到主题b对应的文本要点检测模型,当需要对主题a对应的待检测文本进行要点检测时,将待检测文本输入主题a对应的文本要点检测模型,从而获得主题a对应的待检测文本的要点信息,同样地,当需要对主题b对应的待检测文本进行要点检测时,将待检测文本输入主题b对应的文本要点检测模型,从而获得主题b对应的待检测文本的要点信息。需要说明的是,本实施例采用的是基于弱监督学习的文本要点检测模型,即文本要点检测模型的训练数据只需要针对各文本单元标注要点信息,而不需标注句法结构信息,文本要点检测模型基于训练数据学习各文本单元的句法结构信息,根据各文本单元的要点分类的正确率来对句法结构信息进行弱监督训练。本实施例基于弱监督学习的模型与基于有监督学习的模型的区别在于,基于有监督学习的模型有明确的目标,模型的整个迭代流程都是向这个目标靠近,比如,有监督学习的评分模型的目标就是文本标注的评分,模型所做的就是使其输出尽可能与文本标注的评分接近。而本实施例中基于弱监督学习的模型没有明确的目标,因为训练文本中各文本单元对应的句法信息没有显式地体现出来,基于此,本实施例可采用强化学习的思想,强化学习的任务是便是从已有数据中挖掘出句法结构信息,可以认为除了与要点强相关的主题词之外,模型对一个文本单元的语法结构识别越准确、就能为要点判别提供更丰富的信息量,进而模型的最终要点分类结果也就越准确,模型的分类结果越准确,反过来也就说明通过强化学习思想习得的句法结构信息越准确,因此,整个模型的收敛目标就是提升文本单元的要点分类正确率。具体地,文本要点检测模型的训练过程包括:获取标注有要点信息的训练文本;将训练文本中的每个文本单元输入文本要点检测模型进行训练,以使文本要点检测模型针对训练文本中的每个文本单元,从该文本单元中挖掘出句法结构信息,并在确定该文本单元对应的文本向量时,将从该文本单元中挖掘出的句法结构信息整合至该文本单元对应的文本向量中,基于整合有句法结构信息的文本向量进行要点分类,文本要点检测模型的输出为训练文本中每个文本单元对应的要点分类结果,文本要点检测模型的训练目标为提升训练文本中每个文本单元的要点分类正确率。在一种可能的实现方式中,本实施例提供的文本要点检测模型可以包括:信息确定模块、文本表征模块和要点分类模块,请参阅图2,示出了通过该文本要点检测模型确定待检测文本的要点信息的实现过程的流程示意图,可以包括:步骤S201:通过文本要点检测模型中的信息确定模块,确定待检测文本中每个文本单元对应的句法结构信息和主题词信息。具体地,对于待检测文本中的任一文本单元,通过文本要点检测模型中的信息确定模块,确定该文本单元中每个词在该本文单元所隶属的文本片段,获得多个文本片段,基于获得的多个文本片段以及每个文本片段中所包含的词获得该文本单元对应的句法结构信息和主题词信息。步骤S202:通过文本要点检测模型中的文本表征模块,基于待检测文本中每个文本单元对应的句法结构信息和主题词信息,生成待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。具体的,针对待检测文本中的任一文本单元,在通过文本要点检测模型中的文本表征模块生成该文本单元对应的文本向量时,将该文本单元对应的句法结构信息和主题词信息整合至文本向量中,以获得该文本单元对应的包含句法结构信息和主题词信息的文本向量。步骤S203:通过文本要点检测模型中的要点分类模块,通过待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量,确定待检测文本中每个文本单元对应的要点信息。请参阅3,示出了本实施例提供的文本要点检测模型的拓扑结构的一示例的示意图,图3中的301为信息确定模块,302为文本表征模块、303为要点分类模模块。其中,文本表征模块302可以为长短期记忆网络LongShort-TermMemory,LSTM,LSTM通过时序地读入文本单元中的词,根据信息确定模块301的输出结果对文本单元进行语义切分。其中,当前状态向量st由LSTM上一单元的记忆状态ct-1、隐层状态ht-1和当前输入词表示xt连接而成;记忆状态ct-1贯穿整个LSTM时序链条,让文本单元中的信息以不变的方式向下流动,主要保存着当前位置之前所有输入的信息;隐层状态ht-1建立在记忆状态的基础上,后接一个sigmoid层来决定单元状态中哪些部分需要输出,对应至本申请,可以认为记忆状态保存着起始点至当前位置的所有词的信息,隐层状态则是记忆状态中与当前位置语法结构相关的部分。其中,信息确定模块301根据当前状态向量st决定t时刻的动作at,需要说明的是,动作分两种,其一,该词属于目前的文本片段,其二,开始一个新的文本片段。下述例句阐述了动作at的实际操作:输入:Itwasmypresent|thatmyparentsgiveme|ontheNewYear'sDay.动作:IIIEIIIIEIIIIIE其中,I表示动作inside,即前面的短语片段在该单词得到继续,E表示动作end,即前面短语片段在该单词结束,下个单词开始新的短语片段。上述例句在经过模型之后被正确划分为了三个短语片段,由此可获得该句子的句法结构信息。信息确定模块301、文本表征模块302和要点分类模块303协同训练时的数据流向为:连接当前输入xt、上一单元记忆状态ct-1和上一单元隐层状态ht-1得到当前状态向量st,此时,数据信息确定模块301得到当前的最优动作at;at流回文本表征模块302,根据at、ht-1和ct-1得到当前状态ht和ct,继而得到下一时刻的状态st+1。重复以上步骤遍历整个文本单元得到LSTM最终的隐层输出hL,最终的句法结构信息隐式地体现在LSTM最终隐层的输出中,hL即为包含句法结构信息和主题词信息的文本向量,将该文本向量输入最终的要点分类模块303,得到文本单元对应的要点信息,并且,将分类的损失函数作为反馈传回前部分用于信息确定模块301和文本表征模块302,如此,整个模型就能联动训练起来。需要说明的是,强化学习思想的关键要素包括:状态state、动作action以及执行动作所得到的奖赏reward。模型依据策略policy对每个状态都会给出相应的动作,根据这个动作模型将转移至下一个状态。模型在做出一系列决策之后达到最终状态,并能得到一个即时的或者延时的反馈,即最终的奖赏。对应到本申请的要点检测任务上,模型分别预测每个单词所在的文本片段如英文单词所在的短语片段,“状态”要素由模型上一节点的记忆状态、隐层状态和当前输入所拼接得到,即上述的st。“策略”根据当前的“状态”决定这一步的“动作”,“动作”即判别当前词是属于目前的文本片段,还是开始一个新的文本片段,即上述at,整段话的语法结构在该要素上得到体现。在遍历整个文本单元后得到具有句法结构信息的文本向量表示hL,后接一个全连接层对该文本向量进行分类,分类的正确与否就是整个强化学习网络的最终延时“奖赏”。另外,需要说明的是,本实施例中的一个文本单元可以为一个句子,即可以单个句子为粒度进行要点检测,发明人在实现发明的过程中发现,一些文本如学生的作文往往存在句子依赖和多要点的问题,以单句为粒度进行要点检测可能很难检测出要点,有鉴于此,可以两句为粒度进行要点检测一个文本单元为连续的两个句子,即,在对待检测文本进行检测时,以两个句子为粒度输入模型进行检测,模型最终输出的要点可能为多个。相应的,在对模型的训练数据进行标注时,以两句为粒度采用多标签进行标注。当然,本实施例并不限定以单个句子或两个句子为粒度进行要点检测,还可基于实际检测需求以三个句子或更多个句子为粒度进行要点检测。本申请实施例提供的文本要点检测方法采用基于强化学习思想的文本要点检测模型对待检测文本进行要点信息检测,强化学习思想相当于通过要点相关的标签数据对句法结构信息进行弱监督训练,一方面将句法信息整合至文本向量,为要点分类提供更多的信息量,另一方面很好的解决了句法结构信息标注困难的问题,并且,本申请实施例提供的文本要点检测方法具有较高的检测正确度,本案发明人采用本申请实施例提供的文本要点检测方法对社团兴趣主题作文该主题的作文包括四个要点,四个要点包括3类社团描述和自己的建议进行要点检测时,句子级要点检测正确率达86%,高于无强化学习的正确率无强化学习的正确率为84.2%,篇章级的要点遗漏召回率达97.5%,效果良好。本申请实施例还提供了一种文本评估方法,该方法可以包括:采用上述实施例提供的文本要点检测方法检测待评估文本的要点信息;基于待评估文本的要点信息对待评估文本进行评估。本申请实施例提供的文本评估方法可获得待评估文本的要点信息,进而基于待评估文本的要点信息对待评估文本进行评估,由此可见,本申请实施例提供的文本评估方法可自动、客观地对待评估文本进行评估,自动对待评估文本进行评估避免了现有技术中人工评估方式耗时耗力、评估结果受主观因素影响的问题,基于要点信息对文本进行评估避免了目前已有的一些评估方式对于文本要点部分缺失、但整体呈较高语言表达水准的文本,无法给出客观评估结果的问题。本申请实施例还提供了一种文本要点检测装置,请参阅图4,示出了该文本要点检测装置的结构示意图,可以包括:文本获取模块401、文本表征模块402和要点确定模块403。其中:文本获取模块401,用于获取指定主题的待检测文本。文本表征模块402,用于确定所述待检测文本中每个文本单元对应的文本表征信息。其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息。要点确定模块403,用于基于待检测文本中每个文本单元对应的文本表征信息,确定待检测文本中每个文本单元对应的要点信息,得到整个待检测文本的要点信息。本申请实施例提供的文本要点检测装置,在获得指定主题的待检测文本后,可确定待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本表征信息,由于文本表征信息所包含的句法结构信息和主题词信息为要点检测提供了丰富的信息量,因此,基于待检测文本中每个文本单元对应的文本表征信息可准确确定出待检测文本中每个文本单元对应的要点信息,进而可得到整个待检测文本的要点信息。由此可见,本实施例提供的文本要点检测装置能够基于待检测文本中每个文本单元对应的句法结构信息和主题词信息自动准确地检测出待检测文本的要点信息,检测出的要点可作为后续对文本进行评估或批改的依据。上述实施例提供的文本要点检测装置还可以包括:预处理模块。预处理模块,用于对所述待检测文本的文本内容进行分词、分句处理,分词、分句处理后得到多个句子,将每一句子,或者,每一句子组作为一文本单元,得到待检测文本中的每个文本单元,其中,一个句子组包括多个连续句子。在一种可能的实现方式中,上述实施例提供的文本要点检测装置中的文本表征模块402,具体用于通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量。其中,一个文本单元对应的文本向量包含该文本单元对应的句法结构信息和主题词信息;则要点确定模块403,具体用于以所述待检测文本中每个文本单元对应的文本向量通过所述文本要点检测模型,确定所述待检测文本中每个文本单元对应的要点信息。其中,所述文本要点检测模型以标注有要点信息的训练文本训练得到,所述训练文本为所述指定主题的文本,所述训练文本以文本单元为单位进行要点信息标注。在一种可能的实现方式中,上述实施例提供的文本要点检测装置中的文本表征模块402,具体用于通过所述文本要点检测模型中的信息确定部分,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息;通过所述文本要点检测模型中的文本表征部分,基于所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,生成所述待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。在一种可能的实现方式中,上述实施例提供的文本要点检测装置中的文本表征模块402,在通过所述文本要点检测模型中的信息确定部分,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息时,具体用于:对于所述待检测文本中的任一文本单元,通过所述文本要点检测模型中的信息确定模块,确定该文本单元中每个词在该本文单元所隶属的文本片段,获得多个文本片段,基于获得的多个文本片段以及每个文本片段中所包含的词获得该文本单元对应的句法结构信息和主题词信息。在一种可能的实现方式中,上述实施例中的文本要点检测模型为基于强化学习思想训练得到的模型。上述实施例中的文本要点检测装置还包括:模型训练模块。模型训练模块,具体用于获取标注有要点信息的训练文本;将所述训练文本中的每个文本单元输入所述文本要点检测模型进行训练,以使所述文本要点检测模型针对所述训练文本中的每个文本单元,从该文本单元中挖掘出句法结构信息,并在确定该文本单元对应的文本向量时,将从该文本单元中挖掘出的句法结构信息整合至该文本单元对应的文本向量中,基于整合有句法结构信息的文本向量进行要点分类,所述文本要点检测模型的输出为所述训练文本中每个文本单元对应的要点分类结果,所述文本要点检测模型的训练目标为提升所述训练文本中每个文本单元的要点分类正确率。本申请实施例还提供了一种文本要点检测设备,请参阅图5,示出了该文本要点检测设备的结构示意图,该设备可以包括:存储器501和处理器502。存储器501,用于存储程序;处理器502,用于执行所述程序,所述程序具体用于:获取指定主题的待检测文本;确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。文本要点检测设备还包括:总线、通信接口503等。处理器502、存储器501、通信接口503通过总线相互连接。其中:总线可包括一通路,在计算机系统各个部件之间传送信息。处理器502可以是通用处理器,例如通用中央处理器CPU、微处理器等,也可以是特定应用集成电路application-specificintegratedcircuit,ASIC,或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器DSP、专用集成电路ASIC、现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。处理器502可包括主处理器,还可包括基带芯片、调制解调器等。存储器501中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器501可以包括只读存储器read-onlymemory,ROM、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器randomaccessmemory,RAM、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。通信接口503可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网RAN,无线局域网WLAN等。处理器502执行存储器501中所存放的程序,以及调用其他设备,可用于实现本发明实施例所提供的文本要点检测方法的各个步骤。本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例提供的文本要点检测方法的各个步骤。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可以是个人计算机,服务器,或者网络设备等执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器ROM,Read-OnlyMemory、随机存取存储器RAM,RandomAccessMemory、磁碟或者光盘等各种可以存储程序代码的介质。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

权利要求:1.一种文本要点检测方法,其特征在于,包括:获取指定主题的待检测文本;确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。2.根据权利要求1所述的文本要点检测方法,其特征在于,获得所述待检测文本中的每个文本单元,包括:对所述待检测文本的文本内容进行分词、分句处理,分词、分句处理后得到多个句子;将每一句子,或者,每一句子组作为一文本单元,得到所述待检测文本中的每个文本单元,其中,一个句子组包括多个连续句子。3.根据权利要求1所述的文本要点检测方法,其特征在于,所述确定所述待检测文本中每个文本单元对应的要点表征信息,包括:通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量,其中,一个文本单元对应的文本向量包含该文本单元对应的句法结构信息和主题词信息;所述基于所述待检测文本中每个文本单元对应的要点表征信息,确定所述待检测文本中每个文本单元对应的要点信息,包括:以所述待检测文本中每个文本单元对应的文本向量通过所述文本要点检测模型,确定所述待检测文本中每个文本单元对应的要点信息;其中,所述文本要点检测模型以标注有要点信息的训练文本训练得到,所述训练文本为所述指定主题的文本,所述训练文本以文本单元为单位进行要点信息标注。4.根据权利要求3所述的文本要点检测方法,其特征在于,所述通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量,包括:通过所述文本要点检测模型中的信息确定模块,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息;通过所述文本要点检测模型中的文本表征模块,基于所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,生成所述待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。5.根据权利要求4所述的文本要点检测方法,其特征在于,所述通过所述文本要点检测模型中的信息确定模块,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,包括:对于所述待检测文本中的任一文本单元,通过所述文本要点检测模型中的信息确定模块,确定该文本单元中每个词在该本文单元所隶属的文本片段,获得多个文本片段,基于获得的多个文本片段以及每个文本片段中所包含的词获得该文本单元对应的句法结构信息和主题词信息。6.根据权利要求3~5中任意一项所述的文本要点检测方法,其特征在于,所述文本要点检测模型为基于强化学习思想训练得到的模型,所述文本要点检测模型的训练过程包括:获取标注有要点信息的训练文本;将所述训练文本中的每个文本单元输入所述文本要点检测模型进行训练,以使所述文本要点检测模型针对所述训练文本中的每个文本单元,从该文本单元中挖掘出句法结构信息,并在确定该文本单元对应的文本向量时,将从该文本单元中挖掘出的句法结构信息整合至该文本单元对应的文本向量中,基于整合有句法结构信息的文本向量进行要点分类,所述文本要点检测模型的输出为所述训练文本中每个文本单元对应的要点分类结果,所述文本要点检测模型的训练目标为提升所述训练文本中每个文本单元的要点分类正确率。7.一种文本评估方法,其特征在于,包括:基于权利要求1~6中任意一项所述的文本要点检测方法检测待评估文本的要点信息;基于所述待评估文本的要点信息对所述待评估文本进行评估。8.一种文本要点检测装置,其特征在于,包括:文本获取模块、文本表征模块和要点确定模块;所述文本获取模块,用于获取指定主题的待检测文本;所述文本表征模块,用于确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;所述要点确定模块,用于基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。9.一种文本要点检测设备,其特征在于,包括所述存储器,用于存储程序;所述处理器,用于执行所述程序,所述程序具体用于:获取指定主题的待检测文本;确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。10.一种可读存储介质,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的文本要点检测方法的各个步骤。

百度查询: 科大讯飞股份有限公司 文本要点检测方法、装置、设备、存储介质及评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术