买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:腾讯科技(深圳)有限公司
摘要:本申请实施例公开了一种摘要确定方法和相关装置,至少涉及人工智能中的自然语言处理和机器学习,针对包括至少一个待处理文本的文本集合,在确定该文本集合对应摘要内容的过程中,基于待处理文本包括的文本片段相对于待处理文本的重要性参数,以及相对于摘要内容中已确定部分的冗余度参数,共同获得文本片段的摘要权重。依据摘要权重从文本集合所包括文本片段中筛选出较为重要且与目前摘要内容的已确定部分冗余度不高的文本片段,将其作为目标文本片段,通过数量较少的目标文本片段而不是全部文本片段继续生成摘要内容,由此可以降低生成摘要内容所需处理的文本片段数量,降低了计算量,提高了摘要内容的生成效率。
主权项:1.一种摘要确定方法,其特征在于,所述方法应用于继续生成摘要内容的场景,所述方法包括:通过检索串获取包括至少一个待处理文本的文本集合,所述待处理文本包括多个文本片段,所述检索串用于标识所述用户的检索意图;在确定所述文本集合对应摘要内容的过程中,通过所述文本片段相对于所述待处理文本的重要性参数、所述文本片段相对于所述摘要内容中已确定部分的冗余度参数以及所述文本片段相对于检索串的相关性参数进行加权,得到所述文本片段的摘要权重;所述重要性参数用于表征文本片段与其所在的待处理文本的相关程度,所述冗余度参数为本次确定摘要内容时的文本片段相对于当前摘要内容的已经确定部分的相似程度;根据所述摘要权重从所述文本集合包括的文本片段中确定用于第t个时间步的目标文本片段,所述目标文本片段的数量少于所述文本集合中所述文本片段的数量;根据所述第t个时间步的目标文本片段的摘要权重,调整在生成所述文本集合对应的文本集合特征时所述第t个时间步的目标文本片段对应的注意力权重,通过调整后的注意力权重以及所述第t个时间步的目标文本片段的片段特征,生成所述文本集合对应的文本集合特征,根据所述文本集合特征进行解码得到所述摘要内容在第t个时间步的部分词汇;所述文本集合对应摘要内容是通过多个时间步确定的,针对所述多个时间步中的第t个时间步,将前t-1个时间步所确定的部分词汇作为所述摘要内容中已确定部分,确定所述文本片段在第t个时间步中的冗余度参数;其中,所述文本片段相对于所述待处理文本的重要性参数的确定过程,包括:根据所述检索串,确定所述文本片段相对于检索串的片段特征;将所述片段特征、所述检索串的检索串特征以及所述文本片段在所述待处理文本中的位置信息输入至第一模型,确定所述文本片段相对于检索串的相关性参数;将所述片段特征、所述待处理文本的文本特征以及所述文本片段在所述待处理文本中的位置信息输入至第二模型,确定所述文本片段相对于所述待处理文本的重要性参数。
全文数据:
权利要求:
百度查询: 腾讯科技(深圳)有限公司 一种摘要确定方法和相关装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。