首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

视频摘要生成方法、装置、电子设备及存储介质 

申请/专利权人:平安科技(深圳)有限公司

申请日:2022-01-11

公开(公告)日:2024-06-28

公开(公告)号:CN114359810B

主分类号:G06V20/40

分类号:G06V20/40;G06F40/284;G06N3/0464;G06N3/0455;G06N3/084;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2022.05.03#实质审查的生效;2022.04.15#公开

摘要:本申请实施例提供了一种视频摘要生成方法、装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取视频数据;通过预设的视频提取模型对视频数据进行视频提取,得到多个视频片段;对视频片段进行编码处理,得到视频隐藏特征向量;将视频隐藏特征向量与预设的参考词向量进行矩阵相乘处理,得到视频描述词段;通过预设的文本识别模型对视频描述词段进行文本识别处理,得到视频摘要语句;根据预设的拼接顺序对视频摘要语句进行拼接处理,得到视频摘要文本。本申请实施例能够提高生成视频摘要的准确性。

主权项:1.一种视频摘要生成方法,其特征在于,所述方法包括:获取视频数据;通过预设的视频提取模型对所述视频数据进行视频提取,得到多个视频片段;对所述视频片段进行编码处理,得到视频隐藏特征向量;将所述视频隐藏特征向量与预设的参考词向量进行矩阵相乘处理,得到视频描述词段;通过预设的文本识别模型对所述视频描述词段进行文本识别处理,得到视频摘要语句;根据预设的拼接顺序对所述视频摘要语句进行拼接处理,得到视频摘要文本;所述文本识别模型包括Bert层和Transformer层,所述通过预设的文本识别模型对所述视频描述词段进行文本识别处理,得到视频摘要语句的步骤,包括:对所述视频描述词段进行词向量化处理,得到每一所述视频描述词段对应的视频描述词向量;通过所述Bert层对所述视频描述词向量进行嵌入处理,得到视频描述表征向量;通过所述Transformer层对每一所述视频描述表征向量进行文本分值计算,得到每一所述视频描述表征向量的文本分值;根据所述文本分值对所述视频描述词段进行筛选处理,得到视频摘要语句;所述通过所述Bert层对所述视频描述词向量进行嵌入处理,得到视频描述表征向量的步骤,包括:通过所述Bert层中预设的参考段嵌入向量对所述视频描述词向量进行段嵌入处理,得到视频段嵌入向量;通过所述Bert层中预设的特征维度对所述视频描述词向量进行位置嵌入处理,得到视频位置嵌入向量;对所述视频描述词向量、所述视频段嵌入向量以及所述视频位置嵌入向量进行组合处理,得到所述视频描述表征向量;所述将所述视频隐藏特征向量与预设的参考词向量进行矩阵相乘处理,得到视频描述词段,包括:将所述视频隐藏特征向量输入至语言模型的解码器;在每个时刻,基于所述解码器对所述时刻的上一时刻生成的视频描述词段的词向量、和所述时刻的视频隐藏特征向量进行矩阵相乘,生成所述时刻的视频描述词段,直至生成最后一个时刻的视频描述词段,其中,所述参考词向量是全零向量,所述参考词向量是用于与第一个时刻的视频隐藏特征向量进行矩阵相乘的词向量,所述最后一个时刻的视频描述词段是一个终止符。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 视频摘要生成方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。