首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于任务型对话的图像编辑系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京邮电大学

摘要:本发明涉及图像处理技术领域,提出了基于任务型对话的图像编辑系统,包括对话理解模块,用于根据输入的对话文本得到对话状态,所述对话状态包括用户要编辑的属性和编辑程度;图像编辑模块,用于接收用户输入图像和对话状态,根据对话状态对用户输入图像进行编辑,输出编辑后的图像;系统回复模块,用于输出系统回复信息;所述对话理解模块包括依次连接的编码器、解码器、第一线性层和Softmax函数,所述编码器和所述解码器均为N个,每一所述解码器的输出均设置一个适应器。通过上述技术方案,解决了现有技术中图像编辑方法在连续的图像编辑时出现历史编辑信息遗忘、用户需求理解偏差、系统交互不准确、不灵活的问题。

主权项:1.基于任务型对话的图像编辑系统,其特征在于,包括:对话理解模块,用于根据输入的对话文本得到对话状态,所述对话状态包括用户要编辑的属性和编辑程度;所述对话文本包括对话历史信息和当前的用户需求;图像编辑模块,用于接收用户输入图像和对话状态,根据对话状态对用户输入图像进行编辑,输出编辑后的图像;系统回复模块,用于根据对话文本和编辑后的图像,输出系统回复信息;所述对话理解模块包括依次连接的编码器、解码器、第一线性层和Softmax函数,所述编码器和所述解码器均为N个,每一所述解码器的输出均设置一个适应器,任一所述适应器包括依次连接的归一化层Layer_Norm、第二线性层Linear、激活函数Relu和第三线性层Linear,所述对话理解模块的训练步骤具体包括:使用预训练的Transformer模型参数对所述编码器和所述解码器参数进行初始化;对于输入的对话文本x,使用词嵌入得到词向量x_emb,然后使用编码器将x_emb编码为特征z,具体为: 其中Encoder表示堆叠的N个编码器;将特征和输出标签y的词向量y_emb输入N个解码器,第i个解码器的输出z’具体为: 其中Decoder_i表示第i个解码器,将第i个解码器的结果输入到第i个适应器中: 固定所述编码器和所述解码器的参数,修改适应器的参数θ,直到损失函数在设定范围内,所述损失函数具体为: 其中,x为输入的对话文本,y为对话理解模块的输出标签,|y|表示输出的长度,表示输出概率,表示第i个输出,表示输出正确的概率;所述图像编辑模块具体包括:图像反转编码器,用于得到用户输入图像的特征w;文本编码器,用于得到对话状态中文本的隐向量et;语义调整模块,用于:根据文本的隐向量et计算得到向量Qp,作为注意力机制中的Query信息;根据用户输入图像的特征w计算得到向量K和V,所述向量K和V分别作为注意力机制中的Key值和Value值;将向量K与向量Qp相乘得到对话状态的文本与用户输入图像之间的相关性权重Attentionp;将相关性权重Attentionp与向量V进行加权求和得到用户输入图像的编辑方向Δw;将用户输入图像的特征w沿着编辑方向Δw更新,得到编辑后的图像特征w’=w+Δw;图像生成器,用于根据编辑后的图像特征w’得到编辑后的图像。

全文数据:

权利要求:

百度查询: 北京邮电大学 基于任务型对话的图像编辑系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。