首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于LLM和深度学习神经网络的二维码海报生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中电万维信息技术有限责任公司

摘要:本发明涉及数据处理技术领域,特别是基于LLM和深度学习神经网络的二维码海报生成方法;具体为运用人工智能和计算机视觉技术对图形图像处理生成二维码的方法。本发明基于强大的图像生成模型,可以生成富有艺术感的二维码。风格迥异的图像训练,提升生成效果的多样性。生成图像的颜色、构图等具有艺术创意。相比传统二维码更加美观、具有品牌化。可以在一个海报中嵌入多个标准二维码,满足不同消费场景的识别需求,息量大大增加,支持更丰富的应用,相比一般艺术二维码信息量更大。

主权项:1.基于LLM和深度学习神经网络的二维码海报生成方法,其特征在于包括以下步骤:S01:收集训练数据,收集大量文本描述和对应的图像数据作为训练集,文本涵盖不同主题、场景、风格等图像包含不同风格的二维码海报,构建文本-图像配对作为监督学习数据集;文本数据收集:包括不同主题、场景的语义描述文本要求语义明确,风格多样;图像数据收集:包括不同风格的二维码海报图像作为训练集;构建文本-图像配对:检查图片与文本的匹配程度,移除不匹配的图像文本配对数据;数据增广:使用旋转、裁剪、颜色变化等操作增多样本量,用同一文本配对多张图像样例;S02:预训练语义理解模块,使用BERT等预训练语言模型,输入文本序列输出文本语义向量,通过MLM、NSP等损失函数进行预训练并优化语义理解能力;模型选择:选择预训练语言模型BERT作为语义理解模型,经过大规模语料预训练捕捉语义信息,使用PyTorch框架加载预训练的BERT-Large模型;数据预处理:对文本数据进行分词、建词表等预处理,转换为模型输入的id序列表示,选择中文分词库jieba建立词汇表,限制最大词汇量50000;使用jieba0.42版中文分词器切分文本并构建词汇表,建立词汇表和词ID的映射表,用于文本转ID;模型加载:加载BERT-large预训练模型参数并使用上一步骤收集到的语料预训练模型;语料库提升文本容量为10万条,文本样式包括所有正例80%及反例20%,使用GPU并行数据加载和预处理,批量预处理语料,缓存为TFRecord格式;Fine-tuning:微调模型以增强语义理解能力,使用MaskedLM和NextSentencePrediction结合训练标签任务,调整超参数batch_size、learning_rate,进行多轮训练直至训练loss收敛;生成语义向量:输入测试文本,输出文本对应的语义向量向量维度为1024;对输入文本使用训练后的语义理解模型提取语义特征向量,输入文本限制256个token以内,超过部分截断,返回1024维float32类型的语义向量;S03:预训练图像生成模块,编码器学习语义向量的高斯分布参数,解码器基于PixelCNN进行图像生成,使用文本-图像配对数据进行训练,最小化重构损失、KL散度;编码器:采用5层全连接网络,每层后接ReLU激活函数和BatchNormalization,最后一层输出均值和方差,表示高斯分布;解码器:基于PixelCNN的自动回归模型,由卷积层和GRU组成,利用像素mask,生成顺序的像素;数据预处理:对收集的图像数据集进行数据增强,包括:随机裁剪、翻转、颜色变化;损失函数:重构损失,生成图像与真实图像的MSE损失和KL散度损失,公式为:L_rec=1N*Σx_gen-x_real^2;计算编码器分布Q和标准正态分布P之间的KL散度损失,公式为:L_kl=0.5*μ^2+σ^2-logσ^2-1;模型训练:输入语义向量,优化编码器和解码器的参数,初始学习率可取1e-3,使用Adam等优化器进行模型优化,降低重构损失和KL散度损失,训练多轮直至损失函数收敛;S04:微调网络,使用目标领域的数据进一步微调网络,使得生成结果符合所需风格、主题等,减少训练样本对生成效果的差异;目标域数据:图像分辨率统一为256x256大小,准备200张左右图片,要求文本语义描述清晰准确,与图像匹配;预训练模型加载:加载PyTorch版的模型权重,确保模型结构与预训练一致;微调超参数:学习率设置为1e-4,1e-5等较小值,batchsize可设置为32或64,训练轮数40~100;训练策略:前期训练20-30轮冻结编码器,中期解冻编码器训练10轮左右,后期全部网络合并微调;模型保存:保存最后一轮的完整模型参数方便预测部署使用,可保存为PyTorch模型文件或HDF5格式;S05:语义向量化,输入文本,通过预训练的语义理解模块,输出文本对应的语义向量表示;输入文本预处理:对输入文本进行分词、词性标注、填充或截断至最大长度等处理,中文采用jieba分词工具,英文直接切词;建立完整的词汇表,包含词频信息;最终转换为模型输入形式的id序列;模型准备:加载预训练好的BERT语义理解模型,切换模型至预测模式;模型预测:包括前向传播生成和后处理,前向传播生成输入预处理后的文本序列,模型按序通过Embedding、Encoder等层,输出对应位置的语义向量;后处理从输出向量序列中取出需要的语义向量,剔除无意义的填充向量,对向量做归一化,约束向量范围;向量保存:将得到的语义向量保存为numpy数组文件;接口封装:封装为语义向量化的预测服务接口方便其他系统调用使用,输入原文本,输出语义向量;S06:图像生成,编码器学习语义向量的分布参数,从分布中采样输入解码器、解码器生成颜色图像;输入语义向量:输入前期得到的语义向量,形状为[batch_size,dim];编码器推理:前向传播生成高斯参数μ和σ,输出形状[batch,dim];随机采样:使用PyTorch的reparameterizationtrick从正态分布Nμ,σ中采样,采样大小为[batch,dim];解码器推理:PixelCNN以采样Noise为条件逐像素生成图像,将生成的图像进行过滤噪声、平滑、调整分辨率,裁剪等后处理;模型集成及部署:将图像生成模型集成到服务系统中,提供图像生成的API接口;并使用使用GPU、FPGA等加速计算,优化IO提升吞吐量;S07:二维码生成及嵌入,将输入信息转化为标准二维码,检测图像的ROI区域,将二维码图片嵌入所生成图像,输出二维码海报;信息处理:输入信息校验长度、格式等限制,支持文本、URL、联系方式等信息,输入信息限制在1024字节以内,验证URL、电话、邮箱等格式确保正确,并进行非法字符过滤;输出标准化后的信息字符串;编码生成:使用标准的二维码编码算法生成二维码,设置二维码大小,容错级别等参数,输出二维码的图片文件;图像处理:加载生成的图像文件,检测图像的感兴趣区域ROI,使用高斯滤波、形态学处理平滑图像的边界;二维码嵌入:将二维码等比缩放计算嵌入位置的坐标,插入到ROI区域,并使用Richardson-Lucy算法生成羽化边框;结果返回:通过Base64编码返回嵌入后的二维码图像,异步返回或保存到云存储,支持JPEGPNGSVG等格式。

全文数据:

权利要求:

百度查询: 中电万维信息技术有限责任公司 一种基于LLM和深度学习神经网络的二维码海报生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。