买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:沈阳工业大学
摘要:本发明公开了一种基于Transformer模型的注释生成和代码生成的双重模型方法,涉及机器翻译技术领域,其特征在于:包括以下步骤:1数据处理:将输入的代码和注释文档转换为固定大小的矩阵;2输入表示;3设置超参数,在训练过程中对损失函数的重要性进行加权;4预训练:使用LSTM模型对代码集合X和代码Y进行回归任务,得到代码先验概率Px和注释先验概率Py;5双重任务迭代训练;6输出。使用Transformer模型组合搭建双重模型架构能很好的平衡了注释生成和代码生成任务之间性能,并且解决了长依赖问题;在Transformer模型的基础上采用注释生成和代码生成之间的概率相关作为正则化项,并采用一种基于注意力的约束来保证在训练过程中两个模型的注意权重的相似性。
主权项:1.一种基于Transformer模型的代码生成和代码注释的双重模型方法,其特征在于:包括以下步骤:1数据处理:在数据处理阶段,首先将代码文档和注释文档转换为固定大小的矩阵表示,随后进行特征提取、序列填充确保长度一致,建立词汇表及单词索引映射,应用词嵌入转换为密集向量捕捉语义关系;进一步处理稀疏数据、清洗操作去除噪声与拼写错误,并进行词性标注特征工程操作来丰富数据表征能力;2输入表示:在输入表示阶段,假设X代表所有的代码片段的集合,而Y代表所有的注释片段的集合;在此基础上,建立了注释生成模型Py|x,代码生成模型是Px|y;具体来说,对于一个代码片段x包含x1,x2,x3…xm,以及一个注释片段y包含y1,y2,y3....yn;这两个模型旨在有效地描述并预测给定输入下的输出,从而实现代码与注释之间的转换关系;3设置超参数:在设置超参数阶段,引入了超参数λdual1,λdual2,λsim1,λsim2,这些超参数在模型训练过程中对损失函数中不同部分的重要性进行了加权调节;4预训练:在模型的预训练阶段,使用了LSTM模型对代码集合X和代码Y分别进行回归任务,目的是得到代码先验概率Px和注释先验概率Py,获得对于给定代码和注释的概率估计;5双重任务迭代训练:5.1先从数据集中获取一个包含K对的迷你批次[xk,yk];5.2向前传播计算联合概率;5.3向前传播计算两模型在transform编码器-解码器多头注意力权重的相似度;5.4反向传播优化器依次优化模型权重;5.5输出:最终训练得到的模型权重参数。
全文数据:
权利要求:
百度查询: 沈阳工业大学 一种基于Transformer模型的代码生成和代码注释的双重模型方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。