恭喜杭州电子科技大学曹九稳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州电子科技大学申请的专利一种基于深度语言模型和模板定制的医学语料扩充方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114678095B 。
龙图腾网通过国家知识产权局官网在2025-04-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210399534.0,技术领域涉及:G16H10/60;该发明授权一种基于深度语言模型和模板定制的医学语料扩充方法是由曹九稳;张宇;王天磊;刘鹏;向建发设计研发完成,并于2022-04-15向国家知识产权局提交的专利申请。
本一种基于深度语言模型和模板定制的医学语料扩充方法在说明书摘要公布了:本发明公开了一种基于深度语言模型和模板定制的医学语料扩充方法,针对医疗领域语料中疾病、药品、器械的专业名词比其他场景多等问题,本发明采用模板定制的方法,提高了医疗专业名词在生成语料中出现的概率。针对不同种类疾病、不同科室之间,名词术语差异性大,而分别针对不同疾病、不同科室进行手工制作大规模模板是不现实的问题,本发明采用深度语言模型从相近或相关的域外文本数据集中自动的生成大量的、多样的医疗模板句子,从而有效地扩充医疗语料库,降低了人工采集数据花费的时间与经济成本。
本发明授权一种基于深度语言模型和模板定制的医学语料扩充方法在权利要求书中公布了:1.一种基于深度语言模型和模板定制的医学语料扩充方法,其特征在于,步骤如下:步骤1:构建初始医疗文本数据集和域外文本数据集,制作医疗模板数据集;步骤2:预训练深度语言模型;步骤3:对医疗模板数据集和处理后的域外文本数据集打上不同的标签,形成医疗模板标签数据集与域外文本标签数据集;步骤4:将步骤2中得到的预训练深度语言模型权重加载到深度语言模型中,得到预训练深度语言模型,然后将标签信息加入到输入矩阵中,对预训练深度语言模型进行微调,得到微调好的深度语言模型;步骤5:将医疗模板数据集的标签输入到微调好的深度语言模型中,然后对处理后的域外文本数据集中句子的每个单词进行词语预测,并保存每组预测词;步骤6:根据模型预测保存下来的各组预测词生成词汇混淆网络;对词汇混淆网络中的词语按顺序进行排列组合得到全部模板句子;步骤2具体步骤如下:首先构建由三个部分组成的深度语言模型,1输入嵌入层,2多头注意力层,3线性层;随后使用医疗模板数据集和处理后的域外文本数据集对深度语言模型进行预训练;1输入嵌入层用于对医疗模板数据集和处理后的域外文本数据集进行分词、词表建立、初始编码、独热编码、词嵌入压缩、位置编码、输入矩阵建立:1分词:基于最短路径与动态规划分词算法对每个句子进行分词,并保存分词结果,形成分词集;2词表建立:将分词集出现的词汇保存形成词表;词表中一行一个词语,词语所在的行数即是该词汇的编码;3初始编码:设置统一编码长度,使用词表对分词后句子进行初始编码,长度短于统一编码长度的句子,通过填0补充;长度超过统一编码长度的句子,超过的部分不进行编码;4独热编码:独热编码矩阵中每一行代表一个词汇的独热码,该行中只有该词的词语编码的列的值为1其他位置的值都为0,5词嵌入压缩:构造随机矩阵ws,其中d为词向量的维度,然后将wS与独热编码矩阵进行矩阵相乘,进行词嵌入压缩,得到词向量矩阵,进行词嵌入压缩的过程用公式表示为: 其中wc是词向量矩阵,是独热编码矩阵;6位置编码:为词向量矩阵构造位置矩阵pe,构造位置矩阵: 其中pos为词语在句子中的位置,d是词向量维度,i是0到d-1之间,包括0和d-1的整数值;2i是指词向量中的偶数列,2i+1是指词向量中的奇数列,pepos,2i+1表示pe矩阵中第pos行,奇数列的值,pepos,2i表示pe矩阵中第pos行,偶数列的值;设词向量矩阵的维度是5×4,即句子中有五个词,每个词用四维向量表示;则位置矩阵的计算公式为: 当pos=1时得到第一个词的位置向量:将pos=2带入公式得到第二个词的位置向量:以此类推得到全部词的位置向量;组合成位置矩阵,位置矩阵的维度为5×4与词向量矩阵维度相同;7输入矩阵建立:将得到的位置矩阵和词向量矩阵直接相加,得到输入矩阵;2多头注意力层通过构建多头注意力机制,计算注意力分数矩阵,从而进行表示学习;多头注意力层由多层多头注意力机制组成,将上一层注意力机制计算出的注意力分数矩阵作为下一层注意力机制的输入,其步骤包括:1构造三个随机矩阵d为词向量维度;并将输入矩阵与这三个矩阵分别进行矩阵相乘,得到查询矩阵Q、键矩阵K、值矩阵V;2计算多头注意力得分矩阵;多头注意力得分矩阵的具体计算公式为:MultiHeadQ,K,V=Concathead1,…,headhwo 其中d为词向量的维度,headh表示第h个注意力头,Concat表示将矩阵head1,…,headh进行拼接,其中h代表注意力头的个数,hdv表示注意力头的个数h与dv的乘积;通过上述步骤计算得出多头注意力分数矩阵,然后将注意力分数矩阵输入到下一层多头注意力机制中继续计算注意力得分矩阵;3线性层:将多头注意力层输出的注意力得分矩阵输入线性层中进行维度变换,公式为:F=MultiHeadQ,K,V*wf其中wf为线性变换矩阵,然后对经过维度变换的矩阵F采用softmax函数进行归一化,将每一行的元素缩放到0,1之间,得到输出矩阵FN;4使用医疗模板数据集和处理后的域外文本数据集对深度语言模型进行预训练,其具体步骤如下:1划分数据集为若干个BATCH,每一个BATCH由x句话组成;然后对各个BATCH中的每句话进行MASK操作;2将经过MASK操作后的BATCH送入输入嵌入层,得到输入矩阵;3将输入矩阵送入多头自注意力层中,计算多头注意力分数矩阵;4将多头注意力分数矩阵输入线性层中进行维度变换,得到输出矩阵pc;5根据BATCH中被MASK的词构造目标矩阵yc,yc的维度与pc相同,yc每一行向量对应BATCH中每个句子被替换成MASK的词的独热编码向量;6然后根据目标矩阵yc与输出矩阵pc,计算交叉熵函数得出整个BATCH的Loss,一个BATCH的交叉熵计算公式为: 其中表示yc矩阵中第i行向量,表pc矩阵第i行向量,表示对向量中的每个元素进行对数运算;表示向量与向量做向量积;x等于yc矩阵的列数;7根据Loss,采用Adam算法更新模型参数直至收敛,得到预训练深度语言模型权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。