恭喜浙江工业大学潘建获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江工业大学申请的专利一种基于部首特征和多层注意力机制的中文自动问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114118099B 。
龙图腾网通过国家知识产权局官网在2025-05-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111325158.2,技术领域涉及:G06F16/3329;该发明授权一种基于部首特征和多层注意力机制的中文自动问答方法是由潘建;祝训醉;吕思睿;李芋江设计研发完成,并于2021-11-10向国家知识产权局提交的专利申请。
本一种基于部首特征和多层注意力机制的中文自动问答方法在说明书摘要公布了:一种基于部首特征和多层注意力机制的中文自动问答方法,包括以下步骤:步骤1、对数据集进行预处理;步骤2、得到词嵌入矩阵,通过随机初始化得到部首嵌入矩阵;步骤3、通过词嵌入和部首嵌入将词语分别转化为向量表示,在词语向量后追加语言学特征;步骤4、将文档向量序列问题向量序列分别输入至不同的双向RNN网络进行编码;步骤5、根据文档向量序列与问题向量,依次计算得到答案开始和结束边界的概率,生成目标概率分布,步骤6、使用数据集对模型训练N轮,通过计算损失并对参数进行更新,使用mini‑batch策略对模型进行训练,使用模型对给定的一个文档和与之相关的问题进行处理,预测得到答案。本发明提高了自动问答的准确率。
本发明授权一种基于部首特征和多层注意力机制的中文自动问答方法在权利要求书中公布了:1.一种基于部首特征和多层注意力机制的中文自动问答方法,其特征在于,所述方法包括以下步骤:步骤1、对数据集S进行预处理,数据集S表示为{Si|Si=Passage,Question,Answer,1≤i≤n},其中Si表示第i个数据,由文档Passage、问题Question和答案Answer三部分组成,answer是passage的子串,n为数据集S的大小,所进行的数据预处理骤包括:中文分词、语言学特征标注和统计词语词频信息;步骤2、加载预训练的wordembedding得到词嵌入矩阵WEl×d,通过随机初始化得到部首嵌入矩阵REk×r,其中l为wordembedding中词语的数量,d表示词向量的维度,k表示部首字典中部首的数量,r表示部首嵌入的维度,部首嵌入矩阵RE为模型训练参数;步骤3、通过词嵌入和部首嵌入将PWList、QWList中的词语分别转化为向量表示,然后在词语向量后追加语言学特征,得到PWList、QWList的向量序列表示vPWList、vQWList,过程如下:3.1将PWList中的词语pwordi转化为向量表示其中WEword表示词语word对应的词向量,radicalword=[radicalDictw1,…,radicalDictwwcntword]表示词语word的部首列表,wcntword表示词语word的汉字数,REradicalword表示词语word中汉字部首对应的部首向量组成的矩阵,表示向量拼接,c代表卷积输出通道数,最终vpwordi的维度为1×2d+c+4,函数CNN_RE、fmatch、ftoken、falign返回的结果均为向量;3.2将QWList中的词语qwordi转化为向量表示最终vpwordi的维度为1×d+c;PWList的向量序列表示为vPWList=[vpword1,vpword2,…,vpwordlenPWList],QWList的向量序列表示为vQWList=[vqword1,vqword2,…,vqwordlenQWList];步骤4、将文档向量序列vPWList和问题向量序列vQWList分别输入至不同的双向RNN网络进行编码,得到包含问题信息的文档向量序列表示PWC和问题向量表示Q,过程如下;4.1将vPWList输入至RNN1进行编码得到向量序列Pl=[pl1,pl2,…,pllenPWList]=RNN1vPWList,其中RNN1网络输出结果pli的维度为1×h;4.2将vQWList输入至RNN2进行编码得到向量序列Ql=[ql1,ql2,…,qllenQWList]=RNN2vQWList,其中RNN2网络输出结果qli的维度为1×h;4.3将编码得到的向量序列Ql压缩为一个向量其中w为可训练的参数向量;4.4对编码得到的向量序列Pl进一步进行基于注意力机制的处理得到: 其中其中为pli与qlj的注意力权重;4.5将Ph输入到RNN3中进行编码得到包含问题信息的文档向量序列表示PWC=[pwc1,pwc2,…,pwclenPWList]=RNN3Ph,RNN3网络输出结果pwci的维度为1×h′;步骤5、根据文档向量序列表示PWC与问题向量表示Q,依次计算得到PWList中每个词语PWListi作为答案开始边界的概率和作为答案结束边界的概率其中Ws,We为可训练参数,根据答案AWList在PWList的左边界l和右边界r生成目标概率分布PTS=[ptsi=Θi==l|1≤i≤lenPWList]和PTE=[ptei=Θi==r|1≤i≤lenPWList],其中函数Θx在x为真时返回1,在x为假时返回0;步骤6、将数据集S划分为训练数据集T和测试数据集V,使用数据集T对模型训练N轮,通过Pstart、Pend、PTS、PTE计算损失并对参数进行更新,使用mini-batch策略对模型进行训练,每轮训练完成后使用测试数据集V对模型进行评估,取N轮中表现最好的参数作为模型参数,包括RNN网络、CNN网络和falign函数中全连接层α的参数以及RE、Ws、We、w参数,其中损失计算方式为lossPstart,PTS+lossPsend,PTE;步骤7、加载训练得到的模型参数,使用模型对给定的一个文档p和与之相关的问题q进行处理,预测得到答案ans;所述步骤1中,所进行的数据预处理过程如下:1.1使用中文分词工具对数据集S进行分词处理,得到Passage的词语列表PWList=[pword1,pword2,…,pwordlenPassage],QWList=[qword1,qword2,…,qwordlenQuestion],AWList=[aword1,aword2,…,awordlenAnswer],其中lenx表示字符串x中词语的数量;1.2将中文词性标注特征和命名实体识别特征映射为数字,得到词性特征映射POSMap={pos1:1,pos2:2,…,posk:k}、命名实体特征映射NerMap={ner1:1,ner2:2,…,nerl:l},其中k为词性特征类别数量,l为命名实体识别特征类别数量,posi和nerj分别表示词性标注特征和命名实体识别特征;1.3使用语言学工具对PWList进行词性标注、命名实体识别,并将结果保存,定义POSword,Passage表示word在Passage中的词性特征、Nerword,Passage表示word在Passage中的命名实体特征;1.4统计词语pwordi在PWList中出现的频率信息其中countword,PWList表示word在PWList中出现的次数;1.5通过人工标记得到中文汉字的部首字典radicalDict={w1:r1,w2:r2,…,wm:rm},其中wi为汉字,ri为wi的部首,m为部首字典radicalDict的大小。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市下城区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。