买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及一种融合多源知识的中文医学命名实体和词性联合学习方法,属于自然语言处理中的信息抽取技术领域。本发明提出了一种多输入多任务学习模型,首先为来自不同数据源的任务数据分别设计模型的输入。然后利用相同的编码结构将不同的输入嵌入到同一语义空间中,获得统一的向量表示。之后,通过任务特定层提取任务特定表示,由该嵌入表示计算得出最后的预测结果。训练过程中,采取交替式的计算方式。在信息抽取中,利用该模型,实现捕获来自不同数据源的NER任务和POS任务之间的相关性。本方法有效提高了深度学习模型对中文医学文本命名实体的识别效果及鲁棒性,尤其是对长实体的识别效果及鲁棒性,并能高质量完成中文医学数据词性标注。
主权项:1.融合多源知识的中文医学命名实体和词性联合学习方法,其特征在于,包括以下步骤:步骤1:对中文医学NER数据集和中文医学POS数据集进行数据预处理;将中文医学POS数据集和中文医学NER数据集处理成字级别BILOU编码;对于存在嵌套实体的中文医学NER数据集,由词符token到多标签的映射,是所有相交实体由高优先级实体到低优先级实体的标签的串联,实体优先级定义如下:位置靠前的实体,优先级更高;位置相同,则长实体优先级高于短实体;其中,对中文和英文分别采用不同的切分粒度,中文以字符为粒度切分,英文以词为粒度切分;步骤2:将NER作为生成式任务,构建序列到序列模型;步骤2.1:输入语句序列t1,t2,…,tn,按优先级由高到低的顺序输出ti的标签,直到输出终止字符EOW,才继续输出ti+1的标签;基于序列到序列的命名实体识别模型结构,包括词嵌入层、编码器和解码器三部分;步骤2.2:将离散的词符token用分布式向量表示,经编码器得到对应的隐向量表示,通过式1进行计算:ht=tanhWh[ht-1,xt]1其中,ht表示当前时间步的隐向量表示,ht-1表示上一时间步的隐向量表示,Wh表示权重系数矩阵,xt表示当前时间步对应输入的向量表示;seq2seq模型将输入语句编码后,用最后一个隐向量来表示,然后用该隐向量解码得到输出序列;将注意力关注于标签对应的词符token;引入teacherforcing机制,在训练阶段将当前时间步的标准输出作为下一时间步的输入,如果其中一个RNN单元出现误差,不会将该误差传播到下一个RNN单元;t时刻解码器的隐状态st,由式2进行计算:st=tanhWs[st-1,yt,ht]2其中,Ws表示权重系数矩阵,st-1表示上一时间步解码器的隐状态,yt表示当前时间步的标准输出;t时刻的输出ot,由式3进行计算:ot=softmaxUst3其中,U表示权重系数矩阵;步骤3:将中文医学POS数据集作为外部数据源,分别对NER任务和POS任务构建模型输入;不同输入共享相同的编码层,解码层和特定任务相关,并将词性特征和词边界信息融入深度学习模型中,用于指导训练过程,实现多个任务同时训练;步骤4:采用遗忘惩罚机制,控制交替式计算的训练过程;遗忘惩罚定义为NER任务和POS任务相同参数之间的二次差,由式4进行计算:penaltyf=‖θcurrent-θprevious‖24其中,penaltyf表示遗忘惩罚,θcurrent表示当前时间步的模型参数,θprevious表示上一时间步的模型参数,θ仅表示任务之间共享的参数;将遗忘惩罚作为正则项加入损失函数中,具体由式5进行计算:L=-∑otlogytLoss=L+λpenaltyf5其中,L表示单任务损失函数,ot表示当前时间步模型的输出,yt表示当前时间步的标准输出,Loss表示多任务损失函数,λ表示权重系数;步骤5:利用已训练的基于多输入多任务学习的序列到序列模型,对中文医学文本语料中的语句进行预测。
全文数据:
权利要求:
百度查询: 北京理工大学 融合多源知识的中文医学命名实体和词性联合学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。