恭喜大连理工大学孙媛媛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜大连理工大学申请的专利基于预训练语言模型的疫情病例信息抽取框架构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114582448B 。
龙图腾网通过国家知识产权局官网在2025-02-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210010887.7,技术领域涉及:G16H10/60;该发明授权基于预训练语言模型的疫情病例信息抽取框架构建方法是由孙媛媛;王治政;王卓越设计研发完成,并于2022-01-05向国家知识产权局提交的专利申请。
本基于预训练语言模型的疫情病例信息抽取框架构建方法在说明书摘要公布了:本发明提出基于预训练语言模型的疫情病例信息抽取框架构建方法,集成了命名实体识别网络和蕴含式类别预测网络的疫情病例信息抽取框架,本发明设计了一种感染病例的数据标注规则,提出一种基于预训练语言模型的信息抽取框架自动提取病例中的核心要素,其中,命名实体识别网络能准确地识别病例文本中的命名实体,定位病例传播路径的关键信息,蕴含式病例类别预测网络能够高效预测蕴含式类别,判断病例传播途径的主要形式,框架实现了病例文本的结构化表示,以进一步辅助疾病防控专家制定流行病毒传播的干预措施。
本发明授权基于预训练语言模型的疫情病例信息抽取框架构建方法在权利要求书中公布了:1.基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,包括步骤如下:步骤1,对原始疫情病例数据进行标注:分为命名实体标注和蕴含式类别标注;其中,所述的命名实体标注指构建命名实体类型,包括感染者的基本信息相关、病征时间相关、行动轨迹相关和医疗机构相关,使用专有符号对所述的实体类型进行再标注,并制定标注范式和标注最小粒度,如表1所示;表1.命名实体识别标注体系 其中,【】表示病例文本中提及类别再标注一列中的标签;XX场所表示病例文本中提及的中转地的名称;XX医院表示病例文本中提及的就诊及收治医院的名称;所述的蕴含式类别标注指将涉及具体场景的编码方式进行整合和类别再标注,形成多种蕴含式类别,如表2所示;表2.蕴含式类别标注体系 其中,NA表示病例文本中未提及该类别信息;返回人员*表示除疫情发生地以外的返回人员;将命名实体标注数据和全部蕴含式类别数据按比例划分为训练集、验证集和测试集;步骤2,使用预训练语言模型编码病历文本,输出病例文本对应的词向量和句向量;具体为:使用预训练语言模型BERT编码病历文本;模型初始输入为病例文本集合C={c1,c,…cm…,cM},cm表示第m个病例文本,其中m∈M;病例文本c表示成词的集合c={w1,w2,…wn…,wN},wn表示病例文本中第n个字符,其中n∈N;预训练语言模型的输入向量En由字嵌入向量、分段嵌入向量和位置编码向量组合而成;其中,字嵌入向量是每个字符wn从嵌入矩阵取得的嵌入向量,其中[CLS]、[SEP]符号分别标识病例文本的开头和结尾;分段嵌入向量标识病例文本对的编号;位置编码向量标识每个单词的位置信息;预训练语言模型对文本的向量转化过程用公式2概括,Xn=Pre_trainedEn,θ2其中n∈N、θ为预训练语言模型的参数集合;当Xn取文本中每个字符所对应的实数向量时,预训练语言模型的输出为病例文本中的词向量;当Xn取[CLS]句子起始符所对应的实数向量时,预训练语言模型的输出为病例文本中的句向量;步骤3,采用双向长短期记忆网络LSTM和条件随机场CRF构建命名实体识别网络,基于步骤2输出的病例文本的词向量,判断病例文本中每个字所属的正确标签,实体识别网络在相应训练集上训练网络参数,在验证集和测试集上对识别效果进行验证和测试;所述采用双向LSTM和CRF构建命名实体识别网络,具体包括以下步骤:a基于预训练语言模型输出的词向量采用双向LSTM学习实体间的长距离依赖信息,通过公式3进行描述, 其中,hn为经过双向LSTM编码后的向量输出;bCRF层以双向LSTM的输出hn为输入学习标签路径的概率分布;对于给定输入c={c1,c2,…,cN},其标签序列的概率y={l1,l2,…ln…,lN}由公式4表示, 其中y'为任意可能标签序列,和是模型中可训练的参数;c对于给定的M个训练样本命名实体识别网络通过公式5所描述的损失函数计算网络的损失,通过最小化该损失函数优化命名实体识别网络; 步骤4,采样全连接神经网络构建蕴含式类别预测网络,基于步骤2输出的病例文本的句向量,预测出该文本对应的正确蕴含式类别,蕴含式类别预测网络在相应训练集上训练网络参数,在验证集和测试集上对识别效果进行验证和测试;所述采样全连接神经网络构建蕴含式类别预测网络,具体包括以下步骤:a给定经过预训练语言模型编码的句向量,通过一个全连接神经网络进行非线性变换以提取文本特征,再经过softmax分类器获得病例文本的蕴含式类别标签;b对于给定的M个病例文本和病例文本的类别蕴含式类别预测网络通过公式6所描述的损失函数计算网络的损失,通过最小化该损失函数优化蕴含式类别预测网络, 其中i表示第i个训练病例文本,表示模型预测的类别,y表示病例文本的真实类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。