恭喜安庆师范大学黄忠获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜安庆师范大学申请的专利一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114388141B 。
龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210036788.6,技术领域涉及:G16H70/40;该发明授权一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法是由黄忠;刘娟;郭玉祥;王颖;张丹妮设计研发完成,并于2022-01-13向国家知识产权局提交的专利申请。
本一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法在说明书摘要公布了:本发明涉及生物医学关系抽取领域,具体涉及一种基于药物实体词掩码和Insert‑BERT结构的药物关系抽取方法;本发明在药物关系多分类任务及药物关系检测二分类任务均有全面提升;模型可视化及消融实验等结果表明提出方法能够在连续空间中提取不同层次、不同粒度的语义信息,并能够有效制约负样本的影响。
本发明授权一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法在权利要求书中公布了:1.一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,其特征在于,包括以下步骤:S1、在输入层的单词序列掩码MASK阶段,基于构建的药物名称实体库上,采用字符串匹配的方式实现药物实体检测;S2、在输入阶段,仅随机选择其中一个药物实体进行掩码,对于句子中剩下的非实体单词,遵循常规的BERT掩码策略;S3、在预训练的Entity-Mask-BERT的基础上,通过引入标志实现组合进行区分,从而构建Insert-BERT结构的药物关系分类,以达到同一输入句子序列中不同药物实体关系的抽取的目的;S4、为区分同一输入句子包含不同实体组合的问题,新增START1、END1、STRAT2和END2四个符号,以判断实体组合[en,em]之间的关系,从而使得相同的输入句子序列在输入层具有不同的表示;具体的,判断实体组合[en,em]之间的关系的方法为:在en的前后插入符号START1和END1,标志第一个实体所在位置;在em的前后插入符号START2和END2,标志第二个实体所在位置;同理,实体组合[en,ev]以及[em,ev]均进行类似操作,一个包含N个实体的输入句子将生成种输入序列,从而使得相同的输入句子序列在输入层具有不同的表示;S5、Insert-BERT模型训练前期采用基于warmup+三角学习率的优化策略,在训练的后期,随着模型的逐渐收敛,不断降低学习率以便微调模型;具体的,在模型的训练阶段,假设[CLS]节点的输出表示为r∈Rk;S50、定义转移矩阵W∈Rk×c实现输出表示空间到类别概率空间的映射:o=rw;其中,o=o1,···,oj,···,oc∈Rc表示每个类别的未归一化的概率;k和c分别代表输出向量维度和药物实体关系的类别数目;S51、利用Softmax函数将未归一化的概率空间o转化到归一化的概率空间s,如下式所示: 其中,表示第l个输入句子中第p个药物实体对; 表示属于类别cj的概率;S52、以步骤S51中公式为优化目标完成Insert-BERT模型训练: 其中,L表示训练集中样本总数;nl表示第l个样本中包含药物实体对的数量; 分别表示第l个样本中第p个药物实体对的真实值和预测值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安庆师范大学,其通讯地址为:246000 安徽省安庆市菱湖南路128号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。