Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜浙江大学陈珂获国家专利权

恭喜浙江大学陈珂获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜浙江大学申请的专利一种面向医药说明书文本的结构化信息抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113033203B

龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110162263.2,技术领域涉及:G06F40/295;该发明授权一种面向医药说明书文本的结构化信息抽取方法是由陈珂;崔婷婷;陈刚;寿黎但;胡天磊;伍赛设计研发完成,并于2021-02-05向国家知识产权局提交的专利申请。

一种面向医药说明书文本的结构化信息抽取方法在说明书摘要公布了:本发明公开了一种面向医药说明书文本的结构化信息抽取方法,属于医疗自然语言处理技术领域。首先,采用一种面向无标注数据的基于对抗迁移学习的实体识别模型,进行医药说明书文本的初步实体识别。接着,在实体识别基础上,提出一种用法用量表抽取新任务,即将用法用量文本中复杂的知识结构以表格的形式抽取出来。并针对此任务,设计一种基于特征融合的表抽取算法,来进行说明书用法用量的表抽取。最后,在实体识别的基础上,采用一种基于医疗实体字符注意力机制的关系抽取方法,来对实体之间的关系进行抽取。本发明提出的结构化信息抽取方法可以解决医药说明书文本的复杂信息抽取问题。

本发明授权一种面向医药说明书文本的结构化信息抽取方法在权利要求书中公布了:1.一种面向医药说明书文本的结构化信息抽取方法,其特征在于,包括以下步骤:1命名实体识别:针对未标注的说明书文本,采用对抗迁移学习技术来进行初步命名实体识别;所述步骤1包括以下子步骤:1.1输入为源领域和目标领域的文本,首先进行字符嵌入,采用BERT预训练模型获得基于上下文的词向量表示;1.2将提取到的特征向量x作为接下来特征提取层的输入,该层采用BiLSTM来对输入向量进行特征提取,其中xS∈S和xT∈T分别表示来自源域和目标域的输入文本;BiLSTM网络在LSTM的基础上,采用了双向结构,分别从前向后和从后向前提取序列特征,更好地从时序特征角度对本方法特征进行提取,因此更适用于文本处理任务,隐藏层的状态hi表示如下: 其中,和分别表示LSTM网络中第i个单元的前向和后向隐藏状态,+表示连接操作;1.3将BiLSTM的特征提取结果输入对抗训练层,该层首先利用源领域数据训练一个实体分类器,该分类器是前馈神经网络后接条件随机场CRF分类模型,对提取到的数据和特征进行实体识别,接着训练一个领域鉴别器,领域鉴别器是前馈神经网络后接Softmax模型,通过训练使得模型最终不能区分源域和目标域,使得特征提取器具有领域不变性,源领域训练的模型应用到目标领域;1.4通过以上步骤,最终得到一个医药说明书领域的实体识别模型;2说明书的用法用量表抽取:利用说明书文本中包含的特征,采用基于特征融合的用法用量表抽取算法得到结构化的用法用量表信息;3医疗关系抽取:利用组成医疗实体的字符表达丰富的语义信息这一特征,结合注意力机制,来对实体之间的关系进行抽取,最终得到结构化的医疗实体关系三元组信息;步骤3中所采用的关系抽取算法包括以下步骤:3.1输入为待抽取关系的语句和对应的头实体、尾实体,第一步需要将输入映射为低维向量表示,假定给定的输入语句由n个字符组成,即S={s1,s2,...,sn},经过映射的向量表示为R={r1,r2,...,rn};假定实体包含m个字符,即E={c1,c2,....,cm},其中每个符号ci通过映射矩阵M被映射为特征向量ei,实体最终被表示为向量E={e1,e2,....,em};3.2完成向量映射后,接下来需要对组成输入进行特征编码;在对句子进行编码时,输入语句为R={r1,r2,....,rn},则前向LSTM的隐藏状状态Hf表示为: 反向LSTM的编码结果Hb表示为: 最终经过编码的句子隐藏状态为Hs:Hs={h1,h2,...,hn}其中,给定实体输入E={e1,e2,....,em},采用BiLSTM对实体进行编码后,最终实体的隐藏状态表示为:He=BLSTM{e1,e2,....,em}接着将隐藏层状态的平均池化结果作为实体经过编码后的最终输出形式,头尾实体最终编码向量分别为和3.3对句子和实体进行特征编码之后,接着采用注意力机制来充分利用组成实体的字符所提供的语义信息,将实体编码向量与语句编码向量进行注意力计算,从而选择出与给定的输入查询最相关的部分作为接下来分类层的输入;最终对抽取出实体之间的关系,得到实体关系三元组。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。