首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于自训练模型的远程监督关系抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京工业大学

摘要:一种基于自训练模型的远程监督关系抽取方法,对于给定句子中的一对标记实体,采用生物医学关系提取模型提取两个实体之间潜在的生物医学关系。生物医学关系提取模型的构建步骤为:1采用原始远程监督数据集训练一个基于负向学习的教师关系抽取网络,原始远程监督数据集是生物医学数据集;2过滤远程监督数据中的噪声数据;3对高置信度的标签来重标签噪声实例;4利用重新标注的训练数据训练一个学生网络;5将学生网络作为一个新的老师网络,迭代训练;6用最终重新标记的训练数据和正向学习训练得到关系提取模型。本发明的模型缓解了生物医学关系抽取过程中,生物医学数据不足的问题。

主权项:1.一种基于自训练模型的远程监督关系抽取方法,对于给定句子中的一对标记实体,采用生物医学关系抽取模型提取两个实体之间潜在的生物医学关系,其特征是生物医学关系抽取模型的构建步骤为:1采用原始远程监督数据集训练基于负向学习的关系抽取网络模型,并把该关系抽取网络模型作为教师模型;原始远程监督数据集是生物医学数据集;2过滤远程监督数据中的噪声数据;3对高置信度的标签来重标签噪声实例;4利用重新标注的训练数据训练学生模型;该学生模型络与教师模型大小相等;5将学生模型作为新的老师模型;重复步骤2~步骤5迭代训练;6用最终重新标记的训练数据以正向学习的方式训练得到关系抽取网络模型,并以此作为生物医学关系抽取模型;所述步骤1中,关系抽取网络模型是神经网络模型;在对教师模型进行负向学习训练时,教师模型是基于输入数据x不属于补充标签进行训练的,其中从{1,···,d}-{y}中随机选择,具体为:假设x∈X表示输入数据,分别表示标签y和补充标签的一位热编码向量;假设神经网络fx;θ表示输入映射到d维特征空间的函数f:X→Rd,其中θ表示网络f的参数;在网络fx;θ之后嵌套一个softmax函数,则,输出解释为d维单纯形中的概率向量,即p∈Δd-1;使用负向学习来训练网络f时,目标是优化与补充标签关联的概率值远离1,即负向学习叉熵损失函数表示为 其中LNL表示负向学习,引入的补充标签每次训练迭代都是从除给定标签y以外的所有类别中随机选择的;所述步骤2中,为了区分原始数据集中的噪声实例,在进行了负向学习之后设置阈值;对于样本计算的置信度分数超过此阈值的样本为干净数据,反之为噪声数据;过滤掉噪声数据;采用动态阈值调整方法,自适应地为不同类别分配更合适的阈值,方法为:假设第i个样本属于类别k的概率为表示所有训练样本中属于类别k的平均概率;与类别k相关的过滤阈值定义为: 其中,T表示全局阈值常数;N表示样本数量;即,首先,计算所有数据上每个类别的平均概率;然后,将其与全局阈值结合起来,作为每个类别k的最终自适应阈值;所述步骤3中,在经过步骤2过滤后,噪声实例被锁定并视为未标记的样本,重新标记这些未标记的数据的方法为:给定经过过滤的实例集合U={f1,f2,f3,…,fh},对于U中的每个实例fi,通过使用本次迭代的教师模型来预测概率向量获得具有高度置信度的新标签,如下所示的重新标记策略: 其中,m是所选择的类别;如果经过重新标记过程后获得的新标签的概率小于标签的阈值,则认为教师模型在当前迭代中无法区分这个样本的真实性;在下一个迭代中,仍然应用该样本的原始标签;所述步骤4中,使用经过步骤3得到的干净数据构建所述学生模型;步骤1中,进一步优化负向学习损失函数:首先,计算负向学习损失函数的梯度如下: 在负向学习的训练过程中,干净数据试图获得高的p和低的而噪声数据倾向于产生低的p和高的噪声数据的真实标签将被选择为而除真实标签之外的所有类别都获得高梯度,即修改负向学习损失函数为:

全文数据:

权利要求:

百度查询: 南京工业大学 基于自训练模型的远程监督关系抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。