首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于高斯函数的文本数据集小样本命名实体识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京审计大学

摘要:本发明公开了一种基于高斯函数的文本数据集小样本命名实体识别方法及系统,首先将文本数据集划分为Etrain集合、Edev集合和Etest集合,再对Etrain集合和Edev集合均进行二次划分并分别设置支持集和查询集,接着在Etrain集合中对模型进行学习,并在该支持集中计算共享相同类型标记嵌入的平均值,得出每个实体类型的原型,再计算Etrain集合中支持集的每一个标记与每个原型的高斯函数值;本发明实现了使用高斯函数代替距离函数计算变量与原型之相似性并提高模型的识别率和鲁棒性的功能,不仅提高了对噪声值和异常值的容忍度,还提高了对缺失数据的容忍度,且减少了训练数据和测试数据之间的分布差异对预测结果所产生的影响,适合被广泛推广和使用。

主权项:1.一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:包括以下步骤,步骤A,将文本数据集划分为Etrain集合、Edev集合和Etest集合,其中Etrain集合为训练集、Edev集合为验证集和Etest集合为测试集;步骤B,对Etrain集合和Edev集合均进行二次划分并分别设置支持集和查询集;步骤C,在Etrain集合中对模型进行学习,并在该支持集中计算共享相同类型标记嵌入的平均值,得出每个实体类型的原型z,其中对于第i种类型,原型为zi,支持集为si,而原型zi和支持集si之间的关系如公式1所示, 其中,fθ为编码器,设定序列x={x1,x2,x3,…,xn},且对于每个标记xi编码器获得每个句子每个token的表示向量,如公式2所示,h=[h1,...,hn]=fθ[x1,...,xn]2其中,token为文本中最小的语义单元,h为给定序列经过编码器所生成的表示向量;步骤D,计算Etrain集合中支持集的每一个标记xi与每个原型z的高斯函数值,具体步骤如下,步骤D1,对于支持集中的每一个xi计算其与每个原型的高斯函数值,如公式3所示, 其中,xi为自变量,A为幅度并用于调整高斯曲线的峰值,μ为均值并用于表示高斯曲线的中心,σ为标准差并用于决定曲线的宽度;A和σ为可变参数,zi为第i种类型的原型,使用距离度量进行变量与各原型之间相似程度的预测,从而使得距离测量变为概率比较;步骤D2,由于欧式距离和高斯函数的同时实现,使用高斯核函数如公式4所示, 其中,‖x-x′‖2为距离度量步骤E,对Etrain集合中的查询集使用支持集中学习到的模型对未知数据标签进行预测,获得预测标签;步骤F,判断预测标签与高斯函数值最大的原型标签是否相同,若相同则进行下一步;步骤G,在Edev集合中进行模型的预测并对A和μ参数进行调整,再确定训练模型;步骤H,在Etest集合中面对未知数据使用已经确定的参数和学习完成的模型对数据标签进行预测,并比较模型的召回率和精确率,完成文本数据集小样本命名实体识别作业。

全文数据:

权利要求:

百度查询: 南京审计大学 一种基于高斯函数的文本数据集小样本命名实体识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。