首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于图卷积的嵌套实体识别模型及其构建方法、存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及自然语言处理领域,提供了一种基于图卷积的嵌套实体识别模型及其构建方法、存储介质,该方法包括:根据预设的实体类别对样本语句进行实体标注,将样本语句的实体标注结果按照包含实体的类型分别转换为多个原始标签矩阵,将各个实体类别的原始标签矩阵组合为样本语句的样本输入数据,将其输入ERNIE3.0预训练模型获得与样本语句对应的动态词向量,将动态词向量输入BiGRU模型以进行全局特征探索,获得突出样本语句的句间信息以及上下文语义关联信息的第二动态词向量,根据第二动态词向量预测样本语句中各个候选实体的位置,对样本语句中各个候选实体在对应候选标签矩阵的位置进行边界强化,大大提高了嵌套实体识别的准确性和效率。

主权项:1.一种基于图卷积的嵌套实体识别模型的构建方法,其特征在于,所述方法包括:根据预设的实体类别对样本语句进行实体标注;将样本语句的实体标注结果按照包含实体的类型分别转换为多个原始标签矩阵,其中每个原始标签矩阵表示一种实体类型,各个实体类型的原始标签矩阵中对应的实体位置处置1,非实体位置均置0;将样本语句对应的各个实体类别的原始标签矩阵组合为样本语句的样本输入数据,并将样本输入数据输入ERNIE3.0预训练模型进行预训练,获得与样本语句对应的动态词向量;将动态词向量输入BiGRU模型,以对动态词向量进行全局特征探索,获得突出样本语句的句间信息以及上下文语义关联信息的第二动态词向量;根据所述第二动态词向量预测样本语句中各个候选实体的位置,并根据各个候选实体的位置将各个候选实体转换为与原始标签矩阵格式相同的候选标签矩阵;对样本语句中各个候选实体在对应候选标签矩阵的位置进行边界强化;利用Biaffine网络对边界强化后的候选标签矩阵进行实体类别判断,输出实体识别结果;对样本语句中各个候选实体在对应候选标签矩阵的位置进行边界强化,包括:根据样本语句中各个候选实体的每个位置的概率构建为跨度邻接矩阵,并将所述第二动态词向量作为跨度邻接矩阵的节点特征向量;根据所述动态词向量计算每对相邻字符间的相关性信息,根据所述相关性信息构建句子邻接矩阵,并将所述动态词向量作为句子邻接矩阵的节点特征向量;分别对跨度邻接矩阵和句子邻接矩阵进行图卷积操作,将图卷积操作后的跨度邻接矩阵和句子邻接矩阵对齐,并将跨度邻接矩阵的其他位置用0填充,使跨度邻接矩阵的维度与句子邻接矩阵的维度一致,并将图卷积操作后的维度一致的跨度邻接矩阵和句子邻接矩阵相加,得到候选实体的边界增强后的候选标签矩阵;所述分别对跨度邻接矩阵和句子邻接矩阵进行图卷积操作包括:采用GCN模型分别对跨度邻接矩阵和句子邻接矩阵根据预设的计算模型进行图卷积操作,所述计算模型如下:其中,公式中A代表图的邻接矩阵,用于表示节点间的连接关系,表示预处理后的邻接矩阵,X代表图中节点的特征矩阵,其中每一行代表一个节点的特征向量,W(0)和W(1)表示训练过程中学习的权重矩阵;所述根据样本语句中各个候选实体的每个位置的概率构建为跨度邻接矩阵,包括:为每个预测出来的候选实体初始化一个和样本语句序列长度相同形状的第一零矩阵,根据候选实体的位置索引在第一零矩阵中找到对应的位置并将该候选实体对应位置的值置为1,其余非实体位置仍为0,将第一零矩阵与当前句子中各个候选实体的位置的概率相乘,以将第一零矩阵中候选实体对应位置的值更新为各个候选实体的每个位置的概率,将更新后的第一零矩阵作为跨度邻接矩阵;根据所述动态词向量计算每对相邻字符间的相关性信息,根据所述相关性信息构建句子邻接矩阵,包括:为每个动态词向量生成一个字符列表,将每个字符通过其在对应样本语句中的位置索引表示;从所有字符列表中统计每个字符的出现频次,根据字符出现频次除以总字符数计算每个字符出现的概率;初始化一个和字符列表长度相同的第二零矩阵作为互信息矩阵;统计每对相邻字符在所有样本语句中出现的频次,根据每对相邻字符在所有样本语句中出现的频次除以总共现次数计算字符对的联合概率,并计算每对字符对中每个字符独立出现的概率的乘积得到对应相邻字符的边际概率,总共现次数为所有字符对在所有样本语句中共现的总次数;将边际概率大于零的相邻字符计算两个字符的互信息值,并累加到所述互信息矩阵中相应字符的索引位置,将累加完成后的互信息矩阵作为句子邻接矩阵。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于图卷积的嵌套实体识别模型及其构建方法、存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。