买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江工业大学
摘要:一种基于联合学习的警情知识图谱构建方法,包括以下步骤:1获取已破获案件的所有有关数据,并以类型、时间、地点、人名、机构五大类实体对数据进行标注;2对数据进行分词,并将分词后的文本作为输入,通过Transformer模型提取特征向量;3将提取到的特征向量拆分为句子向量和词向量两部分,针对词向量,使用循环神经网络计算每个标签概率,针对句子向量,使用一个全连接层对样本进行分类;4将两个任务的损失函数进行求和,得到最终的损失函数,基于该损失函数对模型进行学习和训练;5将抽取出的结果保存图数据库中,并基于可视化结果进行案件分析。本发明构建知识图谱,简化警务分析工作。
主权项:1.一种基于联合学习的警情知识图谱构建方法,其特征在于,所述方法包括以下步骤:1获取所有案情简要的短文本数据,对词列表数据进行标注,标注内容包括类型、时间、地名、人名、机构名四大类实体,其中时间、地名、人名、机构名以BIO标注法以字为单位进行标注,共计9类标签,类型以句子文本为单位进行标注,其标签数由案件类别数决定,记为N;2用WordPiece工具来进行分词,并插入用来分隔样本的分离符[CLS]和用来分隔样本内的不同句子的分隔符[SEP],每个句子都对应的是一个矩阵X=x1,x2,…,xt,其中xi都代表着第i个词的词向量,即行向量,维度为d维,句子长度为t;3使用Transformer模型作为编码器,学习句子的上下文,更新词嵌入结果,Transformer步骤如下:3.1为了得到输入序列中单词顺序对句子的影响,基于上述矩阵X计算得到一个维度与词向量相同的位置向量,位置向量能决定当前词的位置,或者说在一个句子中不同的词之间的距离,计算公式如式1: 其中pos是指当前词在句子中的位置,i是指向量中每个值的索引,在偶数位置时使用正弦编码,在奇数位置,则使用余弦编码;3.2将位置向量和词向量求和,并作为最后的输入向量;3.3将输入向量输入通过三个不同的线性变换,得到查询向量Q、键向量K和值向量V,查询向量和键向量的维数为dk,值向量的维数为dv,使用注意力函数进行解读,注意力函数公式如2所示: 3.4实际模型中使用的是多头注意力函数,即基于h个不同的参数矩阵计算得到多组Q、K、V矩阵,并对所有变换结果进行拼接,得到多头注意力值,多头注意力函数公式如3所示:MultiHeadQ,K,V=Concathead1,head2,…,headhWO3其中,WO是一个参数矩阵,headi是第i组注意力函数计算结果,公式如式4: 式中,参数矩阵3.5将上述输出的多头注意力值输入一个全连接前馈网络,并将输入结果进行层标准化处理,如式5所示: 式中,x为函数输入值,o为编码层输出矩阵,W1、b1、W2和b2分别为权重矩阵和偏置矩阵;4联合训练包括词性标注和句子标注两大任务,上述Transformer模型输出结果o={o1,o2,o3,…,ot}拆分为o1和{o2,o3,…,ot}两部分,前者作为分类任务的输入数据,后者则作为实体识别任务的输入数据,分别计算概率函数,流程如下:4.1针对实体识别任务,使用BiLSTM模型作为神经网络的训练模型,以读取上下文,将预训练得到的词向量输入BiLSTM模型中,得到隐状态矩阵,如式6所示:h=BiLSTMx6对输出的每个特征向量hi,添加一个输入维度为d,输出维度为字标签数9的全连接神经网络,并使用softmax函数,计算每个词的标签概率yi,如式7所示:yi=softmaxW9×dhi+b9×d74.2针对分类任务,将句子的特征向量o1作为输入x,添加一个输入维度为d,输出维度为字标签数N的全连接神经网络,并使用softmax函数,计算每个词的标签概率yseq,如式8所示:yseq=softmaxWN×dx+bN×d85对两个标签概率分别使用交叉熵函数,pi和pseq分别是正样本标签的one-hot表示,最终进行求和得到联合训练的损失函数,最后进行模型的训练,如式9所示: 6训练完成后,使用该模型对所有案件文本数据进行抽取,得到每个案件的相关实体数据,以便后续的构建工作;由于每个文本中可能存在多个同类名词,根据文本规范,对于时间只取最开始出现的时间作为案件的实体,对于地名、人名以及机构名,则将所有实体去重后,都作为案件相关实体;7图数据库是用于存储多种关系图的数据库,图中的每个节点代表实体,节点与节点之间的边代表关系,而时间则作为实体或边的一种属性,将定义好的数据以节点-边-节点的方式存入图数据库。
全文数据:
权利要求:
百度查询: 浙江工业大学 一种基于联合学习的警情知识图谱构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。