买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国电子科技集团公司第十五研究所;中电科网络空间安全研究院有限公司
摘要:本发明公开了一种网络引接资源关键要素提取方法,包括:对网络引接资源数据进行预处理,得到文本表示和实体表示;利用初始分类模型,对所述文本表示和实体表示进处理,得到所述网络引接资源数据的初始类别;基于所述初始类别,利用损失函数对初始分类模型进行训练,得到分类模型;利用所述分类模型,对待测试数据进行处理,得到待测数据的类别。可见,本发明所提供的方法,利用循环神经网络提取文本的上下文语义特征,融合实体信息,实现重要上文特征提取,最终从待测数据中识别出实体关键要素信息,提升对引接资源的自动化处理和标准化生产能力。
主权项:1.一种网络引接资源关键要素提取方法,其特征在于,所述方法包括:S1、对网络引接资源数据进行预处理,得到文本表示和实体表示;所述网络引接资源数据表征引接汇聚互联网数据资源;所述文本表示表征将所述网络引接资源数据用词嵌入表示;所述实体表示表征所述网络引接资源数据中实体对象对应的词嵌入表示;S2、利用初始分类模型,对所述文本表示和实体表示进处理,得到所述网络引接资源数据的初始类别;所述初始类别为关键要素,或,非关键要素;所述初始分类模型包括第一特征提取模块、第一注意力计算模块、特征融合模块和Highway网络模块;S3、基于所述初始类别,利用损失函数对初始分类模型进行训练,得到分类模型;S4、利用所述分类模型,对待测试数据进行处理,得到待测数据的类别;步骤S2中,所述利用初始分类模型,对所述文本表示和实体表示进处理,得到所述网络引接资源数据的初始类别,包括:S21、利用所述第一特征提取模块,对所述文本表示进行文本上下文语义特征提取,得到文本上下文语义特征;S22、利用所述第一注意力计算模块,对所述文本上下文语义特征进行注意力计算,得到第一文本特征;S23、利用所述特征融合模块,对所述文本表示与预设的实体表示进行融合特征处理,得到第二文本特征;S24、利用Highway网络模块,对所述第一文本特征和所述第二文本特征进行处理,得到初始类别,具体地:S241、将所述第一文本特征和所述第二文本特征进行拼接处理,得到第二文本向量表示;S242、将所述第二文本向量表示进行分列处理,得到文本特征列向量集;所述文本特征列向量集包括n个文本特征列向量;S243、对所述文本表示进行字符嵌入处理,得到文本字符表示矩阵;所述文本字符表示矩阵包括m个字符的字符嵌入;S244、对所述文本特征列向量集和文本字符表示矩阵进行融合处理,得到第三文本特征,具体地:S2441、对所述文本特征列向量集中任一文本特征向量进行处理,得到所述任一文本特征向量对应的词嵌入表示;所述任一文本特征向量对应的词嵌入表示为: 式中,ξi表示任一文本特征向量,h,k是文本表示进行字符嵌入后第i个词在分为字符嵌入后的起止位置,sj表示第j个字符嵌入,γi表示ξi对应的词嵌入表示;S2442、将步骤S2441中得到所有词嵌入表示进行粒度融合处理,得到第三文本特征,所述第三文本特征为γ=[γ1,γ2,…,γn];S245、利用Highway网络对所述第三文本特征进行处理,得到第四文本特征;所述第四文本特征z=τ⊙σ2Whγ+bh+1-τ⊙γ;式中,z为第四文本特征,τ是转换门,用于对部分输入进行转换,τ=σ1Wτγ+bt,σ1和σ2为非线性激活函数,γ表示第三文本特征,Wτ和Wh表示权重矩阵,bt和bh表示偏置项;S246、利用Softmax对所述第四文本特征进行分类处理,得到初始类别; 式中,表示文本D为类别y的概率,所述D为所述网络引接资源数据,网络引接资源数据的初始类别,WD为权重矩阵,bD为偏置项。
全文数据:
权利要求:
百度查询: 中国电子科技集团公司第十五研究所 中电科网络空间安全研究院有限公司 一种网络引接资源关键要素提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。