Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜西安交通大学秦涛获国家专利权

恭喜西安交通大学秦涛获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜西安交通大学申请的专利一种面向网络安全领域实体快速识别的词典构造方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113971398B

龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111222742.5,技术领域涉及:G06F40/242;该发明授权一种面向网络安全领域实体快速识别的词典构造方法是由秦涛;刘博豪;李致远;马凯设计研发完成,并于2021-10-20向国家知识产权局提交的专利申请。

一种面向网络安全领域实体快速识别的词典构造方法在说明书摘要公布了:一种面向网络安全领域实体快速识别的词典构造方法,首先,构建网络安全领域本体,采用爬虫系统获取网络安全领域原始语料,对部分文本序列进行BIO人工标注后形成现有的网络安全领域实体标注语料,从中提取实体后构建基础词典。随后,整合现有与网络安全领域实体类型相关的词库,扩展基础词典。然后,一方面采用自主学习的方法从未标注数据集中选择大量数据,使用深度学习模型大规模自动标注,另一方面采用主动学习的方法从未标注数据集选择少量数据,使用词典指导精确自动标注后再进行人工检查。最后再次使用自动识别工具从新标注数据中提取新词,进行标注‑提取‑标注的循环,同时实现大规模全自动和精确快速的数据标注和词典扩充工作。

本发明授权一种面向网络安全领域实体快速识别的词典构造方法在权利要求书中公布了:1.一种面向网络安全领域实体快速识别的词典构造方法,其特征在于,包括:步骤1,构建基础词典:构建网络安全领域本体,基于本体确定进行实体识别和词典构造的实体类型,整合现有的网络安全领域语料,构建未标注数据集U和已标注数据集L,使用自动识别工具从已标注数据集L中识别出实体,构建基础词典D;步骤2、扩展基础词典:利用现有与网络安全领域实体类型相关的词库对基础词典D进行扩展;步骤3、通过主动学习抽样从未标注数据集U中选择S条信息更丰富的文本序列进行词典指导标注,随后人工检查,得到新标注数据集S;步骤4、通过自主学习抽样从未标注数据集U中选择置信度最大且有效的T条文本序列进行基于深度学习的模型标注,得到新标注数据集T;步骤5、更新标注数据集L和未标注数据集U,使用自动识别工具从新标注数据集S、T中提取新的实体,进行基础词典D的更新;步骤6、迭代执行步骤3~步骤5,实现快速、精确的实体识别和词典扩充工作;其中,所述步骤3中,主动学习抽样如下:首先使用已标注数据集L训练命名实体识别模型BERT-BiLSTM-CRF,用M表示,然后通过模型M对未标注数据集U进行预测;随后基于主动抽样策略从未标注数据集U中筛选出S条信息更丰富的未标注文本序列,使用词典对其进行机器标注,对每条未标注的文本序列,遍历扩展后的基础词典D,若包含某个实体,则将对应的实体标注为该类型,对于词典未包含或标注错误的实体,人工检查后更正标注,将标注后的数据加入已标注数据集L,得到新标注数据集S;所述主动抽样策略中,对于任意输入序列X,Y表示所有可能的标签序列,Py|X表示模型预测当前输入序列对应的标签序列是y的概率,计算公式如下: 式中:Scorey,X表示标签序列y的分数,包括发射分数和转移分数两部分;按序列长度进行归一化处理,得到对于任意输入序列X,其对应标签序列的归一化最小置信度为: 式中:y*表示当前输入序列对应的概率最大的标签序列;Py*|X表示为模型预测当前输入序列对应的标签序列是y*的概率,N表示输入序列X的长度,表示置信度,其值越小,即说明模型对当前输入序列预测的不确定度越大,从而从未标注数据集U中筛选出信息量更大的S条文本序列;所述步骤4中,自主学习抽样如下:首先使用已标注数据集L训练命名实体识别模型BERT-BiLSTM-CRF,用M表示,然后通过模型M对未标注数据集U进行预测;随后采用自主抽样策略从未标注数据集U中选择置信度最大且有效T条文本序列,文本序列选择后,使用模型M识别实体后进行机器标注,得到新标注数据集T;所述自主抽样策略计算公式如下: 式中:y*|X表示模型M对输入序列X预测结果置信度最大的序列预测,N表示输入序列X的长度,e_numy*表示预测标签序列中实体token的数量,其数量越高代表序列X包含的实体信息更多。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市碑林区咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。