恭喜四川大学陈兴蜀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜四川大学申请的专利一种基于信息抽取的数据分类分级领域知识库构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115292450B 。
龙图腾网通过国家知识产权局官网在2025-05-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210896400.X,技术领域涉及:G06F16/334;该发明授权一种基于信息抽取的数据分类分级领域知识库构建方法是由陈兴蜀;杨敏;谭柳燕;兰晓;罗永刚设计研发完成,并于2022-07-28向国家知识产权局提交的专利申请。
本一种基于信息抽取的数据分类分级领域知识库构建方法在说明书摘要公布了:本发明公开了一种基于信息抽取的数据分类分级领域知识库构建方法,涉及自然语言处理技术领域。本发明包括文档的获取步骤、文档预处理步骤、文本数据抽取步骤、表格信息抽取步骤、数据分类分级元组抽取步骤和数据分类分级领域知识库构建步骤。本发明提出了一种政策法规自动解析框架,并将分类分级信息构建为领域知识库,充分发挥政策法规对数据分类分级的指导作用,可以有效地弥合国家层面的数据保护关切与组织的具体对策之间的差距,该框架后续可以开展更多的研究。
本发明授权一种基于信息抽取的数据分类分级领域知识库构建方法在权利要求书中公布了:1.一种基于信息抽取的数据分类分级领域知识库构建方法,其特征在于,本方法包括以下步骤:S1、文档的获取步骤,以关键词检索的方式,在目标网站或目标数据库中找到目标文档,并汇总形成语料库;S2、文档预处理步骤,将S1步骤中获取得到的目标文档分离成纯文本和表格两大类;S3、文本数据抽取步骤,构建一个语义嵌入的朴素贝叶斯分类器,通过构建的朴素贝叶斯分类器对S2步骤中分离得到的纯文本进行分类,生成数据分类分级句子标签;S4、表格信息抽取步骤,根据S2步骤分离得到的语料库中的表格中表格特征和感兴趣的信息,对合并的单元格进行拆分,根据拆分前的单元格文本对空单元格进行补充,然后基于模式匹配提取信息;S5、数据分类分级元组抽取步骤,利用结合模式匹配与自然语言处理技术相结合的方式,在识别出的分类分级句子标签的基础上,抽取分类分级元素,实现信息类型及其关系的联合抽取;S6、数据分类分级领域知识库构建步骤,经过纯文本和表格抽取,得到了数据分类分级元组,经过语义相似度计算公式,按照高低去重、融合从而完成分类分级领域知识库构建;所述S5步骤具体包括以下子步骤:S501、语义依存分析;使用LTP自带的语义依存分析工具解析分类分级句子;S502、语义依存树化简;通过S501步骤解析分类分级句子后得到分类分级句子中的原始语义依存树,对原始语义依存树进行简化;S503、Tregex模式生成;通过观察简化后的语义依存树,找到覆盖分类分级元组的最短路径,将其表示为Tregex模式;所述S501步骤中,使用LTP自带的语义依存分析工具解析分类分级句子,解析出分类分级句子中的语义依存关系和词性,在分类分级句子中标记语义依存关系标签和词性标签;语义依存关系包括当事EXP、客事CONT、点标记mPUNC、依附标记mDEPD、并列eCOO、修饰FEAT和系事LINK;S502步骤中,对原始语义依存树进行简化的方式包括添加、合并和删除,所述添加是指,将带有词性标注u、c或mPUNC关系标记的节点添加到前一个节点;所述合并是指,合并标记为FEAT或rFEAT或dFEAT或MEAS或eCOO的节点,或者父节点标记为n的宾语节点;所述删除是指,删除标记为FEAT或mRELA或mDEPD或情境角色的节点;所述S6步骤中构建的分类分级领域知识库由两部分组成: ,一个是信息类型词典 ;另一个是由分类分级元组构成的数据分类分级本体;其中,表示信息类型,表示本体中的概念,,A表示安全级别属性,R表示概念与概念之间的关系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川大学,其通讯地址为:610065 四川省成都市武侯区一环路南一段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。