恭喜云南省大数据有限公司普艳红获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜云南省大数据有限公司申请的专利一种公共数据自动化分类分级方法、系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119128607B 。
龙图腾网通过国家知识产权局官网在2025-01-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411587567.3,技术领域涉及:G06F18/24;该发明授权一种公共数据自动化分类分级方法、系统是由普艳红;余正涛;杨兴跃;周韬;胡文菲;李亚兵;董燚设计研发完成,并于2024-11-08向国家知识产权局提交的专利申请。
本一种公共数据自动化分类分级方法、系统在说明书摘要公布了:本发明涉及一种公共数据自动化分类分级方法、系统,属数据自动化分类分级领域。包括步骤:构建分类分级向量知识库;针对输入待分类分级的数据,基于最临近搜索算法与分类分级向量知识库内容进行相似性匹配,获得数据所属领域和分级规则的匹配信息;对大模型进行预训练,然后基于公共数据分类分级向量知识库对预训练好的大模型进行适配微调;将待分类分级的数据,以及与分类分级向量知识库的匹配信息输入大模型进行自动化分类分级,输出分类分级结果。本发明解决了现有分类分级缺少自动化方法而需大量依赖人工定制化服务的问题,实现了自动化公共数据分类分级,提高了分类分级的泛化性和效率。
本发明授权一种公共数据自动化分类分级方法、系统在权利要求书中公布了:1.一种公共数据自动化分类分级方法,其特征在于:包括:S1.收集公共数据分类分级标准规范,以及分类分级相关其他规则文本,形成原始的分类分级向量知识库和大模型预训练的语料库;S2.基于加权的嵌入模型对分类分级标准规范中的分类规则文本和分级规则文本,以及分类分级相关其他规则文本进行向量化处理,形成分类分级向量知识库;S3.对输入待分类分级的数据基于加权的嵌入模型进行向量化,然后基于最临近搜索算法与分类分级向量知识库内容进行相似性匹配,获得数据所属领域和分级规则的匹配信息;S4.选取Transformer架构的语言大模型,基于公共数据分类分级标准规范,以及分类分级相关其他规则文本的语料对大模型进行预训练,然后基于公共数据分类分级向量知识库对预训练好的大模型进行适配微调;分类分级向量知识库根据标准规范修订和分类分级规则变化动态更新;S5.将待分类分级的数据,以及与分类分级向量知识库的匹配信息输入大模型进行自动化分类分级;所述S2具体包括:S21.针对收集的文本类语料进行预处理,通过分词、词性标注、命名实体识别、关键词抽取技术进行句子分割;然后基于词典,进行MaxMatch的方式进行分词;S22.针对图片类数据,采用OCR识别技术来识别图片中的数据,然后再基于S21中方法对识别数据进行分词;S23.选取嵌入模型来处理文本类数据,选取嵌入模型为Word2Vec,通过学习文本数据来生成词向量,具体连续词袋模型实现架构为: ;其中,是目标词的词向量,表示词汇表,为词汇表中任意一个词汇,是上下文词向量的平均值,表示词汇的词向量,为词向量的转置;另一个非连续的跳跃模型实现架构为: ;S24.引入权重对Word2Vec模型进行改进,对分类分级关键规则词语赋予更高的权重来体现重要性,具体计算公示为: ;其中,表示针对目标词的加权词嵌入向量表示,表示针对目标词的词频-逆文档频率权重,表示句子中单词总数,表示目标词的词向量;S25.基于加权的嵌入模型将分类分级标准规范中分类规则文本转换为计算机能处理的分类向量知识库;S26.基于加权的嵌入模型将分类分级标准规范中分级规则文本转换为计算机能处理的分级向量知识库。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人云南省大数据有限公司,其通讯地址为:650213 云南省昆明市官渡区矣六街道商海路云南数字文旅产业园44号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。