买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳兴科华创信息技术有限公司
摘要:本申请涉及数据处理技术领域,公开了一种档案数据的处理方法、装置、设备及存储介质。所述方法包括:获取多个目标数据源的初始档案数据集并创建初始档案数据分类结果和初始档案数据索引信息;生成第一档案数据特征集和第二档案数据特征集;构建档案数据特征知识图谱;进行关系节点提取,得到多个图谱关系节点并进行节点聚类分析,得到目标聚类结果;进行互相关性分析,得到互相关性分析结果并进行矩阵转换,生成目标档案数据特征矩阵;将目标档案数据特征矩阵输入多任务优化模型进行数据分类优化和索引信息优化,输出目标档案数据分类结果和目标档案数据索引信息,本申请实现了档案数据处理的智能化并提高了档案数据处理的效率。
主权项:1.一种档案数据的处理方法,其特征在于,所述档案数据的处理方法包括:获取多个目标数据源的初始档案数据集,并对所述初始档案数据集进行并行化数据预处理以及元数据分类和索引创建,得到初始档案数据分类结果和初始档案数据索引信息;采用SPARSS算法对所述初始档案数据集进行序列模式挖掘,得到多个序列模式,并根据所述多个序列模式生成第一档案数据特征集,并通过Sentence-BERT模型对所述初始档案数据集进行档案数据特征提取,生成第二档案数据特征集;具体包括:采用SPARSS算法对所述初始档案数据集进行档案数据排序,得到档案数据序列;SPARSS算法能够有效挖掘档案数据中的序列模式,通过精确地排序档案数据,确保后续处理的准确性和效率,每一条档案数据都被按照预设的规则进行排序,形成一个有序的档案数据序列,这种排序不仅依据数据本身的属性,包括日期、事件的发生顺序,也考虑数据之间的内在联系;对所述档案数据序列进行编码表构建,生成多个数据编码表,并对多个所述数据编码表进行编码序列提取,生成每个数据编码表对应的数据编码序列;通过每个数据编码表对应的数据编码序列对所述初始档案数据集进行序列模式挖掘,得到多个序列模式,并根据所述多个序列模式生成第一档案数据特征集;通过Sentence-BERT模型对所述初始档案数据集进行档案数据语义信息识别,得到档案数据语义信息集;对所述档案数据语义信息集进行特征频率计算,得到语义信息特征频率,并根据所述语义信息特征频率对所述档案数据语义信息集进行特征筛选,生成第二档案数据特征集;根据所述第一档案数据特征集和所述第二档案数据特征集对所述初始档案数据集进行知识图谱构建,得到初始数据特征知识图谱,并通过多元自适应回归样条算法对所述初始数据特征知识图谱进行知识图谱优化,得到档案数据特征知识图谱;对所述档案数据特征知识图谱进行关系节点提取,得到多个图谱关系节点,并对所述多个图谱关系节点进行节点聚类分析,得到每个图谱关系节点的目标聚类结果;对所述多个图谱关系节点和所述多个目标数据源进行互相关性分析,得到互相关性分析结果,并根据所述互相关性分析结果对每个图谱关系节点的目标聚类结果进行矩阵转换,生成目标档案数据特征矩阵;将所述目标档案数据特征矩阵输入预置的多任务优化模型进行数据分类优化和索引信息优化,输出目标档案数据分类结果和目标档案数据索引信息。
全文数据:
权利要求:
百度查询: 深圳兴科华创信息技术有限公司 档案数据的处理方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。