买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及应用于数据处理技术领域的一种基于商业资产梳理的企业数据处理方法,包括规则知识库策略下发、终端PC数据采集、文档类文件分级处理、模型和规则更新、资产梳理结果展等步骤,本申请中的企业数据处理方法,通过结合数据收集、规则知识库和先进的自然语言处理模型,实现了企业数字信息的自动化管理,进而为企业构建了一个智能化的数字资产管理系统,大幅提高了工作效率,优化了数据管理流程,且本申请中的企业数据处理方法,利用规则知识库模型进行文件分类和使用基于BERT模型和CNN‑LSTM的网络模型进行文本数据的深度分析和分级筛选,网络模型能够识别和理解复杂的文本内容,确保数据分类的准确性和合理性。
主权项:1.一种基于商业资产梳理的企业数据处理方法,其特征在于,包括以下步骤:S1、规则知识库策略下发:S11、规则知识库构建;S12、账户注册与绑定;S13、规则知识库下发;S2、终端PC数据采集:S21、全盘扫描;S211、分盘文件扫描算法:终端PC通过分盘深度优先搜索算法扫描文件系统;S212、文件规则匹配与分类:扫描过程中,依据规则知识库中的规则进行字符串匹配,匹配结果包括文件的名称、路径以及符合的规则类别;S22、文件分类与上传;S221、分类结果生成:扫描结束后,通过规则知识库将所有匹配的文件及其分类信息整理成JSON格式的分类结果;S222、分类结果上传:终端PC通过HTTP协议将文件分类结果分段上传到数据管理服务器,上传过程中,使用POST请求将JSON字符串发送至服务器的分类结果处理端点;S223、文档上传:筛选出标记为文档类的文件,将这些文档文件和其分类信息一起上传,进行进一步的分级训练;S3、文档类文件分级处理:S31、数据输入处理:S311、文档清理:通过正则表达式清除文档中不需要的内容,并依据中文停用词表去除停用词;S312、文档分词:通过结巴分词器将文档分割为词粒度的token;S32、BERT嵌入编码向量:经过分词处理后的token通过BERT的嵌入层,被生成词嵌入向量、类型嵌入向量和位置向量;S33、BERT加权编码融合:通过残差连接设计将低级别Transformer第一层输出向量和高级别Transformer最后一层输出向量进行加权叠加;S34、构建CNN-LSTM解码层:BERT编码层输出分别输入textCNN网络以及Bi-STM网络,将textCNN网络的输出特征向量和Bi-LSTM网络的输出特征向量使用预定的权重进行加权平均;S35、全连接层分级输出:将融合后的向量输入到全连接层,然后通过softmax对全连接层的输出进行计算输出相关概率并进行最终的分级任务;S36、文档分级结果生成和存储:通过基于BERT模型和CNN-LSTM的网络模型对文档类数据进行分级处理,并将分级结果存储在数据管理服务器中;S37、分级模型存储:将每次扫描任务完成后的分级模型存储在数据管理服务器中;S4、模型和规则更新:S41、规则知识库更新:根据用户反馈和新出现的文件类型,定期更新规则知识库的规则,确保其能够适应不断变化的数据环境,规则更新后,通过自动化机制将其下发至各终端PC;S5、资产梳理结果展示:S51、数据库存储:将每次分级分类任务完成后的所有文件的分类结果和文档类文件的分级结果存储在MySQL数据库中;S52、前端展示:提供RESTfulAPI接口,通过HTTP协议将分类结果传输到Web前端。
全文数据:
权利要求:
百度查询: 浙江中电远为科技有限公司 一种基于商业资产梳理的企业数据处理方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。