首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于数据库表列名称的数据分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京航空航天大学

摘要:本发明属于计算机技术领域,提出了一种基于数据库表列名称的数据分类方法。首先,构建表列识别模型,具体包括:设计DB分词算法用于对数据库表名、字段名分词,构建计算机术语常见缩略词、常见英文单词数据词典,设计基于HMM的简拼语言模型翻译拼音全拼或简拼,通过以上步骤,将数据库表名、字段名识别为中文短语,丰富表列名称的语义信息。接下来,构建表列分类模型,根据分类体系,设计基于BERT的文本分类模型将识别后的中文表名、字段名分类至具体领域类型。最终实现快速有效识别数据库表名、字段名并精确分类。本发明的数据分类方法具备良好的扩展性,能更好地适应动态增加识别规则、动态增加表和字段等场景。

主权项:1.一种基于数据库表列名称的数据分类方法,其特征在于,包括以下步骤:步骤S1:从各省市政府公共数据开放平台资源目录中提取表英文名、表中文名、字段英文名和字段中文名;步骤S2:构建数据库的表列识别数据集,按比例将数据集划分为训练数据集、验证数据集和测试数据集;步骤S3:建立表列识别模型,所述表列识别模型包括:计算机术语常见缩略词词典、常见英文单词词典和简拼语言模型;步骤S4:将训练数据集中表英文名、字段英文名使用DB分词算法进行分词,将分词后的词元分别标识为常见英文单词、计算机术语常见缩略词、拼音全拼及简拼和其他信息,输出分词结果;步骤S5:基于训练数据集的分词结果,训练所述表列识别模型,使用验证数据集,根据BLEU值调节模型至最优;步骤S6:将测试数据集中数据信息输入所述表列识别模型得到识别结果,将识别结果与实际结果对比并计算识别BLEU值;步骤S7:将多个政府公开数据库输入训练好的表列识别模型,识别获得表中文名和字段中文名;步骤S8:构建分类体系,从各省市政府公共数据开放平台资源目录中提取表中文名和所属领域类别信息构建数据库的表列分类体系;步骤S9:关键数据项提取;步骤S10:构建数据库的表列分类数据集,划分为训练数据集、验证数据集和测试数据集;步骤S11:对所述表列分类数据集进行预处理;步骤S12:构建表列自动分类模型;步骤S13:基于步骤S11中预处理后的表列分类数据集,完成对所述表列自动分类模型的训练和测试;步骤S14:将步骤S5中训练好的表列识别模型和步骤S13中训练好的表列分类模型应用于数据库表列名称的数据分类。

全文数据:

权利要求:

百度查询: 北京航空航天大学 一种基于数据库表列名称的数据分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。