首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

推测数据库字段含义的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:四川瀚库智数科技有限公司

摘要:本发明提供一种推测数据库字段含义的方法,这种方法能够根据数据库字段本身的特征以及累计的知识库预测出数据库未知含义的字段的意义,在用户确认此含义的准确程度时,可以根据用户的选择优化算法,在用户反复确认后,这种方法的知识库会不断积累,达到同一场景下数据库字段含义能够准确的预测出来的目的。该方法通过知识库和机器学习的技术结合,多种方法猜测字段的未知中文注释,能够较好的获取未知字段真正的含义,为下一步的数据治理工作做了良好的前期工作。

主权项:1.一种推测数据库字段含义的方法,其特征在于,包括如下步骤:S1:总结常见的字段知识库,获取常见字段名的三个常见注释以及注释的分值;S2:判断字段是否是英文或者类似英文,如果是英文或者类似英文,那么字段含义为其中文翻译;S3:判断没有中文注释的字段与同一数据库中其他有中文注释字段的相似度,相似度高的字段有相同的含义;S4:根据上述方法得到不同的中文注释以及其分值;S5:根据推荐的结果选择这个字段真正的含义,若以上结果都不在用户选择范围内,那么用户进行自定义书写,用户标记的结果会影响以后的推荐准确程度;所述S1:总结常见的字段知识库,获取常见字段名的三个常见注释以及注释的分值,具体包括如下步骤:S1.1:获取数据库元数据信息,将数据库字段统一处理为大写,保留其中有中文注释的字段,其中包含字段Z1,Z2…Zi,建立字段与中文注释的映射表;S1.2:一个字段具有多个中文注释,按照中文注释出现的次数统计排序,保留前三的中文注释,分别赋予分值为a1、a2、a3,且a1大于a2大于a3;S1.3:根据步骤S1.2的规则遍历所有字段,让其中有中文注释的字段保留n个中文含义,且n小于等于3,并且每个中文含义都有对应的分值;S1.4:通过上述步骤获取i个字段的中文含义以及每个中文含义对应的分值,并将这些数据作为知识库;若有一个数据库,里面有一个没有中文注释的字段,通过字段名称于知识库中匹配对应的名称,并且找到对应的中文含义及其分值,这种推测方法记为方法A;步骤S2:判断字段是否是英文或者类似英文,如果是英文或者类似英文,那么字段含义为其中文翻译,具体包括如下步骤:S2.1:获取数据库元数据信息,将数据库字段统一处理为大写,其中包含字段Z1,Z2…Zi,通过代码判断这些字段是否是英文单词,若为英文单词则对其进行翻译并取得其翻译后的中文含义;S2.2:一个字段有多个中文翻译,那么按照n个中文注释出现的次数统计排序,并保留前三的中文注释,赋予其分值为b1、b2、b3,且b1大于b2大于b3;如果有一个数据库,里面有一个没有中文注释的字段,以上方法为这些字段获取了中文注释及中文注释的分值,把这种方法记为方法B;步骤S3:判断没有中文注释的字段与同一数据库中其他有中文注释字段的相似度,相似度高的字段有相同的含义的具体步骤如下:S3.1:获取一个没有中文注释的字段Z1处理为大写,一个有中文注释字段的Z2处理为大写,通过编辑距离来获取两者编辑次数,次数越多,相似值越小,两者之间的编辑距离为D1,编辑距离计算方式如下: ; 指的是a中前i个字符和b中前j个字符之间的距离;S3.2:Z1在同一个数据库中与所有有中文注释的字段计算编辑距离,获得一组编辑距离的集合{D1,D2,D3…Dn},将n个编辑距离从小到大排序,保留前三排名的编辑距离对应的字段及其中文注释,赋予其值为c1、c2、c3,且c1大于c2大于c3;若数据库里一个没有中文注释的字段,以上方法为这些字段获取了中文注释及中文注释的权重,把这种方法记为方法C;步骤S4:根据上述方法得到不同的中文注释以及其分值,具体如下:S4.1:方法A得到a1,a2,a3;方法B得到b1,b2,b3;方法C得到c1,c2,c3;S4.2:根据方法A、B、C的有效程度,分别给方法A、方法B、方法C赋予权重为{x,y,z}∈(0,1);S4.3:根据方法A、B、C对字段所得到的中文注释的分值来进行排序,排序后的中文注释先后顺序表示的这个字段所得到的中文含义可能性,按照这个排序和分值对用户推荐;根据推荐的结果选择这个字段真正的含义,若以上结果都不在用户选择范围内,那么用户进行自定义书写,用户标记的结果会影响以后的推荐准确程度,具体步骤如下:S5.1:若多个数据库,同一个名称的字段被n次以上标记为某个中文注释或自定义同一中文注释,将这个中文注释与这个字段的映射放入方法A的知识库中;S5.2:若某个字段被自定义为某个名称,那么将自定义书写的名称放入方法A的知识库中,分值设置为当前字段所有映射的中文注释中的最低分值。

全文数据:

权利要求:

百度查询: 四川瀚库智数科技有限公司 推测数据库字段含义的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。