首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于大数据的智能存储系统及其方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:乾元云硕科技(深圳)有限公司

摘要:本申请公开了一种用于大数据的智能存储系统及其方法,其通过在进行数据的分布式存储前,对于待存储数据进行语义理解,以此来对该待存储数据进行审核,从而检查数据的完整性、准确性和一致性,避免将低质量或错误的数据存储到分布式存储系统中。

主权项:1.一种用于大数据的智能存储系统,其特征在于,包括:数据采集模块,用于获取待存储数据;数据编码模块,用于对所述待存储数据进行编码以得到待存储数据语义理解特征;以及数据放行控制模块,用于基于所述待存储数据语义理解特征,确定对所述待存储数据是否放行;其中,所述数据编码模块,包括:字符关联语义编码单元,用于对所述待存储数据进行基于字符关联语义理解以得到待存储数据字符粒度语义理解特征向量;词关联语义编码单元,用于对所述待存储数据进行基于词关联语义理解以得到待存储数据词粒度语义理解特征向量;以及多尺度语义特征融合单元,用于融合所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量以得到多粒度待存储数据语义理解特征向量作为所述待存储数据语义理解特征;其中,所述数据放行控制模块,包括:特征优化因子计算单元,用于对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量进行前向传播信息保留融合以得到校正特征向量;特征加权优化单元,用于计算所述校正特征向量与所述多粒度待存储数据语义理解特征向量的按位置点乘以得到优化多粒度待存储数据语义理解特征向量;以及数据放行检测单元,用于将所述优化多粒度待存储数据语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示对所述待存储数据是否放行;其中,所述特征优化因子计算单元,用于:以如下融合优化公式对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量进行前向传播信息保留融合以得到所述校正特征向量;其中,所述融合优化公式为: 其中,是所述待存储数据字符粒度语义理解特征向量,是所述待存储数据词粒度语义理解特征向量,和分别表示将特征向量左移位和右移位,为取整函数,是所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量的所有特征值的均值,表示特征向量的一范数,是所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量之间的距离,且为以2为底的对数函数值,和分别表示按位置减法和加法,和为加权超参数,是所述校正特征向量;在上述融合优化公式中,针对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量在网络模型中的前向传播过程中,由于融合操作产生的在向量尺度上的浮点分布误差和特征信息损失,通过从均一化信息角度来引入向量的逐位位移操作,来平衡和标准化前向传播过程中的量化误差和信息损失,并通过在特征融合之前重塑特征参数的分布来引入分布多样性,由此以扩大信息熵的方式进行信息保留;这样,将得到的所述校正特征向量与所述多粒度待存储数据语义理解特征向量进行点乘,就可以减少所述多粒度待存储数据语义理解特征向量对于单独语义粒度下的关联语义特征的表达的信息损失,从而提升其通过分类器得到的分类结果的准确性。

全文数据:

权利要求:

百度查询: 乾元云硕科技(深圳)有限公司 用于大数据的智能存储系统及其方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术