首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大数据模型算法的地址数据治理方法及其系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京国信达数据技术有限公司

摘要:本发明公开了一种基于大数据模型算法的地址数据治理方法及其系统;使用基于BERT和ESIM的地址匹配模型进行地址匹配;其次,结合图网络和元胞自动机进行地址信息的动态更新和预测;1地址匹配精度提升:通过STEP‑A中的BERT和ESIM模型,该技术能够利用大数据模型对地址进行语义特征提取和相似度计算。这使得地址匹配更加准确和精细化,提高了地址匹配的精度。2地址数据变化预测:通过STEP‑B中的元胞自动机,该技术利用元胞的状态和转换规则来预测图网络在下一个时间步的变化。元胞自动机可以捕捉到地址数据的变化趋势和模式,有助于识别出潜在的地址变化和更新需求。这使得地址数据管理更加及时和精细化,帮助保持地址数据的时效性和准确性。

主权项:1.一种基于大数据模型算法的地址数据治理方法,其特征在于,包括:包含地址库中的所有地址的图网络G,每个地址是一个节点,节点之间的连接表示地址之间的连接关系;还包括并列同步实施的STEP-A和STEP-B;STEP-A:基于BERT和ESIM的地址匹配模型:根据当前时间步及其输入的待匹配地址,输入至模型,输出匹配的统一地址,从统一地址库中匹配出与待匹配地址相应的统一地址;STEP-B:使用元胞自动机来预测图网络G在下一时间步的变化,定义转换函数f,使用LSTM存储和预更新图网络的位置信息;STEP-A和STEP-B后,实施STEP-C:STEP-C:当下一个时间步到来时,比较实际的图网络变化和CA的预测,如果它们匹配,就用LSTM存储的位置信息直接更新图网络G;所述治理方法包括了三个步骤:首先通过STEP-A实现了地址的匹配,利用BERT和ESIM模型提取地址的语义特征,并计算待匹配地址与地址库中地址的相似度,从而选择出最匹配的统一地址;接着,在STEP-B中,引入了元胞自动机模型,通过预测图网络在下一个时间步的变化,对地址数据的演化趋势进行建模;同时,利用LSTM存储和更新图网络的位置信息,以便在下一个时间步到来时进行快速的位置更新;最后,在STEP-C中,通过比较实际的图网络变化和元胞自动机的预测,如果匹配,利用LSTM存储的位置信息直接更新图网络,实现了图网络的自动化更新和演化预测;在STEP-A中,包括:地址库A:包含n个地址:A=a1,a2,...,an对于任何待匹配的地址x,使用BERT和ESIM模型进行匹配;BERT模型用于提取地址的语义特征为:f_bertx=BERTxESIM模型用于计算待匹配地址x和地址库中每个地址的相似度:simx,ai=ESIMf_bertx,f_bertai,i=1,2,...,n选择得分最高的地址作为匹配的统一地址:matchx=argmax_isimx,ai在STEP-A中,首先需要准备一个地址库A,其中包含n个地址;对于待匹配的地址x,使用BERT和ESIM模型进行匹配;通过BERT模型,提取地址的语义特征,即f_bertx=BERTx;然后,使用ESIM模型计算待匹配地址x和地址库中每个地址ai之间的相似度,即simx,ai=ESIMf_bertx,f_bertai,其中i的取值范围是从1到n;最后,选择得分最高的地址作为匹配的统一地址,即matchx=argmax_isimx,ai;在STEP-B中,包括:元胞自动机:CAS,f=S′S:当前的图网络的位置信息;f:转换函数;S'是下一个时间步的预测状态;还包括:使用LSTM来存储和更新图网络的位置信息的函数:LSTMSt,ht-1,ct-1=ht,ctS_t:是当前的状态;h_t-1和c_t-1分别是上一时间步的隐藏状态和单元状态;h_t和c_t是当前时间步的隐藏状态和单元状态;当下一个时间步到来时,比较实际的图网络变化和CA的预测,如果它们匹配,就用LSTM存储的位置信息更新图网络;转换函数f定义为:fS=sumiwi*siN:当前状态S的邻居;w_i:权重;S_i:邻居的状态;在STEP-B中,采用元胞自动机来预测图网络在下一个时间步的状态;元胞自动机的更新规则由转换函数f定义;同时,使用LSTM来存储和更新图网络的位置信息;具体地,给定当前时间步的图网络的位置信息S,通过元胞自动机CAS,f的运算得到下一个时间步的预测状态S';然后,利用LSTM函数LSTM来更新图网络的位置信息;其中,S_t表示当前时间步的状态,h_t-1和c_t-1分别是上一个时间步的隐藏状态和单元状态,而h_t和c_t则是当前时间步的隐藏状态和单元状态;当下一个时间步到来时,比较实际的图网络变化和元胞自动机的预测状态,如果它们匹配,就使用LSTM存储的位置信息来更新图网络;元胞自动机还包括:1元胞定义:每一个元胞被定义为一个地址,该地址的状态表示其在图网络中的位置,以及它与其他地址之间的关联或属性;2元胞集:元胞集中包含所有的地址元胞,定义为:C=c1,c2,...,cn其中每个ci代表一个元胞,也就是一个地址;4状态空间:设每个元胞有m种可能的状态,状态空间定义为:S=s1,s2,...,sm状态与地址在图网络中的位置的属性有关;5转换规则:转换规则定义了元胞如何根据其周围邻居的状态从一个状态转变为另一个状态;转换规则为:Sn-S转换规则根据元胞及其n个邻居的状态决定元胞的下一个状态;元胞自动机的实施方式包括元胞定义、元胞集、状态空间和转换规则;首先,每一个元胞被定义为一个地址,其状态表示其在图网络中的位置以及与其他地址之间的关联或属性;元胞集是包含所有地址元胞的集合,表示为C=c1,c2,...,cn,其中每个ci代表一个元胞,即一个地址;状态空间定义了每个元胞具有m种可能的状态,表示为S=s1,s2,...,sm,其中状态与地址在图网络中的位置的属性有关;转换规则定义了元胞如何根据其周围邻居的状态从一个状态转变为另一个状态,即Sn-S;转换规则基于元胞及其n个邻居的状态来确定元胞的下一个状态;元胞自动机还包括:St+1=fSt,NtSt:时间t的状态;Nt:t时间邻居元胞的状态;该公式的f指的是定义的转换规则;St+1:在下一个时间步t+1的状态;邻居定义:正下方和正上方;目标函数:定义了解或预测系统行为:E=∑|St+1-fSt,Nt|E:预测和实际发生的总误差;∑:对所有元胞求和;目标:最小化误差;元胞自动机的实施方式包括转换规则的应用和目标函数的定义;根据转换规则,通过公式St+1=fSt,Nt来计算在下一个时间步t+1的状态St+1;其中,St表示时间t的状态,Nt表示t时间邻居元胞的状态;转换规则通过定义的函数f来决定元胞在下一个时间步的状态;元胞自动机引入:1关联性权重:设每个元胞ci与它的邻居有不同的关联度,邻居对元胞下一状态的影响程度因此也会有所不同;这种关联度为权重w表示,对于每个元胞ci和它的邻居cj,有一个权重w_ij,因此转换规则迭代为:St+1=fSt,Nt,WtWt:代表着当前所有元胞的权重信息;转换规则f迭代为:St+1=∑w_ij*fjSt,NtFj:元胞cj的转换函数;w_ij:元胞ci和元胞cj之间的权重;或是和:2动态调整转换规则:基于全局模式、局部模式或内部状态的变化,引入另一个函数h,使用系数θ为转换规则引入自适应性:f=hθ,t迭代后的转换规则f:St+1=∑w_ij*hθt,tSt,Nthθt,t:随着时间步和系数θ的变化而变化;在元胞自动机中引入了关联性权重的概念,用于表示每个元胞与其邻居的关联度;每个元胞ci与邻居cj之间存在一个权重w_ij,表示邻居对元胞下一状态的影响程度;因此,在转换规则迭代中,引入了权重信息Wt来表示当前所有元胞的权重;转换规则迭代为St+1=fSt,Nt,Wt,其中f表示带权重的转换规则。

全文数据:

权利要求:

百度查询: 北京国信达数据技术有限公司 一种基于大数据模型算法的地址数据治理方法及其系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。