买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河南数慧信息技术有限公司
摘要:本发明公开一种基于地名地址数据库的检索与补全方法及系统,该方法包括:构建地名地址数据库;构建地名地址数据库知识图谱;根据输入的检索内容判定输入类型;若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。本发明可有效解决现有地址检索存在的返回信息量过大、信息不全等问题。
主权项:1.一种基于地名地址数据库的检索与补全方法,其特征在于,包括:步骤A,构建地名地址数据库;所述数据库包含:行政区域地名,街路巷名或小区名,标志物名、门牌号或兴趣点名,各级地名组成的地址;步骤B,构建地名地址数据库知识图谱;所述知识图谱的实体包括省、市、县、乡、村5级行政区划,街路巷,小区组,标志物,门牌,兴趣点,别称;所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系,及地名与别称具有的等价关系;所述权属关系具有time属性和name属性,time属性为now或者before,如果time属性为now,则该权属关系具有现势性,name属性值为该权属关系存在的起始时间,如果time属性为before,则该权属关系为历史关系,name属性值为该权属关系存在的时间段;步骤C,根据输入的检索内容判定输入类型;所述输入类型包括地名、地址;步骤D,若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;步骤D1,基于检索内容原语句、音近字和形近字转换进行匹配,查找输入地名的相似地名候选项;其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹配得到;形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得到;步骤D2,将匹配到的别称结果更改为标准地名;步骤D3,将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉;步骤D4,计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加1的倒数,否则a为1;步骤D5,计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;步骤D6,将音近字转换后的相似度a和形近字转换后的相似度b的乘积作为地名整体相似度c:c=a×b;步骤D7,根据地名整体相似度由大到小进行排序,若地名整体相似度小于设定的阈值,则去除相应的地名候选项,并将其余地名候选项作为检索结果进行返回;步骤E,若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性对输入的检索内容进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回;步骤E1,采用bert+bilstm+CRF算法对输入的检索内容进行分词,利用音近字转换、形近字转换得出多个分词结果;步骤E2,地址实体标签确定:根据分词结果匹配地名地址数据库知识图谱,得到词级对应的标签,其中匹配的别称实体转化为与之相关的标准实体,将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果;步骤E3,去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果;步骤E4,纠正县级以下地址错误输入:当原检索内容对应的候选项地址分词结果为空时,删除街道或者村的地址实体,获取唯一子图作为候选项地址分词结果;步骤E5,基于推理验证补全地名地址数据库:当候选地址分词结果为空且输入地址信息结构完整,根据具体地址实体获取与位置临近具体地址,推理输入信息是否正确,若正确则将分词结果及详细地址存储至地名地址数据库中,同时对地名地址数据库知识图谱、地名音近字词典库、地名形近字词典库进行联动更新,并将分词结果作为候选地址分词结果;步骤E6,补全地址:利用唯一子图路径上的实体,补全从省到最小地名实体信息;步骤E7,基于权属关系time属性进行输入地址纠正:针对各级实体路径,对于下级到上级的权属关系,time属性为before的,由下级到上级time属性为now的关联实体替换上级实体;步骤E8,排序:计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加1的倒数,否则a为1;计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;计算补全相似度d,当子图连续补全的实体个数大于1时,所述补全相似度由子图连续补全的实体个数的倒数计算得到,否则d为1;将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e:e=a×b×d;根据地址整体相似度由大到小进行排序,若地址整体相似度小于设定的阈值,则去除相应的地址候选项,并将其余地址候选项作为检索结果进行返回。
全文数据:
权利要求:
百度查询: 河南数慧信息技术有限公司 基于地名地址数据库的检索与补全方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。