买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉大学
摘要:本发明公开了一种融合嵌入语义的社交媒体地址信息提取方法及系统。针对社交媒体表达的随意性和描述的模糊性对地址信息精确提取带来的挑战,顾及地址信息的组成结构和精细化提取需求,划分了具有层级关系的地名类别并构建社交媒体文本的地名标注语料库;鉴于静态向量揭示的长期稳定语义和动态向量捕获的上下文敏感变化,融合动静态向量增强地址语义实现多级地名提取;进而依据局部最优解自底向上构建地名树,基于深度优先搜索遍历地名树生成详细描述的地址信息。本发明充分考虑了地址字词语义的变化性与稳定性以及地名间的层级约束,能够实现基于社交媒体的精细尺度地址信息提取,从而进一步支撑应急管理、城市规划、公共安全等领域应用。
主权项:1.一种融合嵌入语义的社交媒体地址信息提取方法,其特征在于,包括以下步骤:步骤1:顾及地址信息的组成结构和精细化提取需求,将地址信息按行政区划、道路、建筑等要素进行分解,划分为具有层级关系的省、市、县、区、道路等地名类别,采用基于字的标注体系对社交媒体中的各层级地名进行标注,构建社交媒体文本的地名实体识别语料库;步骤2:对POI中的地址描述性数据进行训练得到地址相关的字向量词典,以此对通用的静态向量模型进行更新,采用concat连接操作将动态向量与静态向量进行融合,获得每个字符在地址识别语境下的嵌入表示,提取得到文本中各层级的地名;步骤3:考虑地名语义及不同地名之间的相互关系,进行地名歧义消除和噪声剔除处理,基于贪婪算法的思想,从最细粒度的地名信息自下而上逐步构建地名树,采用深度优先搜索遍历地名树,生成由根节点至叶节点的完整路径作为地址信息。
全文数据:
权利要求:
百度查询: 武汉大学 一种融合嵌入语义的社交媒体地址信息提取方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。