首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:长江航道测量中心

摘要:本发明提供一种基于BiLSTM‑CRF模型的航道通告信息提取方法及系统,包括根据航道相关信息进行中文分词,在进行中文分词时,根据航道要素图层构建电子航道图物标名称分词词典,以作为登录词典;通过地理实体识别实现关键信息提取,包括将航道通告信息中对用户具有实际意义的元素按照机构O、地点L、主题S、事件E和时间T进行划分,构建航道通告的文本语义提取模型,在文本语义提取模型约束下采用BiLSTM‑CRF模型进行训练,并提取关键信息。本发明所得航道通告信息可以用于航道通告、尺度等文字类信息可视化、航道重点区域可视化及航行辅助提醒,以及基于移动终端的航道信息交互与推送等方面。

主权项:1.一种基于BiLSTM-CRF模型的航道通告信息提取方法,其特征在于,包括以下步骤:步骤1,根据航道相关信息进行中文分词,在进行中文分词时,根据航道要素图层构建电子航道图物标名称分词词典,以作为登录词典;实现过程如下,首先,构建电子航道图物标名称分词词典,实现方式如下,步骤1.1,批量加载航道要素图层;步骤1.2,读取要素,根据属性字段来提取要素名称,并将结果保存至已读属性名称列表;步骤1.3,判断当前是否存在未读要素,若是则继续读取要素,返回步骤1.2,若否则结束读取过程并进入步骤1.4;步骤1.4,根据步骤1.2获取的最终名称列表,按照中文分词词典的“名称+换行”格式依次写入文本文件中,并将最终的文件输出作为分词词典;然后,对于待处理的语句进行句子清洗,分离出与分词无关的特殊字符,并将特殊字符标识为未知词性;将构建的电子航道图物标名称分词词典作为登录词典进行加载,以建立trie树分词模型,得到前缀词典;基于前缀词典进行词图扫描,生成文本中汉字所有可能成词情况所构成的有向无环图;采用动态规划查找最大概率路径Route,找出基于词频的最大切分组合;对于收录于分词词典中的登录词,按词典标注标识;对于未收录于分词词典中的词,按中英文分开识别,英文、数字及时间形式的组合给予相应标注,中文采用基于汉字成词能力的隐马尔可夫模型计算成词概率;基于Viterbi算法进行词性标注;基于TF-IDF和TextRank模型抽取关键词;步骤2,通过地理实体识别实现关键信息提取,包括将航道通告信息中对用户具有实际意义的元素按照机构O、地点L、主题S、事件E和时间T进行划分,构建航道通告的文本语义提取模型,在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,并提取关键信息;预先进行航道信息获取,包括获取并存储航道相关信息,所述航道相关信息包括航道通告、计划水深和维护尺度;获取航道相关信息采用聚焦网络爬虫方式实现;所述在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,包括使用Bakeoff-3评测中所采用的BIO标注集对文本语义提取模型进行标注,在BiLSTM-CRF模型的CRF层为最后预测的标签添加约束;所得识别结果用于空间信息可视化,包括基于通过BiLSTM-CRF模型识别所得标签为地点的地理实体,与电子航道图进行空间匹配,并以空间位置为中心生成地理围栏,标注显示实时的航道通告信息。

全文数据:

权利要求:

百度查询: 长江航道测量中心 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。