买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国民用航空飞行学院
摘要:本发明公开了一种航行通告文本处理方法、计算机程序产品及终端,属于文本处理技术领域,方法包括以下步骤:提取航行通告文本实体;对实体进行分类处理,得到实体类别;基于实体类别查询知识图谱获取航行通告的处理方案,知识图谱的三元组为实体‑实体类别‑处理方案。本发明创建了新型三元组模型:航行通告实体‑实体类别‑处理方案,通过提取文本实体、分类处理获取实体类别后,查询得到当前类别对应的航行通告处理方案,形成一种完整的航行通告自动化处理方法,整个过程无需人为干预,大大提高了处理效率,能够满足航行通告处理的实时性要求。
主权项:1.一种航行通告文本处理方法,其特征在于,包括以下步骤:提取航行通告文本实体;对实体进行分类处理,得到实体类别;基于实体类别查询知识图谱获取航行通告的处理方案,知识图谱的三元组为实体-实体类别-处理方案;采用分类模型对实体进行分类处理,分类模型包括顺次连接的语言模型以及文本分类模型;语言模型为Ccf-MacBERT模型;文本分类模型为卷积神经网络或深度卷积神经网络;语言模型用于将实体文本转换为词元序列,并进行数值形式转换得到向量;文本分类模型接收向量进行分类处理得到实体类别;Ccf-MacBERT模型包括输入层、检测网络、纠错网络、纠错掩膜层和输出层,检测网络、纠错网络为全连接层;输入层分别与检测网络、纠错网络连接,且输入层与纠错掩膜层连接,输入层与输出层残差连接,检测网络、纠错网络与纠错掩膜层连接,纠错掩膜层与输出层连接;检测网络用于输出每个位置的字符为错误字符的概率;纠错网络用于根据错误字符的概率选定错别字的位置,进行纠正处理;纠正网络用于计算每个字符的掩码概率;纠错掩膜层根据掩码概率将需要被掩盖的字符替换为近义词词库中近义词;近义词词库的建立包括以下步骤:计算航行通告中汉字的读音相似度以及字形相似度;根据读音相似度、字形相似度确定每个汉字的近义词,进而建立近义词词库;计算读音相似度包括:对航行通告中汉字进行读音标注;采用字嵌入模型计算汉字的读音向量;以航行通告中汉字读音为节点、读音间关系为边建立字音知识图谱,作为图神经网络的输入;将读音向量作为补充向量加入图神经网络中,使图神经网络将计算的节点向量与读音向量进行加权处理,并计算加权处理后向量间的相似度,得到读音相似度;计算字形相似度包括:通过卷积神经网络tianzege-CNN提取字形特征向量;使用BERT模型处理汉字字符或词汇,得到字符或词级的嵌入向量;将嵌入向量与字形特征向量进行结合,形成增强型嵌入向量;计算增强型嵌入向量间相似度,得到字形相似度。
全文数据:
权利要求:
百度查询: 中国民用航空飞行学院 一种航行通告文本处理方法、计算机程序产品及终端
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。