首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本识别方法、装置及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:口碑(上海)信息技术有限公司

摘要:本申请公开了一种文本识别方法、装置及设备,涉及互联网技术领域,针对待识别文本中变形的异常信息,能够结合机器模型翻译为原始文本后再进行异常信息识别,在保证识别结果准确的同时,提高异常信息识别的灵活性。其中方法包括:获取待识别文本经过字符级切分所形成的多个字符元素;针对每个字符元素进行编码处理,形成字符元素的音形码向量;将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本,所述识别模型具有对音形码向量中变形信息进行语义翻译的功能;利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。

主权项:1.一种文本识别方法,其特征在于,包括:获取待识别文本经过字符级切分所形成的多个字符元素;针对每个字符元素进行编码处理,形成字符元素的音形码向量,具体包括:获取字符元素映射的变形描述特征;利用每个字符元素的文字表示对每个字符元素进行语义编码,得到字符元素的词向量;利用每个字符元素的注音结果以及字形结构,提取字符元素的音形组合形式,所述音形组合包括字符元素在注音结果和字形结构上加工所形成的各种组合形式;根据所述字符元素在注音结果和字形结构上加工所形成的各种组合形式,对所述字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量;利用每个字符元素的图片像素表示对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量;按照预设拼接顺序,将所述字符元素的词向量、所述字符元素的音形向量、所述字符元素的图形向量进行拼接,形成字符元素的音形码向量;将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本,所述识别模型具有对音形码向量中变形信息进行语义翻译的功能;利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。

全文数据:

权利要求:

百度查询: 口碑(上海)信息技术有限公司 文本识别方法、装置及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术