恭喜杭州电子科技大学周仁杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州电子科技大学申请的专利一种基于语序与语义联合分析的中文文本检错方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114548116B 。
龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210178120.5,技术领域涉及:G06F40/30;该发明授权一种基于语序与语义联合分析的中文文本检错方法及系统是由周仁杰;沈佳冰;任永坚;张纪林;万健;曾艳;寇亮;袁俊峰;王星设计研发完成,并于2022-02-25向国家知识产权局提交的专利申请。
本一种基于语序与语义联合分析的中文文本检错方法及系统在说明书摘要公布了:本发明公开一种基于语序与语义联合分析的中文文本检错方法及系统。针对现有的中文文本检错方法,无法深入理解中文文本语义,自动分配权重,设计了一种把文本视为一维图片,并且使用双向循环神经网络拟合文本与自注意力机制分配权重的中文文本预测错误模型。本发明采用全卷积神经网络FCN与残差网络ResNet组成的语义理解模块FR,具有以下两个优点:一是使用全卷积神经网络FCN把一维文本数据视为一维图片,理解文本语义,解决了现有技术处理语义手段缺乏问题;二是使用残差网络ResNet加深了网络的层数,提高了特征的数量,加深对文本语义的理解程度。
本发明授权一种基于语序与语义联合分析的中文文本检错方法及系统在权利要求书中公布了:1.一种基于语序与语义联合分析的中文文本检错方法,其特征在于包括以下步骤:步骤1:数据预处理;1-1获取原始文本数据,将原始文本数据中所有文本按字级别划分,构建得到中文字集合Dw;对中文字集合Dw中插入标识符,然后使用索引对中文字集合Dw进行标记,每一个字对应一个字典索引,形成字典Dicw,k;1-2对原始文本数据中文本语句Token化,并加入标识符,并将其进行固定句长;1-3根据步骤1-1的字典索引对步骤1-2Token化后的文本语句序列化;1-4对步骤1-3索引序列化后的数据通过字嵌入Embedding技术映射成768维向量;步骤2:通过基于语序与语义联合分析的中文文本检错模型RFRA,实现中文文本检错;所述基于语序与语义联合分析的中文文本检错模型包括信息提取模块、自注意力模块Self-Attention、输出层;所述信息提取模块包括双向门控循环神经网络BiGRU和语义理解模块FR;所述语义理解模块FR的输入为步骤1预处理后的768维向量,用于提取文本语义信息;其包括多个语义理解单元,每个语义理解单元包括全卷积神经网络FCN;每个语义理解单元采用残差网络ResNet连接,并且采用改进的Sigmoid函数;每个语义理解单元的输入为前两层单元的输出;所述自注意力模块Self-Attention的输入为双向门控循环神经网络BiGRU和语义理解模块FR的叠加输出,用于分配字权重;将输入分化成键矩阵Key、问号矩阵Query、值矩阵Value,其次根据键矩阵与问号矩阵计算相似度矩阵Similarity,再对相似度矩阵归一化,最后将相似度矩阵与值矩阵加权得到注意力矩阵Attention;所述输出层用于判断输出字是否有错。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。