首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于BERT的中文ASR输出文本修复方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海大学

摘要:本发明提出了一种基于BERT的中文ASR文本修复方法及系统,该系统包含:中文标点符号预测模型和中文纠错模型。中文标点预测模型基于BERT进行了两方面的改进:使用RoBERTa模型替换基础BERT模型,通过改变预训练任务中的掩码策略来提高模型的效率;通过提取字音和字形两个嵌入给模型提供更多的中文额外信息。通过这两个方面的改动提出了目前较为完整的中文标点符号预测模型。中文纠错模型使用PLOME预训练模型,该模型的特点也是结合了中文额外特征来提高模型对中文的理解能力。通过简单的结合,本发明得到了一个端到端的中文ASR文本修复系统,其首次结合了中文标点符号预测以及中文纠错两个任务,对错误的文本进行两个角度的纠错,可以显著地提高文本的使用效率。

主权项:1.一种基于BERT的中文ASR输出文本修复系统,其特征在于,包括中文标点符号预测模型和中文纠错模型,其中:中文标点符号预测模型包括BERT中文分词器、RoBERTa预训练模型、ChineseBERT预训练模型、Transformer网络和分类模块,其中:由BERT中文分词器对输入的中文文本中的每一个中文词进行编码从而获得词向量;RoBERTa预训练模型将词向量编码成通过预训练任务得到的字编码向量,即获得字编码嵌入;ChineseBERT预训练模型提取词向量的字音特征和字形特征,得到拼音嵌入和字形嵌入;Transformer网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度;分类模块由两层线性层和两层Dropout层来进行叠加,通过分类模型预测每一个字符编码对于四个分类的概率,输出每个字的之后最大概率的标点符号的类别,其中,四个分类的标签分别为空、逗号、句号和问号;中文标点符号预测模型输出的带有标点符号的句子被输入中文纠错模型,中文纠错模型采用PLOME模型。

全文数据:

权利要求:

百度查询: 上海大学 一种基于BERT的中文ASR输出文本修复方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。