首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

拼音标注方法、装置、服务器及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:科大讯飞股份有限公司

摘要:本申请实施例提供一种拼音标注方法、装置、服务器及存储介质,该方法包括:获取待标注文本,待标注文本包含至少一个多音字;将待标注文本输入训练好的拼音标注模型,对待标注文本进行处理,得到待标注文本的拼音标注;拼音标注模型包括文本编码网络和拼音预测网络;对待标注文本进行处理,得到待标注文本的拼音标注,包括:利用文本编码网络对待标注文本进行编码处理,得到待标注文本中每个字的输出向量;利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;目标多音字为至少一个多音字中的任一个。本申请实施例可以提高拼音标注的效率。

主权项:1.一种拼音标注方法,其特征在于,包括:获取待标注文本,所述待标注文本包含至少一个多音字;将所述待标注文本输入训练好的拼音标注模型,对所述待标注文本进行处理,得到所述待标注文本的拼音标注;所述拼音标注模型包括文本编码网络和拼音预测网络;所述文本编码网络包括双向编码文本表示变换器BERT网络,所述BERT网络包括多头自注意力模块;所述文本编码网络还包括依赖关系学习模块,所述依赖关系学习模块包括变换网络和依赖关系计算网络,所述变换网络包括键向量变换网络、查询向量变换网络和值向量变换网络;所述对所述待标注文本进行处理,得到所述待标注文本的拼音标注,包括:利用所述文本编码网络对所述待标注文本进行随机编码和位置编码,得到所述待标注文本中每个字的输入向量;根据每个字的输入向量计算所述待标注文本中任意两个字之间的依赖关系向量,根据所述待标注文本中任意两个字之间的依赖关系向量得到所述待标注文本中每个字的输出向量;利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;所述目标多音字为所述至少一个多音字中的任一个,所述多音字空间包括中文的所有多音字的拼音;所述文本编码网络包括多头自注意力模块,所述多头自注意力模块使得每个字的输出向量之间直接相互联系;所述根据每个字的输入向量计算所述待标注文本中任意两个字之间的依赖关系向量,包括:通过所述键向量变换网络和所述待标注文本中每个字的输入向量计算每个字的键向量,通过所述查询向量变换网络和目标字的输入向量计算目标字的查询向量,通过所述值向量变换网络和所述待标注文本中每个字的输入向量计算每个字的值向量;通过所述依赖关系计算网络将目标字的查询向量与每个字的键向量进行计算,得到目标字对所述待标注文本中每个字的依赖关系分数,将目标字对所述待标注文本中每个字的依赖关系分数与每个字的值向量进行计算,得到目标字与所述待标注文本中每个字的依赖关系向量;所述获取待标注文本之前,所述方法还包括:采用无监督语料对所述文本编码网络进行预训练,得到预训练结果,根据所述预训练结果对所述文本编码网络的网络参数进行优化;采用监督语料对所述拼音预测网络进行微调训练,得到第一微调训练结果,根据所述第一微调训练结果对所述拼音预测网络的网络参数进行优化;或者,采用监督语料对所述文本编码网络和所述拼音预测网络进行微调训练,得到第二微调训练结果,根据所述第二微调训练结果对所述文本编码网络和所述拼音预测网络的网络参数进行优化。

全文数据:

权利要求:

百度查询: 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。