买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浪潮智慧科技(武汉)有限公司;浪潮智慧科技有限公司
摘要:本发明公开了一种用于文本纠错模型的训练数据集的构造方法及设备,属于数据集构造技术领域。方法包括:通过汉字拼音对照表将预设语料库中的正确文本转换为正确拼音序列;基于预设扰动比例,通过预设扰动方式对所述正确拼音序列进行扰动,得到扰动拼音序列,所述预设扰动比例用于指示所述正确文本中被扰动的词数占所有词数比例;将所述扰动拼音序列划分为若干小段,使每个小段对应为一个汉字的拼音;通过所述汉字拼音对照表将所述若干小段转换为错误文本,得到包括正确文本和错误文本的训练数据。本发明通过上述方法可以快速、大批量地构造“正确文本+错误文本”对,从而实现构造大规模的文本纠错模型用数据集。
主权项:1.一种用于文本纠错模型的训练数据集的构造方法,其特征在于,所述方法包括:通过汉字拼音对照表将预设语料库中的正确文本转换为正确拼音序列;基于预设扰动比例,通过预设扰动方式对所述正确拼音序列进行扰动,得到扰动拼音序列,所述预设扰动比例用于指示所述正确文本中被扰动的词数占所有词数比例,具体包括:对所述正确文本进行分词,将所述正确文本对应的词总数与所述预设扰动比例的乘积向上取整,得到待扰动的词数量,在所述正确拼音序列中确定任一待扰动的词对应的待扰动拼音,根据待生成的训练数据集对应的错误类型分布概率确定所述预设扰动方式,所述错误类型分布概率与所述预设扰动方式一一对应,通过所述预设扰动方式对所述待扰动拼音进行扰动,所述预设扰动方式包括混淆近似拼音、字母顺序颠倒、增加字母、删除字母和替换错误字母中的至少一种,在所述预设扰动方式为混淆近似拼音时判断所述待扰动拼音是否存在近似拼音,若否,则根据错误类型分布概率确定新的预设扰动方式;将所述扰动拼音序列划分为若干小段,使每个小段对应为一个汉字的拼音;通过所述汉字拼音对照表将所述若干小段转换为错误文本,得到包括正确文本和错误文本的训练数据。
全文数据:
权利要求:
百度查询: 浪潮智慧科技(武汉)有限公司 浪潮智慧科技有限公司 一种用于文本纠错模型的训练数据集的构造方法及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。