买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州市悦程信息科技有限公司
摘要:本发明涉及一种语音识别音字同步的方法,包括以下:获取目标语音信息;对所述目标语音信息进行语音识别得到语音识别内容,语音识别内容包括语音内容以及文本内容;于语音内容中确定文本内容中的每一个文字所对应的起始时刻以及终止时刻,并将首个文字的起始时刻作为语音内容展示时的初始时刻,基于此确定语音内容中的所有文字在语音内容展示时的相对时间位置;以文本内容中的首个文字的起始时刻作为文本内容展示时的初始时刻,基于此确定文本内容中的所有文字在文字内容展示时的相对时间位置;以通过上述方式确定的语音内容以及文本内容中的所有文字在展示时的相对时间位置进行语音识别音字同步展示。本发明能够智能化地保证语音识别音字同步。
主权项:1.一种语音识别音字同步的方法,其特征在于,包括以下:获取目标语音信息;对所述目标语音信息进行语音识别得到语音识别内容,所述语音识别内容包括语音内容以及文本内容;于所述语音内容中确定文本内容中的每一个文字所对应的起始时刻以及终止时刻,并将首个文字的起始时刻作为语音内容展示时的初始时刻,基于此确定语音内容中的所有文字在语音内容展示时的相对时间位置;以文本内容中的首个文字的起始时刻作为文本内容展示时的初始时刻,基于此确定文本内容中的所有文字在文字内容展示时的相对时间位置;以通过上述方式确定的语音内容以及文本内容中的所有文字在展示时的相对时间位置进行语音识别音字同步展示;所述方法还包括,进行语音识别音字同步展示时,对语音内容以及对应的文字内容进行提前缓冲,即获取由工作人员预先标注的语音内容及其对应的文字内容段落,当展示当前段落时,预加载后一段落的相关内容;所述方法还包括,进行语音识别音字同步展示时,当前段落展示完成后,同步获取当前段落的实时语音信息;对所述实时语音信息进行语音识别得到实时语音识别内容;于所述实时语音识别内容中确定所有文字在进行语音内容展示时的起始时刻以及终止时刻;对每个文字在进行语音内容展示时的起始时刻以及终止时刻进行求平均值记为该文字的语音时间戳;获取每个文字在进行文字内容展示时的起始时刻以及终止时刻;对每个文字在进行文字内容展示时的起始时刻以及终止时刻进行求平均值记为该文字的文字时间戳;将每个文字的语音时间戳以及文字时间戳作差记为该文字的同步容忍参数;遍历所有文字的同步容忍参数,找寻出同步容忍参数的绝对值大于第一阈值的文字并统计其数量得到数量P;若数量P小于第二阈值,则不对下一段落的文字内容展示速度进行调整,若数量P不小于第二阈值也不大于第三阈值,则计算所有的同步容忍参数的平均值,若平均值为正数,则将下一段落的文字内容展示速度提高预设比例,若平均值为负数,则将下一段落的文字内容展示速度降低预设比例,若平均值恰好为0则不对下一段落的文字内容展示速度调整,若数量P大于第三阈值,则对相关工作人员进行告警提醒。
全文数据:
权利要求:
百度查询: 广州市悦程信息科技有限公司 一种语音识别音字同步的方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。