恭喜北京中科凡语科技有限公司周玉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京中科凡语科技有限公司申请的专利双语对齐的方法、装置、电子设备及可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113887190B 。
龙图腾网通过国家知识产权局官网在2025-03-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110963607.X,技术领域涉及:G06F40/189;该发明授权双语对齐的方法、装置、电子设备及可读存储介质是由周玉;刘阳;李小青设计研发完成,并于2021-08-20向国家知识产权局提交的专利申请。
本双语对齐的方法、装置、电子设备及可读存储介质在说明书摘要公布了:本公开提供一种双语对齐的方法,包括:获取原始中文文本和原始英文文本,原始中文文本和原始英文文本为含义对应的文本;将原始中文文本进行分句,获取原始中文文本的句子集合;将原始英文文本进行分句,获取原始英文文本的句子集合;将原始中文文本的句子集合通过翻译,获取原始中文文本的句子集合的英文译文句子集合;基于英文译文句子集合、原始中文文本的句子集合以及原始英文文本的句子集合,将原始中文文本的句子集合和原始英文文本的句子集合分别划分为若干个对应的片段;以及将对应的片段进行对齐。本公开还提供一种双语对齐的装置、电子设备及可读存储介质。
本发明授权双语对齐的方法、装置、电子设备及可读存储介质在权利要求书中公布了:1.一种双语对齐的方法,其特征在于,包括:获取原始中文文本和原始英文文本,所述原始中文文本和所述原始英文文本为含义对应的文本;将所述原始中文文本进行分句,获取所述原始中文文本的句子集合;将所述原始英文文本进行分句,获取所述原始英文文本的句子集合;将所述原始中文文本的句子集合通过翻译,获取所述原始中文文本的句子集合的英文译文句子集合;基于所述英文译文句子集合、原始中文文本的句子集合以及原始英文文本的句子集合,将所述原始中文文本的句子集合和所述原始英文文本的句子集合分别划分为若干个对应的片段;以及将所述对应的片段进行对齐;其中,基于所述英文译文句子集合、原始中文文本的句子集合以及原始英文文本的句子集合,将所述原始中文文本的句子集合和所述原始英文文本的句子集合分别划分为若干个对应的片段,包括:寻找第一个锚点:将所述英文译文句子集合中的第i个句子en[i]与所述原始英文文本的句子集合中的j到j+M范围内的句子{eno[j]~eno[j+M]}逐一计算相似度,如果最大相似度大于相似度阈值m,则按照最大相似度取{eno[j]~eno[j+M]}中对应的句子的下标的值赋值给offset,并将锚点位置为记为i、j=j+offset,保留锚点位置保留i,j;寻找下一个锚点:在所述英文译文句子集合中为第i+L个句子en[i+L]与所述原始英文文本的句子集合中的j到j+M范围内的句子eno[j]~eno[j+M]逐一计算相似度,如果最大相似度不大于相似度阈值m,则未找到,则将所述英文译文句子集合中第i+L+1个句子en[i+L+1]与所述原始英文文本的句子集合中的j到j+M范围内的句子{eno[j]~eno[j+M]}逐一计算相似度,如果最大相似度大于相似度阈值m,则按照最大相似度取{eno[j]~eno[j+M]}中对应的句子的下标的值赋值给offset,并将锚点位置记为i=i+L+1、j=j+offset,保留第二个锚点位置i,j;依据上述处理依次逐个寻找锚点,直到英文译文句子集合en遍历完成;以及基于所述锚点,对原始中文文本的句子集合zh和原始英文文本的句子集合eno进行片段划分;其中,各个参数表示的含义如下:i:自然数,初始化取值为1,表示第一个句子;j:自然数,初始化取值为1,表示第一个句子;L:锚点步长,即选取句子的间隔步长,初始化取值100,可以调整;M:相似度计算时选取句子范围时的步长,初始化取值500,可以在1到句子集合包含的句子数量的范围内调整;offset:句子在于句子集合中的位置,初始化为0;en:英文译文句子集合;eno:原始英文文本的句子集合;zh:原始中文文本的句子集合;m:相似度阈值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科凡语科技有限公司,其通讯地址为:100190 北京市海淀区知春路63号51号楼10层1006;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。