买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及计算机技术领域,提供了一种中英双语语料库的构建方法、及其相关设备,所述中英双语语料库的构建方法包括:获取中文实体、英文实体,以及中文实体与英文实体之间的映射关系和互译关系,并按照预设要求构建双语实体词语网络;根据中文实体、英文实体、上下文词语、预设超链接集合和预设语句集,计算双语实体词语网络的单语言表征估值和跨语言实体估值;利用训练语句计算获取到的可比语句网络对应的跨语言语句估值;根据三个估值计算目标估值;并根据目标估值,利用双语实体词语网络和可比语句网络,组合成中英双语语料库,并将之存储于区块链上。本发明通过利用两种网络之间的关联性以提高中英双语语料库中语料的准确性。
主权项:1.一种中英双语语料库的构建方法,其特征在于,所述中英双语语料库的构建方法包括:从预设实体库中获取中文实体、英文实体,以及中文实体与英文实体之间的映射关系和互译关系;根据所述中文实体、所述英文实体、所述映射关系和所述互译关系,按照预设要求构建双语实体词语网络;从预设数据库中获取每个所述中文实体和每个所述英文实体分别对应的上下文词语;基于所述中文实体、所述英文实体、所述上下文词语、预设超链接集合和预设语句集,计算所述双语实体词语网络的单语言表征估值和跨语言实体估值;获取可比语句网络和训练语句,并利用所述训练语句计算所述可比语句网络对应的跨语言语句估值;对所述单语言表征估值、所述跨语言实体估值和所述跨语言语句估值进行加权求和,得到目标估值;将所述目标估值与预设阈值进行比较,若达到预设条件利用所述双语实体词语网络和所述可比语句网络,组合成中英双语语料库;所述根据所述中文实体、所述英文实体、所述映射关系和所述互译关系,按照预设要求构建双语实体词语网络的步骤包括:获取所有所述中文实体作为第一集合,所有所述英文实体作为第二集合;从映射数据库中获取与所述中文实体存在所述映射关系的第一映射实体作为第三集合,以及与所述英文实体存在所述映射关系的第二映射实体作为第四集合,其中,所述映射数据库包含所述第一映射实体和所述第二映射实体;获取存在所述互译关系的所述中文实体和所述英文实体作为互译实体,并将所有所述互译实体组合成第五集合;基于所述第一集合、所述第二集合、所述第三集合、所述第四集合和所述第五集合,按照如下公式构建所述双语实体词语网络:;其中,E为所述双语实体词语网络,为所述第一集合,为所述第二集合,为所述第三集合,为所述第四集合,为所述第五集合。
全文数据:
权利要求:
百度查询: 平安科技(深圳)有限公司 中英双语语料库的构建方法、及其相关设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。