买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:阿里巴巴集团控股有限公司
摘要:本申请公开了一种分词语种的识别方法及装置。其中,该方法包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中每个分词至少一个分词的第一评分指标,其中,第一评分指标用于指示每个分词至少一个分词属于目标语种的概率;基于第一评分指标判断每个分词至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标。
主权项:1.一种分词语种的识别方法,其特征在于,包括:获取待检测文本,其中,所述待检测文本中至少包括两种不同语种的语料;将所述待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,所述第一评分指标用于计算所述至少一个分词属于目标语种的概率;基于所述第一评分指标判断所述至少一个分词属于第一语种的概率是否大于所述至少一个分词属于第二语种的概率,其中,所述第二语种包括除所述第一语种之外的任意一个语种;确定所述待检测文本中指定分词的所属的语种,其中,所述指定分词包括所述待检测文本中与所述至少一个分词不同的分词;依据判断结果以及所述指定分词所属的语种确定所述至少一个分词的语言模型;基于确定的语言模型确定所述至少一个分词的第二评分指标,其中,所述第二评分指标用于指示所述至少一个分词属于目标语种的概率;并基于所述第二评分指标确定所述至少一个分词所属的语种;所述混合语言模型是通过目标混合语料对预设混合语言模型进行训练得到的,其中,所述目标混合语料包括多个语种的预料。
全文数据:
权利要求:
百度查询: 阿里巴巴集团控股有限公司 分词语种的识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。