买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京网智天元大数据科技有限公司;网智天元科技集团股份有限公司
摘要:本申请提供了一种藏语文本自动标注方法及标注系统,首先获取藏语文本信息;对藏语文本信息进行语义特征提取,得到多个语义表征向量;进而根据各个语义表征向量之间的语义相似度和各个藏语字符的词性分布确定每个藏语字符的标签粒度,然后确定各个藏语文本内容的词性标注特征;进一步得到不同藏语关键词的词性向量,在根据各个词性向量在全文中的距离依赖关系和各个藏语文本内容的词性标签确定不同藏语关键词的词性区分度;进一步确定藏语文本信息的词性标记向量,进而根据词性标记向量对所述藏语文本信息进行自适应标注。采用本申请的方案,可实现藏语多义词和同形异义词的词性标注,从而提高藏语词性判断的准确率。
主权项:1.一种藏语文本自动标注方法,其特征在于,包括如下步骤:获取不同场景下的藏语文本内容,进而将获取的所有藏语文本内容组成藏语文本信息;对所述藏语文本信息进行语义特征提取,得到多个语义表征向量,根据各个语义表征向量之间的语义相似度和所有藏语文本内容中各个藏语字符在全文中的词性分布确定所述藏语文本信息中的每个藏语字符在进行标注时的标签粒度;根据所有的标签粒度和所有的语义表征向量确定各个藏语文本内容的词性标注特征;对所述藏语文本信息进行关键特征提取,得到不同藏语关键词的词性向量,根据各个词性向量在全文中的距离依赖关系和各个藏语文本内容的词性标签确定不同藏语关键词在标注过程中的词性区分度;通过所有的词性标注特征和所有的词性区分度确定所述藏语文本信息的词性标记向量,进而根据所述词性标记向量对所述藏语文本信息进行自适应标注。
全文数据:
权利要求:
百度查询: 北京网智天元大数据科技有限公司 网智天元科技集团股份有限公司 一种藏语文本自动标注方法及标注系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。