买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请提供了一种藏语文本自动标注方法及标注系统,首先获取藏语文本信息;对藏语文本信息进行语义特征提取,得到多个语义表征向量;进而根据各个语义表征向量之间的语义相似度和各个藏语字符的词性分布确定每个藏语字符的标签粒度,然后确定各个藏语文本内容的词性标注特征;进一步得到不同藏语关键词的词性向量,在根据各个词性向量在全文中的距离依赖关系和各个藏语文本内容的词性标签确定不同藏语关键词的词性区分度;进一步确定藏语文本信息的词性标记向量,进而根据词性标记向量对所述藏语文本信息进行自适应标注。采用本申请的方案,可实现藏语多义词和同形异义词的词性标注,从而提高藏语词性判断的准确率。
主权项:1.一种藏语文本自动标注方法,其特征在于,包括如下步骤:获取不同场景下的藏语文本内容,进而将获取的所有藏语文本内容组成藏语文本信息;对所述藏语文本信息进行语义特征提取,得到多个语义表征向量,根据各个语义表征向量之间的语义相似度和所有藏语文本内容中各个藏语字符在全文中的词性分布确定所述藏语文本信息中的每个藏语字符在进行标注时的标签粒度;根据所有的标签粒度和所有的语义表征向量确定各个藏语文本内容的词性标注特征;对所述藏语文本信息进行关键特征提取,得到不同藏语关键词的词性向量,根据各个词性向量在全文中的距离依赖关系和各个藏语文本内容的词性标签确定不同藏语关键词在标注过程中的词性区分度;通过所有的词性标注特征和所有的词性区分度确定所述藏语文本信息的词性标记向量,进而根据所述词性标记向量对所述藏语文本信息进行自适应标注;其中,根据所有的标签粒度和所有的语义表征向量确定各个藏语文本内容的词性标注特征具体包括:对所有的标签粒度进行线性拟合,得到标签粒度曲线;根据所述标签粒度曲线和所有的语义表征向量确定各个藏语文本内容的词性标签向量;通过所有的词性标签向量和所有的标签粒度确定各个藏语文本内容的词性标注特征;其中,对所述藏语文本信息进行关键特征提取,得到不同藏语关键词的词性向量具体包括:将所述藏语文本信息中所有藏语文本内容转换成藏语文本内容序列;根据所述藏语文本内容序列和预设的上下文窗口确定所述藏语文本信息中每个藏语字符的上下文共现度;通过所有的上下文共现度确定不同藏语关键词的词性向量;其中,根据各个词性向量在全文中的距离依赖关系和各个藏语文本内容的词性标签确定不同藏语关键词在标注过程中的词性区分度具体包括:确定各个词性向量在全文中的距离依赖关系;选取一个藏语文本内容作为选定藏语文本内容;确定选定藏语文本内容中所有藏语关键词的后继次数;根据选定藏语文本内容的词性标签和所有的后继次数确定选定藏语文本内容中所有藏语关键词在标注过程中的词性区分度;继续确定剩余藏语文本内容中所有藏语关键词在标注过程中的词性区分度;其中,确定选定藏语文本内容中所有藏语关键词的后继次数具体包括:计算选定藏语文本内容中各个藏语关键词后续在选定藏语文本内容中出现的总次数,并将各个藏语关键词后续出现的总次数作为对应藏语关键词的后继次数。
全文数据:
权利要求:
百度查询: 北京网智天元大数据科技有限公司 网智天元科技集团股份有限公司 一种藏语文本自动标注方法及标注系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。