首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于结构特征迁移的汉越跨语言依存句法分析方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及基于结构特征迁移的汉越跨语言依存句法分析方法,属于自然语言处理领域。首先,本发明采用XLM‑RoBERTa预训练模型来提取中文和越南语数据集的词嵌入表示;接着使用Mamba模块对词表示进行预编码;将预编码后的词表示输入到Mambaformer编码器和BiLSTM进行深层的编码,同时也通过迁移中文的句法结构信息来引导模型更深入捕获中文和越南语的句法结构知识的公共特征;最后利用KAN来获取句子的句法特征表示,更精确高效地分析句子的句法结构。该发明通过有效地共享中文和越南语的语法知识,深度地解析词的上下文以及空间关系,实现了对越南语句子语法结构的精确分析,并在实验中取得了显著的效果。

主权项:1.一种基于结构特征迁移的汉越跨语言依存句法分析方法,其特征在于:所述方法的具体步骤如下:Step1:收集使用UD语法结构规则进行标注的汉语和越南语数据;Step2:先使用中文和越南语来微调XLM-RoBERTa预训练模型,使得跨语言的预训练模型将中文和越南语的词嵌入表示映射到相同的表征空间中,然后取出微调后的XLM-Roberta模型隐藏层最后四层的输出的平均值,将其作为句法分析模型的一部分输入;Step3:将得到的句子表示输入到Mamba模块中对所有词向量进行预编码;通过选择性地传递和遗忘输入的中文和越南语句子的空间结构以及上下文信息,有效捕获词语间的上下文关系和空间信息;Step4:采用Mambaformer和BiLSTM结合的编码器对预编码的词表示进行深层次编码;首先使用多头注意力机制来计算每个词与其他所有词的关联程度得到注意力权重加权后的词表示向量;接着将其输入到Mamba中捕获词之间深层次的空间结构信息尤其是句法结构;经过多层的Mambaformer后得到的表征输入到多层的BiLSTM中进一步增强了模型对数据的上下文信息以及时间动态特性的捕捉能力;Step5:接着通过利用KAN精细的参数化方法,精准地提取编码后的词表示的句法特征,得到每个词作为中心词和依赖词的表示,以及他们对应的依存标签的表示;Step6:最后通过双仿射解析层计算出每个不带标签的依存关系,带标签的依存关系的得分,然后解码得到每个句子对应的依存句法树。

全文数据:

权利要求:

百度查询: 昆明理工大学 一种基于结构特征迁移的汉越跨语言依存句法分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。