一种基于部首联想机制的汉语文本分类方法及装置

导航：龙图腾网> 最新专利技术> 一种基于部首联想机制的汉语文本分类方法及装置

申请/专利权人：中国科学技术大学

申请日：2020-12-07

公开（公告）日：2024-05-24

公开（公告）号：CN112559744B

主分类号：G06F16/35

分类号：G06F16/35;G06F18/2415;G06N3/0464;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.05.24#授权;2021.04.13#实质审查的生效;2021.03.26#公开

摘要：本发明提供一种基于部首联想机制的汉语文本分类方法及装置，方法包括获取待分类汉语文本的字符级特征和形声字部首集合；根据形声字部首集合中的部首，得到对应的联想词集合；将字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到汉语文本分类模型输出的待分类汉语文本的分类标签。本发明通过待分类汉语文本中形声字部首，获取对应的联想词，并基于联想词集合和字符级特征确定待分类汉语文本的分类标签，相比于传统依靠文本的字面特征进行分类方式，更符合汉语自身特点以及表意文字和人类认知过程的基本原理，提高了汉语文本分类的准确性。

主权项：1.一种基于部首联想机制的汉语文本分类方法，其特征在于，包括：获取待分类汉语文本的字符级特征和形声字部首集合；根据所述形声字部首集合中的部首，得到对应的联想词集合；将所述字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到所述汉语文本分类模型输出的所述待分类汉语文本的分类标签；将所述字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到所述待分类汉语文本的分类标签，包括：将所述字符级特征输入到BERT模型，得到所述BERT模型输出的所述待分类汉语文本的文本表征向量和所述待分类汉语文本的字符表征向量；将所述待分类汉语文本的字符表征向量输入到BiLSTM模型，得到所述BiLSTM模型深度优化后的所述待分类汉语文本的字符表征向量；将所述联想词集合输入到嵌入层，得到所述嵌入层输出的联想词表征向量；计算得到联想词表征向量分别在所述待分类汉语文本的文本表征向量和所述深度优化后的所述待分类汉语文本的字符表征向量下的注意力权重向量；对每个所述注意力权重向量进行归一化处理，得到两个归一化处理后的注意力权重向量；利用所述两个归一化处理后的注意力权重，分别对所述联想词表征向量中的向量进行加权求和，得到两个联想词表征；将所述两个联想词表征、所述待分类汉语文本的文本表征向量以及所述深度优化后的所述待分类汉语文本的字符表征向量进行拼接后，输入到全连接神经网络；通过softmax函数和argmax函数对所述全连接神经网络的输出进行处理，得到所述待分类汉语文本的分类标签。

全文数据：

权利要求：

百度查询：中国科学技术大学一种基于部首联想机制的汉语文本分类方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于雷达检测的城镇道路坍塌风险评价方法

下一篇：一种面向高轨遥感卫星的多个动目标的跟踪方法

相关技术

一种基于雷达检测的城镇道路坍塌风险评价方法

一种面向高轨遥感卫星的多个动目标的跟踪方法

一种护理机

一种双向帧间预测引导的视频编码方法

一种全光谱太阳能聚光光伏-离子热电化学电池耦合高效发电系统

存储设备和用于生成令牌的方法

一种盐酸达泊西汀中间体PM1中杂质的分离检测方法

一种剩余续航里程的确定方法、装置、电子设备及存储介质

显示模组和显示装置

一种激光雷达的固定结构和车辆

用于减小电动机驱动器中的感应接地弹跳电压的系统和方法

发电机线棒防晕材料的分析方法及防晕材料、制备方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于部首联想机制的汉语文本分类方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务