Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜山东睿芯半导体科技有限公司郭军获国家专利权

恭喜山东睿芯半导体科技有限公司郭军获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜山东睿芯半导体科技有限公司申请的专利一种文本主题分类方法、装置、芯片及终端获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117708324B

龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311472935.5,技术领域涉及:G06F16/35;该发明授权一种文本主题分类方法、装置、芯片及终端是由郭军;柯武生;翁国权设计研发完成,并于2023-11-07向国家知识产权局提交的专利申请。

一种文本主题分类方法、装置、芯片及终端在说明书摘要公布了:本发明涉及人工智能技术领域,提供了一种文本主题分类方法、装置、芯片及终端,该方法通过获取待分类的文本主题,并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理得到第一词集合;将第一词集合输入至ERNIE‑BiGRU模型中,对第一词集合中的各词语进行语义分类得到第二词集合;将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,进而实现文本主题的分类。本方法通过ERNIE‑BiGRU模型对文本主题转换成句子级向量表示的第二词集合,保留句子中词与词之间的内在联系和完整性,再按照预设规则进行相关度运算,进一步确定文本主题的分类,解决了现有文本分类方法分类不准确的问题。

本发明授权一种文本主题分类方法、装置、芯片及终端在权利要求书中公布了:1.一种文本主题分类方法,其特征在于,包括:获取待分类的文本主题,并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理,得到第一词集合,所述混淆映射处理包括将分词结果中的缩写、英文及网络用语转换为具有相同含义的常规文本;将所述第一词集合输入至预先训练好的ERNIE-BiGRU模型中,通过所述ERNIE-BiGRU模型对所述第一词集合中的各词语进行语义分类得到第二词集合;将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,所述预设领域词语本体包括特征词、概念和义元号,所述按照预设规则进行相关度运算包括对所述预设领域词语本体中的特征词、概念和义元号进行匹配;基于各第二词集合与所述预设领域词语本体的相关度,确定所述文本主题的分类;所述获取待分类的文本主题,并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理,得到第一词集合,包括:采集网页或者用户输入的文本主题,并基于语境中词语、句子之间的无意义连接字符查询所述文本主题中的噪音字符和停用词,得到语句短文本;将所述语句短文本转换为有向无环图,并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点,并进行标记,得到分词序列;识别所述分词序列中的英文和网络用语,查询网络词典中所述英文和所述网络用语对应的含义,并替换,得到第一词集合;将待分类的文本主题表示为D,预设领域词语本体表示为Oi={O1,O2...,Oi},simA,B表示A和B的相关度值;其中,文本主题D中的第二词集合表示为wk概念1|…概念n|,预设领域词语本体Oi中的词表示为kwl概念1|…概念m|,则:所述将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,包括:规则1:若第二词集合中的词语与所述预设领域词语本体中的词语相同,此时wk和kwl相同,simwk,kwl=1,则结束wk和Oi中其余词的比较,继续执行所述基于各第二词集合与所述预设领域词语本体的相关度,确定所述文本主题的分类的步骤;若不相同,则执行规则2;规则2:对所述第二词集合中的词语与所述预设领域词语本体中的词语进行概念匹配,若概念匹配成功,则计算概念相关度;若概念匹配不成功,则执行规则3;所述概念相关度计算方法如下: 其中,α为人为给出的权重因子,m和n分别为wk和kwl的概念个数,fconi,conj为概念完全匹配的个数,当coni=conj时,fconi,conj=1;规则3:对所述第二词集合中的词语与所述预设领域词语本体中的词语进行义元匹配,计算义元相关度;所述义元相关度的计算方法如下: 其中,fpi,pj为pi和pj两个义元之间的语义距离,deepij为pi和pj两个义元在义元树中的公共节点深度。当pi=pj时,则dij=0;当pi≠pj时,dij是pi和pj在义元层次体系中的路径长度,是一个正整数。γ是一个可调节的参数;β为人为给出的权重因子,x和y分别为wk和kwl的义元个数;其中,两个义元路径越长,公共深度越深,其语义相关度值越大;所述基于各第二词集合与所述预设领域词语本体的相关度,确定所述文本主题的分类,包括:计算所述第二词集合wk与所述预设领域词语本体Oi的相关度的最大值:simwk,Oi=max{simwk,kw1,simwk,kw2,...,simwk,kwM}则所述文本主题D与所述预设领域词语本体Oi的相关度计算公式为: 文本主题D属于相关度结果simwk,Oi最大的那个类别,其中,N表示文本主题D中第二词集合的个数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东睿芯半导体科技有限公司,其通讯地址为:276800 山东省日照市经济开发区上海路388号1栋101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。