买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:太原科技大学
摘要:本发明提供了一种基于HD‑MSCNN的层次结构文本自动分类框架,该分类框架主要包括四部分:1局部共享层;2粗粒度分类器C;3细粒度层分类器Fk;4概率平均层;在分类器构建阶段采用基于深度学习的多尺度卷积神经网络MSCNN算法,该算法通过残差网络加空洞卷积的网络结构覆盖完整的全局上下文信息,而不是局部上下文信息,增加了模型的容量和性能,同时利用扩展槽机制增强了模型的可扩展性,当加入新的类别时,可快速完成模型升级而不需要重新训练。基于HD‑MSCNN的多层次分类框架具有分类精度高、可扩展性好、鲁棒性强的特点,其在大规模文本分类领域具有更好的性能。
主权项:1.基于HD-MSCNN的层次结构文本自动分类方法,其特征在于,该方法包括文本自动分类框架,其包括以下几部分:1局部共享层:采用局部共享信息分类策略,每个分类器都有一个该分类范围内独有的共享层,局部共享信息通过学习兄弟节点间的类别描述信息来促进模型的分类性能,若输入的文本矩阵为n,类别描述信息为f:则共享层的输出为: 式中,i为兄弟节点的编号,m为兄弟节点的数量,R表示残差网络;通过局部共享层可将兄弟节点间的结构信息融入分类框架中;2粗粒度分类器C;3细粒度层分类器Fk:采用交叉的分类策略,在细粒度分类器Fk中添加更多的类别,使HD-MSCNN更少地依赖于粗类别分类器C,通过建立相似度系数来评价细粒度层类别j被错分到k类的程度,相似度系数具体为: 式中,表示细粒度层类别j的所有样本,表示非交叉分类策略下文本对象i被错分到k类的概率;设置阈值ut,当时,将j类添加到粗粒度类别k类中;4概率平均层:可用如下公式表示:pyi=j|xi=Bikpkyi=j|xi式中,Bik为文本分类信息对象xi被粗粒度分类器分到k类的概率,pkyi=j|xi表示文本分类信息对象xi被细粒度分类器分到j类的概率,pyi=j|xi表示属于j类的概率;设置阈值t,当时,概率平均层仅根据细粒度层的分类结果pkyi=j|xi进行选择;而当时,根据粗粒度分类器预测结果,选择的多个粗粒度类别,进行细粒度层预测,根据pyi=j|xi进行排序综合选择;空洞卷积F在序列信息s元素上的操作可表示为: 式中,X∈Rn表示一维序列信息,*d表示带膨胀系数的卷积运算,f:{0,...,k-1}→R为一个接收域,q为卷积核大小,gfn,d表示卷积核的扩张,XS表示序列信息X中的s元素;残差网络中的残差块包括残差函数G和恒等映射两部分,残差函数G为对输入的一系列变换,恒等映射则为上一层的输出,残差块的输出可表示为:o=Activationx+Gx式中:x代表上一层的输出,Gx代表输入的一系列变换;将有效的学习修改恒等映射层,使网络的层数加深时保持网络的性能维持在最高水平而不下降;还包括扩展槽机制,通过在全连接层和Softmax层空出冗余位的方式来提高模型的可扩展性,当有新类别加入时,则启用空余位置并加入新类别的数据进行重新训练,即可快速得到支持新类别的模型。
全文数据:
权利要求:
百度查询: 太原科技大学 基于HD-MSCNN的层次结构文本自动分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。