买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:四川丝路易购科技有限公司
摘要:本发明提供了一种HS编码自动检索归类的方法及系统,包括步骤:对待判定的商品描述信息并进行中文分词,识别词性和语义特征;对信息执行清洗操作获取关键词;采用图注意力网络建模商品描述信息中关键词之间的关联关系;计算关键词的第一权重;通过Textrank算法计算关键词的第二权重;基于关键词第二权重大小生成关键词序列;基于关键词序列对原始语料库执行过滤获取相关领域的领域语料数据;基于关联关系在领域语料数据中获取初步匹配文本;基于第二权重计算初步匹配文本与关键词序列的相关度;基于所计算出的相关度确定商品HS编码。本发明解决了进出口企业、跨境电商等HS编码归类难的问题,降低了贸易环节成本,提高了工作效率。
主权项:1.一种HS编码自动检索归类的方法,其特征在于,包括如下步骤:步骤一、获取待判定的商品描述信息;步骤二、对所述商品描述信息进行中文分词,识别每个词语的词性和语义特征;步骤三、基于所述词性和语义特征对所述商品描述信息执行清洗操作,获取关键词;步骤四、采用图注意力网络建模所述商品描述信息中关键词之间的关联关系;步骤五、根据所述关键词的位置、词性、语义特征和关联关系,结合预设的权重设置,得到所述商品描述信息中所述关键词的第一权重;步骤六、通过Textrank算法,构建所述商品描述信息的语料文本图,并根据所述语料文本图和第一权重,计算所述关键词的第二权重;步骤七、根据所述关键词的第二权重大小对关键词进行排序,生成关键词序列;步骤八、基于所述关键词序列对原始语料库执行过滤操作,获取与所述商品描述信息相关领域的领域语料数据;步骤九、基于前述所得的关联关系在所述领域语料数据中获取一个或多个初步匹配文本;步骤十、基于前述所得的第二权重,计算所述初步匹配文本与所述关键词序列的相关度;步骤十一、基于所计算出的相关度,从原始语料库所对应的HS编码中确定商品HS编码;所述步骤四具体包括:步骤4.1、计算关键词之间的注意力分数,具体公式表达为: 式中,为关键词vi和vj的注意力分数,a为权重向量,和分别为关键词vi和vj的线性变换结果;步骤4.2、使用Softmax对注意力分数标准化,得到: 式中,为关键词vi和vj的关联程度,为所有关键词中关键词vi邻居关键词的集合,其中,υi,υj∈Vn,Vn为关键词的集合;步骤4.3、循环步骤4.1~步骤4.2,确定所述商品描述信息中所有关键词之间的关联关系;所述步骤五具体为:步骤5.1、依据优序关系Q1>Q2>Q3>Q4,得出各权重判定指标和相邻指标的权重比,其中,所述权重判定指标包括:关联关系指标Q1,位置指标Q2,词性指标Q3以及语义特征指标Q4;步骤5.2、依据步骤5.1所得的权重比,对各所述关键词的重要程度进行打分,并按分数高度对各所述关键词进行排序,确定各所述关键词的第一权重,公式表达为: 式中,wυi为关键词vi的第一权重,为关键词vi权重判定指标Q1的得分,为关键词vi权重判定指标Q2的得分,为关键词vi权重判定指标Q3的得分,为关键词vi权重判定指标Q4的得分;所述步骤六具体包括:步骤6.1、通过Textrank算法对所述商品描述信息中关键词的权重进行计算,公式表达为: 式中,d为阻尼系数,Invi为语料文本图中指向关键词vi的所有关键词集合,Outvj为语料文本图中关键词vj指向所有关键词的集合,Wji为关键词vj到关键词vi的边的权重;步骤6.2、根据所述语料文本图和第一权重,按照以下公式计算所述关键词的第二权重,公式表达为:
全文数据:
权利要求:
百度查询: 四川丝路易购科技有限公司 一种HS编码自动检索归类的方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。