买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京智齿博创科技有限公司
摘要:本发明公开了一种基于品类的质量问题场景标签的自动标注方法,包括以下步骤:质量描述词挖掘,形成质量描述词库;商品品类构建;商品和质量描述词映射;质量描述词的分类标签标注;基础支持数据库构建;商品和质量描述词修饰关系确定;商品质量问题确认。其能够根据商品所对应的质量描述词确定具体商品的质量问题,避免了标签穷尽模式的应用,且能够自由灵活的增加标签分类,满足了未知分类数量的分类场景的应用。
主权项:1.一种基于品类的质量问题场景标签的自动标注方法,其特征在于,包括以下步骤:S1、质量描述词挖掘:以预先构建的保存有基础描述词的基础词典为基础,将已知语料中的所有词汇作为候选词与所述基础描述词进行比较,筛选出所述候选词中的质量描述词,并将所述质量描述词添加至所述基础词典中,以逐步扩充所述基础词典,形成质量描述词库;S2、商品品类构建:将商品分类形成商品品类;S3、商品和质量描述词映射:遍历已知语料,通过商品和质量描述词的描述关系将各个商品与质量描述词进行对应;S4、质量描述词的分类标签标注:以商品品类为单位,为商品品类下的每个质量描述词打上对应的分类标签;S5、基础支持数据库构建:将所述商品所属的商品品类,以及所述商品品类下标注分类标签后的质量描述词以图结构的形式存储下来,形成基础支持数据库;S6、商品和质量描述词修饰关系确定:通过商品的名称和质量描述词间的距离判断输入文本中的商品和质量描述词间是否为修饰关系,若距离小于预定的阈值M,则认定所述商品和质量描述词间为修饰关系,并进入S7,否则将所述输入文本丢弃;S7、商品质量问题确认:由S5构建的基础支持数据库中找到输入文本中包含的商品所对应的分类标签;其中,S5中,所述图结构中包括以下两种连接关系:连接关系1:商品、商品品类、分类标签,以及质量描述词的顺次连接关系;以及连接关系2:商品品类对应质量描述词的连接关系;S6中,确定商品和质量描述词间的修饰关系前,还需查找商品间的并列关系和确认质量描述词的有效性,具体包括:S6-1、商品间的并列关系查找:通过基础支持数据库在分词后的输入文本中检索包含的已知商品品类的商品,并在检索得到多件商品时,判断多件商品的名称间是否存在表示并列含义的连接词,是,则将多个商品归类为并列商品;否,则判定输入文本中包含多件商品;且在所述输入文本中仅检索到一件商品或检索到的多件商品为并列商品时,且商品或并列商品中的任一商品的名称和质量描述词间的距离小于M,则认定所述质量描述词和商品或所述并列商品中的所有商品间均为修饰关系;若所述输入文本中包含多件商品时,则将所述输入文本根据标点符号进行分割,按照顺序进行商品和质量描述词的匹配运算,以确定与各件商品具有修饰关系的质量描述词;S6-2、质量描述词有效性确认:通过所述质量描述词库检索输入文本中是否包含质量描述词,并在输入文本中包含质量描述词时,通过预设的否定词库判断输入文本中包含的质量描述词的有效性;若所述质量描述词前后含有否定词库内保存的任一否定词,则判定所述质量描述词无效;S7中由S5构建的基础支持数据库中找到输入文本中包含的商品所对应的分类标签具体包括:S7-1、通过连接关系1中的商品和商品品类的连接关系确定输入文本中包含的商品的商品品类;S7-2、通过连接关系2判定输入文本中具有修饰关系的商品和质量描述词中的质量描述词是否为S7-1中确定的商品品类下的质量描述词;是,则进入S7-3;否则判定输入文本中包含的商品和质量描述词间的修饰关系判断错误,并丢弃相应的修饰关系;S7-3、通过连接关系1中的商品品类、分类标签和质量描述词的顺次连接关系确定S7-1中确定的商品品类下的所有分类标签,并在所有所述分类标签中选取出与输入文本中具有修饰关系的商品和质量描述词中的质量描述词存在映射关系的分类标签。
全文数据:
权利要求:
百度查询: 北京智齿博创科技有限公司 基于品类的质量问题场景标签的自动标注方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。