首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种文本标注方法及软件产品 

申请/专利权人:深圳思为科技有限公司

申请日:2021-11-19

公开(公告)日:2024-06-28

公开(公告)号:CN114077670B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/30;G06F16/33

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2022.03.11#实质审查的生效;2022.02.22#公开

摘要:本申请提供了一种文本标注方法及软件产品,所述方法通过将分类标签与预设标注文本进行标注,再将待标注文本和预设标注文本分别转换成句嵌入,最后通过向量比较和重新排序自动将待标注文本与分类标签进行匹配,最终完成待标注文本的自动标注,对人工需求低,提高了文本标注的效率。

主权项:1.一种文本标注方法,其特征在于,应用于终端设备,所述方法包括:获取多个待标注文本,将所述多个待标注文本转换为多个第一句嵌入,得到第一句嵌入组,其中,所述第一句嵌入为所述待标注文本的K维向量,K为正整数;获取多个分类标签,一一对应获取每个所述分类标签的多个中心文本,所述中心文本为所述分类标签的预设标注文本;从预设句嵌入组中一一对应搜索出所述多个中心文本的多个第二句嵌入,得到多个第二句嵌入组,其中,所述多个第二句嵌入组与所述多个分类标签一一对应,所述第二句嵌入为所述中心文本的K维向量,K为正整数;分别计算出每个所述第二句嵌入组中多个第二句嵌入之间的第一平均向量,得到第一平均向量组,所述第一平均向量组包括多个第一平均向量,所述多个第一平均向量与所述多个第二句嵌入组一一对应;计算所述每个第一句嵌入与所述多个第一平均向量之间的向量距离,得到多个第一向量距离组,所述多个第一向量距离组与所述多个第一句嵌入一一对应,每个第一向量距离组包括对应的第一句嵌入与所述多个第一平均向量之间的多个向量距离;根据所述多个第一向量距离组将所述多个待标注文本重新排列组合到第一分组,包括:判断出多个第一向量距离组中的最小第一向量距离;将最小第一向量距离所在的第一向量距离组所对应的第一句嵌入加入第一文本组中;以及,重复最小第一向量距离判断和将对应的第一句嵌入加入第一文本组的操作,直至将所有第一句嵌入均加入所述第一文本组中,得到第一文本标注组;将所述第一分组中的所述多个待标注文本与所述分类标签按一一对应关系进行关联。

全文数据:

权利要求:

百度查询: 深圳思为科技有限公司 一种文本标注方法及软件产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。