Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜嘉杰科技有限公司马明星获国家专利权

恭喜嘉杰科技有限公司马明星获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜嘉杰科技有限公司申请的专利一种基于深度学习的自动化数据标注方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118862879B

龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410872145.4,技术领域涉及:G06F40/284;该发明授权一种基于深度学习的自动化数据标注方法及系统是由马明星设计研发完成,并于2024-07-01向国家知识产权局提交的专利申请。

一种基于深度学习的自动化数据标注方法及系统在说明书摘要公布了:本发明公开了一种基于深度学习的自动化数据标注方法及系统,涉及数据标注技术领域,包括从多源数据源中收集文本数据进行预处理并提取数据词向量,对小规模的文本数据进行初步手动标注并构建动态提示模板;基于动态提示模板构建深度学习模型进行自动化数据标注并评估标注数据的质量;将标注后的数据存储在数据库中并实施访问控制。本发明通过预处理多源数据并构建词汇共现矩阵和混合词向量模型深入提取多源数据的词向量进行融合,根据手动标注的样本构建动态提示模板并基于动态模板数据构建深度学习模型进行自动化数据标注,提供了高质量的词向量进行模型的训练有助于模型更准确的执行标注任务,提高了数据标注的自动化水平和标注数据的质量。

本发明授权一种基于深度学习的自动化数据标注方法及系统在权利要求书中公布了:1.一种基于深度学习的自动化数据标注方法,其特征在于:包括,从多源数据源中收集文本数据进行预处理并提取数据词向量,对小规模的文本数据进行初步手动标注并构建动态提示模板;基于动态提示模板构建深度学习模型进行自动化数据标注并评估标注数据的质量;将标注后的数据存储在数据库中并实施访问控制;所述从多源数据源中收集文本数据进行预处理并提取数据词向量指从各种数据源中收集文本数据,对文本数据进行预处理,规范化文本,转换所有字符为小写,删除冗余的空格和标点符号,使用Spacy将文本分解为单独的词汇单元并标记每个单词的词性;根据预处理后的文本数据生成词汇共现矩阵,捕捉词汇之间的语义关联,选择窗口大小为5个单词,滑动窗口遍历文本数据,记录窗口内词对的共现情况,统计词对在窗口内共现的次数,生成共现矩阵;使用图数据结构创建词汇关系图,将共现矩阵中的每个词汇作为一个节点,词汇之间的共现关系作为边,词对共现频率作为边的权重;使用TF-IDF对边权重进行调整,计算调整后的边权重: ,式中,wbc是词对vb和vc的边权重,Cbc是词对vb和vc的共现次数,fvb和fvc分别为词对vb和vc在文本中出现的频率;构建混合词向量模型,包括GloVe模型和BERT模型,使用预训练的GloVe模型将语义关系图中每个词汇节点映射到对应的GloVe词向量,使用预训练的BERT模型将文本通过BERT的分词器处理,将语义关系图中的词汇转换成BERT理解的令牌,将处理好的令牌输入BERT模型,获取每个令牌基于上下文的嵌入输出向量;配置两个主输入通道,一个通道处理从GloVe提取的静态词向量,另一个通道处理从BERT模型获得的动态词向量;为GloVe通道配置线性变换层,将300维的GloVe向量转换为与BERT向量相兼容的维度,初始化线性层的权重和偏置;为BERT通道配置全连接层,将BERT向量的维度与GloVe向量维度保持一致;构建图神经网络,使用词汇关系图中每个节点的特征进行初始化,每个节点a的初始化节点特征为词汇在共现矩阵中的行向量,使用平均聚合方法,将每个节点的特征更新为其邻居节点特征的平均值: ,式中,是第l+1层中节点pq是特征向量,Nq是节点pq的邻居节点集合,|Nq|是邻居节点的数量,是ReLU激活函数,y是q的邻居节点;为每一层节点特征执行相同的聚合操作让信息逐层传递得到最终的节点特征,将得到的节点特征输入进MSLFN网络中,通过多尺度卷积层提取不同尺度的特征;通过加权平均方式将多尺度特征融合,生成最终的多尺度词向量表示,将得到的综合词向量通过输出层输出;使用预处理后的文本数据作为训练数据输入混合词向量模型中进行迭代训练,定义损失函数和Adam优化器进行模型参数迭代优化,当在连续迭代过程中混合词向量模型的损失不再明显下降则停止迭代输出模型参数更新混合词向量模型;将需要标注的数据输入混合词向量模型中得到数据的综合词向量,基于综合词向量生成词向量集合;所述对小规模的文本数据进行初步手动标注指使用LightTag作为标注工具,从预处理后的数据中选择不同类别和主题的数据并且随机抽取1%作为标注样本,每个文本由两名标注员独立的对文本进行实体类型,情感以及分类的标注,对于标注不一致的文本进行分析与修改,统一标注结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人嘉杰科技有限公司,其通讯地址为:430074 湖北省武汉市洪山区文化大道555号融科智谷工业项目(三期)C5号楼11层2研发号房;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。