首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于元器件行业的中英文混编文本的切词方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳华强电子网集团股份有限公司

摘要:本发明公开了一种基于元器件行业的中英文混编文本的切词方法,涉及文本切词技术领域,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化语言模型;S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。本发明具备在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。

主权项:1.一种基于元器件行业的中英文混编文本的切词方法,其特征在于,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注所述元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化所述语言模型;S5、所述语言模型打包至可部署模块,接入元器件文本切词应用场景;所述采集不同种类元器件的物料清单数据,并进行数据预处理包括:S21、从不同种类的元器件中采集物料清单数据,其中,所述物料清单数据包括物料识别单数据与物料规格结构化数据;S22、分别提取所述物料识别单数据与所述物料规格结构化数据中包含的元器件信息,并转换为文本格式的物料文本数据;S23、清洗所述物料文本数据,并统一所述物料文本数据的类型与格式;所述构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:S31、基于所述元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型;S32、基于语料相似度策略构建识别模型,匹配元器件的种类;S33、在所述元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于所述切词参考集,构建二级切词模型;S34、融合所述初级切词模型、所述识别模型及所述二级切词模型,形成用于元器件中英文混编文本切词的语言模型;S35、向所述语言模型输入所述物料清单数据预处理后得到的物料文本数据,测试与验证所述语言模型输出的中英文词语切词的准确性;所述基于所述元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型包括:S311、梳理所述元器件语料库中标注数据包含的已知单词的标注名称与数据类型,并匹配每个标注名称与数据类型,合并定义为元器件标注集;S312、利用文本扫描器初步扫描输入的物料文本数据,统计所述物料文本数据中包含的中英文切换词段的数量,作为初验数值;S313、创建初级切词模型,通过对比所述初验数值与预设数量阈值,自适应调度所述初级切词模型的切词模式,其中,所述初级切词模型包括一阶隐马尔可夫模型与二阶隐马尔可夫模型;所述通过对比所述初验数值与预设数量阈值,自适应调度所述初级切词模型的切词模式包括:S3131、对比所述初验数值与预设数量阈值的大小,若所述初验数值大于等于所述预设数量阈值,则转入步骤S3132,若所述初验数值小于所述预设数量阈值,则执行步骤S3133;S3132、调用二阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;S3133、调用一阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;S3134、遍历所述单词序列,判断每个单词的数据类型是否存在所述元器件标注集中,若存在则执行步骤S3135,若不存在则执行步骤S3136;S3135、查找单词的相邻上下单词,并记录该单词与上单词、下单词与元器件编号至元器件数组中,再执行步骤S3137;S3136、将单词代入约束矩阵进行验证,若满足约束矩阵,则执行步骤S3137,若不满足约束矩阵,则记录并剔除相应的切词方式;S3137、判断元器件数组是否完全遍历,若遍历结束,则结束分词,并输出分词结果,若未遍历结束,则返回步骤S3134;所述采用数据蒸馏与模型压缩的方式,优化所述语言模型包括:S41、设定完整的语言模型作为教师模型,再构建一个学生模型;S42、将标注数据划分为训练数据集与测试训练集,利用所述训练数据集训练所述教师模型,再利用训练完毕的教师模型进行推理,生成软标签;S43、将原始训练数据集与所述软标签结合,形成蒸馏训练数据,再利用所述蒸馏训练数据训练所述学生模型;S44、利用所述测试训练集测试所述学生模型的性能,若满足要求,则保留学生模型作为优化后的语言模型,若不满足要求,则返回训练。

全文数据:

权利要求:

百度查询: 深圳华强电子网集团股份有限公司 一种基于元器件行业的中英文混编文本的切词方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。