买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆理工大学
摘要:本发明属于表格信息抽取技术领域,尤其涉及基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质:首先获取仪表询价表格的参数数据,并进行预处理,生成数据集;然后构建基于混合相似度的表格结构识别模型,将数据集作为表格结构识别模型的输入数据进行输入,并输出表格结构特征信息;然后预设表格内容识别模型,并通过仪表知识库和语义关系对表格内容识别模型进行训练,保存表格内容识别最优模型;最后将数据集作为表格内容识别最优模型的输入,将表格结构特征信息作为表格内容识别最优模型的特征,输出识别结果。本发明能够解决现有的仪表询价过程受人工方式的制约,对表格结构和内容识别准确率不高的问题。
主权项:1.基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:包括:S1:获取仪表询价表格的参数数据,并进行预处理,生成数据集;S2:构建基于混合相似度的表格结构识别模型,将数据集作为表格结构识别模型的输入数据进行输入,并输出表格结构特征信息;S3:预设表格内容识别模型,并通过仪表知识库和语义关系对表格内容识别模型进行训练,保存表格内容识别最优模型;S4:将数据集作为表格内容识别最优模型的输入,将表格结构特征信息作为表格内容识别最优模型的特征,输出识别结果,并根据预设的评价指标进行识别结果评价;所述S2包括:S2-1:将数据集中仪表询价表格数据划分为具有行列数据的类型结构;S2-2:结合类型结构向量化仪表表格,并通过余弦相似度处理向量化后的仪表表格,构建行列数据的类型相似度TySim,其计算公式如下:TyVector=[ctype,dtype,slen]TySimcella,b=NorCosineTyVectora,TyVectorb 其中,ctype表示单元格类型,ctype∈{0,1,2,3,4,5},0表示空,1表示字符串,2表示数字,3表示日期,4表示布尔型,5表示错误;dtype表示单元格数据类型,dtype∈{0,1,2},0表示单元格数据中全为字符,1表示全为数字,2表示既有数字又有字符;slen表示单元格数据长度,m为表格列数,TyVectora表示单元格a的类型相似度,TyVectorb表示单元格b的类型相似度,c表示某个单元格,xc表示行数据x中第c个单元格,yc表示行数据y中第c个单元格;S2-3:选取Levenshtein相似度、Dice相似度和TySim相似度,并进行加权融合处理,生成混合相似度MixSim,并构建表格结构识别模型;所述S3包括:S3-1:获取仪表领域标准知识,构建领域知识库,并获取历史仪表询价信息提取数据,对领域知识库进行填充;S3-2:基于LSTM识别算法识别仪表询价信息中单元格之间的层级特征,建立仪表表头属性和数据区的语义关系;S3-3:根据仪表表头属性和数据区的语义关系,进行基于领域知识库的仪表询价信息属性抽取,获取属性与数据的对应关系;S3-4:基于领域知识库中仪表属性表和询价表格中语义层级关系,对抽取的仪表询价信息属性进行预处理,获取目标属性术语。
全文数据:
权利要求:
百度查询: 重庆理工大学 基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。