首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于聚类的对非结构化招标要求文本的提取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:欧冶工业品股份有限公司

摘要:本发明提供了一种基于聚类的对非结构化招标要求文本的提取方法及系统,包括:基础文本处理,对非结构化的文本全集进行分词、文本嵌入、降维操作,获得每个文本全集的低维特征向量;文本聚类,根据低维特征向量,对文本全集进行聚类;规则提取,根据分类结果,从文本全集抽样出M个样本量约为n的子数据集,指定其中一个为训练集,其余为测试集;标注与算法迭代,对所有训练集数据与测试集数据进行标注;算法检验,从文本全集中抽样出一个检验集。本发明通过使用无监督的算法作为预处理,利用大类抽样数据和小类数据进行规则总结和标注的方法,避免了大量的前期数据标注工作;缩小了规则总结需要关注的文本范围;降低了需要人工处理的数据量。

主权项:1.一种基于聚类的对非结构化招标要求文本的提取方法,其特征在于,所述方法包括如下步骤:步骤S1:获取平台历史询价单数据,采购方发布招标要求字段;对非结构化的文本全集进行分词、文本嵌入、降维操作,获得每个文本全集的低维特征向量;步骤S2:根据低维特征向量,对文本全集进行聚类;调整聚类算法参数,优化输出的分类结果;步骤S3:根据分类结果,从文本全集抽样出M个样本量为n的子数据集,指定其中一个为训练集,其余为测试集;使用聚类算法加人工整理的方法,对训练集整理出文本抽取规则,并编写代码形成文本抽取模型;步骤S4:对所有训练集数据与测试集数据进行标注;使用文本抽取模型对训练集进行处理;根据处理结果,反复调整训练集与测试集,迭代文本抽取规则;直到正确率大于等于预期阈值;步骤S5:从文本全集中抽样出一个检验集,运行文本抽取模型并用混淆矩阵评价其结果,关注查准率和查全率;如果查准率和查全率均符合预期阈值,则文本抽取模型通过,否则继续迭代错误部分;所述步骤S2包括如下步骤:步骤S2.1:若是第一次进行文本聚类,则设置初始的聚类数或者初始的聚类条件,逐步增多聚类数或收紧聚类条件;每个结果集的文本数量逐渐减少;计算机显示结果集,当相似的结果被分到不同结果集,或无效结果数量上升时,停止并回调参数;步骤S2.2:若重新文本聚类,此时已经有文本抽取规则;根据以下聚类效果评估分数计算公式计算分数S: 其中C表示分类数量,C2表示单个分类匹配上多条规则的数量;R表示已有规则数量,R2表示单个规则匹配上多个分类的数量;Ns表示小类样本量总和;尝试多组参数;在结果中选取其中一个进入步骤S3。

全文数据:

权利要求:

百度查询: 欧冶工业品股份有限公司 基于聚类的对非结构化招标要求文本的提取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。