首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于材料与化工行业科技情报的实词识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京大学深圳研究生院

摘要:一种用于材料与化工行业科技情报的实词识别方法,属于科技情报分析处理领域。为提高目标实词识别准确率,本发明采集材料与化工行业科技情报,构建实词向量矩阵,计算实词向量矩阵中实词长度,利用实词的长度对撰写错误的实词进行判断,然后对实词向量矩阵中撰写错误的实词进行修正,得到修正的实词向量矩阵,设定实词数量阈值进行判断,然后基于构建的修正的实词的编码矩阵、修正的实词的位置矩阵进行不平衡数据处理,得到数据平衡后的实词向量矩阵,利用一种考虑上下文信息的方法解算目标实词对应的特征矩阵,基于得到的目标实词对应的特征矩阵,构建相似评价函数,识别目标实词。本发明提高了目标实词判别的科学性、有效性,便于方法推广。

主权项:1.一种用于材料与化工行业科技情报的实词识别方法,其特征在于,包括如下步骤:S1、采集材料与化工行业科技情报,得到材料与化工行业科技情报信息数据,提取材料与化工行业科技情报信息数据中的实词向量gs,构建实词向量矩阵GS,GS=[gs1gs2...gsB],其中,B为实词总数量;S2、基于步骤S1构建的实词向量矩阵GS,计算实词向量矩阵GS中实词长度Lgs,构建实词长度矩阵LGS=[Lgs1Lgs2...LgsB];S3、利用实词的长度对撰写错误的实词进行判断,然后对实词向量矩阵中撰写错误的实词进行修正,得到修正的实词向量矩阵GSX;步骤S3的具体实现方法包括如下步骤:S3.1、设定目标实词GK的长度为P,设定弹性区间长度为p,且pP,遍历实词长度矩阵中的实词长度,提取实词长度在[P-p,P+p]区间的实词,并构建基于实词长度弹性区间的实词向量矩阵GSN,GSN=[gsn1gsn2...gsnB],其中,gsnB为基于实词长度弹性区间的实词向量矩阵中的第B个元素;S3.2、针对目标实词GK,遍历基于实词长度弹性区间的实词向量矩阵GSN中所有实词向量,计算基于实词长度弹性区间的实词向量矩阵的实词重复率Qni,计算表达式为: 其中,gsni为基于实词长度弹性区间的实词向量矩阵GSN中的第i个实词向量,∩为交集;S3.3、设定实词重复率阈值Qtr,计算表达式为: S3.4、当基于实词长度弹性区间的实词向量矩阵GSN中,Qni≥Qtr时,表明目标实词GK与gsni为同一实词,进行下一步;Qni<Qtr时,表明目标实词GK与gsni不是同一实词,继续比较GK与实词向量矩阵GSN中的第i+1个实词向量gsni+1,直至满足Qni≥Qtr,然后进行下一步;S3.5、针对目标实词GK,遍历实词向量矩阵GS中所有实词向量,计算实词向量矩阵GS的实词重复率Qi,计算表达式为: 其中,gsi为实词向量矩阵GS中的第i个实词向量;然后判断Qi的值是否为100%,判断为是不执行任何操作,判断为否则用目标实词GK替换实词向量矩阵GS中的gsi,完成对错误文本数据的修正,得到修正的实词向量矩阵GSX,其中修正的实词向量矩阵中实词向量的个数为B;S4、对步骤S3得到的修正的实词向量矩阵GSX中的每个实词进行编码,设定目标实词编码为1,非目标实词编码为0,构建修正的实词的编码矩阵A1=[a11a12...a1B],其中a1B为修正的实词的编码矩阵中的第B个元素,修正的实词的位置矩阵A2=[a21a22...a2B],其中a2B为修正的实词的位置矩阵中的第B个元素,设定实词数量阈值,对修正的实词的编码矩阵进行实词数量判断,当修正的实词的编码矩阵中实词数量大于实词数量阈值时,进入步骤S5,当修正的实词的编码矩阵中实词数量小于等于实词数量阈值时,修正的实词向量矩阵GSX与数据平衡后的全部实词向量SL相等,然后进入步骤S6;S5、对步骤S3得到的修正的实词向量矩阵GSX,基于步骤S4构建的修正的实词的编码矩阵、修正的实词的位置矩阵进行不平衡数据处理,得到数据平衡后的实词向量矩阵;步骤S5的具体实现方法包括如下步骤:S5.1、基于步骤S4得到的修正的实词的编码矩阵A1,提取第1个0元素aa11对应的距离最近的1元素ba11,从修正的实词的位置矩阵A2中,分别提取aa11和ba11对应的元素aa21和ba21,并计算第1个0元素到最近的1元素的距离c1,计算表达式为:c1=|ba21-aa21|其中,ba21为第1个0元素对应的距离最近的1元素对应的位置矩阵中的元素,aa21为第1个0元素对应的位置矩阵中的元素;S5.2、遍历全部A1中的元素,提取A1中的全部0元素到最近的1元素的距离,得到距离矩阵C=[c1c2...cd],d为距离矩阵C中全部0元素的数量;S5.3、遍历全部A1中的元素,提取A1中的全部1元素,并记录1元素的数量为en;S5.4、考虑A1中的不同0元素与1元素的关系存在差异,构建权重矩阵F,通过F调整A1中的全部0元素到最近1元素的距离,F=[f1f2...fi...fd],fi为权重矩阵F中的第i个元素;S5.5、基于权重矩阵F构建修正距离矩阵G,计算表达式为:G=C·F=[c1·f1c2·f2...cd·fd]=[g1g2...gd]其中,gd为修正距离矩阵G中的第d个元素;S5.6、基于步骤S5.4构建的权重矩阵F,设定权重元素阈值ftr,遍历权重矩阵F中全部元素,当fi≥ftr时提取fi为第i个冻结元素fci,记录fi对应的元素的位置为冻结元素的位置,并建立冻结元素的位置矩阵HC,记录HC中冻结元素的数量为dHC,然后,构建由冻结元素组成的冻结矩阵FC,FC=[fc1fc2...fcdHc];当fi<ftr时,记录fi对应元素的位置,建立非冻结元素位置矩阵HNC,记录HNC中元素数量为dHNC,不进行冻结操作;S5.7、将步骤S5.5构建的修正距离矩阵G中的全部元素按照从大到小的顺序排列,得到修正距离矩阵的优化距离矩阵K=[k1k2...kd];然后统计修正距离矩阵的优化距离矩阵K中,对应的非重复元素及非重复元素对应的数量,并构建非重复元素矩阵HA=[H1H2...Hdn],dn为非重复元素矩阵中非重复元素的总数量;由每个非重复元素对应的数量组成的非重复元素数量矩阵JA=[J1J2...Jdn];S5.8、基于步骤S5.7得到的非重复元素矩阵和非重复元素数量矩阵,采用高斯分布建立非重复元素及非重复元素数量的概率密度函数,得到计算表达式为: 其中,Hm和Jm分别为第m个非重复元素及第m个非重复元素对应的数量,μ为均值,σ为标准差;μ的计算表达式为: σ的计算表达式为: S5.9、构建累积分布函数Lm,得到计算表达式为: 其中,l!为l的阶乘,l为系数,l取值为0,1,2,…,∞;S5.10、利用步骤S5.8构建的概率密度函数和步骤S5.9构建的累积分布函数,计算得到95%保证率的非重复元素数量平均值M,计算表达式为: S5.11、设置非重复元素数量平均值M为非重复元素对应的数量的阈值,比较非重复元素数量矩阵中元素与非重复元素对应的数量的阈值的关系,当Jm≥M时,表明数据冗余对全部实词识别存在干扰,将Jm对应的Hm删除;当Jm<M时,将Jm对应的Hm保留,得到调整后的非重复元素矩阵调整后的非重复元素矩阵对应的数量矩阵其中dd为调整后的非重复元素的数量;S5.12、基于步骤S5.11得到的HAn,以及步骤S5.6得到的冻结矩阵FC,构建完整矩阵N=HAn∪FC,∪为并集;S5.13、基于步骤S5.12得到的完整矩阵N,从距离矩阵C中找到与N中对应的元素,并删除C中与N中不对应的元素,得到调整后的距离矩阵CNE;S5.14、基于调整后的距离矩阵CNE,通过保留对应位置元素、删除非对应位置元素的方式调整修正的实词的编码矩阵A1,得到数据平衡后的修正的实词的编码矩阵S5.15、将步骤S3得到的修正的实词向量矩阵GSX提取与数据平衡后的修正的实词的编码矩阵对应的元素,得到数据平衡后的实词向量矩阵SL=[SL1SL2...SLB];S6、基于步骤S4和S5得到的数据平衡后的全部实词向量矩阵,利用一种考虑上下文信息的方法解算目标实词对应的特征矩阵;步骤S6的具体实现方法包括如下步骤:S6.1、设置步骤S5得到的数据平衡后的实词向量矩阵SL中矩阵行数的向量维度为Bb,矩阵列数的向量维度为实词总数量B,然后设置目标实词对应的向量维度为Bb,则得到第i个目标实词对应的特征矩阵S6.2、基于步骤S6.1构建的第i个实词向量矩阵SLi与其相邻的4个实词SLi+2、SLi+1、SLi-1、SLi-2的关系,构建关系函数,计算表达式为: 其中,Ri+1为第i+1个目标实词对应的特征矩阵和第i+2个目标实词对应的特征矩阵的关系函数,Ri为第i个目标实词对应的特征矩阵和第i+1个目标实词对应的特征矩阵的关系函数,Ri-1为第i-1个目标实词对应的特征矩阵和第i个目标实词对应的特征矩阵的关系函数,Ri-2为第i-1个目标实词对应的特征矩阵和第i-2个目标实词对应的特征矩阵的关系函数,T为矩阵转置;S6.3、对步骤S6.2构建的关系函数进行改进,得到改进的关系函数,计算表达式为: 其中,为第i+1个目标实词对应的特征矩阵和第i+2个目标实词对应的特征矩阵的改进的关系函数,为第i个目标实词对应的特征矩阵和第i+1个目标实词对应的特征矩阵的改进的关系函数,为第i-1个目标实词对应的特征矩阵和第i个目标实词对应的特征矩阵的改进的关系函数,为第i-1个目标实词对应的特征矩阵和第i-2个目标实词对应的特征矩阵的改进的关系函数;S6.4、基于步骤S6.3构建的改进的关系函数,构建概率函数Ti,计算表达式为: S6.5、利用步骤S6.4构建的概率函数计算全部B个实词对应的概率函数,对全部概率函数取最大值,求解得到第i个目标实词对应的特征矩阵S7、基于步骤S6得到的目标实词对应的特征矩阵,构建相似评价函数,识别目标实词;步骤S7的具体实现方法包括如下步骤:S7.1、基于步骤S6得到的第i个目标实词对应的特征矩阵进行目标实词识别,设置SLk为待识别目标实词,提取SLk对应的特征矩阵用于待识别目标实词的识别;S7.2、从采集的材料与化工行业科技情报信息中,人工选择待识别科技情报信息,构建待识别实词向量矩阵QL=[QL1QL2...QLBQ],其中,BQ为待识别实词总数量;S7.3、设置待识别实词向量矩阵QL中第i个待识别实词向量矩阵为基于第i个待识别实词向量矩阵QLi与相邻4个实词QLi+2、QLi+1、QLi-1、QLi-2的关系,构建关系函数,计算表达式为: 然后对构建的关系函数进行改进,得到改进的关系函数,计算表达式为: 然后构建概率函数Ti,计算表达式为: S7.4、利用步骤S7.3构建的概率函数计算全部BQ个实词对应的概率函数,对全部概率函数取最大值,求解得到第i个待识别实词向量矩阵S7.5、建立SLk与步骤S7.4得到的第i个待识别实词向量矩阵的关系函数W,计算表达式为:W=[SLk-ESLk][QLi-EQLi]其中,ESLk为SLk的方差,EQLi为待识别实词向量矩阵的方差EQLi;然后,计算SLk的方差ESLk,计算QL中待识别实词向量矩阵的方差EQLi,计算表达式为: 然后构建相似评价函数Yi,计算表达式为: 计算当Yi≥0.9时,表明QLi与SLk为同一实词,即QLi为待识别目标实词。

全文数据:

权利要求:

百度查询: 北京大学深圳研究生院 一种用于材料与化工行业科技情报的实词识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。