买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:数据空间研究院
摘要:本发明属于专利信息处理技术领域,尤其涉及一种基于相似度的专利检索方法、检索系统及存储介质。专利检索方法包括:S1,将从各大平台、专利专题数据库内抓取的专利文献后分别进行预处理、分词后,形成对应的分词集传送至提取模块内;S2,提取模块从各分词集中提取出若干关键词,形成对应的专利关键词组,并向量化后送入计算模块内;当检索人键入检索关键词组时,检索关键词在提取模块内被向量化后传送至计算模块内;S3,计算模块中计算各专利关键词组与当前检索关键词组之间的相似度,并将相似度降序排列后传送至输出模块;S4,输出模块将对应的专利文本反馈给检索人。本发明的检索方法能够快速、高效地检索出与检索关键词高相关度的专利文献。
主权项:1.一种基于相似度的专利检索方法,其特征在于,包括以下步骤:S1,将从各大平台、专利专题数据库内抓取的专利文献去重后存储于本地数据库内,本地数据库将新增的专利文献送入文本模块进行预处理后得到专利文本后,文本模块再将新增的专利文本送入分词模块内,分词模块将各专利文本转化为对应的分词集后,实时定时地传送至提取模块内;S2,提取模块从各分词集中提取出若干关键词,形成与各篇专利文本对应的专利关键词组,并将各专利关键词组向量化后送入计算模块内;当检索人键入检索关键词组时,检索关键词组进入提取模块内被向量化后,传送至计算模块内;S3,计算模块中计算各专利关键词组与当前检索关键词组之间的相似度,并将相似度降序排列后传送至输出模块;S4,输出模块将与当前检索关键词组相似度由高到低排列的前L篇专利文本作为检索结果反馈给检索人;S1中还包括以下子步骤:S11,将从各大平台、专利专题数据库内抓取的专利文献与本地数据库内已存储的专利文献进行比对,当专利文献为外文或字母缩写,则将外文专利文献或字母缩写翻译成中文后与本地数据库内已存储的专利文献进行比对,若当前抓取的专利文献与专利数据库内已存储的专利文献内容重复,则丢弃当前专利文献,否则将当前抓取的专利文献送入本地数据库内,本地数据库给各专利文献绑定唯一的编号后,以“专利文献+编号”的形式进行存储;S12,本地数据库将新增的“专利文献+编号”送入文本模块内,文本模块去除各专利文献中的非法内容后得到对应的专利文本,各专利文本仍与原专利文献绑定的编号所绑定,形成“专利文本+编号”的形式后存储于文本模块内,一篇专利文献得到一篇专利文本;非法内容指非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符;S13,文本模块再将新增的“专利文本+编号”送入分词模块内进行分词,文本模块基于机器学习,采用预训练语言模型结合条件随机场对各专利文本进行分词,分别得到各专利文本的分词集Pd={Pd1,...,Pdc,...,Pdf}后,实时定时地传送至提取模块内,其中,Pd表示编号为d的专利文本所对应的分词集,Pdc表示分词集Pd中的第c个分词,分词为单独的汉字或词语,1<c<f,且c、f为正整数;S2中还包括以下子步骤:S21,提取模块对当前分词集Pd中重复出现的分词只保留一次,形成对应的候选关键词集Wd={Wd1,...,Wda,...,Wdb},其中,Wd表示编号为d的专利文本所对应的候选关键词集,Wda表示候选关键词集Wd中的第a个候选关键词,1<a<b≤f,且a、b为正整数;分别记录候选关键词集Wd中的各个候选关键词在对应分词集Pd中出现的次数,计算出编号为d的专利文本中各个候选关键词的词频:TFWda=Edaf,其中,TFWda表示候选关键词Wda在编号为d的专利文本中出现的词频,Eda表示候选关键词Wda在对应分词集Pd中出现的次数,f表示分词集Pd所包含的分词总数量;S22,提取模块记录当前提取模块内所有分词集的总数量g,并分别记录这g个分词集里包含当前候选关键词集Wd中各个候选关键词的分词集数量,将包含候选词关键词Wda的分词集数量记为Hda,计算出当前候选关键词Wda的逆文档频率IDFWda:IDFWda=[log2g-log2Hda];g个分词集就对应g篇专利文本,所以Hda也表示这g篇专利文本中出现过候选词关键词Wda的专利文本;S23,分别计算候选关键词集Wd中各个关键词在当前专利文本中的权重:TF-IDFWda=TFWda×IDFWda=Edaf×[log2g-log2Hda],其中,TF-IDFWda表示候选关键词集Wd中的候选关键词Wda在编号为d的专利文本里的权重;S24,将当前候选关键词集Wd中各个关键词的权重降序排列,选取前n个权重对应的候选关键词作为当前编号为d的专利文本的专利关键词组Kd:Kd={Kd1,...,Kdm,...,Kdn},其中,Kdm表示专利关键词组Kd中的第m个专利关键词,1≤m≤n,且m、n为正整数;S25,将当前编号为d的专利文本的专利关键词组Kd向量化后送入计算模块内:Vd={Vd1,...,Vdm,...,Vdn},其中,Vd为专利关键词组Kd的向量化表示,Vd中的维度数量与专利关键词组Kd中的专利关键词数量相同,且Vd中的各维度与专利关键词组Kd中的专利关键词一一对应,Vdm表示Vd中的第m个维度上的取值,Vdm的数值就是专利关键词Kdm在对应专利文本中的权重;当检索人键入检索关键词组时,在S2中还包括以下与S21~S25并列进行的子步骤S21’~S24’:S21’,检索人键入q个不同的检索关键词,形成检索关键词组R:R={R1,...,Ri,...,Rn},其中,Ri表示当前检索关键词组R中的第i个检索关键词,1≤i≤n,1≤q≤n,且i、q、n为正整数,当检索人键入的检索关键为外文或字母缩写时,则将外文或字母缩写翻译成中文词语字后,再形成检索关键词组R,当q<n时,检索关键词组R中的第q+1个检索关键词Rq+1、第n个检索关键词Rn以及它们之间的检索关键词均用“NULL”表示;S22’,检索关键词组R进入提取模块,提取模块记录当前检索关键词组R中的各个检索关键词在提取模块当前所包含的各个分词集中出现的次数、出现当前检索关键词组R中各个检索关键词的分词集数量、以及提取模块当前所包含的分词集的总数量t,计算出当前检索关键词组R中各个检索关键词的词频: 其中,Ps表示与编号为s的专利文本相对应的分词集,且分词集Ps为提取模块当前所包含的t个分词集中的一个分词集,TF[Ri|Ps]表示检索关键词Ri在提取模块当前所包含的分词集Ps中出现的词频,也就是在编号为s的专利文本中出现的词频,E[Ri|Ps]表示检索关键词Ri在分词集Ps中出现的次数,f[Ps]表示分词集Ps所包含的分词总数量;计算出当前检索关键词组R中各个检索关键词的逆文档频率:IDFRi={log2t-log2[HRi]},其中,IDFRi表示检索关键词Ri在提取模块当前所包含的t个分词集中出现的逆文档频率,HRi表示提取模块当前的t个分词集中包含检索关键词Ri的分词集数量;S23’,分别计算当前检索关键词组R中的各个检索关键词在提取模块当前所包含的t个分词集对应的专利文本中的权重: 其中,TF-IDF[Ri|Ps]表示当前检索关键词组R中的检索关键词Ri在提取模块当前所包含的分词集Ps所对应的专利文本中的权重;S24’,将当前检索关键词组R基于提取模块当前所包含的t个分词集分别进行向量化,形成t个向量表示后送入计算模块内:V[R|Ps]={V[R1|Ps],...,V[Ru|Ps],...,V[Rn|Ps]},其中,1≤u≤n,且u、n为正整数,V[R|Ps]为当前检索关键词组R基于分词集Ps的向量化表示,V[R|Ps]中的维度数量与当前检索关键词组R中的检索关键词数量相同,都是n维,且V[R|Ps]中的各维度与当前检索关键词组R中的检索关键词一一对应,V[Ru|Ps]表示V[R|Ps]中的第u个维度上的取值,V[Ru|Ps]的数值就是检索关键词Ru在提取模块当前所包含的分词集Ps所对应的专利文本中的权重;在S3中还包括以下子步骤:S31,计算模块分别计算当前检索关键词组R与当前计算模块内各向量化表示的专利关键词组所对应的专利文本之间的相似度: 其中,表示当前检索关键词组R中的各个检索关键词在分词集Ps所对应的编号为s的专利文本中权重的算数平均值; 其中,表示专利关键词组Ks里的各专利关键词在对应的编号为s的专利文本里权重的算数平均值,Vsm表示专利关键词组Ks中的第m个专利关键词Kdm在对应的编号为s的专利文本里权重的算数平均值; 其中,ρR,s表示当前检索关键词组R与编号为s的专利文本之间的相似度,V[Ri|Ps]表示当前检索关键词组R中的第i个检索关键词Ri在分词集Ps所对应的编号为s的专利文本中的权重,1≤i≤n,且i为正整数,Vsz表示专利关键词组Ks中的第z个专利关键词Ksz在对应的编号为s的专利文本中的权重,1≤z≤n,且z为正整数;S32,将当前检索关键词组R与当前计算模块内各向量化表示的专利关键词组所对应的专利文本之间的相似度降序排列后,将排列结果传送至输出模块。
全文数据:
权利要求:
百度查询: 数据空间研究院 一种基于相似度的专利检索方法、检索系统及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。