一种基于相似度的专利检索方法、检索系统及存储介质

导航：龙图腾网> 最新专利技术> 一种基于相似度的专利检索方法、检索系统及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：数据空间研究院

摘要：本发明属于专利信息处理技术领域，尤其涉及一种基于相似度的专利检索方法、检索系统及存储介质。专利检索方法包括：S1，将从各大平台、专利专题数据库内抓取的专利文献后分别进行预处理、分词后，形成对应的分词集传送至提取模块内；S2，提取模块从各分词集中提取出若干关键词，形成对应的专利关键词组，并向量化后送入计算模块内；当检索人键入检索关键词组时，检索关键词在提取模块内被向量化后传送至计算模块内；S3，计算模块中计算各专利关键词组与当前检索关键词组之间的相似度，并将相似度降序排列后传送至输出模块；S4，输出模块将对应的专利文本反馈给检索人。本发明的检索方法能够快速、高效地检索出与检索关键词高相关度的专利文献。

主权项：1.一种基于相似度的专利检索方法，其特征在于，包括以下步骤：S1，将从各大平台、专利专题数据库内抓取的专利文献去重后存储于本地数据库内，本地数据库将新增的专利文献送入文本模块进行预处理后得到专利文本后，文本模块再将新增的专利文本送入分词模块内，分词模块将各专利文本转化为对应的分词集后，实时定时地传送至提取模块内；S2，提取模块从各分词集中提取出若干关键词，形成与各篇专利文本对应的专利关键词组，并将各专利关键词组向量化后送入计算模块内；当检索人键入检索关键词组时，检索关键词组进入提取模块内被向量化后，传送至计算模块内；S3，计算模块中计算各专利关键词组与当前检索关键词组之间的相似度，并将相似度降序排列后传送至输出模块；S4，输出模块将与当前检索关键词组相似度由高到低排列的前L篇专利文本作为检索结果反馈给检索人；S1中还包括以下子步骤：S11，将从各大平台、专利专题数据库内抓取的专利文献与本地数据库内已存储的专利文献进行比对，当专利文献为外文或字母缩写，则将外文专利文献或字母缩写翻译成中文后与本地数据库内已存储的专利文献进行比对，若当前抓取的专利文献与专利数据库内已存储的专利文献内容重复，则丢弃当前专利文献，否则将当前抓取的专利文献送入本地数据库内，本地数据库给各专利文献绑定唯一的编号后，以“专利文献+编号”的形式进行存储；S12，本地数据库将新增的“专利文献+编号”送入文本模块内，文本模块去除各专利文献中的非法内容后得到对应的专利文本，各专利文本仍与原专利文献绑定的编号所绑定，形成“专利文本+编号”的形式后存储于文本模块内，一篇专利文献得到一篇专利文本；非法内容指非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符；S13，文本模块再将新增的“专利文本+编号”送入分词模块内进行分词，文本模块基于机器学习，采用预训练语言模型结合条件随机场对各专利文本进行分词，分别得到各专利文本的分词集Pd＝{Pd1,...,Pdc,...,Pdf}后，实时定时地传送至提取模块内,其中，Pd表示编号为d的专利文本所对应的分词集，Pdc表示分词集Pd中的第c个分词，分词为单独的汉字或词语，1＜c＜f,且c、f为正整数；S2中还包括以下子步骤：S21，提取模块对当前分词集Pd中重复出现的分词只保留一次，形成对应的候选关键词集Wd＝{Wd1,...,Wda,...,Wdb},其中，Wd表示编号为d的专利文本所对应的候选关键词集，Wda表示候选关键词集Wd中的第a个候选关键词，1＜a＜b≤f,且a、b为正整数；分别记录候选关键词集Wd中的各个候选关键词在对应分词集Pd中出现的次数，计算出编号为d的专利文本中各个候选关键词的词频：TFWda＝Edaf，其中，TFWda表示候选关键词Wda在编号为d的专利文本中出现的词频，Eda表示候选关键词Wda在对应分词集Pd中出现的次数，f表示分词集Pd所包含的分词总数量；S22，提取模块记录当前提取模块内所有分词集的总数量g，并分别记录这g个分词集里包含当前候选关键词集Wd中各个候选关键词的分词集数量，将包含候选词关键词Wda的分词集数量记为Hda，计算出当前候选关键词Wda的逆文档频率IDFWda：IDFWda＝[log2g-log2Hda]；g个分词集就对应g篇专利文本，所以Hda也表示这g篇专利文本中出现过候选词关键词Wda的专利文本；S23，分别计算候选关键词集Wd中各个关键词在当前专利文本中的权重：TF-IDFWda＝TFWda×IDFWda＝Edaf×[log2g-log2Hda]，其中，TF-IDFWda表示候选关键词集Wd中的候选关键词Wda在编号为d的专利文本里的权重；S24，将当前候选关键词集Wd中各个关键词的权重降序排列，选取前n个权重对应的候选关键词作为当前编号为d的专利文本的专利关键词组Kd：Kd＝{Kd1,...,Kdm,...,Kdn}，其中，Kdm表示专利关键词组Kd中的第m个专利关键词，1≤m≤n,且m、n为正整数；S25，将当前编号为d的专利文本的专利关键词组Kd向量化后送入计算模块内：Vd＝{Vd1,...,Vdm,...,Vdn}，其中，Vd为专利关键词组Kd的向量化表示，Vd中的维度数量与专利关键词组Kd中的专利关键词数量相同，且Vd中的各维度与专利关键词组Kd中的专利关键词一一对应，Vdm表示Vd中的第m个维度上的取值，Vdm的数值就是专利关键词Kdm在对应专利文本中的权重；当检索人键入检索关键词组时，在S2中还包括以下与S21～S25并列进行的子步骤S21’～S24’：S21’，检索人键入q个不同的检索关键词，形成检索关键词组R：R＝{R1,...,Ri,...,Rn},其中，Ri表示当前检索关键词组R中的第i个检索关键词，1≤i≤n,1≤q≤n,且i、q、n为正整数，当检索人键入的检索关键为外文或字母缩写时，则将外文或字母缩写翻译成中文词语字后，再形成检索关键词组R，当q＜n时，检索关键词组R中的第q+1个检索关键词Rq+1、第n个检索关键词Rn以及它们之间的检索关键词均用“NULL”表示；S22’，检索关键词组R进入提取模块，提取模块记录当前检索关键词组R中的各个检索关键词在提取模块当前所包含的各个分词集中出现的次数、出现当前检索关键词组R中各个检索关键词的分词集数量、以及提取模块当前所包含的分词集的总数量t,计算出当前检索关键词组R中各个检索关键词的词频：其中，Ps表示与编号为s的专利文本相对应的分词集，且分词集Ps为提取模块当前所包含的t个分词集中的一个分词集，TF[Ri|Ps]表示检索关键词Ri在提取模块当前所包含的分词集Ps中出现的词频，也就是在编号为s的专利文本中出现的词频，E[Ri|Ps]表示检索关键词Ri在分词集Ps中出现的次数，f[Ps]表示分词集Ps所包含的分词总数量；计算出当前检索关键词组R中各个检索关键词的逆文档频率：IDFRi＝{log2t-log2[HRi]}，其中，IDFRi表示检索关键词Ri在提取模块当前所包含的t个分词集中出现的逆文档频率，HRi表示提取模块当前的t个分词集中包含检索关键词Ri的分词集数量；S23’，分别计算当前检索关键词组R中的各个检索关键词在提取模块当前所包含的t个分词集对应的专利文本中的权重：其中，TF-IDF[Ri|Ps]表示当前检索关键词组R中的检索关键词Ri在提取模块当前所包含的分词集Ps所对应的专利文本中的权重；S24’，将当前检索关键词组R基于提取模块当前所包含的t个分词集分别进行向量化，形成t个向量表示后送入计算模块内：V[R|Ps]＝{V[R1|Ps],...,V[Ru|Ps],...,V[Rn|Ps]}，其中，1≤u≤n,且u、n为正整数，V[R|Ps]为当前检索关键词组R基于分词集Ps的向量化表示，V[R|Ps]中的维度数量与当前检索关键词组R中的检索关键词数量相同，都是n维，且V[R|Ps]中的各维度与当前检索关键词组R中的检索关键词一一对应，V[Ru|Ps]表示V[R|Ps]中的第u个维度上的取值，V[Ru|Ps]的数值就是检索关键词Ru在提取模块当前所包含的分词集Ps所对应的专利文本中的权重；在S3中还包括以下子步骤：S31，计算模块分别计算当前检索关键词组R与当前计算模块内各向量化表示的专利关键词组所对应的专利文本之间的相似度：其中，表示当前检索关键词组R中的各个检索关键词在分词集Ps所对应的编号为s的专利文本中权重的算数平均值；其中，表示专利关键词组Ks里的各专利关键词在对应的编号为s的专利文本里权重的算数平均值,Vsm表示专利关键词组Ks中的第m个专利关键词Kdm在对应的编号为s的专利文本里权重的算数平均值；其中，ρR,s表示当前检索关键词组R与编号为s的专利文本之间的相似度，V[Ri|Ps]表示当前检索关键词组R中的第i个检索关键词Ri在分词集Ps所对应的编号为s的专利文本中的权重,1≤i≤n，且i为正整数，Vsz表示专利关键词组Ks中的第z个专利关键词Ksz在对应的编号为s的专利文本中的权重,1≤z≤n，且z为正整数；S32，将当前检索关键词组R与当前计算模块内各向量化表示的专利关键词组所对应的专利文本之间的相似度降序排列后，将排列结果传送至输出模块。

全文数据：

权利要求：

百度查询：数据空间研究院一种基于相似度的专利检索方法、检索系统及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：片烟运输线用电梯按键装置

下一篇：一种多功能料理机

相关技术

片烟运输线用电梯按键装置

一种多功能料理机

一种机制砂防堵仓下料装置

一种电解槽中心定位装置

基于MOS的防反接防过流软启动电路

一种打印机生产用显影辊输送装置

一种具有过载保护的电源适配器

一种手持激光测高设备

一种大理石草酸抛光磨块

一种数码印花烘干机

耐冲击不锈钢提纯罐

一种可自动模块化管理的全方位监测装置

方法相关技术

刻蚀方法_上海华力集成电路制造有限公司_202111238596.5

硅片的碱抛光方法、PERC电池及其制备方法_通威太阳能(安徽)有限公司_202210231922.8

资源处理方法及装置、支付处理方法及装置_支付宝(杭州)信息技术有限公司_202011488565.0

目标抓拍方法、目标质量评价方法以及相关设备_华为技术有限公司_202310470331.0

车辆路径规划方法、决策方法、驾驶方法、装置、车辆、介质及设备_深蓝汽车科技有限公司_202410839835.X

图像解码方法、编码方法及装置_杭州海康威视数字技术股份有限公司_202111335613.7

除铊药剂及其制备方法和使用方法_宝武水务科技有限公司_202410943199.5

多孔材料及其应用、制备方法和检测方法_宁波大学_202410853593.X

内容配置方法、内容显示方法及其对应装置_北京有竹居网络技术有限公司_202411026423.0

曝光装置、曝光方法和物品制造方法_佳能株式会社_202410498719.6

检索相关技术

基于内容的商铺标识图像检索方法_蓝普金睛(北京)科技有限公司_202011144063.6

用于安全标识检索的系统和方法_谷歌有限责任公司_202410824617.9

基于局部敏感哈希和深度学习筛选的双重验证型图像检索方法_淮阴工学院_202410819317.1

代码检索方法、装置、存储介质以及计算机程序产品_北京京东拓先科技有限公司_202410872044.7

一种密文图像检索方法、装置、计算机存储介质及程序_常熟理工学院_202410903544.2

一种基于长尾数据的图像检索方法、终端设备及介质_山东信达物联应用技术有限公司_202410930881.0

一种检索时空数据的方法、系统、装置及程序产品_厦门渊亭信息科技有限公司_202410976879.7

一种威胁情报的检索问答方法、装置、电子设备_北京微步在线科技有限公司_202411304180.2

一种基于语义理解的专利检索方法及系统_大连理工大学_202411331353.X

一种面向时空数据的分布式智能检索方法及系统_浙江大学_202411331081.3

系统相关技术

清洁系统_苏州简单有为科技有限公司_202411066740.5

LIDAR系统_欧若拉运营公司_202180034633.2

对讲系统_北京疯景科技有限公司_202111262662.2

空调系统_大金工业株式会社_202380022115.8

家具系统_博洛尼智能科技(青岛)有限公司_202420099943.3

HUD系统_信利光电股份有限公司_202420027607.8

发电系统_爱三工业株式会社_202420214028.4

输送系统_果栗智造(上海)技术股份有限公司_202410975391.2

巷道系统_甘肃万胜矿业有限公司_202420599247.9

清洁系统_萨尼米德私营有限责任公司_202420251783.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于相似度的专利检索方法、检索系统及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务