首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种语义相似度向量再稀疏编码索引与检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国海洋大学

摘要:本发明属于信息检索技术领域,公开了一种语义相似度向量再稀疏编码索引与检索方法,索引构建时首先利用深度学习语义相似度模型将输入的文本数据生成保存了文本语句语义信息的稠密语义向量;然后将稠密语义向量再稀疏编码为保存了语义信息的字符串;再将生成的字符串存入索引库中的不同字段进行倒排序索引,对所有文档建立倒排索引。在检索时,使用搜索引擎对包含语义信息的字符串进行检索,并召回语义相似文本Top‑N。通过本发明的方法,保留深度学习语义模型向量的表征特性,有效排除召回阶段的误差,提高语义检索的准确率。

主权项:1.一种语义相似度向量再稀疏编码索引方法,其特征在于,包括以下步骤:步骤S11、文本语义向量化:将输入的文本数据,利用深度学习语义相似度模型生成保存了文本语句语义信息的稠密语义向量;采用的深度学习语义相似度模型是SBERT模型与LSI模型相结合的方法;当输入的文本长度低于512时采用SBERT模型,将文本转为语义向量;当文本长度大于512时,先将长文本切分为多个长度不大于512的短文本并采用SBERT模型,生成多个语义向量,然后将除第一个语义向量外的多个向量取平均向量与第一个语义向量一起作为此文本的SBERT语义向量,当输入的文本长度大于512时,同时使用LSI模型对输入文本生成基于LSI模型的语义向量;步骤S12、稠密语义向量再稀疏编码:将步骤S1生成的稠密语义向量从矢量形式再稀疏编码为保存了语义信息的字符串;步骤S13、倒排序索引:将步骤S2生成的字符串存入索引库中的不同字段进行倒排序索引,对所有文档建立倒排索引。

全文数据:

权利要求:

百度查询: 中国海洋大学 一种语义相似度向量再稀疏编码索引与检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。