一种语义相似度向量再稀疏编码索引与检索方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国海洋大学

摘要：本发明属于信息检索技术领域，公开了一种语义相似度向量再稀疏编码索引与检索方法，索引构建时首先利用深度学习语义相似度模型将输入的文本数据生成保存了文本语句语义信息的稠密语义向量；然后将稠密语义向量再稀疏编码为保存了语义信息的字符串；再将生成的字符串存入索引库中的不同字段进行倒排序索引，对所有文档建立倒排索引。在检索时，使用搜索引擎对包含语义信息的字符串进行检索，并召回语义相似文本Top‑N。通过本发明的方法，保留深度学习语义模型向量的表征特性，有效排除召回阶段的误差，提高语义检索的准确率。

主权项：1.一种语义相似度向量再稀疏编码索引方法，其特征在于，包括以下步骤：步骤S11、文本语义向量化：将输入的文本数据，利用深度学习语义相似度模型生成保存了文本语句语义信息的稠密语义向量；采用的深度学习语义相似度模型是SBERT模型与LSI模型相结合的方法；当输入的文本长度低于512时采用SBERT模型，将文本转为语义向量；当文本长度大于512时，先将长文本切分为多个长度不大于512的短文本并采用SBERT模型，生成多个语义向量，然后将除第一个语义向量外的多个向量取平均向量与第一个语义向量一起作为此文本的SBERT语义向量，当输入的文本长度大于512时，同时使用LSI模型对输入文本生成基于LSI模型的语义向量；步骤S12、稠密语义向量再稀疏编码：将步骤S1生成的稠密语义向量从矢量形式再稀疏编码为保存了语义信息的字符串；步骤S13、倒排序索引：将步骤S2生成的字符串存入索引库中的不同字段进行倒排序索引，对所有文档建立倒排索引。

全文数据：

权利要求：

百度查询：中国海洋大学一种语义相似度向量再稀疏编码索引与检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：热源塔热泵耦合燃气吸收式热泵的供热装置

下一篇：一种非接触式三分量高精度管道检测仪

相关技术

热源塔热泵耦合燃气吸收式热泵的供热装置

一种非接触式三分量高精度管道检测仪

一种空气弹簧气密性检测装置

一种近根施肥的玉米专用肥料及其制备方法

一种可防止意外反锁房门的锁体结构及方法

一种融合多种加密的超级U盘安全登录互联网云盘方法

一种数控机床远程监测系统

一种刮板输送机及其基于超声辅助激光熔覆强化的中部槽

一种采用感应焊的多芯光纤密封结构及其焊接工艺

植绒式毛圈花纹毛巾及其织造工艺

基于数据库链接的数据迁移方法、装置、设备及介质

一种急诊抢救用移动输液推车

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种语义相似度向量再稀疏编码索引与检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务