一种基于查询扩展和延迟交互的稠密检索方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京理工大学

摘要：本发明公开了一种基于查询扩展和延迟交互的稠密检索方法，属于信息检索技术领域。包括：数据预处理，构建用于查询扩展的数据集；使用引入评估排序的transformer结构，结合对比损失对查询语句进行扩展；基于查询扩展语句生成查询的最终表示，对文档进行句子级别的划分，生成多视角表示；基于上下文延迟交互框架，对查询和文档进行细粒度交互，根据相关性分数对文档进行排序。该稠密检索方法引入了端到端的查询扩展方式，为查询和文档提供多视角表示，并采用了延迟交互策略计算二者的相关性分数。所述方法能够准确地捕获查询的语法和语义特征，较大程度上缓解向量不匹配的问题，增强查询与文档间的深度交互，改善信息匹配效率，提升了检索的性能。

主权项：1.一种基于查询扩展和延迟交互的稠密检索方法，其特征在于：该稠密检索模型包括三层：第一层为查询语句扩展评估层，通过对原始查询语句进行编码，基于添加了评估排序机制的transformer结构，得到与其语义相近的扩展语句；第二层为查询文档多视角表示层，为查询和文档生成多视角嵌入表示，采用稠密检索的方式计算二者之间的相关性；第三层为查询文档延迟交互层，根据延迟交互体系结构即基于BERTBidirectionalEncoderRepresentationsfromTransformers的上下文延迟交互ColBERTContextualizedLateInteractionoverBERT结构，在得到查询和文档的表示后，在稠密检索模型上层对二者的信息进行细粒度交互，根据相关度选择候选文档；所述基于查询扩展和延迟交互的稠密检索方法，包括以下步骤：步骤1：数据预处理，构建用于查询扩展的数据集；步骤1.1：保留具有蕴含语义关系的句子对，以及具有语义相似关系的句子对；对于不同语料库，保留语义关系为蕴含的句子对，保留语义相似的语句对；将所有语料库的所有语句进行整合，然后将整个语料库划分为训练集、验证集，以及测试集；步骤1.2：采用字节对编码方法BPE对相似语句进行分词；其中，字节对编码方法BPEBytePairEncoding是一种基于统计的词汇表压缩算法，其基本思想是将文本中最频繁出现的字符序列逐步合并成一个新的字符，并将新的字符加入词汇表，不断迭代该过程，直到达到指定的词汇表大小或没有可合并的字符；步骤1.2.1：初始化词汇表；步骤1.2.2：统计词汇表中所有字符对出现的次数；步骤1.2.3：检索出现频率最高的字符对；步骤1.2.4：更新词汇表；步骤1.2.5：在达到指定的词汇表规模或没有可合并的字符前，重复执行步骤1.2.2至步骤1.2.4；步骤1.2.6：返回新的词汇表；步骤1.3：训练数据预处理；步骤1.3.1：利用训练好的分词模型对相似语句对进行分词，并将其转换为对应的标识符id；步骤1.3.2：在步骤1.3.1中每个id序列的首位添加标识符起止符和终止符，并将其转换为transformer支持的数据格式；步骤2：使用引入评估排序机制的transformer结构对查询语句进行扩展，该transformer结构包括编码器和解码器；步骤2.1：将原查询语句X和扩展查询语句Y分别转换为向量表示Vx和Vy，如下所示：其中，是X的各个token的嵌入表示，是Y的各个token的嵌入表示，Tx是X的token的数目，Ty是Y的token的数目；步骤2.2：将原查询语句的向量表示Vx通过transformer编码器转换为一个固定维度的查询语句表示H；编码器由自注意力层和全连接层组成；步骤2.3：将查询语句的向量表示H输入transformer解码器，根据查询语句表示H和当前时刻已生成的前i个token的扩展查询语句的向量表示，预测下一个词语；其中，transformer的解码器包括：自注意力层、编码器-解码器注意力层以及全接连层；步骤2.4：根据解码器的个数重复执行步骤2.3，每次可以生成扩展查询语句的k个词；步骤2.5：对生成的候选扩展查询语句进行评估，即评估生成的扩展查询与真实扩展查询之间的差距；步骤2.6：将经过排序的候选扩展查询语句作为对比样本，在训练过程中引入对比损失，参与稠密检索模型的目标优化，如下所示：Lctr＝∑i∑j＞imax0,fEj-fEi+λij，其中，Lctr是稠密检索模型的对比损失，Ei和Ej是两个不同的候选查询语句，满足MEj,EMEi,E，M是查询语句的评价指标，E是参考扩展查询语句，λij是排名次数的边际调整参数，f是长度归一化的对数概率；步骤2.7：将对比损失与交叉熵损失进行结合，获得查询扩展模型的多任务学习框架，如下所示： Lmul＝Lxent+Lctr,其中，Lmul表示多任务学习框架的损失，Lxent表示稠密检索模型的交叉熵损失，Lctr是指稠密检索模型的对比损失，l表示查询扩展语句的长度，e表示查询扩展语句当前时刻生成的token，表示已生成的部分参考序列，即j前面的token，ptrue表示给定查询Q和条件下，生成的下一个token的真实概率；是稠密检索模型的预测概率，gθ表示稠密检索模型，θ是稠密检索模型参数；步骤2.8：重复执行步骤2.3至步骤2.7，直到生成语句结束符；步骤2.9：输出k个查询扩展语句；设原始查询语句为q1，生成扩展查询语句为q2,q3,…,qk；步骤3：生成查询和文档的多视角表示；步骤3.1：生成查询表示；步骤3.2：生成文档表示；步骤4：基于ColBERT延迟交互框架，对查询和文档进行延迟交互；其中，ColBERT是一个基于BERT的上下文延迟交互排名模型，利用深度语言模型的表现力，结合基于表示模型的离线计算能力和基于交互模型的精细匹配功能，有效平衡了搜索精度和速度；步骤4.1：对与查询相关的文档进行过滤；步骤4.2：对候选文档进行重新排序。

全文数据：

权利要求：

百度查询：北京理工大学一种基于查询扩展和延迟交互的稠密检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种种子栽培种植开沟装置

下一篇：一种高浓度含氟废水治理设备

相关技术

一种种子栽培种植开沟装置

一种高浓度含氟废水治理设备

一种静载试验接桩循环护筒

一种微透镜准分子激光导管和微透镜微焦成像一体化装置

水封逆止阀及其使用方法

一种用于搅拌摩擦焊冷板的CNC定位夹紧工装

一种液压潜水泵

一种焊接加热装置

一种市政道路铺砖装置

一种电子设备、下载模式触发方法以及可读存储介质

通过光学衍射改善粒度

一种高矫顽力的R-T-B永磁体及其制备方法和应用

延迟相关技术

基于网络摄像机的HLS低延迟方法_杭州视洞科技有限公司_202211238434.6

针对非地面网络的可变上行链路响应和/或调度延迟_高通股份有限公司_202410660595.7

基于寿命预测的PEMFC延迟退化控制方法及系统_大连理工大学_202410828905.1

用于减少振动体和接触体之间相对移动的延迟的控制装置_佳能株式会社_202410244800.1

用于关键路径占空比和延迟退化的动态老化监测器和校正_高通股份有限公司_202380019519.1

一种基于VR游戏的岗前职业延迟满足能力评估方法及系统_北京语言大学_202410700299.5

基于全球电离层图的InSAR电离层延迟校正方法_中国科学院空天信息创新研究院_202411097668.2

基于光电混合计算系统的链路延迟推算方法及系统_光本位科技(苏州)有限公司_202410840599.3

一种机载现场动平衡的相位延迟累积误差抑制方法_西北工业大学_202311231961.9

基于重构群延迟-常数Q变换语谱图的声纹欺诈检测方法_哈尔滨理工大学_202210221453.1

稠密相关技术

一种动态环境下基于稠密光流和图像分割的爬壁机器人视觉SLAM定位方法_南京航空航天大学_202410873694.3

基于稀疏和稠密深度图图像重建方法、系统、设备及介质_深圳市光鉴科技有限公司_201910799288.6

基于物理模型与特征稠密关联的图像去雾方法及装置_华南农业大学_202210543770.5

一种基于深度稠密残差网络的光学与SAR图像融合的去云方法_重庆邮电大学_202210174565.6

一种稠密化深度图的获取方法、装置、电子设备及介质_融感科技(南京)有限公司_202410712419.3

一种基于查询扩展和延迟交互的稠密检索方法_北京理工大学_202410434206.9

一种稠密约束环境铁路线路优化方法、存储介质及设备_高速铁路建造技术国家工程研究中心_202410035270.X

结合稠密点云的相机目标检测方法、装置、设备_天翼交通科技有限公司_202410668463.9

一种水下目标稠密三维重建系统和方法_华南理工大学_202410549410.5

人口稠密区域中的机器人管理_安波福技术股份公司_202310410111.9

交互相关技术

交互方法、设备及存储介质_成都光合信号科技有限公司_202310237525.6

交互式迭代图像注释_皇家飞利浦有限公司_201980076927.4

交互方法、装置及电子设备_北京字跳网络技术有限公司_202410704498.3

信息交互方法、装置、电子设备及存储介质_网易(杭州)网络有限公司_202410667431.7

一种交互方法、装置、设备、介质、产品_北京有竹居网络技术有限公司_202410738209.1

数控设备的多通道交互方法、装置_银河亮点技术开发(广东)有限公司_202410655408.6

一种虚拟场景交互方法和系统_深圳市星野信息技术有限公司_202410799538.7

探测组件、人机交互装置和移动平台_比亚迪股份有限公司_202323276184.8

多平台交互方法、装置以及电子设备_网易(杭州)网络有限公司_202010701938.1

数字孪生模型可视化交互方法和系统_四川见山科技有限责任公司_202310217492.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于查询扩展和延迟交互的稠密检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务