Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于三重词频方案的Ad-hoc信息检索模型 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:盐城工学院;盐城工学院技术转移中心有限公司

摘要:本发明提供一种基于三重词频方案的Ad‑hoc信息检索模型,属于信息技术领域,所述检索模型的构建包括以下步骤:步骤一、计算LTF、RTF和PTF排名函数,并进行归一化处理,得到它们相应的表示函数TF1、TF2和TF3;其中,LTF表示长度正则化的词项频率;RTF表示相对文档内词项频率;PTF表示基于接近度的词项频率;步骤二、对TF1、TF2和TF3函数进行线性组合,基于TF1、TF2和TF3函数线性组合结果,得到检索模型。本发明构建的检索模型TriATF和TriATF*,将LTF、RTF和PTF线性地结合起来,充分利用这些词频的优势,实现更高效的文档检索,简单实用。

主权项:1.一种基于三重词频方案的Ad-hoc信息检索模型,其特征在于,所述检索模型的构建包括以下步骤:步骤一、计算LTF、RTF和PTF排名函数,并进行归一化处理,得到它们相应的表示函数TF1、TF2和TF3;其中,LTF表示长度正则化的词项频率;RTF表示相对文档内词项频率;PTF表示基于接近度的词项频率;步骤二、对TF1、TF2和TF3函数进行线性组合,基于TF1、TF2和TF3函数线性组合结果,得到检索模型;所述步骤一中进行归一化处理时,使用的归一化函数为fx=x1+x,其中x表示LTF、RTF和PTF排名函数的其中一个,fx表示相应的表示函数TF1、TF2或TF3;所述步骤一中,将LTF排名函数归一化处理得到表示函数TF1,操作步骤如下:LTF排名函数表示为: 其中,LTFt,D表示长度正则化的词项频率;D表示文档;t表示文档D中的词项;tft,D表示文档D中词汇t的频率;avdl指给定文献集合C中的平均文档长度;|D|表示文档的长度;使用函数fx=x1+x来归一化LTFt,D,则有:TF1t,D=LTFt,D1+LTFt,D2其中,TF1t,D表示规范化后的长度正则化的词项频率;所述步骤一中,将RTF排名函数归一化处理得到表示函数TF2,具体操作如下:RTF排名函数表示为: 其中,RTFt,D表示相对文档内词项频率;D表示文档;t表示文档D中的词项;tft,D表示文档D中词汇t的频率;avgtfD表示文档D的平均词频;使用函数fx=x1+x来归一化RTFt,D,则有:TF2t,D=RTFt,D1+RTFt,D4其中,TF2t,D表示规范化后的相对文档内词项频率;所述步骤一中,将PTF排名函数归一化处理得到表示函数TF3,具体操作如下:PTF排名函数公式为:PTFt,D=∑q∈Q,q≠t,Proxt,q,D5其中,Q表示查询,q表示Q中的一个查询词项;PTFt,D表示基于接近度的词项频率;D表示文档;t表示文档D中的词项;Proxt,q,D表示文档D中词项t和查询词项q之间的接近程度,公式为: 其中,distt,q,D是文档D中词项t和查询词项q之间的距离,σ是一个归一化参数;使用函数fx=x1+x来归一化PTFt,D,则有:TF3t,D=PTFt,D1+PTFt,D8TF3t,D表示规范化后的基于接近度的词项频率;所述步骤二的具体操作步骤如下:步骤1、使用查询长度因子ω=2[1+log21+|Q|]来组合TF1和TF2,得到:TF1,2t,D=1-ω·TF1t,D+ω·TF2t,D9其中,D表示文档;t表示文档D中的词项;ω表示查询长度因子;TF1t,D表示规范化后的长度正则化的词项频率;TF2t,D表示规范化后的相对文档内词项频率;步骤2、然后将TF1,2t,D与TF3线性组合,生成以下结果:TFtrit,D=1-λ·TF1,2t,D+λ·TF3t,D10其中,λ表示TF1,2t,D与TF3线性组合的权重系数,取值范围[0,1];步骤3、通过以下式对IDF进行优化改进,得到TDF: 其中,IDFt表示逆文档频率,定义为log2[N-nt+0.5nt+0.5],其中N是文献集合中的文档数,nt是包含t的文档数;ctft表示t在文献集合中的频率;TDFt表示改进后的IDFt;步骤4、结合TF1、TF2和TF3函数线性组合结果和优化改进后的逆文档频率,得到检索模型:ScoreQ,D=t∈QTFtrit,D·TDFt12其中,ScoreQ,D表示得到的检索模型;TFtrit,D表示TF1,2t,D与TF3线性组合;TDFt表示改进后的IDFt。

全文数据:

权利要求:

百度查询: 盐城工学院 盐城工学院技术转移中心有限公司 一种基于三重词频方案的Ad-hoc信息检索模型

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。