首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

排名功能的离线评价 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:微软技术许可有限责任公司

摘要:要求保护的主题包括用于排名功能的离线评价的技术。示例系统包括第一模块,其被配置为接收生产日志数据,第一模块用于预处理生产日志数据以生成探索数据集。示例系统还包括第二模块,其被配置为使用探索数据集来执行用于排名功能的在线度量的离线估计。示例系统还包括第三模块,其通过将所估计的在线度量与基线排名功能的基线度量集合相比较并且检测提议排名功能的所估计的在线度量超过、小于基线度量的预定范围或在基线度量的预定范围内,来评价提议排名功能。

主权项:1.一种用于排名功能的离线评价的系统,包括处理器用于:接收生产日志数据,并且基于所模拟的随机化数据采集来预处理所述生产日志数据以生成探索数据集,其中所述所模拟的随机化数据采集是基于查询历史的结果多样性和排名功能行为的结果多样性而被生成的,所述排名功能行为包括排名功能的更新、查询文档对的变化特征以及引擎的索引的更新中的至少一项;使用所述探索数据集来执行针对排名功能的在线度量的离线估计,其中提议排名功能将被接收并且将在对用户被在线测试之前被离线测试;通过将所估计的所述在线度量与基线排名功能的基线度量集合相比较并且检测所述提议排名功能的所估计的所述在线度量超过、小于所述基线度量的预定范围或者在所述基线度量的所述预定范围内,来评价所述提议排名功能;基于所估计的所述在线度量与所述基线排名功能的所述基线度量的比较,检测所述提议排名功能是优选排名功能,所述优选排名功能比所述基线排名功能具有更高的所检测的度量得分;响应于检测到所述优选排名功能的质量超过阈值,基于所述优选排名功能对信息检索系统执行动作;以及显示来自所述信息检索系统的生成的结果。

全文数据:排名功能的离线评价背景技术[0001]信息检索(IR系统使用排名功能还被称为排名器来响应于来自用户的查询而对搜索结果进行排序。排名功能还可以被使用在待购买的商品的推荐顺序列表中。排名功能的在线AB测试还被称为AB进行或简单地进行可以被用于测量在线相关性度量并且比较两个或两个以上排名功能。AB指代要被比较的两个排名功能A和B,但是可以以类似的方式比较超过两个排名功能。发明内容[0002]以下按序呈现本创新的简化概要以便提供在此所描述的一些方面的基本理解。该概要不是要求保护的主题的广泛概述。其旨在既不标识要求保护的主题的关键元素也不描绘要求保护的主题的范围。其唯一目的是以简化形式将要求保护的主题的一些概念呈现为稍后呈现的更详细描述的前序。[0003]实现方式提供了用于排名功能的离线评价的系统。系统包括处理器和包括引导处理器的代码的系统存储器。当执行时,该代码可以使得处理器接收生产日志数据,处理器预处理生产日志数据以生成探索数据集。代码还可以使得处理器使用探索数据集来执行用于排名功能的在线度量的离线估计。代码还可以使得处理器通过将所估计的在线度量与基线排名功能的基线度量集合相比较并且检测提议排名功能的所估计的基线度量超过、小于基线度量的预定范围或在基线度量的预定范围内,来评价提议排名功能。[0004]另一实现方式提供了用于排名功能性能的离线评价的方法。方法可以包括接收生产日志数据。方法还可以包括预处理生产日志数据以生成探索数据集。方法还可以包括使用用于多个排名功能的探索数据集来执行在线度量的离线估计。方法还可以包括基于所估计的在线度量比较多个排名功能以生成比较结果。方法还可以包括基于比较结果标识一个或多个优选排名功能。方法还可以包括在测试过程期间利用优选排名功能生成查询结果。[0005]另一实现方式提供了用于存储计算机可读指令的一个或多个计算机可读存储介质,计算机可读指令当由一个或多个处理设备执行时指示排名功能性能的离线评价。计算机可读介质包括接收生产日志数据的指令。计算机可读介质还包括预处理生产日志数据以生成探索数据集的指令。计算机可读介质包括至少部分基于探索数据集和近似动作匹配过程来执行用于排名功能的在线度量的离线估计的指令。此外,计算机可读介质包括基于所估计的在线度量与基线排名功能度量的比较来检测排名功能是优选排名功能的指令。计算机可读介质还包括响应于检测到优选排名功能的质量超过测试过程期间的阈值而基于优选排名功能对信息检索系统执行动作的指令。[0006]以下描述和附图详细阐述要求保护的主题的某些说明性方面。然而,这些方面指示可以采用本创新的原理的各种方式中的几种方式,并且要求保护的主题旨在包括所有这样的方面和其等同物。要求保护的主题的其他优点和新颖特征将从结合附图考虑时的本创新的以下详细描述变得明显。附图说明[0007]图1是被配置用于实现在此所描述的技术的各个方面的示例操作环境的框图;[0008]图2示出了用于评价信息检索排名功能离线的方法的过程流程图;[0009]图3是用于信息检索排名功能的离线评价的示例系统的框图;以及[0010]图4是可以被用于离线评价排名功能的示例性计算机可读存储介质的框图。具体实施方式[0011]可以使用各种技术评价排名功能。如上文所讨论的,排名功能或函数可以被用于对信息检索系统中的查询的结果进行排名。信息检索系统获得与来自信息资源的集合的信息需要有关的信息资源。例如,信息资源可以是搜索引擎结果或产品推荐。在一些示例中,当使用随机化数据采集进行的离线时,可以针对相关性准确度计算排名功能。如在此所使用的,进行flight指代运行排名以服务用户一段时间并且然后测量该时间段内的相关性质量度量的在线试验。为了在不在用户上运行IR系统的情况下评价IR系统其在该文档中被称为“离线评价”),现有方法以针对用户提交的查询的以下方式采集随机化数据:计算结果的可能排列的数目,随机地选择排列之一,将其示出给用户,并且测量相关性得分其取决于对察觉的排列的用户反应)。然而,存在太多排列,其使以上随机化数据采集程序代价很高。[0012]本公开描述了在没有昂贵的随机化数据采集步骤的情况下通过使用历史日志数据预测排名功能的平均度量值来评价排名功能的技术。在一些示例中,历史日志数据诸如来自一个或多个搜索引擎的生产日志数据可以包括多个查询和查询结果或动作诸如搜索引擎结果页面SERP。如在此所描述的,动作指代响应于查询而以特定方式组织和显示数据。例如,除了其他响应之外,动作可以包括SERP或推荐列表。如在此所使用的,度量值指代基于性能特性而分配给排名功能的值。在一些示例中,可以基于各种目标来定义性能特性。例如,性能特性可以表示关于由排名功能所返回的结果的肯定用户反馈和由排名功能所返回的结果的质量等。度量值可以指示排名功能的性能或质量作为针对给定性能特性的比。在示例中,这些性能特性中的一个或多个可以被用于评价排名功能。[0013]在一些实施例中,通过利用下面更详细地讨论的结果多样性和因果推断技术,用于预测度量值的历史日志数据可以是来自预测日志数据的模拟随机化数据采集。在一些示例中,本技术还提供排名功能的近未偏置离线评价。本技术可以被用于标识针对实况测试的排名功能,使得可以降低要被在线测试的排名功能的总数目。因此,可以在对用户测试排名功能之前评价排名功能。因此,该技术减小用户在定位信息或产品时花费更多时间并且因此更多资源的可能性。该技术还减小由用户标识更有效的排名功能所要求的交互的数目。而且,排名功能的增加的效率还可以通过使得用户能够使用更少的资源找到产品或信息而节省计算机资源。另外,通过降低要被在线测试的排名功能的数目而节省网络带宽。下面更详细地描述了这些技术。[0014]作为初步事项,附图中的一些附图描述了一个或多个结构部件各种被称为功能、模块、特征、元件等)的上下文中的概念。可以以任何方式实现附图中所示的各种部件诸如软件、硬件、固件或其组合)。在一些情况下,附图中所示的各种部件可以反映实际实现中的对应的部件的使用。在其他情况下,可以通过若干实际部件实现附图中所图示的任何单个部件。附图中的任何两个或两个以上分离的部件的描绘可以反映由单个实际部件所执行的不同的功能。下面所讨论的图1提供关于可以被用于实现附图中所图示的功能的一个系统的细节。[0015]其他附图以流程图形式描述了概念。在该形式中,某些操作被描述为构成以特定顺序被执行的不同的块。这样的实现是示范性而非限制性的。可以在单个操作中一起分组并且执行在此所描述的某些块,可以将某些块分解为多个部件块,并且可以以与在此所图示的顺序不同的顺序包括执行块的并行方式执行某些块。可以通过软件、硬件、固件、人工处理等实现流程图中所图示的块。如在此所使用的,硬件可以包括计算机系统、分离的逻辑部件诸如专用集成电路ASIC等。[0016]关于术语,短语“被配置为”涵盖任何种类的功能可以被构建为执行所标识的操作的任何方式。功能可以被配置为使用例如软件、硬件、固件等来执行操作。术语“逻辑”涵盖用于执行任务的任何功能。例如,流程图中所图示的每个操作对应于用于执行该操作的逻辑。可以使用软件、硬件、固件等执行操作。术语“部件”、“系统”等可以指代计算机相关实体、硬件和执行中的软件、固件或其组合。部件可以是在处理器上运行的过程、对象、可执行的、程序、功能、子例程、计算机或软件和硬件的组合。术语“处理器”可以指代硬件部件诸如计算机系统的处理单元)。[0017]此外,要求保护的主题可以被实现为使用标准编程和工程技术产生软件、固件、硬件其任何组合以控制计算设备来实现所公开的主题的方法、装置或制造品。如在此所使用的术语“制造品”旨在涵盖从任何计算机可读设备或介质可访问的计算机程序。计算机可读存储介质尤其包括磁性存储设备例如,硬盘、软盘、磁条、光盘、压缩磁盘CD、数字多用光盘DVD、智能卡、闪速存储器等)。而且,计算机可读存储介质不包括通信介质诸如用于无线信号的传输介质)。相反,计算机可读介质(即,非存储介质可以包括通信介质诸如用于无线信号的传输介质)。[0018]图1旨在提供在其中可以实现在此所描述的各种技术的计算环境的简要一般描述。例如,可以在这样的计算环境中实现图2和图3中所描述的用于排名功能的离线评价的方法和系统。虽然下面在本地计算机或远程计算机上运行的计算机程序的计算机可执行指令的一般上下文中描述了要求保护的主题,但是还可以组合其他程序模块实现要求保护的主题。一般地,程序模块包括例程、程序、对象、组件、数据结构等,其执行特定任务或实现特定抽象数据类型。[0019]图1是被配置用于实现在此所描述的技术的各个方面的示例操作环境的框图。示例操作环境100包括计算机102。计算机102包括处理单元104、系统存储器106和系统总线108〇[0020]系统总线108将系统部件包括但不限于系统存储器106耦合到处理单元104。处理单元104可以是任何各种可用的处理器。双微处理器和其他微处理器还可以被用作处理单元104。[0021]系统总线108可以是任何若干类型的总线结构,包括存储器总线或存储器控制器、外围总线或外部总线和使用本领域的普通技术人员已知的任何各种可用总线架构的本地总线。系统总线106包括计算机可读存储介质,其包括易失性存储器110和非易失性存储器112〇[0022]包含基本例程其在诸如启动期间在计算机102内的元件之间传送信息)的基本收入输出系统BIOS被存储在非易失性存储器112中。以图示而非限制的方式,非易失性存储器112可以包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦可编程ROMEEPROM或闪速存储器。[0023]易失性存储器110包括随机存取存储器RAM,其充当外部高速缓存存储器。以图示而非限制的方式,RAM在许多形式中是可用的,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据速率SDRAMDDRSDRAM、增强型SDRAMESDRAM、SnychLink™DRAMSLDRAM、Rambus®直接RAMrdram、直接Rambus®动态RAMDRDRAM和Rambus®动态RAM®DRAM〇[0024]计算机102还包括其他计算机可读介质诸如可移除不可移除、易失性和非易失性计算机存储介质)。图1示出了例如磁盘存储装置114。磁盘存储装置114包括但不限于如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-210驱动器、闪存卡或记忆棒的设备。[0025]另外,磁盘存储装置114可以分离地或组合其他存储介质包括存储介质,包括但不限于光盘驱动器诸如压缩磁盘ROM设备CD-ROM、⑶可记录驱动器CD-RDrive、⑶可重写驱动器CD-RWDrive或数字多用光盘ROM驱动器DVD-ROM。为了促进将磁盘存储设备114连接到系统总线108,通常使用可移除或不可移除接口(诸如接口116。[0026]将理解到,图1描述了充当用户与适合的操作环境100中所描述的基本计算机资源之间的中介的软件。这样的软件包括操作系统118。可以被存储在磁盘存储装置114上的操作系统118做出动作以控制并且分配计算机102的资源。[0027]系统应用120通过被存储在或者系统存储器106中或者在磁盘存储装置114上的程序模块122和程序数据124并且通过操作系统118利用资源的管理。将理解到,可以利用各种操作系统或操作系统的组合实现要求保护的主题。[0028]用户通过输入设备132将命令或信息录入计算机102中。输入设备132包括但不限于指点设备,诸如鼠标、轨迹球、光笔等、键盘、麦克风、操纵杆、卫星盘、扫描器、TV调谐卡、数字照相机、数字视频照相机、网络摄像头等。输入设备132通过系统总线108经由接口端口134连接到处理单元604。接口端口134包括例如串行端口、并行端口、游戏端口和通用串行总线USB。[0029]输出设备136使用与输入设备132相同类型的端口中的一些端口。因此,例如,USB端口可以被用于将输入提供到计算机102,并且将信息从计算机102输出到输出设备136。[0030]输出适配器138被提供以图示存在除了输出设备136之外的如监视器、扬声器和打印机的一些输出设备130,其是经由适配器可访问的。输出适配器138包括以图示而非限制的方式包括视频和声卡,其提供输出设备136与系统总线108之间的连接的手段。可以注意,其他设备和设备的系统提供输入能力和输出能力二者诸如远程计算机140。[0031]计算机102可以是托管使用对一个或多个远程计算机诸如远程计算机134的逻辑连接的联网环境中的各种软件应用的服务器。远程计算机134可以是客户端系统,其被配置有网络浏览器、PC应用、移动电话应用等。远程计算机134可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、移动电话、对等设备或其他公用网络节点等,并且通常包括相对于计算机102所描述的元件中的许多或全部。[0032]远程计算机134可以通过网络接口136逻辑地连接到计算机102并且然后经由可以是无线的通信连接138进行连接。网络接口136涵盖无线通信网络诸如局域网LAN和广域网WANIAN技术包括光纤分布式数据接口(FDDI、铜质分布式数据接口(CDDI、以太网令牌环等。WAN技术包括但不限于点对点链路、类似综合服务数字网络(ISDN和在其上的变型的电路交换网络、分组交换网络和数字订户线DSL。[0033]通信连接138指代将网络接口136连接到总线108所利用的硬件软件。虽然通信连接138出于说明性清晰被示出在计算机102内,但是其还可以在计算机102外部。出于示例性目的,连接到网络接口136的硬件软件可以包括内部和外部技术,诸如移动电话交换机、包括规则电话等级调制解调器的调制解调器、电缆调制解调器和DSL调制解调器、ISDN适配器和以太网卡。[0034]服务器的示例处理单元104可以是计算集群。此外,磁盘存储装置114可以存储用于评价排名功能的各种类型的数据124。例如,磁盘存储装置114可以包括企业数据存储系统例如,存储数据124诸如曝光)。如在此所使用的,曝光(impression指代响应于来自用户的特定查询而由特定排名功能造成的动作的实例。例如,动作可以是响应于对搜索引擎的查询的SERP。曝光可以被用于估计针对提议排名功能的在线度量,如下面在图3中详细讨论的。数据124还可以包括一个或多个生产日志,其可以根据从例如搜索引擎查询和搜索引擎结果页面SERP所获得的信息被获得或被构建。在一些示例中,可以从一个或多个搜索引擎获得生产日志数据124。[0035]—个或多个模块122可以被配置为执行排名功能的离线评价。例如,排名功能可以是最终要被在线测试的提议排名功能集合并且潜在地替换搜索引擎或推荐服务的现有排名功能。提议排名功能可以由开发者提供或由机器生成。在实现中,预处理器模块140可以根据生产日志数据生成探索数据。探索数据是被用于模拟由提议排名功能的离线评价的现有方法所使用的随机化数据的数据。生产日志数据显示大量的多样性;也即,对于由不同的曝光中的相同用户发出的相同查询而言,由于系统或系统采取的其他流信息的恒定更新,IR系统可以采取不同的动作。相同用户查询对的这样的多样化动作被认为是随机化的。在一些示例中,预处理器模块140可以使用排名功能行为中的多样性在生成探索数据集时模拟随机化数据集合。在一些示例中,预处理器模块140可以按照查询、按照动作、按照动作的概率和按照奖励值来聚集生产日志数据。在实现中,估计器模块142可以使用探索数据集执行用于排名功能的在线度量的离线估计。在一些示例中,估计器模块142可以使用排名的近似动作匹配来估计在线度量。在线度量可以包括从对系统动作的用户响应得到的任何奖励信号,诸如点击率CTR、点击搜索引擎结果页面SERP的时间和点击位置的平均倒数。在实现中,评价器模块144可以通过将所估计的在线度量与基线排名功能的基线度量集合相比较来评价提议排名功能。如在此所使用的,基线排名功能指代可以是当前使用中的IR系统并且可以用作一个被测试的备选方案的任何IR系统的排名功能。在一些示例中,评价器模块144可以检测提议排名功能的所估计的在线度量超过、小于基线度量的预定范围或在基线度量的预定范围内。测试模块146可以然后利用提议排名功能生成查询结果作为提议排名功能的测试。在一些示例中,测试模块146然后在线测试实际用户上的提议排名功能。在一些示例中,优选排名功能可以被用于响应于检测到优选排名功能的质量超过测试过程期间的阈值,对信息检索系统执行动作。例如,动作可以包括响应于查询而显示SERP。显示模块148可以显示所生成的查询结果。[0036]将理解到,图1的块图不旨在指示计算系统100将包括图1中所示的所有部件。相反,计算系统100可以包括未图示在图1中的更少或附加的部件例如,附加应用、附加模块、附加存储器设备、附加网络接口等)。而且,预处理器模块140、估计器模块142、估计器模块144和测试模块146的功能中的任一个功能可以部分或全部地实现在硬件和或处理器中。例如,可以利用专用集成电路、在实现在处理器中的逻辑中或在任何其他设备中实现功能。例如,并且非限制性地,可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列FPGA、专用集成电路ASIC、专用标准产品ASSP、芯片上系统SOC、复杂可编程逻辑设备CPLD等。[0037]图2示出了用于离线评价排名功能的方法的过程流程图。方法通常通过附图标记200被参考并且参考示例系统100被讨论。在块202处,预处理器模块140接收生产日志数据。例如,除了其他服务之外,生产日志数据可以是在一个或多个搜索引擎和或推荐引擎的操作期间记录的历史数据。生产日志数据可以包括例如用户点击、用户点击之间的时间、SERP和针对不同的进行中和或不同的时间段期间的类似查询的排名功能行为。[0038]在块204处,预处理器模块140预处理生产日志数据以生成探索数据集。探索数据集是用于模拟在线进行的经处理的数据集。在一些示例中,预处理生产日志数据包括按照查询、按照动作、按照动作的概率或按照奖励值来聚合生产日志数据。例如,查询可以是使用一个或多个关键字的信息的请求。动作可以包括对查询的响应诸如SERP或由排名功能排序的任何其他列表)。可以通过上文所讨论的任何形式的在线度量来测量奖励值。在一些示例中,预处理生产日志数据包括使用结果多样性模拟随机化数据采集。不是使用随机采样创建要被用作探索数据集的查询集合,而是预处理器模块140可以使用生产日志数据的多样性模拟随机化数据采集。例如,结果多样性可以是搜索引擎操作或推荐服务操作的结果。[0039]在块206处,估计器模块142使用探索数据集执行用于排名功能的在线度量的离线估计。例如,可以从开发者接收提议排名功能集合,并且在对用户在线测试之前对其进行离线测试。排名功能可以是待由搜索引擎或推荐服务用于基于输入诸如查询或购买对信息进行排名的若干排名功能之一。在一些示例中,提议排名功能可以是机器生成的并且使用本公开技术被自动地测试。排名功能可以具有根据生产日志数据所生成的探索数据集中所模拟的进行。给定特定排名功能和探索数据集,可以然后通过近似地匹配探索数据集中的动作来估计在线度量。如上文所描述的,动作可以包括响应于查询的信息的任何组织列表。如上文所讨论的,在线度量可以包括以下各项中的至少一项:点击率CTR、点击搜索引擎结果页面的时间以及点击位置的平均倒数。在一些示例中,可以使用针对每个动作的预定数目的较高排名的结果的比较来执行SERP的近似匹配。例如,如由排名功能所组织的SERP中的较高的三个结果可以被用于匹配具有每个SERP的顶部处的相同的三个排名结果的两个或两个以上SERP。潜在的假定在于,类似动作(诸如SERP之间的在线度量应当粗略地与用户将以类似的方式响应相同。在一些示例中,rankDiff技术可以被用于匹配两个或两个以上SERP。例如,给定测量两个动作a和b的相似性的函数sima,b=I-RankDiffa,b,可以使用下面图3中所描述的式来计算示例rankDiff。下面参考图3以更大的长度讨论这些技术。[0040]在块208处,评价器模块144基于所估计的在线度量来比较多个排名功能以生成比较结果。例如,比较结果可以指示一些排名功能比其他排名功能具有更高的在线度量得分,或者两个或两个以上排名功能具有相对于特定排名功能的预定阈值范围内的在线度量得分。在一些示例中,出于比较的目的,排名功能之一可以是基线排名功能。例如,基线排名功能可以是由搜索引擎或推荐服务等当前使用的排名功能。[0041]在块210处,评价器模块144基于比较结果标识优选排名功能。在一些示例中,第一排名功能可以具有与第二排名功能相比更高的所检测的相关性得分。第一排名功能可以被标识为优选排名功能。在一些示例中,第二排名功能可以是基线排名功能。例如,基线排名功能可以被用于比较提议排名功能中的剩余部分。具有指示比基线功能更好的性能的在线度量的提议功能可以被标识为优选排名功能。在一些示例中,评价器模块144检测提议排名功能的所估计的在线度量超过、小于或在基线度量的预定范围内。因此,提议排名功能可以被标识为要被进一步测试的优选的功能。在一些示例中,阈值置信度得分还可以被用于从要被在线测试的优选排名功能过滤出排名功能。[0042]在块212处,测试模块146在测试过程期间利用优选排名功能生成查询结果。例如,测试模块146在线测试优选排名功能。在一些示例中,评价器模块144将优选排名功能发送到服务器以用于在线测试。例如,可以使用优选排名功能对服务器执行在线AB测试。在一些示例中,还可以计算指示排名功能的质量超过阈值的确定性的水平的置信度得分。[0043]该过程流程图不旨在指示方法200的这些块将以任何特定顺序执行或所有块将被包括在每个情况中。此外,未示出的任何数目的附加块可以被包括在方法200内,这取决于特定实现的细节。[0044]图3是用于信息检索排名功能的离线评价的示例系统300的框图。示例系统300可以使用计算机102被实现并且参考图2的过程流程图被讨论。示例系统300可以包括生产日志数据302,其可以被用作排名功能304的离线评价的输入306。示例系统300还可以包括多个排名功能308,其还可以被用作用于排名功能304的离线评价的输入310。排名功能304的离线评价可以使用在此所描述的技术来输出314优选排名功能312。[0045]在图3的示例中,可以从历史数据诸如搜索引擎或推荐引擎的任何源接收202生产日志数据302。历史数据可以包括响应于查询或购买的排名功能动作和在线度量。例如,可以从由搜索引擎、推荐引擎等使用排名功能的操作期间所创建的日志获得生产日志数据302。生产日志数据302可以包括不同的进行和或不同的时间段期间的类似查询的排名功能行为。被存储在生产日志数据中的排名功能行为可以包括排名功能的连续的更新、查询文档对的变化特征以及引擎的索引的更新等。在一些示例中,来自排名行为和查询历史的结果多样性可以被用于在生成探索数据集时模拟随机化数据采集。在一些示例中,生产日志数据按照查询、按照动作、按照动作的概率和按照奖励值进行聚集。如在此所使用的,动作指代通常服务用户诸如SERP、推荐列表等的排名功能或在线系统的产品。[0046]在一些示例中,上下文老虎机模型可以被用于排名功能的离线评价。在上下文老虎机模型中,重复地观察独立并且同等地分布(IID的上下文信息。例如,上下文信息可以是不同的查询集合Q。对于集合Q中的任何q而言,《^€可以是针对查询q的可能动作的集合。例如,集合内的动作a可以是针对查询q的可能的SERP。在一些示例中,上下文老虎机模型可以被用于预处理204日志数据以生成探索数据集。[0047]示例系统300还可以包括排名功能308。排名功能308可以是对在线用户潜在地测试的提议排名功能集合。根据上下文老虎机模型,排名功能308在上下文老虎机上下文中被称为“η”)可以从集合ciq选择SERPa。对于每个观察而言,示例系统300可以采取动作并且接收随机化奖励。例如,奖励可以是如从用户点击测量的二进制点击与否(click-or-not信号。在一些示例中,接收到的奖励取决于所选择的动作,并且未观察到针对其他动作的奖励。在线上下文老虎机模型中,排名功能与用户之间的假设交互将以逐轮方式继续如下:对于轮t而言,用户访问搜索引擎并且提交来自Q的查询q、从可能的用户查询的一些未知分布D提取IID。排名功能选择动作a并且将动作a显示给用户。例如,动作可以是SERP等。用户然后查看SERP并且基于用户的反馈,可以计算来自奖励集合R的数值奖励r。然而,与用户的在线交互是昂贵的,因此相反可以执行在线度量的离线估计206。例如,待估计的度量可以采取以下形式:[0048]1[0049]其中度量VJi是通过对由搜索引擎遭遇的查询q执行排名功能π所获得的平均奖励r。如果排名功能π是确定性的,那么待估计的在线度量可以采取以下形式:[0050]2[0051]可以使用各种类型的在线度量。在一些示例中,可以通过定义适当的奖励来获得在线度量。例如,如果存在点击SERP,r被定义为1,以及其他情况为0,那么V⑻可以是排名功能的每曝光点击率CTR。如在此所使用的,曝光指代用户与由查询、由排名功能π采取的动作a=3iq和来源于用户点击的奖励等组成的IR系统之间的单个交互。例如,除了其他动作之外,动作可以是SERP、推荐列表。在一些示例中,可以针对满足特定期望的条件或合并货币信息以测量收入的点击,定义在线度量。另一类型的在线度量可以尝试量化用户多久找到其搜索的信息。例如,在线度量可以量化用户在其提交查询之后选择超链接花费的时间量。在一些示例中,还可以相对于查询的提交对任何预定义用户动作进行定时。在实现中,在线度量可以是取决于用户反馈的排名功能的成功的搜索活动的一部分。成功的搜索活动可以根据用户的特定目标被配置。[0052]还参考图3,在实现中,可以使用探索数据集执行206针对提议排名功能308的在线度量的离线估计。例如,探索数据集可以被定义为集合,其中i索引不同的曝光,是在该曝光中由用户发出的查询,ai是排名列表,倾向得分?1是示出针对数据采集进行中的的概率,并且Γι是所得到的基于点击的度量。即使在每个曝光中确定性地计算出个体排名,估计器可以在不同的进行中和或不同的时间段期间使用针对相同查询的排名功能行为中的多样性。例如,这样的多样性可以由因素诸如排名功能的连续的更新、查询文档对的变化特征、引擎的索引的恒定更新等而引起。排名功能行为的多样性导致系统的表面上随机化行为。在一些示例中,查询q和探索数据中所观察的查询排名对q,a的计数可以由下式定义:[0053]3:[0054]4[0055]其中H{Cj是如果条件C保持真评价为1并且否贝IjO的集合指示器函数。在这种情况下,可以通过以下形式表达虚假的随机化概率:[0056]5[0057]式1的未偏置的估计器可以然后被表达为:[0058]6[0059]其中¾:=wgn是数据集中的q的相对频率,并且:[0060]7[0061]是针对q,a的平均奖励fq,Cf.。[0062]在一些示例中,排名的近似动作匹配可以被用于估计针对提议排名功能308的在线度量。例如,对于SERP而言,近似匹配可以采取匹配排名页面的前三个或五个搜索结果的形式。因此,如果前五个结果匹配,那么两个排名A和B可以被认为是相同的。在一些示例中,用于匹配的结果的数目可以是预定和或可配置的。例如,可以基于要被处理的动作的总数和起因于近似的偏置的数量,来调整匹配的结果的阈值数目。在一些示例中,包括与二元关系“〜”匹配的排名功能近似动作的奖励估计器可以被表达为:[0063]8[0064]在一些示例中,排名功能可以是确定性的。当排名功能是确定性的时,估计器可以被简化为:[0065]9[0066]其中q表示确定性排名功能π选择查询q的动作。在一些示例中,可以通过rankDiff技术的使用来执行近似动作匹配。例如,给定测量两个动作a和b的相似性的函数sima,b=I-RankDiffa,b,可以使用下式近似匹配动作:[0067]10[0068]此外,方差估计可以被用于评价两个排名功能的估计之间的差是否是统计上重要的。在一些示例中,可以通过以下各项计算这些方差估计:[0069][0070]其中式10是针对一般情况的方差估计器,并且式11是在31是确定性的情况下的方差估计器。[0071]仍然参考图3,可以通过将所估计的在线度量与另一排名功能308的度量集合相比较208来评价304提议排名功能。例如,基线排名功能308可以是由特定搜索引擎或推荐服务当前使用的排名功能。可以将针对提议排名功能308的所估计的在线度量与基线排名功能308相比较。在一些示例中,如果提议排名功能308具有比基线排名功能更高的度量得分,那么提议排名功能308可以被标识210为优选排名功能312。优选排名功能312可以然后经历对实际用户组的进一步的在线测试。例如,可以使用优选排名功能312执行传统的AB测试。因此,本公开技术节省其可能已经花费在对实况用户在线测试不成功的排名功能的资源诸如处理器功率和带宽)。此外,技术降低通过给用户组呈现负面在线体验而使得用户不舒服的风险。[0072]图4是示出可以被用于离线评价排名功能的有形计算机可读存储介质的框图。可以通过计算机总线404由处理器402访问计算机可读存储介质400。此外,有形计算机可读存储介质400可以包括引导处理器402以执行当前方法的代码。例如,可以通过处理器402执行方法300。[0073]在此所讨论的各种软件部件可以被存储在有形计算机可读存储介质400上,如在图4中所指示的。例如,有形计算机可读存储介质400可以包括预处理器模块406、估计器模块408和评价器模块410。在一些实现中,预处理器模块406包括接收生产日志数据的代码。例如,生产日志数据可以包括排名功能的连续的更新、查询文档对的变化特征以及引擎的索引的更新等。预处理器模块406包括预处理生产日志数据以生成探索数据集的代码。在一些实现中,预处理器模块406包括预处理日志数据的代码,其包括使用搜索引擎结果多样性来模拟随机化数据采集。在一些实现中,预处理器模块406包括按照查询、按照动作、按照动作的概率和按照奖励值来聚集探索数据的代码。在一些示例中,估计器模块408包括使用探索数据集来执行在线度量的离线估计的代码。在一些示例中,估计器模块包括使用针对每个动作的预定数目的较高排名的结果来近似地匹配探索数据集中的动作的代码。[0074]在一些示例中,评价器模块410包括计算第一排名器与第二排名器之间的差量度量得分的代码。在一些实现中,评价器模块410包括指示差量度量得分的置信度水平的代码。在实现中,评价器模块410包括基于在线度量与基线排名功能的比较来检测排名功能是优选排名功能的代码。测试模块412包括对用户在线测试优选排名功能的代码。例如,除了其他类型的在线评价之外,优选排名功能可以通过AB测试被在线测试。在一些示例中,响应于检测到优选排名功能的质量超过在测试过程期间的阈值,信息检索系统可以基于优选排名功能来执行动作。在一些示例中,显示模块414可以包括显示所生成的查询结果。[0075]应理解到,未示出在图4中的任何数目的附加软件部件可以被包括在有形计算机可读存储介质400内,这取决于特定应用。虽然已经以特定于结构特征和或方法的语言描述了主题,但是应理解到,是否的权利要求中定义的主题不必限于上文所描述的特定结构特征或方法。相反,上文所描述的特定特征和动作被公开为实现权利要求的示例形式。[0076]示例1[0077]该示例提供用于排名功能的离线评价的示例系统。示例系统包括处理器和包括引导处理器的代码的系统存储器。当执行时,该代码可以使得处理器接收生产日志数据,处理器预处理生产日志数据以生成探索数据集。代码还可以使得处理器使用探索数据集来执行用于排名功能的在线度量的离线估计。代码还可以使得处理器通过将所估计的在线度量与基线排名功能的基线度量集合相比较并且检测提议排名功能的所估计的基线度量超过、小于或在基线度量的预定范围内,来评价提议排名功能。备选地或者另外地,代码还可以使得处理器作为提议排名功能的测试利用提议排名功能生成查询结果。备选地或者另外地,代码还可以使得处理器显示所生成的查询结果。备选地或者另外地,代码可以使得处理器当生成探索数据集时,通过基于结果多样性模拟随机化数据采集来预处理生产日志数据。备选地或者另外地,代码可以使得处理器通过按照查询、按照动作、按照动作的概率和按照奖励值聚集生产日志数据来预处理生产日志数据。备选地或者另外地,代码可以使得处理器排名的近似动作匹配以估计在线度量。备选地或者另外地,代码可以使得处理器比较由相应的排名功能所生成的每个动作的预定数目的较高排名的结果。备选地或者另外地,在线度量可以包括以下各项中的至少一项:点击率CTR、点击搜索引擎结果页面SERP的时间、点击位置的平均倒数。备选地或者另外地,在线度量包括以下各项中的至少一项:点击率CTR、点击搜索引擎结果页面的时间、点击位置的平均倒数。备选地或者另外地,优选排名功能可以被用于响应于检测到优选排名功能超过测试期间的阈值,而对信息检索系统执行动作。备选地或者另外地,动作可以包括响应于查询,显示搜索引擎结果页面SERP。[0078]示例2[0079]该示例提供用于排名功能性能的离线评价的示例方法。示例方法可以包括接收生产日志数据。示例方法还可以包括预处理生产日志数据以生成探索数据集。示例方法还可以包括使用用于多个排名功能的探索数据集来执行在线度量的离线估计。示例方法还可以包括基于所估计的在线度量来比较多个排名功能以生成比较结果。示例方法还可以包括基于比较结果来标识一个或多个优选排名功能。示例方法还可以包括在测试过程期间利用优选排名功能生成查询结果。备选地或者另外地,示例方法可以包括近似地匹配探索数据集中的动作。备选地或者另外地,示例方法可以包括通过匹配针对每个动作的预定数目的较高排名的结果来近似地匹配探索数据集中的动作。备选地或者另外地,示例方法可以包括检测来自多个排名功能的第一排名功能是否具有在第二排名功能的相关性得分的预定范围内、高于预定范围或低于预定范围的相关性得分。备选地或者另外地,示例方法可以包括评价指示比较结果的确定性的水平的置信度得分并且利用相关联的比较结果显示置信度得分。备选地或者另外地,示例方法可以包括预处理生产日志数据,其包括使用结果多样性模拟随机化数据采集。备选地或者另外地,示例方法可以包括预处理生产日志数据,其包括按照查询、按照动作、按照动作的概率和按照奖励值来聚集生产日志数据。备选地或者另外地,示例方法可以包括在测试过程期间将优选排名功能发送到服务器。备选地或者另外地,示例方法可以包括在测试过程期间经由服务器对用户测试优选排名功能。备选地或者另外地,示例方法可以包括显示比较结果。备选地或者另外地,示例方法可以包括存储比较结果。备选地或者另外地,示例方法可以包括更新比较结果。[0080]示例3[0081]该示例提供用于存储计算机可读指令的一个或多个计算机可读存储介质,计算机可读指令当由一个或多个处理设备执行时指示排名功能性能的离线评价。计算机可读介质包括接收生产日志数据的指令。计算机可读介质还包括预处理生产日志数据以生成探索数据集的指令。计算机可读介质包括至少部分基于探索数据集和近似动作匹配过程来执行用于排名功能的在线度量的离线估计的指令。此外,计算机可读介质包括基于所估计的在线度量与基线排名功能度量的比较来检测排名功能是优选排名功能的指令。计算机可读介质还包括响应于检测到优选排名功能的质量超过测试过程期间的阈值而基于优选排名功能对信息检索系统执行动作的指令。备选地或者另外地,计算机可读介质可以包括计算优选排名功能与基线排名功能之间的差量度量得分的指令。备选地或者另外地,计算机可读介质可以包括检测差量度量得分指示优选排名功能具有比基线排名功能的在线度量更高的所估计的在线度量的指令。备选地或者另外地,计算机可读介质可以包括按照查询、按照动作、按照动作的概率和按照奖励值来聚集探索数据的指令。备选地或者另外地,计算机可读介质可以包括显示信息检索系统上执行动作的结果的指令。备选地或者另外地,计算机可读介质可以包括基于另一优选排名功能来更新结果的指令。备选地或者另外地,计算机可读介质可以包括存储信息检索系统上执行动作的结果的指令。[0082]上文已经描述了包括要求保护的主题的示例。当然,出于描述要求保护的主题的目的,描述部件或方法的每个可想到的组合是不可能的,但是本领域的普通技术人员可以认识到,所公开的主题的许多进一步的组合和排列是可能的。因此,要求保护的主题旨在包含落在所附权利要求的精神和范围内的所有这样的变更、修改和变型。[0083]特别地并且关于由上文所描述的部件、设备、电路、系统等所执行的各种功能,描述这样的部件使用的术语包括对“装置”的引用)旨在除非另外指示,否则对应于执行所描述的部件例如,功能等价的指定功能的任何部件,即使未在结构上等价于所公开的结构,其执行所要求保护的主题的在此所图示的示例性方面中的功能。在该方面中,还将认识到,本创新包括系统以及具有用于执行要求保护的主题的各种方法的动作和或事件的计算机可执行指令的计算机可读存储介质。[0084]存在实现要求保护的主题(例如,适当的API、工具箱、驱动器代码、操作系统、控制、独立或可下载的软件对象等的多个方式,其使得应用和服务能够使用在此所描述的技术。要求保护的主题从API或其他软件对象)的观点以及从根据在此所阐述的技术操作的软件或硬件对象而预期使用。因此,在此所描述的要求保护的主题的各种实现可以具有全部以硬件、部分以硬件并且部分以软件以及以软件的各个方面。[0085]已经关于数个部件之间的相互作用描述了前述系统。可以理解,这样的系统和部件可以包括那些部件或指定的子部件、指定部件或子部件中的一些部件、或附加部件,以及根据前述的置换和组合。子部件还可以被实现为通信地耦合到其他部件而不是被包括在分层的父部件内的部件。[0086]此外,可以注意到,一个或多个部件可以组合为提供总体功能性的单个部件或分为多个分离的子部件,并且任何一个或多个中间层诸如管理层可以被提供以通信地耦合到这样的子部件以便提供集成功能。在此所描述的任何部件还可以与在此未特别地描述但是一般地由本领域的技术人员已知的一个或多个其他部件。[0087]另外,虽然已经关于多个实现之一公开了要求保护的主题的特定特征,但是这样的特征可以与其他实现的一个或多个其他特征组合,如针对任何给定或特定应用可以期望并且有利的。此外,在术语“有”、“含有”、“具有”、“包含”和其变型和其他类似词语使用在该详细描述或者权利要求中的程度上,这些术语旨在在不排除任何附加或其他元素的情况下以与作为开放式过渡词的术语“包括”类似的方式中是包括性的。

权利要求:1.一种用于排名功能的离线评价的系统,包括:第一模块,其被配置为接收生产日志数据,所述第一模块用于预处理所述生产日志数据以生成探索数据集;第二模块,其被配置为使用所述探索数据集来执行用于排名功能的在线度量的离线估计;以及第三模块,其用于通过将所估计的所述在线度量与基线排名功能的基线度量集合相比较并且检测提议排名功能的所估计的所述在线度量超过、小于所述基线度量的预定范围或者在所述基线度量的所述预定范围内,来离线评价所述提议排名功能,其中所述离线评价用于减少要经由网络被测试的所述排名功能的数目。2.根据权利要求1所述的系统,其中所述第一模块被配置为:当生成所述探索数据集时,通过基于结果多样性模拟随机化数据采集来预处理所述生产日志数据。3.根据权利要求1所述的系统,其中所述第一模块被配置为:通过按照查询、按照动作、按照动作的概率和按照奖励值聚集所述生产日志数据,来预处理所述生产日志数据。4.根据权利要求1所述的系统,其中所述第二模块还被配置为:使用排名的近似动作匹配来估计在线度量。5.根据权利要求4所述的系统,其中近似动作匹配包括:比较针对由相应的排名功能生成的每个动作的预定数目的较高排名的结果。6.—种用于排名功能性能的离线评价的方法,所述方法包括:接收生产日志数据;预处理所述生产日志数据以生成探索数据集;使用针对多个排名功能的所述探索数据集来执行在线度量的离线估计;基于所估计的所述在线度量来比较所述多个排名功能以生成比较结果;基于所述比较结果来标识一个或多个优选排名功能;以及在测试过程期间利用所述优选排名功能来生成查询结果。7.根据权利要求6所述的方法,还包括:通过匹配针对每个动作的预定数目的较高排名的结果来近似地匹配所述探索数据集中的动作。8.根据权利要求6所述的方法,还包括:检测来自所述多个排名功能的第一排名功能是否具有相关性得分,所述相关性得分在第二排名功能的相关性得分的预定范围内、高于所述预定范围或者低于所述预定范围。9.根据权利要求6所述的方法,还包括:计算指示所述比较结果的确定性水平的置信度得分,并且利用相关联的比较结果来显示所述置信度得分。10.根据权利要求6所述的方法,预处理所述生产日志数据还包括:使用结果多样性来模拟随机化数据采集。11.根据权利要求1所述的系统,所述在线度量包括以下各项中的至少一项:点击率CTR、点击搜索引擎结果页面SERP的时间以及点击位置的平均倒数。12.根据权利要求1所述的系统,所述优选排名功能要被用于:响应于检测到所述优选排名功能的质量超过所述测试期间的阈值,对信息检索系统执行动作。13.根据权利要求12所述的系统,所述动作包括:响应于查询而显示搜索引擎结果页面SERP〇14.根据权利要求1所述的系统,包括:第四模块,其作为对所述提议排名功能的测试利用所述提议排名功能来生成查询结果;以及第五模块,其用于显示所生成的所述查询结果。15.根据权利要求6所述的方法,预处理所述生产日志数据还包括:按照查询、按照动作、按照动作的概率和按照奖励值聚集所述生产日志数据。

百度查询: 微软技术许可有限责任公司 排名功能的离线评价

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。