跳到主要内容

重排序更新 - rerank-2.5 与 rerank-2.5-lite

· 阅读需 10 分钟
Knox Anderson
OpenRouter 核心团队
摘要

TL;DR – 我们很高兴推出 rerank-2.5 系列,它在 rerank-2 的表现基础上显著提升,并首次引入指令跟随能力。在我们涵盖多个领域的93个标准检索数据集上,rerank-2.5rerank-2.5-lite 比 Cohere Rerank v3.5 的检索准确率分别提高了7.94%和7.16%。此外,新的指令跟随功能允许用户通过自然语言引导模型输出的相关性分数。在 大规模指令检索基准 (MAIR) 上,rerank-2.5rerank-2.5-lite 分别以12.70%和10.36%的优势超越 Cohere Rerank v3.5,在我们内部评估数据集上也取得了类似的优势。两款模型现在支持32K token的上下文长度——是 Cohere Rerank v3.5 的8倍,也是 rerank-2 的两倍——使得更长的文档也能实现更精准的检索。

重排序器是复杂检索系统中的关键组件,通过优化初始搜索结果来提供更卓越的准确性。今天,我们很高兴宣布推出 rerank-2.5rerank-2.5-lite。两款模型在作为重排序器时的表现均优于大型语言模型——我们将在后续的博客文章中深入探讨这一话题。这些模型是我们更大的内部指令跟随模型通过改进的训练数据混合与先进的蒸馏技术所打造的成果。

rerank-2.5rerank-2.5-lite 现在都支持32K token的上下文长度,比 Cohere Rerank v3.5 提高了8倍。这让更长的文档无需截断即可进行重排序,且定价保持不变。

如需了解重排序器的基本介绍,请查看嵌入与重排序

指令跟随能力

rerank-2.5 系列的一个关键特性是其指令跟随能力。这让用户可以通过在查询旁提供明确的指令,动态引导重排序过程。这些指令可以定义用户对相关性的理解,或指定待检索文档的期望特征。利用新的指令跟随功能非常简单,用户只需在查询前后添加自然语言指令即可。模型被设计为能够理解这些指令,并相应调整输出的相关性分数。

指令示例 指令可以包括但不限于以下示例:

  • 强调查询组成部分: 指定文档的哪些部分最为重要。例如,在一个搜索学术论文的应用中,可以设置指令“优先考虑标题而忽略摘要”,以始终基于标题呈现最相关的研究。
  • 定义文档类型: 引导重排序器检索特定类型的文档(例如,对于查询“AI的法律影响”,指令可以是“检索法规文件和法律法规,而非案例”)。例如,一个法律研究工具可以配置指令“检索法规文件和法律法规,而非案例”,以确保所有查询都优先考虑成文法而非判例法。
  • 通过上下文消除查询歧义: 提供补充信息以澄清模糊查询。例如,指令可以是“这是一个关于汽车的电商应用”,以便将“Jaguar”一词解释为汽车品牌而非动物。

具体的指令示例以及指令对搜索结果的影响可在附录A中查看。

指令跟随带来的准确性提升。 指令跟随功能在用户意图较为复杂的搜索/检索任务中尤其有用。为证明这一点,我们构建了一套内部评估数据集,包含7个领域(网络、技术、法律、金融、对话、医疗和代码)的24个领域特定指令跟随数据集。在领域特定数据上,利用指令时,rerank-2.5rerank-2.5-lite 的准确性平均分别提高了8.13%和7.55%。

评估详情

数据集。 对于无指令跟随的标准结果,我们在9个领域进行了评估:技术文档、代码、法律、金融、网络评论、多语言、长文档、医疗和对话。多语言领域包含来自31种语言的51个数据集。各领域和语言的详细信息可在rerank-2发布博客中找到。

为评估指令跟随能力,我们使用了一套内部领域特定及现实世界的指令跟随数据集(详见前一节)以及 MAIR(大规模指令检索)基准,这是一个学术基准,包含网络、法律和生物医学搜索等领域中特定任务的指令。

方法与指标。 我们在四种一级搜索方法之上评估各重排序器的检索质量:(1)基于BM25的词法搜索,(2)OpenAI v3 large (text-embedding-3-large),(3)voyage-3-large,以及(4)voyage-3.5。对于每个查询,一级方法最多检索100个候选文档。然后重排序器对这些文档重新排序,我们取前10个结果。我们报告归一化折损累积增益(NDCG@10),这是检索质量的标准指标。

基线: 我们将我们的模型与 rerank-2-litererank-2、Cohere Rerank 3.5 和 Qwen3-Reranker-8B 进行比较。

结果

rerank-2.5rerank-2.5-lite 共同设定了新的成本效益前沿。具体来说,rerank-2.5 在每token相同价格下比 rerank-2 高出1.85%,而 rerank-2.5-lite 在每token相同价格下比 rerank-2-lite 高出3.40%。此外,rerank-2.5-lite 的表现优于最佳开源重排序器 Qwen3-Reranker-8B,尽管其模型大小小了超过一个数量级。

现实世界的指令跟随。 除了24个领域特定的指令跟随数据集外,我们还从现实应用中整理了3个指令跟随数据集。在这些数据集上的评估显示,利用指令时,rerank-2.5rerank-2.5-lite 的准确性平均分别提高了11.48%和7.83%。

无指令跟随的结果。 下面的第一个条形图展示了每个重排序器在9个领域无指令跟随评估中的平均准确性。无论使用哪种一级检索方法,rerank-2.5rerank-2.5-lite 始终是最佳表现的重排序器。而 Cohere Rerank v3.5 则不然,当应用于 voyage-3-large(最强大的一级检索方法)之上时,反而降低了检索质量。具体来说:

  • 在四种一级检索方法的平均下,rerank-2.5 分别比 Cohere Rerank v3.5、Qwen3-Reranker-8B 和 rerank-2 高出7.94%、2.25%和1.85%。
  • rerank-2.5-lite 虽然针对延迟进行了优化,但仍分别比 Cohere Rerank v3.5、Qwen3 Reranker 8B 和 rerank-2 高出7.16%、1.47%和1.08%。
  • rerank-2.5rerank-2.5-lite 在所有一级检索结果之上均提供了显著的质量提升。

下面的条形图展示了不同语言下的NDCG@10。无论使用哪种语言和一级检索方法,rerank-2.5rerank-2.5-lite 都一致提高了性能。具体来说:

  • 在四种一级检索方法的平均下,rerank-2.5 分别比 Cohere Rerank v3.5、Qwen3-Reranker-8B 和 rerank-2 高出3.26%、2.34%和1.35%。
  • 同样,rerank-2.5-lite 分别比 Cohere Rerank v3.5、Qwen3-Reranker-8B 和 rerank-2-lite 高出1.93%、1.01%和2.70%。

使用BM25、voyage-3-largevoyage-3.5 作为一级检索方法的领域特定和多语言详细结果可在附录B中找到。

MAIR基准。 下图展示了 rerank-2.5rerank-2.5-lite 在MAIR基准上取得的准确性提升。rerank-2.5rerank-2.5-lite 在所有一级搜索结果之上均持续改进。具体来说:

  • 在四种一级检索方法的评估下,rerank-2.5 平均比 Cohere Rerank v3.5 和 rerank-2 高出12.70%和4.90%。
  • 在四种一级检索方法的评估下,rerank-2.5-lite 平均比 Cohere Rerank v3.5 和 rerank-2 高出10.36%和2.57%。

详细结果。 所有评估的数值结果可在此电子表格中查看。

立即尝试 rerank-2.5 和 rerank-2.5-lite!

rerank-2.5rerank-2.5-lite 现已提供灵活的按token计费方案。对现有的 rerank-2rerank-2-lite 用户,我们建议分别升级至 rerank-2.5rerank-2.5-lite。此升级可在相同成本下提供更优质量和双倍上下文长度。对于不希望升级至 rerank-2.5 的现有用户,我们将继续提供 rerank-2 系列。

附录A – 指令跟随示例

查询与指令模型结果(Top-1文档)
查询: 谁患手足口病的风险最高? 指令: 关注与年龄相关的风险因素以及最常见的年龄段。rerank-2(无指令): 儿童患此病的风险最高。 rerank-2.5(带指令): 最重要的风险因素是年龄。感染最常见于10岁以下儿童,但也可见于青少年和偶尔的成年人。暴发最常见于夏季和初秋。
查询: “解锁我的设备”是什么意思? 指令: 我是一名国际商务人士,需要解锁我的工作手机以用于多家运营商。我的搜索应优先考虑解锁雇主提供的设备的影响,重点关注遵守公司的BYOD政策以及对全球连接性的影响。rerank-2(无指令): “解锁我的设备”一词通常指使移动电话或平板电脑能在不同服务提供商的网络上工作……这就像拥有一把钥匙来开启你对提供商的选择。 rerank-2.5(带指令): 获取对最初为特定电信公司配置的手机上其他网络服务的访问权限……对于跨境进行商业交易的专业人士,此过程允许无缝切换到本地服务提供商,确保持续连接到企业网络和客户,前提是这不违反任何既定协议……
查询: 为什么不同网站上的股票历史价格不同?我应该相信哪一个? 指令: 解释在不同金融网站上收集和调和历史股价数据的过程与挑战。rerank-2(无指令): 我仍然不明白为什么存在价格差异。实际上并没有。这是同一只股票,而且这类主要交易所之间的价格差异总是微乎其微的…… rerank-2.5(带指令): 免费网站上出现不完整/不准确财务数据的原因是,获取和解析这些数据既复杂又昂贵。即使在一个国家内,不同的财务数据也由不同的机构处理……有些公司(例如彭博)的整个商业模式就是做上述工作……

附录B – 领域特定与多语言结果图表

下图分别展示了使用BM25、voyage-3-largevoyage-3.5 作为一级检索方法时,在领域特定数据集上无指令的结果:

下图分别展示了使用BM25、voyage-3-largevoyage-3.5 作为一级检索方法时,在多语言数据集上的结果: