Skip to main content

Felo Research 基于 DeepResearch Bench 测试报告

· 阅读需 8 分钟
Felo Search
Operations

在 DeepResearch Bench 测试中,Felo Research 表现优于 Gemini 与 OpenAI 的 Deep Research Agent,Felo Research各项指标均接近 0.5,展现出均衡且无明显短板的实力。

一、背景概述

DeepResearch Bench 是一个面向 深度研究智能代理(Deep Research Agent) 的综合基准测试,旨在衡量 AI 系统在高强度研究任务中的表现。该基准包含以下特征:

  • 任务覆盖广泛:涵盖 100 个博士级研究任务,由领域专家设计,涵盖 22 个不同领域(如科技、金融、艺术、历史等)。
  • 构造严谨:任务根据真实用户深度检索的查询分布设计,确保贴近真实世界研究需求。
  • 双轮评估体系
    • RACE(Reference-based Adaptive Criteria-driven Evaluation):动态生成评估标准,对输出报告在 Comprehensiveness(全面性)Insight(洞察/深度)Instruction-Following(指令遵守性)Readability(可读性) 四个维度进行加权评分;
    • FACT(Framework for Factual Abundance and Citation Trustworthiness):更关注信息检索与引用的真实可靠性,评估 Citation Accuracy(引用准确率)和 Effective Citations(每任务有效引用数)。

整体而言,DeepResearch Bench 被广泛用于评估 AI 研究代理在研究深度、分析能力与写作质量等方面的表现。

二、Felo Search 测试结果

Felo Search 在 DeepResearch Bench 上的 RACE 维度得分如下,详细测试结果请见 Github

维度得分
Comprehensiveness(全面性)0.4748
Insight(洞察)0.497
Instruction Following(指令遵守)0.5089
Readability(可读性)0.4958
Overall Score(加权总分)0.4937

这些分数反映了 Felo Search 在各指标上接近 0.5 的水平,说明系统表现较为均衡,没有明显短板。

三、成绩解读与对比分析

参考 DeepResearch Bench 的官方排行榜数据:

ModelRACE OverallRACE Comp.RACE DepthRACE Inst.RACE Read.FACT C. Acc.FACT E. Cit.
Deep Research Agent       
Felo Research49.3747.4850.8949.749.58--
Gemini-2.5-Pro Deep Research48.9248.4548.349.2949.7778.3165.34
OpenAI Deep Research46.4546.4643.7349.3947.2275.0139.79
Claude-Researcher4545.3442.7947.5844.66--
Kimi-Researcher44.6444.9641.9747.1445.59--
Doubao-DeepResearch44.3444.8440.5647.9544.6952.8652.62
Perplexity-Research40.4639.135.6546.1143.0882.6331.2
Grok Deeper Search38.2236.0830.8946.5942.1773.088.58
LLM with Search Tools       
Perplexity-Sonar-Reasoning-Pro37.7634.9631.6544.9342.4245.199.39
Perplexity-Sonar-Reasoning37.7534.7332.5944.4242.3952.5813.37
Claude-3.7-Sonnet w/Search36.6335.9531.2944.0536.0787.3224.51
Perplexity-Sonar-Pro36.1933.9229.6943.3941.0779.7216.75
Gemini-2.5-Pro-Preview31.931.7524.6140.2432.76--
GPT-4o-Search-Preview30.7427.8120.4441.0137.686.635.05
Perplexity-Sonar30.6427.1421.6240.737.4676.4110.68
GPT-4.1 w/Search29.3125.5918.4240.6336.4989.854.27
Gemini-2.5-Flash-Preview29.1928.9721.6237.829.97--
GPT-4o-Mini-Search-Preview27.6224.2416.6238.5935.2781.694.62
GPT-4.1-Mini w/Search26.6222.8615.3938.1834.4984.544.1
Claude-3.5-Sonnet w/Search23.9521.2816.232.4129.8794.069.35

而 Felo Research 的 Overall Score = 49.37 分。这意味着:

  • Felo Research 的整体性能已经 超越当前榜首的 Gemini-2.5-Pro Deep Research(48.92),处于领先行列。
  • 明显领先于 OpenAI、Claude、Kimi、Doubao 等同类系统。
  • 远超普通搜索预览模式模型。

四、Felo Research 独特之处

1. 深度搜索与反思机制

  • 规划驱动搜索:在执行深度搜索前,Felo Research 会先生成清晰的 Plan,并针对每一步计划进行智能查询改写。这样能够在搜索过程中保证覆盖面广,同时在信息深度上更有针对性。
  • 反思与迭代:在获取初步结果后,系统会进行“反思”,自动识别检索结果与用户问题之间的差距(Gap)。一旦发现不足,便会重新调用 Web SearchPage Read 工具,进一步补充和完善信息。此机制有效避免了结果的片面性与遗漏。

2. 跨语言搜索能力

  • 自动识别知识源所在的语言社区:Felo Research 能够智能识别知识源主要所在的语言社区。
  • 跨语言查询改写:根据任务需要,系统会对查询进行跨语言改写,从而访问不同语言社区中的优质信息源。
  • 提升信息准确性与权威性:这种跨语言策略不仅扩展了信息覆盖面,同时显著增强了结果的可靠性与权威性。

五、总结

Felo Research 在 DeepResearch Bench 中取得 Overall Score = 0.4937(约 49.37/100),表现优异,并且在 RACE 各项维度上分布均衡、无明显短板。其中,指令遵守能力表现突出,同时在可读性与洞察力方面也保持稳定水平。

Felo Research 的优势主要源于其 独特的搜索策略:一方面,借助“规划驱动 + 反思迭代”机制,有效兼顾信息的广度与深度;另一方面,跨语言搜索能力突破了单一语言的限制,使其能够获取更权威且多元的知识源。上述机制共同提升了研究的全面性与准确性,从而支撑了 Felo Research 在同类研究型系统中的竞争优势。