Felo Research 基于 DeepResearch Bench 测试报告
在 DeepResearch Bench 测试中,Felo Research 表现优于 Gemini 与 OpenAI 的 Deep Research Agent,Felo Research各项指标均接近 0.5,展现出均衡且无明显短板的实力。
一、背景概述
DeepResearch Bench 是一个面向 深度研究智能代理(Deep Research Agent) 的综合基准测试,旨在衡量 AI 系统在高强度研究任务中的表现。该基准包含以下特征:
- 任务覆盖广泛:涵盖 100 个博士级研究任务,由领域专家设计,涵盖 22 个不同领域(如科技、金融、艺术、历史等)。
- 构造严谨:任务根据真实用户深度检索的查询分布设计,确保贴近真实世界研究需求。
- 双轮评估体系:
- RACE(Reference-based Adaptive Criteria-driven Evaluation):动态生成评估标准,对输出报告在 Comprehensiveness(全面性)、Insight(洞察/深度)、Instruction-Following(指令遵守性) 和 Readability(可读性) 四个维度进行加权评分;
- FACT(Framework for Factual Abundance and Citation Trustworthiness):更关注信息检索与引用的真实可靠性,评估 Citation Accuracy(引用准确率)和 Effective Citations(每任务有效引用数)。
整体而言,DeepResearch Bench 被广泛用于评估 AI 研究代理在研究深度、分析能力与写作质量等方面的表现。
二、Felo Search 测试结果
Felo Search 在 DeepResearch Bench 上的 RACE 维度得分如下,详细测试结果请见 Github:
维度 | 得分 |
---|---|
Comprehensiveness(全面性) | 0.4748 |
Insight(洞察) | 0.497 |
Instruction Following(指令遵守) | 0.5089 |
Readability(可读性) | 0.4958 |
Overall Score(加权总分) | 0.4937 |
这些分数反映了 Felo Search 在各指标上接近 0.5 的水平,说明系统表现较为均衡,没有明显短板。
三、成绩解读与对比分析
参考 DeepResearch Bench 的官方排行榜数据:
Model | RACE Overall | RACE Comp. | RACE Depth | RACE Inst. | RACE Read. | FACT C. Acc. | FACT E. Cit. |
---|---|---|---|---|---|---|---|
Deep Research Agent | |||||||
Felo Research | 49.37 | 47.48 | 50.89 | 49.7 | 49.58 | - | - |
Gemini-2.5-Pro Deep Research | 48.92 | 48.45 | 48.3 | 49.29 | 49.77 | 78.3 | 165.34 |
OpenAI Deep Research | 46.45 | 46.46 | 43.73 | 49.39 | 47.22 | 75.01 | 39.79 |
Claude-Researcher | 45 | 45.34 | 42.79 | 47.58 | 44.66 | - | - |
Kimi-Researcher | 44.64 | 44.96 | 41.97 | 47.14 | 45.59 | - | - |
Doubao-DeepResearch | 44.34 | 44.84 | 40.56 | 47.95 | 44.69 | 52.86 | 52.62 |
Perplexity-Research | 40.46 | 39.1 | 35.65 | 46.11 | 43.08 | 82.63 | 31.2 |
Grok Deeper Search | 38.22 | 36.08 | 30.89 | 46.59 | 42.17 | 73.08 | 8.58 |
LLM with Search Tools | |||||||
Perplexity-Sonar-Reasoning-Pro | 37.76 | 34.96 | 31.65 | 44.93 | 42.42 | 45.19 | 9.39 |
Perplexity-Sonar-Reasoning | 37.75 | 34.73 | 32.59 | 44.42 | 42.39 | 52.58 | 13.37 |
Claude-3.7-Sonnet w/Search | 36.63 | 35.95 | 31.29 | 44.05 | 36.07 | 87.32 | 24.51 |
Perplexity-Sonar-Pro | 36.19 | 33.92 | 29.69 | 43.39 | 41.07 | 79.72 | 16.75 |
Gemini-2.5-Pro-Preview | 31.9 | 31.75 | 24.61 | 40.24 | 32.76 | - | - |
GPT-4o-Search-Preview | 30.74 | 27.81 | 20.44 | 41.01 | 37.6 | 86.63 | 5.05 |
Perplexity-Sonar | 30.64 | 27.14 | 21.62 | 40.7 | 37.46 | 76.41 | 10.68 |
GPT-4.1 w/Search | 29.31 | 25.59 | 18.42 | 40.63 | 36.49 | 89.85 | 4.27 |
Gemini-2.5-Flash-Preview | 29.19 | 28.97 | 21.62 | 37.8 | 29.97 | - | - |
GPT-4o-Mini-Search-Preview | 27.62 | 24.24 | 16.62 | 38.59 | 35.27 | 81.69 | 4.62 |
GPT-4.1-Mini w/Search | 26.62 | 22.86 | 15.39 | 38.18 | 34.49 | 84.54 | 4.1 |
Claude-3.5-Sonnet w/Search | 23.95 | 21.28 | 16.2 | 32.41 | 29.87 | 94.06 | 9.35 |
而 Felo Research 的 Overall Score = 49.37 分。这意味着:
- Felo Research 的整体性能已经 超越当前榜首的 Gemini-2.5-Pro Deep Research(48.92),处于领先行列。
- 明显领先于 OpenAI、Claude、Kimi、Doubao 等同类系统。
- 远超普通搜索预览模式模型。
四、Felo Research 独特之处
1. 深度搜索与反思机制
- 规划驱动搜索:在执行深度搜索前,Felo Research 会先生成清晰的 Plan,并针对每一步计划进行智能查询改写。这样能够在搜索过程中保证覆盖面广,同时在信息深度上更有针对性。
- 反思与迭代:在获取初步结果后,系统会进行“反思”,自动识别检索结果与用户问题之间的差距(Gap)。一旦发现不足,便会重新调用 Web Search 与 Page Read 工具,进一步补充和完善信息。此机制有效避免了结果的片面性与遗漏。
2. 跨语言搜索能力
- 自动识别知识源所在的语言社区:Felo Research 能够智能识别知识源主要所在的语言社区。
- 跨语言查询改写:根据任务需要,系统会对查询进行跨语言改写,从而访问不同语言社区中的优质信息源。
- 提升信息准确性与权威性:这种跨语言策略不仅扩展了信息覆盖面,同时显著增强了结果的可靠性与权威性。
五、总结
Felo Research 在 DeepResearch Bench 中取得 Overall Score = 0.4937(约 49.37/100),表现优异,并且在 RACE 各项维度上分布均衡、无明显短板。其中,指令遵守能力表现突出,同时在可读性与洞察力方面也保持稳定水平。
Felo Research 的优势主要源于其 独特的搜索策略:一方面,借助“规划驱动 + 反思迭代”机制,有效兼顾信息的广度与深度;另一方面,跨语言搜索能力突破了单一语言的限制,使其能够获取更权威且多元的知识源。上述机制共同提升了研究的全面性与准确性,从而支撑了 Felo Research 在同类研究型系统中的竞争优势。