Felo Research 基於 DeepResearch Bench 測試報告
在 DeepResearch Bench 測試中,Felo Research 表現優於 Gemini 與 OpenAI 的 Deep Research Agent,Felo Research 各項指標均接近 0.5,展現出均衡且無明顯短板的實力。
一、背景概述
DeepResearch Bench 是一個面向 深度研究智慧代理(Deep Research Agent) 的綜合基準測試,旨在衡量 AI 系統在高強度研究任務中的表現。該基準包含以下特徵:
- 任務覆蓋廣泛:涵蓋 100 個博士級研究任務,由領域專家設計,涵蓋 22 個不同領域(如科技、金融、藝術、歷史等)。
- 結構嚴謹:任務根據真實使用者深度檢索的查詢分佈設計,確保貼近真實世界研究需求。
- 雙輪評估體系:- RACE(Reference-based Adaptive Criteria-driven Evaluation):動態生成評估標準,對輸出報告在 Comprehensiveness(全面性)、Insight(洞察/深度)、Instruction-Following(指令遵守性) 和 Readability(可讀性) 四個維度進行加權評分;
- FACT(Framework for Factual Abundance and Citation Trustworthiness):更關注資訊檢索與引用的真實可靠性,評估 Citation Accuracy(引用準確率)和 Effective Citations(每任務有效引用數)。
整體而言,DeepResearch Bench 被廣泛用於評估 AI 研究代理在研究深度、分析能力與寫作品質等方面的表現。
二、Felo Search 測試結果
Felo Search 在 DeepResearch Bench 上的 RACE 維度得分如下,詳細測試結果請見 Github:
维度 | 得分 |
---|---|
Comprehensiveness(全面性) | 0.4748 |
Insight(洞察) | 0.497 |
Instruction Following(指令遵守) | 0.5089 |
Readability(可讀性) | 0.4958 |
Overall Score(加權总分) | 0.4937 |
這些分數反映了 Felo Search 在各指標上接近 0.5 的水準,說明系統表現較為均衡,沒有明顯短板。
三、成績解讀與對比分析
參考 DeepResearch Bench 的官方排行榜數據:
Model | RACE Overall | RACE Comp. | RACE Depth | RACE Inst. | RACE Read. | FACT C. Acc. | FACT E. Cit. |
---|---|---|---|---|---|---|---|
Deep Research Agent | |||||||
Felo Research | 49.37 | 47.48 | 50.89 | 49.7 | 49.58 | - | - |
Gemini-2.5-Pro Deep Research | 48.92 | 48.45 | 48.3 | 49.29 | 49.77 | 78.3 | 165.34 |
OpenAI Deep Research | 46.45 | 46.46 | 43.73 | 49.39 | 47.22 | 75.01 | 39.79 |
Claude-Researcher | 45 | 45.34 | 42.79 | 47.58 | 44.66 | - | - |
Kimi-Researcher | 44.64 | 44.96 | 41.97 | 47.14 | 45.59 | - | - |
Doubao-DeepResearch | 44.34 | 44.84 | 40.56 | 47.95 | 44.69 | 52.86 | 52.62 |
Perplexity-Research | 40.46 | 39.1 | 35.65 | 46.11 | 43.08 | 82.63 | 31.2 |
Grok Deeper Search | 38.22 | 36.08 | 30.89 | 46.59 | 42.17 | 73.08 | 8.58 |
LLM with Search Tools | |||||||
Perplexity-Sonar-Reasoning-Pro | 37.76 | 34.96 | 31.65 | 44.93 | 42.42 | 45.19 | 9.39 |
Perplexity-Sonar-Reasoning | 37.75 | 34.73 | 32.59 | 44.42 | 42.39 | 52.58 | 13.37 |
Claude-3.7-Sonnet w/Search | 36.63 | 35.95 | 31.29 | 44.05 | 36.07 | 87.32 | 24.51 |
Perplexity-Sonar-Pro | 36.19 | 33.92 | 29.69 | 43.39 | 41.07 | 79.72 | 16.75 |
Gemini-2.5-Pro-Preview | 31.9 | 31.75 | 24.61 | 40.24 | 32.76 | - | - |
GPT-4o-Search-Preview | 30.74 | 27.81 | 20.44 | 41.01 | 37.6 | 86.63 | 5.05 |
Perplexity-Sonar | 30.64 | 27.14 | 21.62 | 40.7 | 37.46 | 76.41 | 10.68 |
GPT-4.1 w/Search | 29.31 | 25.59 | 18.42 | 40.63 | 36.49 | 89.85 | 4.27 |
Gemini-2.5-Flash-Preview | 29.19 | 28.97 | 21.62 | 37.8 | 29.97 | - | - |
GPT-4o-Mini-Search-Preview | 27.62 | 24.24 | 16.62 | 38.59 | 35.27 | 81.69 | 4.62 |
GPT-4.1-Mini w/Search | 26.62 | 22.86 | 15.39 | 38.18 | 34.49 | 84.54 | 4.1 |
Claude-3.5-Sonnet w/Search | 23.95 | 21.28 | 16.2 | 32.41 | 29.87 | 94.06 | 9.35 |
而 Felo Research 的 Overall Score = 49.37 分。這意味著:
- Felo Research 的整體效能已經 超越當前榜首的 Gemini-2.5-Pro Deep Research(48.92),處於領先行列。
- 明顯領先於 OpenAI、Claude、Kimi、Doubao 等同類系統。
- 遠超一般搜尋預覽模式模型。
四、Felo Research 獨特之處
1. 深度搜尋與反思機制
- 規劃驅動搜尋:在執行深度搜尋前,Felo Research 會先生成清晰的 Plan,並針對每一步計劃進行智慧查詢改寫。這樣能夠在搜尋過程中保證覆蓋面廣,同時在資訊深度上更有針對性。
- 反思與迭代:在獲取初步結果後,系統會進行「反思」,自動識別檢索結果與使用者問題之間的差距(Gap)。一旦發現不足,便會重新調用 Web Search 與 Page Read 工具,進一步補充和完善資訊。此機制有效避免了結果的片面性與遺漏。
2. 跨語言搜尋能力
- 自動識別知識源所在的語言社群:Felo Research 能夠智慧識別知識源主要所在的語言社群。
- 跨語言查詢改寫:根據任務需要,系統會對查詢進行跨語言改寫,從而存取不同語言社群中的優質資訊源。
- 提升資訊準確性與權威性:這種跨語言策略不僅擴展了資訊覆蓋面,同時顯著增強了結果的可靠性與權威性。
五、總結
Felo Research 在 DeepResearch Bench 中取得 Overall Score = 0.4937(約 49.37/100),表現優異,並且在 RACE 各項維度上分布均衡、無明顯短板。其中,指令遵守能力表現突出,同時在可讀性與洞察力方面也保持穩定水準。
Felo Research 的優勢主要源於其 獨特的搜尋策略:一方面,藉助「規劃驅動 + 反思迭代」機制,有效兼顧資訊的廣度與深度;另一方面,跨語言搜尋能力突破了單一語言的限制,使其能夠獲取更權威且多元的知識來源。上述機制共同提升了研究的全面性與準確性,從而支撐了 Felo Research 在同類研究型系統中的競爭優勢。