Skip to main content

Felo Research 基於 DeepResearch Bench 測試報告

· 閱讀時間約 8 分鐘
Felo Search
Operations

在 DeepResearch Bench 測試中,Felo Research 表現優於 Gemini 與 OpenAI 的 Deep Research Agent,Felo Research 各項指標均接近 0.5,展現出均衡且無明顯短板的實力。

一、背景概述

DeepResearch Bench 是一個面向 深度研究智慧代理(Deep Research Agent) 的綜合基準測試,旨在衡量 AI 系統在高強度研究任務中的表現。該基準包含以下特徵:

  • 任務覆蓋廣泛:涵蓋 100 個博士級研究任務,由領域專家設計,涵蓋 22 個不同領域(如科技、金融、藝術、歷史等)。
  • 結構嚴謹:任務根據真實使用者深度檢索的查詢分佈設計,確保貼近真實世界研究需求。
  • 雙輪評估體系:- RACE(Reference-based Adaptive Criteria-driven Evaluation):動態生成評估標準,對輸出報告在 Comprehensiveness(全面性)Insight(洞察/深度)Instruction-Following(指令遵守性)Readability(可讀性) 四個維度進行加權評分;
    • FACT(Framework for Factual Abundance and Citation Trustworthiness):更關注資訊檢索與引用的真實可靠性,評估 Citation Accuracy(引用準確率)和 Effective Citations(每任務有效引用數)。

整體而言,DeepResearch Bench 被廣泛用於評估 AI 研究代理在研究深度、分析能力與寫作品質等方面的表現。

二、Felo Search 測試結果

Felo Search 在 DeepResearch Bench 上的 RACE 維度得分如下,詳細測試結果請見 Github

维度得分
Comprehensiveness(全面性)0.4748
Insight(洞察)0.497
Instruction Following(指令遵守)0.5089
Readability(可讀性0.4958
Overall Score(加權总分)0.4937

這些分數反映了 Felo Search 在各指標上接近 0.5 的水準,說明系統表現較為均衡,沒有明顯短板。

三、成績解讀與對比分析

參考 DeepResearch Bench 的官方排行榜數據:

ModelRACE OverallRACE Comp.RACE DepthRACE Inst.RACE Read.FACT C. Acc.FACT E. Cit.
Deep Research Agent       
Felo Research49.3747.4850.8949.749.58--
Gemini-2.5-Pro Deep Research48.9248.4548.349.2949.7778.3165.34
OpenAI Deep Research46.4546.4643.7349.3947.2275.0139.79
Claude-Researcher4545.3442.7947.5844.66--
Kimi-Researcher44.6444.9641.9747.1445.59--
Doubao-DeepResearch44.3444.8440.5647.9544.6952.8652.62
Perplexity-Research40.4639.135.6546.1143.0882.6331.2
Grok Deeper Search38.2236.0830.8946.5942.1773.088.58
LLM with Search Tools       
Perplexity-Sonar-Reasoning-Pro37.7634.9631.6544.9342.4245.199.39
Perplexity-Sonar-Reasoning37.7534.7332.5944.4242.3952.5813.37
Claude-3.7-Sonnet w/Search36.6335.9531.2944.0536.0787.3224.51
Perplexity-Sonar-Pro36.1933.9229.6943.3941.0779.7216.75
Gemini-2.5-Pro-Preview31.931.7524.6140.2432.76--
GPT-4o-Search-Preview30.7427.8120.4441.0137.686.635.05
Perplexity-Sonar30.6427.1421.6240.737.4676.4110.68
GPT-4.1 w/Search29.3125.5918.4240.6336.4989.854.27
Gemini-2.5-Flash-Preview29.1928.9721.6237.829.97--
GPT-4o-Mini-Search-Preview27.6224.2416.6238.5935.2781.694.62
GPT-4.1-Mini w/Search26.6222.8615.3938.1834.4984.544.1
Claude-3.5-Sonnet w/Search23.9521.2816.232.4129.8794.069.35

而 Felo Research 的 Overall Score = 49.37 分。這意味著:

  • Felo Research 的整體效能已經 超越當前榜首的 Gemini-2.5-Pro Deep Research(48.92),處於領先行列。
  • 明顯領先於 OpenAI、Claude、Kimi、Doubao 等同類系統。
  • 遠超一般搜尋預覽模式模型。

四、Felo Research 獨特之處

1. 深度搜尋與反思機制

  • 規劃驅動搜尋:在執行深度搜尋前,Felo Research 會先生成清晰的 Plan,並針對每一步計劃進行智慧查詢改寫。這樣能夠在搜尋過程中保證覆蓋面廣,同時在資訊深度上更有針對性。
  • 反思與迭代:在獲取初步結果後,系統會進行「反思」,自動識別檢索結果與使用者問題之間的差距(Gap)。一旦發現不足,便會重新調用 Web SearchPage Read 工具,進一步補充和完善資訊。此機制有效避免了結果的片面性與遺漏。

2. 跨語言搜尋能力

  • 自動識別知識源所在的語言社群:Felo Research 能夠智慧識別知識源主要所在的語言社群。
  • 跨語言查詢改寫:根據任務需要,系統會對查詢進行跨語言改寫,從而存取不同語言社群中的優質資訊源。
  • 提升資訊準確性與權威性:這種跨語言策略不僅擴展了資訊覆蓋面,同時顯著增強了結果的可靠性與權威性。

五、總結

Felo Research 在 DeepResearch Bench 中取得 Overall Score = 0.4937(約 49.37/100),表現優異,並且在 RACE 各項維度上分布均衡、無明顯短板。其中,指令遵守能力表現突出,同時在可讀性與洞察力方面也保持穩定水準。

Felo Research 的優勢主要源於其 獨特的搜尋策略:一方面,藉助「規劃驅動 + 反思迭代」機制,有效兼顧資訊的廣度與深度;另一方面,跨語言搜尋能力突破了單一語言的限制,使其能夠獲取更權威且多元的知識來源。上述機制共同提升了研究的全面性與準確性,從而支撐了 Felo Research 在同類研究型系統中的競爭優勢。