Felo Research ― DeepResearch Bench テスト報告
DeepResearch Bench テストにおいて、Felo Research は Gemini および OpenAI の Deep Research Agent を上回る成果を示しました。各評価指標はいずれも 0.5 前後に位置しており、バランスの取れた性能を発揮し、顕著な弱点は認められません。
一、背景概要
DeepResearch Bench は、ディープリサーチエージェント(Deep Research Agent) を対象とする総合的ベンチマークであり、AI システムが高強度の研究課題においていかなる性能を発揮するかを測定することを目的としています。本ベンチマークは以下の特徴を備えています。
-
課題の広範なカバレッジ:
博士課程レベルに相当する 100 の研究タスクを収録。専門分野のエキスパートによって設計され、科学技術・金融・芸術・歴史など 22 分野を網羅しています。
-
精緻な設計:
実際のユーザーによる深層的な情報検索の分布に基づいて課題が構築されており、現実的な研究需要に即した設計となっています。
-
二重評価体系:
-
RACE (Reference-based Adaptive Criteria-driven Evaluation)
動的に生成される評価基準を用い、出力レポートを
- Comprehensiveness(網羅性)、
- Insight(洞察・深度)、
- Instruction-Following(指示遵守性)、
- Readability(可読性) の 4 つの次元で加重スコア化します。
-
FACT (Framework for Factual Abundance and Citation Trustworthiness)
情報検索および引用の正確性・信頼性に重点を置き、Citation Accuracy(引用正確率)と Effective Citations(有効引用数)を評価します。
-
総じて、DeepResearch Bench は AI 研究エージェントの研究深度、分析力、文章生成品質を評価する基準として広く活用されています。
二、Felo Search のテスト結果
Felo Search の RACE における評価結果は以下の通りです。詳細については GitHub をご参照ください。
評価次元 | スコア |
---|---|
Comprehensiveness(網羅性) | 0.4748 |
Insight(洞察力) | 0.497 |
Instruction Following(指示遵守性) | 0.5089 |
Readability(可読性) | 0.4958 |
Overall Score(加重総合スコア) | 0.4937 |
これらの結果から、Felo Search は各指標で ほぼ 0.5 前後の均衡した水準を示しており、突出した欠点は見られません。
三、成績解釈と比較分析
Model | RACE Overall | RACE Comp. | RACE Depth | RACE Inst. | RACE Read. | FACT C. Acc. | FACT E. Cit. |
---|---|---|---|---|---|---|---|
Deep Research Agent | |||||||
Felo Research | 49.37 | 47.48 | 50.89 | 49.7 | 49.58 | - | - |
Gemini-2.5-Pro Deep Research | 48.92 | 48.45 | 48.3 | 49.29 | 49.77 | 78.3 | 165.34 |
OpenAI Deep Research | 46.45 | 46.46 | 43.73 | 49.39 | 47.22 | 75.01 | 39.79 |
Claude-Researcher | 45 | 45.34 | 42.79 | 47.58 | 44.66 | - | - |
Kimi-Researcher | 44.64 | 44.96 | 41.97 | 47.14 | 45.59 | - | - |
Doubao-DeepResearch | 44.34 | 44.84 | 40.56 | 47.95 | 44.69 | 52.86 | 52.62 |
Perplexity-Research | 40.46 | 39.1 | 35.65 | 46.11 | 43.08 | 82.63 | 31.2 |
Grok Deeper Search | 38.22 | 36.08 | 30.89 | 46.59 | 42.17 | 73.08 | 8.58 |
LLM with Search Tools | |||||||
Perplexity-Sonar-Reasoning-Pro | 37.76 | 34.96 | 31.65 | 44.93 | 42.42 | 45.19 | 9.39 |
Perplexity-Sonar-Reasoning | 37.75 | 34.73 | 32.59 | 44.42 | 42.39 | 52.58 | 13.37 |
Claude-3.7-Sonnet w/Search | 36.63 | 35.95 | 31.29 | 44.05 | 36.07 | 87.32 | 24.51 |
Perplexity-Sonar-Pro | 36.19 | 33.92 | 29.69 | 43.39 | 41.07 | 79.72 | 16.75 |
Gemini-2.5-Pro-Preview | 31.9 | 31.75 | 24.61 | 40.24 | 32.76 | - | - |
GPT-4o-Search-Preview | 30.74 | 27.81 | 20.44 | 41.01 | 37.6 | 86.63 | 5.05 |
Perplexity-Sonar | 30.64 | 27.14 | 21.62 | 40.7 | 37.46 | 76.41 | 10.68 |
GPT-4.1 w/Search | 29.31 | 25.59 | 18.42 | 40.63 | 36.49 | 89.85 | 4.27 |
Gemini-2.5-Flash-Preview | 29.19 | 28.97 | 21.62 | 37.8 | 29.97 | - | - |
GPT-4o-Mini-Search-Preview | 27.62 | 24.24 | 16.62 | 38.59 | 35.27 | 81.69 | 4.62 |
GPT-4.1-Mini w/Search | 26.62 | 22.86 | 15.39 | 38.18 | 34.49 | 84.54 | 4.1 |
Claude-3.5-Sonnet w/Search | 23.95 | 21.28 | 16.2 | 32.41 | 29.87 | 94.06 | 9.35 |
DeepResearch Bench 公式リーダーボードデータによれば、Felo Research の Overall Score = 49.37 は次の事実を示しています:
- Gemini-2.5-Pro Deep Research (48.92) を上回り、現在首位に位置している。
- OpenAI、Claude、Kimi、Doubao 等の同類研究モデルを明確に凌駕。
- 一般的な「検索付プレビュー型モデル」とは一線を画す性能を発揮。
四、Felo Research の独自性
1. 深層検索と内省メカニズム
-
計画駆動型検索:
事前に明確な計画(Plan)を立案し、それぞれのステップに応じたクエリ改写を実施。これにより、広範な情報網羅と対象領域の深度確保を両立。
-
反省と反復:
初期結果を得た後に自己点検(リフレクション)を行い、ユーザー課題とのギャップを自動的に識別。不足があれば Web Search や Page Read を再度実行し、情報を補完。これにより片面的・不十分な結論を回避。
2. 多言語横断検索能力
-
知識源コミュニティの言語判定:
情報が主に存在する言語コミュニティを自動で識別。
-
多言語クエリ変換:
必要に応じて検索クエリを他言語に書き換え、異なる言語コミュニティの高品質ソースにアクセス。
-
正確性と権威性の向上:
この多言語戦略により、情報網羅性が広がり、信頼性・権威性の双方が大きく向上。
五、総括
Felo Research は DeepResearch Bench において Overall Score = 0.4937(≒49.37/100) を達成し、優秀な成績を収めました。RACE 各次元のスコアも均衡しており、弱点はなく、特に 指示遵守性 が際立ち、可読性や洞察力においても安定した水準を維持しています。
その強みは、
- 計画駆動型+反省反復 という検索戦略で、情報の「広さ」と「深さ」をバランス良く確保。
- 多言語検索能力 により、単一言語の制約を超え、より権威的で多元的なソースへのアクセスを可能にしたこと。
これらの仕組みが総合的な網羅性・正確性を底上げし、Felo Research を同類研究型システムの中で際立たせる競争優位性につながっています。