AI Search Engine 模糊问题评测报告 (v1.3)

September 30, 2024 · 阅读需 4 分钟

Committed to answers at your fingertips

本文评测了多款AI搜索引擎在处理"模糊问题查询"方面的表现。Felo AI以80%的准确率表现最佳,Perplexity Pro次之。文章分析了各产品的优劣势,并提供了具体案例说明。评测数据和结果已开源,为AI搜索引擎的发展提供了有价值的参考

一、结论

在现代信息爆炸的时代，随着用户问题复杂度的增加，AI Search系统的表现差异也愈加明显。尤其是当我们面对软件配置、多种数据源、网上找不到的信息、或者日期相关的问题时，AI的能力往往显得捉襟见肘。这类棘手的问题，我们暂称之为“模糊问题查询”。本次评测，我们针对这一类问题，全面测试了几款广受关注的AI Search引擎，包括Perplexity Basic、Perplexity Pro、GenSpark、Felo AI、iAsk和You.com。

在一系列严格的测试后，我们得出了以下结论：

Felo AI 是本次评测中的“佼佼者”，在处理模糊查询时展现出卓越的能力。它以惊人的**80%**准确率独占鳌头，不仅能够高效处理多源数据，还能在复杂查询中提供详实且可靠的答案，犹如一位经验丰富的专家。
Perplexity Pro 则以70%的得分位居第二。它在应对某些复杂问题时仍表现得相当稳健。
iAsk 没有特别出彩，以60%的正确率勉强及格，在面对模糊问题时有时能提供有效的答案。
Perplexity Basic、GenSpark 和 You.com 则在这一轮的评测中显得相对乏力。它们的语言模型在理解和处理模糊查询上存在明显短板，分别取得了55%、45%和35%的正确率，表现不够理想。

图1 评测产品的准确率

二、评测数据

在我们的评测中，模糊问题被定义为涉及软件配置、多种数据源、网上不存在的信息、日期信息的问题。此类问题LLM经常把多个来源的内容进行拼凑回答。

我们的模糊问题测试用例已开源：

👉测试用例：https://github.com/sparticleinc/ASEED/blob/main/datasets/ambiguity_search.csv

👉测试结果：https://github.com/sparticleinc/ASEED/tree/main/evaluations/promptfoo/ambiguity_search

三、案例分析

👉Question：下一届奥运会在哪里举行？

**Ground truth：**2028年夏季奥林匹克运动会,也称为第34届夏季奥运会,将在美国洛杉矶举办。

Comment: 由于网上大量信息都是下一届奥运会在2024年法国巴黎举办。除了Felo AI，其他产品均回答错误。

comparison table1-cn.png comparison table2-cn.png

一、结论​

二、评测数据​

三、案例分析​

一、结论

二、评测数据

三、案例分析