รายงานการประเมินคำถามที่คลุมเครือของเครื่องมือค้นหา AI (v1.3)

September 30, 2024 · อ่าน 1 นาที

Committed to answers at your fingertips

บทความนี้ประเมินประสิทธิภาพของเครื่องมือค้นหา AI หลายตัวในการจัดการกับ "คำถามที่คลุมเครือ" โดย Felo AI ทำได้ดีที่สุดด้วยอัตราความถูกต้อง 80% ตามมาด้วย Perplexity Pro บทความนี้วิเคราะห์จุดแข็งและจุดอ่อนของแต่ละผลิตภัณฑ์และให้กรณีศึกษาที่เฉพาะเจาะจงเพื่อการอธิบาย ข้อมูลการประเมินและผลลัพธ์ได้ถูกเปิดเผยเป็นแหล่งข้อมูลสาธารณะ ซึ่งให้ข้อมูลเชิงลึกที่มีค่าในการพัฒนาเครื่องมือค้นหา AI.

ฉัน. สรุป

ในยุคที่ข้อมูลมีมากมายในปัจจุบัน เมื่อคำถามของผู้ใช้มีความซับซ้อนมากขึ้น ช่องว่างด้านประสิทธิภาพระหว่างระบบค้นหา AI ก็ชัดเจนมากขึ้น โดยเฉพาะเมื่อจัดการกับการตั้งค่าซอฟต์แวร์ แหล่งข้อมูลหลายแห่ง ข้อมูลที่ไม่สามารถหาได้ทางออนไลน์ หรือคำถามที่เกี่ยวข้องกับวันที่ เราเรียกคำถามที่ท้าทายเหล่านี้ว่า "การค้นหาคำถามที่คลุมเครือ" ในการประเมินนี้ เราได้ทดสอบเครื่องมือค้นหา AI ที่ได้รับความนิยมหลายตัว รวมถึง Perplexity Basic, Perplexity Pro, GenSpark, Felo AI, iAsk และ You.com โดยมุ่งเน้นไปที่ประเภทคำถามนี้

หลังจากการทดสอบอย่างเข้มงวดหลายครั้ง เราสรุปได้ว่า:

Felo AI โดดเด่นเป็นผู้แสดงผลที่ดีที่สุด แสดงให้เห็นถึงความสามารถที่ยอดเยี่ยมในการจัดการกับคำถามที่คลุมเครือ มันนำหน้าด้วยอัตราความถูกต้องที่น่าประทับใจถึง 80% โดยสามารถประมวลผลข้อมูลจากหลายแหล่งได้อย่างมีประสิทธิภาพและให้คำตอบที่ละเอียดและเชื่อถือได้สำหรับคำถามที่ซับซ้อน เหมือนกับผู้เชี่ยวชาญที่มีประสบการณ์
Perplexity Pro ได้อันดับที่สองด้วยคะแนน 70% แสดงให้เห็นถึงความยืดหยุ่นในการจัดการกับคำถามที่ซับซ้อนบางข้อ
iAsk ทำผลงานได้อย่างพอใช้ โดยมีอัตราความถูกต้องที่ 60% และบางครั้งให้คำตอบที่มีประสิทธิภาพสำหรับคำถามที่คลุมเครือ
Perplexity Basic, GenSpark, และ You.com ทำผลงานได้ต่ำกว่าความคาดหวังในการประเมินนี้ โมเดลภาษาของพวกเขาแสดงให้เห็นถึงจุดอ่อนที่ชัดเจนในการเข้าใจและประมวลผลคำถามที่คลุมเครือ โดยมีอัตราความถูกต้องที่ 55%, 45%, และ 35% ตามลำดับ ซึ่งถือว่าน่าผิดหวัง

รูปที่ 1: อัตราความถูกต้องของผลิตภัณฑ์ที่ประเมิน

II. ข้อมูลการประเมิน

ในการประเมินของเรา คำถามที่คลุมเครือถูกกำหนดให้เป็นคำถามที่เกี่ยวข้องกับการตั้งค่าซอฟต์แวร์ แหล่งข้อมูลหลายแห่ง ข้อมูลที่ไม่สามารถหาได้ทางออนไลน์ หรือข้อมูลที่เกี่ยวข้องกับวันที่ LLMs มักจะรวบรวมเนื้อหาจากหลายแหล่งเพื่อให้คำตอบสำหรับคำถามเหล่านี้

กรณีทดสอบคำถามที่คลุมเครือของเรามีให้ใช้งานแบบโอเพนซอร์ส:

👉 กรณีทดสอบ: https://github.com/sparticleinc/ASEED/blob/main/datasets/ambiguity_search.csv

👉 ผลการทดสอบ: https://github.com/sparticleinc/ASEED/tree/main/evaluations/promptfoo/ambiguity_search

III. การวิเคราะห์กรณี

👉 คำถาม: โอลิมปิกเกมส์ครั้งต่อไปจะจัดที่ไหน?

ความจริงพื้นฐาน: โอลิมปิกฤดูร้อนปี 2028 หรือที่รู้จักกันในชื่อเกมส์ XXXIV Olympiad จะจัดขึ้นที่ลอสแองเจลิส สหรัฐอเมริกา

ความคิดเห็น: เนื่องจากมีข้อมูลออนไลน์มากมายที่ระบุว่าโอลิมปิกครั้งถัดไปจะจัดขึ้นที่ปารีส ประเทศฝรั่งเศสในปี 2024 ผลิตภัณฑ์ทั้งหมดยกเว้น Felo AI ตอบผิด

comparison table1.png comparison table2.png

ฉัน. สรุป​

II. ข้อมูลการประเมิน​

III. การวิเคราะห์กรณี​

ฉัน. สรุป

II. ข้อมูลการประเมิน

III. การวิเคราะห์กรณี