এআই সার্চ ইঞ্জিন ফাজি প্রশ্ন মূল্যায়ন রিপোর্ট (v1.3)

· 2 মিনিটের পড়া
Felo Search Tips Buddy
Committed to answers at your fingertips

এই নিবন্ধটি "ফাজি কোয়েরি প্রশ্ন" পরিচালনায় কয়েকটি এআই সার্চ ইঞ্জিনের কার্যকারিতা মূল্যায়ন করে। ফেলো এআই ৮০% সঠিকতার হার নিয়ে সেরা পারফরম্যান্স করেছে, এর পর রয়েছে পারপ্লেক্সিটি প্রো। নিবন্ধটি প্রতিটি পণ্যের শক্তি এবং দুর্বলতা বিশ্লেষণ করে এবং উদাহরণের জন্য নির্দিষ্ট কেস স্টাডি প্রদান করে। মূল্যায়ন ডেটা এবং ফলাফলগুলি ওপেন সোর্স করা হয়েছে, যা এআই সার্চ ইঞ্জিনের উন্নয়নের জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করে।

I. উপসংহার

আজকের তথ্য-সন্তৃপ্ত যুগে, যখন ব্যবহারকারীর প্রশ্নগুলি আরও জটিল হয়ে উঠছে, AI সার্চ সিস্টেমগুলির মধ্যে পারফরম্যান্সের ফাঁকটি ক্রমশ স্পষ্ট হয়ে উঠছে। এটি বিশেষভাবে সত্য যখন সফটওয়্যার কনফিগারেশন, একাধিক তথ্য উৎস, অনলাইনে সহজলভ্য নয় এমন তথ্য, বা তারিখ-সংক্রান্ত প্রশ্নগুলির সাথে মোকাবিলা করা হয়। আমরা এই চ্যালেঞ্জিং প্রশ্নগুলিকে "অস্পষ্ট প্রশ্ন অনুসন্ধান" হিসাবে উল্লেখ করি। এই মূল্যায়নে, আমরা Perplexity Basic, Perplexity Pro, GenSpark, Felo AI, iAsk, এবং You.com সহ বেশ কয়েকটি জনপ্রিয় AI সার্চ ইঞ্জিনের ব্যাপক পরীক্ষা করেছি, এই ধরনের প্রশ্নগুলির উপর ফোকাস করে।

একটি সিরিজ কঠোর পরীক্ষার পর, আমরা উপসংহারে পৌঁছেছি:

  1. Felo AI অসাধারণ পারফরমার হিসাবে উঠে এসেছে, অস্পষ্ট প্রশ্নগুলি পরিচালনায় ব্যতিক্রমী ক্ষমতা প্রদর্শন করেছে। এটি 80% সঠিকতার হার নিয়ে শীর্ষে ছিল, একাধিক উৎসের তথ্য দক্ষতার সাথে প্রক্রিয়া করে এবং জটিল প্রশ্নগুলির জন্য বিস্তারিত, নির্ভরযোগ্য উত্তর প্রদান করে, যেমন একজন অভিজ্ঞ বিশেষজ্ঞ।
  2. Perplexity Pro 70% স্কোর নিয়ে দ্বিতীয় স্থানে রয়েছে, কিছু জটিল প্রশ্ন মোকাবিলায় স্থিতিস্থাপকতা প্রদর্শন করছে।
  3. iAsk যথাযথভাবে কাজ করেছে, 60% সঠিকতার হার অর্জন করেছে এবং মাঝে মাঝে অস্পষ্ট প্রশ্নগুলির জন্য কার্যকর উত্তর প্রদান করেছে।
  4. Perplexity Basic, GenSpark, এবং You.com এই মূল্যায়নে খারাপ পারফর্ম করেছে। তাদের ভাষার মডেলগুলি অস্পষ্ট প্রশ্নগুলি বোঝা এবং প্রক্রিয়া করার ক্ষেত্রে স্পষ্ট দুর্বলতা প্রদর্শন করেছে, যথাক্রমে 55%, 45%, এবং 35% সঠিকতার হার অর্জন করেছে, যা সন্তোষজনক ছিল না।

accuray.png

চিত্র 1: মূল্যায়িত পণ্যের সঠিকতার হার

II. মূল্যায়ন তথ্য

আমাদের মূল্যায়নে, অস্পষ্ট প্রশ্নগুলি সেইসব প্রশ্ন হিসাবে সংজ্ঞায়িত করা হয়েছে যা সফটওয়্যার কনফিগারেশন, একাধিক তথ্য উৎস, অনলাইনে উপলব্ধ নয় এমন তথ্য, বা তারিখ-সংক্রান্ত তথ্য অন্তর্ভুক্ত করে। LLMs প্রায়শই একাধিক উৎস থেকে বিষয়বস্তু একত্রিত করে এই ধরনের প্রশ্নগুলির উত্তর দিতে।

আমাদের অস্পষ্ট প্রশ্ন পরীক্ষার কেসগুলি ওপেন সোর্স:

👉 পরীক্ষার কেস: https://github.com/sparticleinc/ASEED/blob/main/datasets/ambiguity_search.csv

👉 পরীক্ষার ফলাফল: https://github.com/sparticleinc/ASEED/tree/main/evaluations/promptfoo/ambiguity_search

III. কেস বিশ্লেষণ

👉 প্রশ্ন: পরবর্তী অলিম্পিক গেমস কোথায় অনুষ্ঠিত হবে?

মূল সত্য: 2028 সালের গ্রীষ্মকালীন অলিম্পিক গেমস, যা XXXIV অলিম্পিয়াডের গেমস নামেও পরিচিত, এটি লস অ্যাঞ্জেলেস, মার্কিন যুক্তরাষ্ট্রে অনুষ্ঠিত হবে।

মন্তব্য: অনলাইনে প্রচুর তথ্যের কারণে যা বলছে পরবর্তী অলিম্পিক 2024 সালে প্যারিস, ফ্রান্সে অনুষ্ঠিত হবে, Felo AI ছাড়া সব পণ্য ভুল উত্তর দিয়েছে।

comparison table1.pngcomparison table2.png