মার্কর (Mercor) গবেষণা দল সম্প্রতি একটি বেঞ্চমার্ক চালু করে, যেখানে শীর্ষস্থানীয় কৃত্রিম বুদ্ধিমত্তা মডেলগুলোকে পরামর্শ, বিনিয়োগ ব্যাংকিং এবং আইন সংক্রান্ত বাস্তব কাজের প্রশ্নে পরীক্ষা করা হয়েছে। ফলাফল দেখায় যে, অধিকাংশ মডেল এক চতুর্থাংশেরও কম সঠিক উত্তর দিতে পেরেছে, আর বেশিরভাগ ক্ষেত্রে ভুল উত্তর অথবা কোনো উত্তরই দেয়নি।
দুই বছর আগে মাইক্রোসফটের সিইও সৎয়া নাদেলা AI-কে জ্ঞানভিত্তিক কাজের (যেমন আইনজীবী, ব্যাংকার, হিসাবরক্ষক ইত্যাদি) পরিবর্তনকারী হিসেবে উল্লেখ করেন। যদিও ভিত্তি মডেলগুলোতে উল্লেখযোগ্য অগ্রগতি হয়েছে, তবুও বাস্তব কর্মক্ষেত্রে সেগুলোর প্রভাব এখনও সীমিত রয়ে গেছে।
মার্কর দলের নতুন বেঞ্চমার্ককে Apex-Agents বলা হয়েছে; এটি বাস্তব পেশাদার পরিবেশের অনুকরণে তৈরি করা হয়েছে। প্রশ্নগুলো মার্করের এক্সপার্ট মার্কেটপ্লেসে কাজ করা পেশাজীবীদের দ্বারা সরবরাহ করা হয় এবং তাদের প্রত্যাশা অনুযায়ী সঠিক উত্তর নির্ধারিত হয়। এই প্রশ্নাবলী হাগিং ফেস (Hugging Face) প্ল্যাটফর্মে সর্বজনীনভাবে প্রকাশিত, যাতে গবেষক ও ডেভেলপাররা সরাসরি পরীক্ষা করতে পারেন।
বেঞ্চমার্কের ফলাফল সব প্রধান AI ল্যাবকে ব্যর্থ গ্রেড দিয়েছে। এমনকি শীর্ষ মডেলগুলোও বহু ডোমেইনের তথ্য অনুসন্ধান ও সংযোজনের ক্ষেত্রে সমস্যার সম্মুখীন হয়েছে, যা জ্ঞানভিত্তিক কাজের মূল চাহিদা। একাধিক টুল—যেমন স্ল্যাক, গুগল ড্রাইভ—এর মধ্যে তথ্য সংগ্রহ ও সংহত করা মানব কর্মীর জন্য স্বাভাবিক, কিন্তু বর্তমান AI এজেন্টের জন্য তা এখনও চ্যালেঞ্জপূর্ণ।
গবেষক ব্রেনডন ফুডি উল্লেখ করেন, বহু ডোমেইনের তথ্য অনুসন্ধানই মডেলগুলোর সবচেয়ে বড় বাধা। বাস্তব কাজের পরিবেশে প্রাসঙ্গিক ডেটা এক জায়গায় না এসে বিভিন্ন প্ল্যাটফর্মে ছড়িয়ে থাকে; তাই এজেন্টকে একাধিক সিস্টেমের মধ্যে সঠিকভাবে নেভিগেট করতে হয়। বর্তমান মডেলগুলো এই ধরনের জটিল রুটিনে ধারাবাহিকভাবে সঠিক ফলাফল দিতে পারছে না।
এই ফলাফলগুলো AI প্রযুক্তির ভবিষ্যৎ সম্পর্কে গুরুত্বপূর্ণ ইঙ্গিত দেয়। যদিও AI এখনো দ্রুতগতিতে উন্নত হচ্ছে, তবে শ্বেত-কলার পেশায় সম্পূর্ণ প্রতিস্থাপন এখনও দূরের কথা। মডেলগুলোকে বহু টুলের মধ্যে সমন্বিতভাবে কাজ করতে এবং ক্রস‑ডোমেইন যুক্তি গড়ে তুলতে সক্ষম হতে হবে, তবেই তারা পেশাদারদের সহায়তা বা প্রতিস্থাপন করতে পারবে।
Apex-Agents বেঞ্চমার্কের প্রকাশের মাধ্যমে গবেষক ও শিল্পখাতের জন্য স্পষ্ট মানদণ্ড তৈরি হয়েছে। এখন থেকে ডেভেলপাররা এই বেঞ্চমার্ককে রেফারেন্স হিসেবে ব্যবহার করে, মডেলের মাল্টি‑ডোমেইন রিজনিং ক্ষমতা বাড়াতে কাজ করতে পারবে। এমন উন্নতি পরোক্ষভাবে পরামর্শক, ব্যাংকার এবং আইনজীবীর কাজের পদ্ধতিতে পরিবর্তন আনতে পারে, যেমন দ্রুত ডেটা বিশ্লেষণ ও সিদ্ধান্ত গ্রহণ।
সারসংক্ষেপে, বর্তমান AI এজেন্টগুলো এখনও মানব জ্ঞানভিত্তিক কাজের জটিলতা মোকাবেলায় যথেষ্ট নয়। Apex-Agents বেঞ্চমার্ক এই ফাঁকটি স্পষ্টভাবে চিত্রিত করেছে এবং ভবিষ্যৎ গবেষণার জন্য স্পষ্ট লক্ষ্য স্থাপন করেছে। যত দ্রুত মডেলগুলো বহু টুলের মধ্যে তথ্য সংহত করতে পারবে, ততই তারা কর্মক্ষেত্রে বাস্তবিক মূল্য যোগ করতে সক্ষম হবে।



