Anthropic কোম্পানির পারফরম্যান্স অপ্টিমাইজেশন দল ২০২৪ সাল থেকে চাকরি প্রার্থীদের জন্য একটি বাড়ি থেকে সম্পন্ন করা প্রযুক্তিগত পরীক্ষা চালু করেছে। এই পরীক্ষা মূলত প্রার্থীর হার্ডওয়্যার অপ্টিমাইজেশন জ্ঞান ও কোডিং দক্ষতা যাচাই করার জন্য তৈরি। তবে কৃত্রিম বুদ্ধিমত্তা ভিত্তিক কোডিং টুলের দ্রুত উন্নয়ন পরীক্ষার কার্যকারিতা হ্রাসের ঝুঁকি তৈরি করেছে।
প্রতিটি নতুন AI মডেল প্রকাশের সঙ্গে সঙ্গে টেস্টের কাঠামো পুনরায় সাজাতে হয়েছে। দলটির নেতৃত্বে থাকা ট্রিস্টান হিউম বুধবার একটি ব্লগ পোস্টে এই পরিবর্তনের ধারাবাহিকতা তুলে ধরেছেন। তিনি উল্লেখ করেন, নতুন Claude মডেল আসলে পরীক্ষার কঠিনতা বাড়িয়ে দেয়, ফলে পূর্বের প্রশ্নগুলো AI দ্বারা সহজে সমাধানযোগ্য হয়ে যায়।
Claude Opus 4 মডেলকে একই সময়সীমায় পরীক্ষা দেওয়া হলে বেশিরভাগ মানব প্রার্থীর চেয়ে দ্রুত ও সঠিক সমাধান প্রদান করেছে। তবুও কিছু শীর্ষ প্রার্থী এখনও মডেলের তুলনায় আলাদা পারফরম্যান্স দেখাতে পেরেছেন, ফলে মানব ও মেশিনের মধ্যে পার্থক্য বজায় রাখা সম্ভব হয়েছে।
কিন্তু Claude Opus 4.5 মডেল প্রকাশের পর পরিস্থিতি বদলে যায়। এই সংস্করণটি এমন স্তরে পৌঁছেছে যে শীর্ষ মানব প্রার্থীর ফলাফলকেও সমানভাবে পুনরুত্পাদন করতে পারে। ফলে পরীক্ষার ফলাফল থেকে মানব ও কৃত্রিম বুদ্ধিমত্তার পার্থক্য চিহ্নিত করা কঠিন হয়ে পড়ে।
এই পরিবর্তনটি প্রার্থীর মূল্যায়ন প্রক্রিয়ায় বড় ধাক্কা সৃষ্টি করেছে। বাড়ি থেকে নেওয়া পরীক্ষায় কোনো সরাসরি তদারকি না থাকায় AI সহায়তায় চিটিং করা সহজ হয়ে যায়, এবং চিটিংকারী দ্রুত শীর্ষে উঠে আসে। ফলে কোম্পানি সত্যিকারের দক্ষতা নির্ণয়ে অক্ষম হয়ে পড়ে।
বিশ্বব্যাপী শিক্ষাপ্রতিষ্ঠানগুলোতে AI চিটিং সমস্যার প্রভাব ইতিমধ্যে স্পষ্ট, এবং এখনই AI গবেষণা প্রতিষ্ঠানগুলোও একই সমস্যার মুখোমুখি। এই পরিস্থিতি প্রযুক্তি ক্ষেত্রের স্বচ্ছতা ও ন্যায়বিচার বজায় রাখার জন্য নতুন সমাধান খোঁজার প্রয়োজনীয়তা বাড়িয়ে দেয়।
Anthropic এই চ্যালেঞ্জ মোকাবেলায় নিজস্ব সুবিধা ব্যবহার করছে। কোম্পানির AI মডেল ও গবেষণা অবকাঠামো তাদেরকে দ্রুত নতুন টেস্ট ডিজাইন করতে সক্ষম করে। ফলে তারা এমন প্রশ্ন তৈরি করতে পারছে যা বর্তমান AI টুলের জন্য সমাধান করা কঠিন।
নতুন টেস্টটি পূর্বের হার্ডওয়্যার অপ্টিমাইজেশন বিষয় থেকে দূরে সরে, সম্পূর্ণ ভিন্ন দৃষ্টিকোণ থেকে প্রার্থীর বিশ্লেষণ ক্ষমতা পরীক্ষা করে। এই পরিবর্তনটি AI মডেলকে সহজে সমাধান করতে না পারার জন্য যথেষ্ট নতুনত্ব যোগ করেছে।
টেস্টের মূল প্রশ্নগুলো ব্লগ পোস্টে প্রকাশ করা হয়েছে, যাতে বাহ্যিক গবেষক ও ডেভেলপাররা সমাধান প্রস্তাব করতে পারেন। হিউম উল্লেখ করেছেন, যদি কেউ Opus 4.5 মডেলকে অতিক্রম করতে পারে, তবে তিনি সেই সমাধানটি শোনার জন্য উন্মুক্ত।
এই আহ্বানটি AI নিরাপত্তা ও ন্যায়বিচার নিয়ে কাজ করা সম্প্রদায়ের জন্য একটি চ্যালেঞ্জের মতো। যারা নতুন অ্যালগরিদম বা টেস্টের কাঠামো উন্নত করতে পারেন, তারা সরাসরি Anthropic-কে তাদের ফলাফল পাঠাতে পারেন।
Anthropic-এর এই পদক্ষেপটি কেবল তাদের নিজস্ব নিয়োগ প্রক্রিয়ার স্বচ্ছতা বাড়ায় না, বরং শিল্পের অন্যান্য প্রতিষ্ঠানকে AI চিটিং মোকাবেলায় উদাহরণ স্থাপন করে। ভবিষ্যতে আরও বেশি কোম্পানি একই ধরনের টেস্টের পুনর্গঠন বিবেচনা করতে পারে।
সারসংক্ষেপে, AI কোডিং টুলের দ্রুত অগ্রগতি Anthropic-কে তাদের প্রযুক্তিগত মূল্যায়ন পদ্ধতি ক্রমাগত আপডেট করতে বাধ্য করেছে। নতুন টেস্টের মাধ্যমে তারা মানব ও মেশিনের পারফরম্যান্সের পার্থক্য পুনরায় নির্ধারণের চেষ্টা করছে, এবং একই সঙ্গে শিল্পে AI নৈতিকতা ও নিরাপত্তার আলোচনাকে ত্বরান্বিত করছে।



