(2505.23836) বড় ভাষার মডেলগুলি প্রায়শই জানেন যে কখন তাদের মূল্যায়ন করা হচ্ছে

জো নিডহাম এবং অন্যান্য 4 জন লেখক দ্বারা প্রায়শই বড় ভাষার মডেলগুলি শিরোনামে কাগজের একটি পিডিএফ দেখুন

পিডিএফ এইচটিএমএল দেখুন (পরীক্ষামূলক)

বিমূর্ত:যদি এআই মডেলগুলি যখন মূল্যায়ন করা হয় তখন সনাক্ত করতে পারে তবে মূল্যায়নের কার্যকারিতা আপোস করা যেতে পারে। উদাহরণস্বরূপ, মডেলগুলি মূল্যায়নের সময় পদ্ধতিগতভাবে বিভিন্ন আচরণ থাকতে পারে, যার ফলে স্থাপনা এবং প্রশাসনের সিদ্ধান্তের জন্য কম নির্ভরযোগ্য মানদণ্ডের দিকে পরিচালিত হয়। সীমান্ত ভাষা মডেলগুলি মূল্যায়ন বা বাস্তব-বিশ্ব স্থাপনা থেকে উদ্ভূত কিনা তার ভিত্তিতে ট্রান্সক্রিপ্টগুলি সঠিকভাবে শ্রেণিবদ্ধ করতে পারে কিনা তা আমরা তদন্ত করি, আমরা মূল্যায়ন সচেতনতা বলি এমন একটি ক্ষমতা। এটি অর্জনের জন্য, আমরা 61 টি স্বতন্ত্র ডেটাসেট থেকে 1000 টি প্রম্পট এবং ট্রান্সক্রিপ্টগুলির একটি বিচিত্র মানদণ্ড তৈরি করি। এই স্প্যান পাবলিক বেঞ্চমার্কগুলি (যেমন, এমএমএলইউ, সুইবেঞ্চ), রিয়েল-ওয়ার্ল্ড ডিপ্লোয়মেন্ট ইন্টারঅ্যাকশন এবং স্ক্যাফোল্ডিং ফ্রেমওয়ার্কগুলি (যেমন, ওয়েব-ব্রাউজিং এজেন্ট) থেকে এজেন্ট ট্র্যাজেক্টরিজগুলি। ফ্রন্টিয়ার মডেলগুলি স্পষ্টভাবে উপরের-এলোমেলো মূল্যায়ন সচেতনতা প্রদর্শন করে (জেমিনি -২.৫-প্রো $ 0.83 $ এর একটি এউসি পৌঁছেছে), তবে এখনও আমাদের সাধারণ মানব বেসলাইন ($ 0.92 $ এর এউসি) ছাড়িয়ে যায় না। তদ্ব্যতীত, এআই মডেল এবং মানুষ উভয়ই চ্যাট সেটিংসের তুলনায় এজেন্ট সেটিংসে মূল্যায়ন সনাক্তকরণে আরও ভাল। অতিরিক্তভাবে, আমরা পরীক্ষা করি যে মডেলগুলি মূল্যায়নের উদ্দেশ্য সনাক্ত করতে পারে কিনা। একাধিক-পছন্দ এবং ওপেন-এন্ড জিজ্ঞাসিত প্রশ্নাবলীর অধীনে, এআই মডেলগুলি কোনও মূল্যায়নের জন্য কী পরীক্ষা করছে তা চিহ্নিত করার ক্ষেত্রে এলোমেলো সুযোগকে ছাড়িয়ে যায়। আমাদের ফলাফলগুলি ইঙ্গিত দেয় যে সীমান্ত মডেলগুলি ইতিমধ্যে যথেষ্ট পরিমাণে প্রদর্শন করে, যদিও এখনও অতিমানবীয় নয়, মূল্যায়ন-সচেতনতার স্তর। আমরা ভবিষ্যতের মডেলগুলিতে এই ক্ষমতাটি ট্র্যাক করার পরামর্শ দিই।

জমা ইতিহাস

থেকে: জো নিডহাম (ইমেল দেখুন)
(ভি 1)
বুধ, 28 মে 2025 12:03:09 ইউটিসি (1,081 কেবি)
(ভি 2)
শুক্র, 6 জুন 2025 19:01:36 ইউটিসি (1.081 কেবি)

Source link

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।