(7 আগস্ট 2025 (ভি 1) এ জমা দেওয়া হয়েছে, সর্বশেষ সংশোধিত 27 আগস্ট 2025 (এই সংস্করণ, ভি 2))
আর-জিরো শিরোনামে কাগজের একটি পিডিএফ দেখুন: চেংসং হুয়াং এবং অন্যান্য 8 জন লেখক দ্বারা শূন্য ডেটা থেকে স্ব-বিকশিত যুক্তি এলএলএম
পিডিএফ এইচটিএমএল দেখুন (পরীক্ষামূলক)
বিমূর্ত:স্ব-বিকশিত বৃহত ভাষার মডেলগুলি (এলএলএম) স্বায়ত্তশাসিতভাবে উত্পন্নকরণ, পরিশোধন এবং তাদের নিজস্ব অভিজ্ঞতা থেকে শেখার মাধ্যমে অতি-বুদ্ধিবৃত্তির দিকে একটি স্কেলযোগ্য পথ সরবরাহ করে। যাইহোক, এই জাতীয় মডেলগুলি প্রশিক্ষণের জন্য বিদ্যমান পদ্ধতিগুলি এখনও বিস্তৃত মানব-সংশ্লেষিত কাজ এবং লেবেলের উপর প্রচুর নির্ভর করে, সাধারণত সূক্ষ্ম-সুরকরণ বা শক্তিবৃদ্ধি শিক্ষার মাধ্যমে, যা মানব বুদ্ধিমত্তার বাইরে সক্ষমতার দিকে এআই সিস্টেমগুলিকে অগ্রসর করার জন্য একটি মৌলিক বাধা সৃষ্টি করে। এই সীমাবদ্ধতা কাটিয়ে উঠতে, আমরা আর-জিরোকে পরিচয় করিয়ে দিয়েছি, একটি সম্পূর্ণ স্বায়ত্তশাসিত কাঠামো যা স্ক্র্যাচ থেকে নিজস্ব প্রশিক্ষণের ডেটা উত্পন্ন করে। একটি একক বেস এলএলএম থেকে শুরু করে, আর-জিরো দুটি স্বতন্ত্র মডেল, একটি চ্যালেঞ্জার এবং একটি সলভার সহ দুটি স্বতন্ত্র মডেল সূচনা করে। এই মডেলগুলি পৃথকভাবে অনুকূলিত হয় এবং মিথস্ক্রিয়াটির মাধ্যমে সহ-বিকাশিত হয়: চ্যালেঞ্জারটি সলভার সামর্থ্যের প্রান্তের নিকটে কার্যগুলি প্রস্তাব করার জন্য পুরস্কৃত হয় এবং চ্যালেঞ্জার দ্বারা উত্থিত ক্রমবর্ধমান চ্যালেঞ্জিং কার্যগুলি সমাধানের জন্য সলভারকে পুরস্কৃত করা হয়। এই প্রক্রিয়াটি কোনও প্রাক-বিদ্যমান কাজ এবং লেবেল ছাড়াই একটি লক্ষ্যযুক্ত, স্ব-উন্নত পাঠ্যক্রমের ফলন দেয়। অভিজ্ঞতামূলকভাবে, আর-জেরো বিভিন্ন ব্যাকবোন এলএলএম জুড়ে যুক্তি সক্ষমতা যথেষ্ট পরিমাণে উন্নত করে, যেমন, QWEN3-4B-বেসকে গণিত-রিসনিং বেঞ্চমার্কগুলিতে +6.49 দ্বারা এবং সাধারণ-ডোমেন যুক্তি বেঞ্চমার্কগুলিতে +7.54 বৃদ্ধি করে।
জমা ইতিহাস
থেকে: চেংসং হুয়াং (ইমেল দেখুন)
(ভি 1)
থু, 7 আগস্ট 2025 03:38:16 ইউটিসি (665 কেবি)
(ভি 2)
বুধ, 27 আগস্ট 2025 02:33:55 ইউটিসি (10,672 কেবি)