(30 জানুয়ারী 2024 (ভি 1) এ জমা দেওয়া হয়েছে, সর্বশেষ সংশোধিত 22 ফেব্রুয়ারী 2024 (এই সংস্করণ, ভি 3))
টিয়ানহেং চেং এবং অন্যান্য 5 জন লেখক দ্বারা রিয়েল-টাইম ওপেন-ভোকাবুলারি অবজেক্ট সনাক্তকরণ, ইওলো-ওয়ার্ল্ড শিরোনামে কাগজের একটি পিডিএফ দেখুন
পিডিএফ এইচটিএমএল দেখুন (পরীক্ষামূলক)
বিমূর্ত:আপনি কেবল একবার (ইওলো) সিরিজের ডিটেক্টরগুলি দেখতে দক্ষ এবং ব্যবহারিক সরঞ্জাম হিসাবে নিজেকে প্রতিষ্ঠিত করেছেন। যাইহোক, পূর্বনির্ধারিত এবং প্রশিক্ষিত অবজেক্ট বিভাগগুলির উপর তাদের নির্ভরতা তাদের প্রয়োগযোগ্যতা উন্মুক্ত পরিস্থিতিতে সীমাবদ্ধ করে। এই সীমাবদ্ধতাটিকে সম্বোধন করে, আমরা ইয়োলো-ওয়ার্ল্ডকে পরিচয় করিয়ে দিয়েছি, এটি একটি উদ্ভাবনী পদ্ধতির যা ভিশন-ভাষা মডেলিং এবং বৃহত আকারের ডেটাসেটগুলিতে প্রাক-প্রশিক্ষণের মাধ্যমে ওপেন-ভোকাবুলারি সনাক্তকরণের ক্ষমতা সহ ইয়োলোকে বাড়িয়ে তোলে। বিশেষত, আমরা ভিজ্যুয়াল এবং ভাষাগত তথ্যের মধ্যে মিথস্ক্রিয়াকে সহজতর করার জন্য একটি নতুন পুনরায় প্যারামিটারাইজেবল ভিশন-ল্যাঙ্গুয়েজ পাথ সমষ্টি নেটওয়ার্ক (REPVL-PAN) এবং অঞ্চল-পাঠ্য বিপরীতে ক্ষতির প্রস্তাব দিই। আমাদের পদ্ধতিটি উচ্চ দক্ষতার সাথে শূন্য-শট পদ্ধতিতে বিস্তৃত অবজেক্টগুলি সনাক্ত করতে ছাড়িয়ে যায়। চ্যালেঞ্জিং এলভিআইএস ডেটাসেটে, ইওলো-ওয়ার্ল্ড ভি 100-তে 52.0 এফপিএস সহ 35.4 এপি অর্জন করেছে, যা নির্ভুলতা এবং গতি উভয় ক্ষেত্রেই অনেক অত্যাধুনিক পদ্ধতিগুলি ছাড়িয়ে যায়। তদ্ব্যতীত, সূক্ষ্ম সুরযুক্ত ইওলো-ওয়ার্ল্ড অবজেক্ট সনাক্তকরণ এবং ওপেন-ভোকাবুলারি উদাহরণ বিভাজন সহ বেশ কয়েকটি ডাউন স্ট্রিম কার্যগুলিতে অসাধারণ কর্মক্ষমতা অর্জন করে।
জমা ইতিহাস
থেকে: তিয়ানহেং চেং (ইমেল দেখুন)
(ভি 1)
করুন, 30 জানুয়ারী 2024 18:59:38 ইউটিসি (5.276 কেবি)
(ভি 2)
শুক্র, 2 ফেব্রুয়ারী 2024 10:06:24 ইউটিসি (5.276 কেবি)
(ভি 3)
থু, 22 ফেব্রুয়ারী 2024 13:05:52 ইউটিসি (5.277 কেবি)