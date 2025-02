@ রোবট লার্নিং (সিওআরএল) 2023 সম্পর্কিত সম্মেলন

Tldr



আমরা ডিপ আরএল ব্যবহার করে পিয়ানো বাজানোর জন্য নৃতাত্ত্বিক রোবট হাত প্রশিক্ষণ করি

এবং উচ্চ-মাত্রিক নিয়ন্ত্রণকে এগিয়ে নিতে একটি সিমুলেটেড বেঞ্চমার্ক এবং ডেটাসেট প্রকাশ করুন।



ওভারভিউ

সিমুলেশন

আমরা ওপেন সোর্স ব্যবহার করে আমাদের সিমুলেটেড পিয়ানো-বাজানো পরিবেশ তৈরি করি মুজোকো

পদার্থবিজ্ঞান ইঞ্জিন। এটি একটি পূর্ণ আকারের 88-কী ডিজিটাল কীবোর্ড এবং দুটিতে গঠিত ছায়া ডেক্সটরাস হাতপ্রতিটি 24 ডিগ্রি স্বাধীনতা সহ।

সংগীত উপস্থাপনা

আমরা বাদ্যযন্ত্র ডিজিটাল ইন্টারফেস ব্যবহার করি (মিডি) “নোট-অন” বা “নোট-অফ” ইভেন্টগুলির সাথে সম্পর্কিত সময়-স্ট্যাম্পড বার্তাগুলির ক্রম হিসাবে একটি বাদ্যযন্ত্রের অংশকে উপস্থাপন করার জন্য স্ট্যান্ডার্ড। একটি বার্তা অতিরিক্ত তথ্যের টুকরো যেমন একটি নোটের পিচ এবং এর বেগ বহন করে।

আমরা এমআইডিআই ফাইলটিকে একটি সময়-সূচকযুক্ত নোট ট্র্যাজেক্টোরিতে রূপান্তর করি (এটি একটি হিসাবেও পরিচিত পিয়ানো রোল), যেখানে প্রতিটি নোট দৈর্ঘ্যের 88 এর এক-হট ভেক্টর হিসাবে প্রতিনিধিত্ব করা হয় (একটি পিয়ানোতে কীগুলির সংখ্যা)। এই ট্র্যাজেক্টোরিটি আমাদের এজেন্টের লক্ষ্য উপস্থাপনা হিসাবে ব্যবহৃত হয়, এটি প্রতিটি সময় পদক্ষেপে কোন কীগুলি টিপতে হবে তা অবহিত করে।

নীচের ইন্টারেক্টিভ প্লটটি পিয়ানো রোল হিসাবে এনকোড করা গানটি টুইঙ্কল টুইঙ্কল লিটল স্টারটি দেখায়। The x-axis represents time in seconds, and the y-axis represents musical pitch as a number between 1 and 88. You can hover over each note to see what additional information it carries.

ক সিনথেসাইজার এমআইডিআই ফাইলগুলিকে কাঁচা অডিওতে রূপান্তর করতে ব্যবহার করা যেতে পারে:

সংগীত মূল্যায়ন

আমরা আমাদের এজেন্টের দক্ষতার মূল্যায়ন করতে নির্ভুলতা, পুনরুদ্ধার এবং এফ 1 স্কোর ব্যবহার করি। যদি সময়ের একটি নির্দিষ্ট উদাহরণে এমন কীগুলি থাকে যা “অন” হওয়া উচিত এবং কীগুলি “অফ” হওয়া উচিত, যথার্থতা ব্যবস্থাগুলি “অফ” হওয়া উচিত এমন কোনও কীগুলি আঘাত না করে এজেন্ট কতটা ভাল তা সঠিকভাবে ব্যবস্থা করে, অন্যদিকে “অন” হওয়া উচিত এমন সমস্ত কীগুলি হিট করার ক্ষেত্রে এজেন্ট কতটা ভাল তা পুনরুদ্ধার করে। এফ 1 স্কোরটি নির্ভুলতা এবং পুনরুদ্ধারকে একটি একক মেট্রিকের সাথে একত্রিত করে এবং 0 (যদি হয় যথার্থ বা পুনরুদ্ধার 0 হয়) থেকে 1 (নিখুঁত নির্ভুলতা এবং পুনরুদ্ধার) থেকে শুরু করে।

পিয়ানো আঙ্গুল এবং ডেটাসেট

পিয়ানো আঙ্গুলিং একটি পিয়ানো টুকরোতে নোটগুলিতে আঙ্গুলের অ্যাসাইনমেন্টকে বোঝায় (নীচের চিত্রটি দেখুন)। Sheet music will typically provide sparse fingering labels for the tricky sections of a piece to help guide pianists, and pianists will often develop their own fingering preferences for a given piece.

In RoboPianist, we found that the agent struggled to learn to play the piano with a sparse reward signal due to the exploration challenge associated with the high-dimensional action space. এই সমস্যাটি কাটিয়ে উঠতে, আমরা এর অনুসন্ধানকে গাইড করার জন্য পুরষ্কারের ফাংশনে আঙ্গুলের লেবেল আকারে মানব প্রিয়ারগুলি যুক্ত করেছি।

যেহেতু আঙ্গুলের লেবেলগুলি ডিফল্টরূপে এমআইডিআই ফাইলগুলিতে উপলভ্য নয়, তাই আমরা পিয়ানো আঙ্গুলের ডেটাসেট (টীকাগুলি ব্যবহার করেছি (পিগ) 150 টি লেবেলযুক্ত এমআইডিআই ফাইল তৈরি করতে, যা আমরা রিপারটোয়ার -150 কল করি এবং আমাদের পরিবেশের অংশ হিসাবে প্রকাশ করি।

এমডিপি সূত্র

প্রতিটি সময় পদক্ষেপে, এজেন্ট প্রোপ্রিওসেপটিভ (অর্থাত্ হ্যান্ড জয়েন্ট কোণ), বহিরাগত (যেমন, পিয়ানো কী স্টেটস) এবং লক্ষ্য পর্যবেক্ষণ (অর্থাত্ পিয়ানো রোল) এবং প্রতিটি হাতের জন্য 22 টি লক্ষ্য যৌথ কোণকে আউটপুট দেয়। এগুলি আনুপাতিক-পজিশন অ্যাকিউটিউটরগুলিতে খাওয়ানো হয় যা তাদের প্রতিটি জয়েন্টে টর্কে রূপান্তর করে। এজেন্ট তারপরে সঠিক কীগুলি আঘাত করার জন্য পুরষ্কার, শক্তি খরচ হ্রাস করার জন্য একটি পুরষ্কার এবং আঙ্গুলের লেবেলগুলিকে মেনে চলার জন্য একটি শেপিং পুরষ্কার সহ পুরষ্কারের শর্তগুলির একটি ওজনযুক্ত যোগফল গ্রহণ করে।

আমাদের নীতি অপ্টিমাইজারের জন্য, আমরা একটি অত্যাধুনিক মডেল-মুক্ত আরএল অ্যালগরিদম ব্যবহার করি DROQ

এবং 20 হার্জেডের নিয়ন্ত্রণ ফ্রিকোয়েন্সি সহ 5 মিলিয়ন পদক্ষেপের জন্য আমাদের এজেন্টকে প্রশিক্ষণ দিন।