এই ব্লগপোস্টে আমি ধাপে ধাপে আপনাকে কীভাবে একটি অত্যন্ত দক্ষ ট্রান্সপোজ কার্নেল প্রয়োগ করতে হবে তা আপনাকে দেখাব Hopper মোজো ব্যবহার করে আর্কিটেকচার। সেরা কার্নেল সংরক্ষণাগার একটি ব্যান্ডউইথথ 2775.49 GB/s অর্থাৎ 84.1056% । অপ্টিমাইজেশনগুলি আমি একই রকমের একটি ব্যান্ডউইথ সংরক্ষণের জন্য প্রয়োগ করেছি 2771.35 GB/s খাঁটি ব্যবহার CUDA একই H100 আমি এখানে ব্যবহার করি। এটি দেখায় যে মোজো সংরক্ষণাগার করতে পারে CUDA ঠিক একই টাস্কে পারফরম্যান্সের মতো। আপনি আগের সাথে কার্নেলগুলি তুলনা করতে পারেন কার্নেলস আমি আমার অন্যান্য ব্লগপোস্টটি লিখেছি এবং পড়েছি যেখানে আমি ধারণাগুলি বিশদভাবে ব্যাখ্যা করি। এখানে আমি কেবল তাদের সংক্ষিপ্তভাবে পর্যালোচনা করব এবং পরিবর্তে বাস্তবায়নের বিশদগুলিতে ফোকাস করব। কীভাবে ব্যবহার করবেন তা জ্ঞান ছাড়াই পাঠকদের জন্য TMA মোজোতে আমি আপনাকে এই বিষয়টিতে আমার আগের ব্লগপোস্টে উল্লেখ করি।

কার্নেল কল করার আগে আমাদের দুটি সূচনা করা দরকার TMA descriptors এই ধারণাটি অনুরূপ cuTensorMapEncodeTiled আমরা ব্যবহার করতে পারেন CUDA ।

আমাদের দুটি বর্ণনাকারী রয়েছে। উভয় সারি প্রধান ফর্ম্যাট, একটি অন্যটির ট্রান্সপোজ। সংশ্লিষ্ট smems পাশাপাশি ট্রান্সপোজ সম্পর্কিত। দ্রুত অনুস্মারক হিসাবে তিনি হলেন অ্যালগরিদম। আমরা একটি টাইল নিই, টাইলের ভিতরে ট্রান্সপোজ সম্পাদন করি এবং এটি ম্যাট্রিক্সে বিপরীত অবস্থানে রাখি, অর্থাত্ ট্রান্সপোজড অবস্থানে

নীচে কোডটি সংরক্ষণাগার রয়েছে।