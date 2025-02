ডিপগেমম হ’ল একটি লাইব্রেরি যা পরিষ্কার এবং দক্ষ এফপি 8 জেনারেল ম্যাট্রিক্স গুণগুলি (জিইএমএমএস) জন্য সূক্ষ্ম-দানাযুক্ত স্কেলিং সহ ডিজাইন করা হয়েছে, যেমন ডিপসেক-ভি 3-তে প্রস্তাবিত। এটি উভয়ই সাধারণ এবং মিশ্রণ-বিশেষজ্ঞ (এমওই) গোষ্ঠীযুক্ত রত্নকে সমর্থন করে। কুডায় লিখিত, লাইব্রেরির ইনস্টলেশন চলাকালীন কোনও সংকলনের প্রয়োজন নেই, রানটাইমে সমস্ত কার্নেলগুলি লাইটওয়েট সবে-ইন-টাইম (জেআইটি) মডিউল ব্যবহার করে সংকলন করে।

বর্তমানে, ডিপগেমম একচেটিয়াভাবে এনভিডিয়া হপার টেনসর কোরগুলিকে সমর্থন করে। অনর্থক এফপি 8 টেনসর কোর জমে মোকাবেলার জন্য, এটি সিইউডিএ-কোর দ্বি-স্তরের জমে (প্রচার) নিয়োগ করে। যদিও এটি কাটলাস এবং চতুর থেকে কিছু ধারণাগুলি উপার্জন করে, এটি তাদের টেমপ্লেট বা বীজগণিতের উপর ভারী নির্ভরতা এড়ায়। পরিবর্তে, গ্রন্থাগারটি সরলতার জন্য ডিজাইন করা হয়েছে, চারপাশে কেবল একটি কোর কার্নেল ফাংশন রয়েছে কোডের 300 ডলার লাইন। এটি হপার এফপি 8 ম্যাট্রিক্স গুণ এবং অপ্টিমাইজেশন কৌশলগুলি শেখার জন্য এটি একটি পরিষ্কার এবং অ্যাক্সেসযোগ্য সংস্থান তৈরি করে।

এর লাইটওয়েট ডিজাইন সত্ত্বেও, ডিপগেমের পারফরম্যান্স ম্যাচগুলি মেলে বা বিভিন্ন ম্যাট্রিক্স আকার জুড়ে বিশেষজ্ঞ-সুরযুক্ত গ্রন্থাগারগুলি ছাড়িয়ে যায়।

আমরা এনভিসিসি 12.8 এর সাথে এইচ 800 এ ডিপসেক-ভি 3/আর 1 অনুমান (প্রিফিলিং এবং ডিকোডিং উভয় সহ, তবে টেনসর সমান্তরালতা ছাড়াই) সহ সম্ভাব্যভাবে ব্যবহৃত সমস্ত আকার পরীক্ষা করি। সমস্ত স্পিডআপ মেট্রিকগুলি আমাদের অভ্যন্তরীণভাবে এবং সাবধানে অনুকূলিত বাস্তবায়নের তুলনায় কাটলাস 3.6 এর উপর ভিত্তি করে গণনা করা হয়।

ডিপগেমম কিছু আকারে খুব ভাল আচরণ করে না, আপনি আগ্রহী হলে অপ্টিমাইজেশন পিআরগুলি স্বাগত জানায়।

# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)

# Make symbolic links for third-party (CUTLASS and CuTe) include directories

# Submodule must be cloned

তারপরে, আমদানি করুন deep_gemm আপনার পাইথন প্রকল্পে, এবং উপভোগ করুন!

এই লাইব্রেরিতে একচেটিয়াভাবে রত্ন কার্নেল রয়েছে। এটির জন্য এলএইচএস স্কেলিং ফ্যাক্টরটি টিএমএ-সংযুক্ত এবং স্থানান্তরিত হওয়া প্রয়োজন এবং এটি কেবল এনটি ফর্ম্যাটকে সমর্থন করে (নন-ট্রান্সপোজড এলএইচএস এবং ট্রান্সপোজড আরএইচএস)। স্থানান্তর বা অন্যান্য এফপি 8 কাস্টিং অপারেশনগুলির জন্য, দয়া করে এগুলি স্বাধীনভাবে পূর্বের কার্নেলগুলিতে প্রয়োগ বা ফিউজ করুন। লাইব্রেরিটি কিছু সাধারণ পাইটোরচ ইউটিলিটি ফাংশন সরবরাহ করে, এর ফলে ধীর পারফরম্যান্স হতে পারে তবে আমাদের প্রাথমিক ফোকাসটি রত্ন কার্নেলগুলি নিজেরাই অনুকূলকরণের দিকে।

একটি বেসিক অ-গোষ্ঠীযুক্ত এফপি 8 রত্ন সম্পাদন করতে, কল করুন deep_gemm.gemm_fp8_fp8_bf16_nt ফাংশন। আরও তথ্যের জন্য, দয়া করে ফাংশন ডকুমেন্টেশন দেখুন।

কাটলাসে traditional তিহ্যবাহী গোষ্ঠীযুক্ত রত্নগুলির বিপরীতে, ডিপজেমম গ্রুপগুলি কেবল এম-অক্ষকে গ্রুপ করে, যখন এন এবং কে অবশ্যই স্থির থাকতে হবে। এই নকশাটি এমন দৃশ্যের জন্য তৈরি করা হয়েছে যেখানে এমওই মডেলের বিশেষজ্ঞরা একই আকারটি ভাগ করে নেন।

প্রশিক্ষণের জন্য ফরোয়ার্ড পাসগুলি বা অনুমানের প্রিফিলিংয়ের জন্য, যেখানে প্রতিটি বিশেষজ্ঞ বিভিন্ন সংখ্যক টোকেন প্রক্রিয়া করতে পারে, আমরা এই টোকেনগুলিকে একটি একক টেনসারে সংযুক্ত করি, যা “সংলগ্ন” লেআউট হিসাবে পরিচিত। নোট করুন যে প্রতিটি বিশেষজ্ঞ বিভাগ অবশ্যই রত্ন এম ব্লকের আকারের সাথে একত্রিত হতে হবে ( get_m_alignment_for_contiguous_layout() )।

আরও তথ্যের জন্য, দয়া করে দেখুন m_grouped_gemm_fp8_fp8_bf16_nt_contiguous ফাংশন ডকুমেন্টেশন।

ইনফারেন্স ডিকোডিং পর্বের সময়, যখন চুদা গ্রাফ সক্ষম করা হয় এবং সিপিইউ প্রতিটি বিশেষজ্ঞের টোকেনগুলির সংখ্যা সম্পর্কে অজানা থাকে, আমরা মুখোশযুক্ত গোষ্ঠীযুক্ত রত্নগুলি সমর্থন করি। একটি মাস্ক টেনসর সরবরাহ করে, কার্নেলটি কেবল বৈধ অংশগুলি গণনা করে।

ব্যবহার m_grouped_gemm_fp8_fp8_bf16_nt_masked এই উদ্দেশ্যে এবং প্রাসঙ্গিক ডকুমেন্টেশন পরামর্শ। একটি উদাহরণ ব্যবহার হ’ল ডিপেপ থেকে ইনপুট হিসাবে লো-ল্যাটেন্সি কার্নেলের আউটপুট ব্যবহার করা।

গ্রন্থাগারটি উপরের কার্নেলগুলি ছাড়াও কিছু ইউটিলিটি ফাংশন সরবরাহ করে:

গ্রন্থাগারটি কিছু পরিবেশের ভেরিয়েবলও সরবরাহ করে, যা কার্যকর হতে পারে:

অতিরিক্ত উদাহরণ এবং বিশদগুলির জন্য, দয়া করে পরীক্ষার কোডটি দেখুন বা সম্পর্কিত পাইথন ডকুমেন্টেশন পর্যালোচনা করুন।

আমরা 🐳 দিয়ে কাটলাস থেকে বাদ দেওয়া কৌশলগুলি নির্দেশ করি 🐳

কাটলাস ডিজাইনের পরে, ডিপগেমে কার্নেলগুলি ওয়ার্প-বিশেষায়িত, ওভারল্যাপিং ডেটা মুভমেন্ট, টেনসর-কোর এমএমএ নির্দেশাবলী এবং চুদা-কোর প্রচার সক্ষম করে। এই প্রক্রিয়াটি চিত্রিত করে একটি সরল চিত্র নীচে দেখানো হয়েছে:

দ্য টেনসর মেমরি এক্সিলারেটর (টিএমএ) হপার আর্কিটেকচার দ্বারা প্রবর্তিত একটি নতুন হার্ডওয়্যার বৈশিষ্ট্য যা দ্রুত এবং অ্যাসিনক্রোনাস ডেটা আন্দোলনের জন্য ডিজাইন করা হয়েছে। বিশেষত, আমরা এর জন্য টিএমএ ব্যবহার করি:

ডিপগেমম একটি সম্পূর্ণরূপে সবেমাত্র-সময় (জেআইটি) ডিজাইন নিয়োগ করে, ইনস্টলেশনে কোনও সংকলনের প্রয়োজন নেই। সমস্ত কার্নেলগুলি লাইটওয়েট জেআইটি বাস্তবায়ন ব্যবহার করে রানটাইমে সংকলিত হয়। এই পদ্ধতির বিভিন্ন সুবিধা দেয়:

সামগ্রিকভাবে, জেআইটি ট্রাইটন সংকলকের পদ্ধতির অনুরূপ ছোট আকারের জন্য পারফরম্যান্সকে উল্লেখযোগ্যভাবে উন্নত করে।

নির্দিষ্ট আকারের জন্য, 2 টি শক্তির সাথে সংযুক্ত ব্লক আকারগুলি আন্ডারটিলাইজড এসএমএস হতে পারে। উদাহরণস্বরূপ, সাথে M=256, N=7168 একটি সাধারণ ব্লক আকারের অ্যাসাইনমেন্ট BLOCK_M=128, BLOCK_N=128 শুধুমাত্র ফলাফল (256 / 128) * (7168 / 128) = 112 132 এসএমএসের মধ্যে ব্যবহার করা হচ্ছে। এটি সম্বোধন করার জন্য, আমরা 112 এর মতো স্বীকৃত ব্লক আকারগুলি সমর্থন করি, সক্ষম করে (256 / 128) * (7168 / 112) = 128 এসএমএস এ জাতীয় পরিস্থিতিতে কাজ করতে। সূক্ষ্ম-দানাদার স্কেলিংয়ের পাশাপাশি এই কৌশলটি বাস্তবায়নের জন্য সাবধানতার সাথে অপ্টিমাইজেশন প্রয়োজন তবে শেষ পর্যন্ত পারফরম্যান্স লাভ সরবরাহ করে।

আমরা এনভিসিসি 12.2 এবং 12.3 এর মধ্যে কাটলাস এফপি 8 কার্নেলে একটি পারফরম্যান্সের উন্নতি পর্যবেক্ষণ করি। সংকলিত সাসকে তুলনা করে আমরা আবিষ্কার করি যে এটি একটি সিরিজের একটি বিট FADD নির্দেশাবলী একটি ইন্টারলিভিং প্যাটার্নে উল্টানো হয়। কিছু ওপেন-সোর্স চুদা এসেম্বলার বাস্তবায়ন উল্লেখ করার পরে, আমরা সনাক্ত করেছি যে এই বিট নিয়ন্ত্রণ করে yield যা ওয়ার্প-লেভেল সমান্তরালতা বাড়িয়ে তুলতে পারে (কেবলমাত্র একটি অনুমান, বর্তমান ওয়ার্প ফলন করে এবং অন্যান্য ওয়ার্পগুলি কাজ করতে দেয়)।

এটি উত্তোলনের জন্য, আমরা সংশোধন করার জন্য একটি অনুরূপ স্ক্রিপ্ট বিকাশ করি FFMA সংকলিত বাইনারি নির্দেশাবলী। কেবল সংশোধন করা ছাড়াও yield বিট, আমরাও ফ্লিপ করি reuse বিট (ওয়ার্প ফলিত হলে রেজিস্টারগুলি পুনরায় ব্যবহার করা যাবে না)। এই সমন্বয়টি প্রচারের সাথে এমএমএ নির্দেশাবলী ওভারল্যাপ করার আরও সুযোগ তৈরি করে সূক্ষ্ম-দানাযুক্ত স্কেলিং এফপি 8 রত্নগুলির জন্য পারফরম্যান্স (কিছু ক্ষেত্রে 10%+) উন্নত করে FFMA নির্দেশাবলী।

ডিপগেমম ক্যাটলাস প্রকল্প দ্বারা অনুপ্রাণিত হয়। ধন্যবাদ এবং বিকাশকারীদের শ্রদ্ধা!

এই কোড সংগ্রহস্থলটি এমআইটি লাইসেন্সের অধীনে প্রকাশিত হয়।