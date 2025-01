গতকাল আমি এক নজরে দেখেছি সার্কুলার বাফারের জন্য উইকিপিডিয়া পৃষ্ঠা এবং একটি কথিত অপ্টিমাইজেশান কৌশল দ্বারা আগ্রহী হয়েছিলাম যার সাথে আমি পরিচিত ছিলাম না:

ভার্চুয়াল মেমরির দুটি সংলগ্ন অঞ্চলে অন্তর্নিহিত বাফার ম্যাপ করে একটি বৃত্তাকার-বাফার বাস্তবায়ন অপ্টিমাইজ করা যেতে পারে। (স্বাভাবিকভাবে, অন্তর্নিহিত বাফারের দৈর্ঘ্য তখন সিস্টেমের পৃষ্ঠার আকারের কিছু গুণের সমান হবে।) বৃত্তাকার বাফার থেকে পড়া এবং লেখা সরাসরি মেমরি অ্যাক্সেসের মাধ্যমে আরও দক্ষতার সাথে সম্পন্ন করা যেতে পারে; যে অ্যাক্সেসগুলি প্রথম ভার্চুয়াল-মেমরি অঞ্চলের শেষের বাইরে পড়ে সেগুলি স্বয়ংক্রিয়ভাবে অন্তর্নিহিত বাফারের শুরুতে মোড়ানো হবে। যখন রিড অফসেট দ্বিতীয় ভার্চুয়াল-মেমরি অঞ্চলে অগ্রসর হয়, তখন উভয় অফসেট-পড়ুন এবং লিখুন- অন্তর্নিহিত বাফারের দৈর্ঘ্য দ্বারা হ্রাস পায়।

একটি বৃত্তাকার বাফার প্রয়োগ করার সময়, আমাদের কেসটি পরিচালনা করতে হবে যেখানে একটি বার্তা সারিতে “বিচ্ছিন্নতা” ছড়িয়ে পড়ে এবং চারপাশে মোড়ানো হয়। সাদাসিধে সার্কুলার বাফারের লেখার রুটিন একটি বাইট-বাই-বাইট লেখা নিয়োগ করতে পারে এবং দেখতে এইরকম কিছু হতে পারে:

void put ( queue_t * q, uint8_t * data, size_t size) for ( size_t i = 0 ; i < size; i ++ ) q -> buffer((q -> tail + i) % q -> buffer_size) = data(i); q -> tail = (q -> tail + size) % q -> buffer_size;

অ্যারেতে সূচীকরণের জন্য একটি মডুলো অপারেশন প্রয়োজনীয় এই সত্যটি এই ফাংশনটিকে ভেক্টরাইজ করা কঠিন (যদি অসম্ভব না হয়) করে এবং এইভাবে অপ্রয়োজনীয়ভাবে ধীর করে দেয়। যদিও অন্যান্য অপ্টিমাইজেশান আছে যা আমরা করতে পারি, উপরের উইকিপিডিয়ায় দেওয়া কৌশলটি হার্ডওয়্যার-অজ্ঞেয়বাদী পদ্ধতিকে ছাড়িয়ে গেছে এই সত্যের কারণে যে মেমরি ম্যানেজমেন্ট ইউনিট আমাদের পক্ষে বেশিরভাগ যুক্তির মোড়ককে পরিচালনা করতে পারে। আমি এই ধারণাটি দ্বারা এতটাই উত্তেজিত ছিলাম যে আমি আর কোন গবেষণা করিনি, এবং শুধুমাত্র উপরের সংক্ষিপ্ত বিবরণের উপর ভিত্তি করে এটি বাস্তবায়ন করেছি।

পরবর্তী দুটি বিভাগ যথাক্রমে বৃত্তাকার বাফারের নকশা এবং ভার্চুয়াল মেমরির আচরণের ওভারভিউ করে। আপনার যদি রিফ্রেশারের প্রয়োজন না হয়, নির্দ্বিধায় এগিয়ে যান।

সার্কুলার বাফার

বৃত্তাকার বাফার হল স্ট্রিমিং ডেটা সংরক্ষণের জন্য একটি সুবিধাজনক পদ্ধতি যা রিয়েল-টাইমে উত্পাদিত হয় এবং এর পরেই ব্যবহার করা হয়। এটি “আশেপাশে মোড়ানো” যাতে নতুন ডেটা ক্রমাগতভাবে আগের ডেটা দ্বারা দখলকৃত স্থানটি পুনঃব্যবহার করতে পারে যা পরে ব্যবহার করা হয়েছে।

একটি বৃত্তাকার বাফার সাধারণত দুটি পয়েন্টার (বা সূচক) সংরক্ষণ করে প্রয়োগ করা হয়: a পয়েন্টার পড়ুন (আমি কল করব head ) এবং ক পয়েন্টার লিখুন (বা tail ) যেমন সুস্পষ্ট, আমরা এ বাফারে লিখি tail এবং থেকে পড়ুন head . গঠন নিম্নরূপ সংজ্ঞায়িত করা যেতে পারে:

typedef struct uint8_t * buffer; size_t buffer_size; size_t head; size_t tail; size_t bytes_avail; queue_t ;

এটি দেওয়া, আমরা সহজ পঠিত লিখতে পারি ( get ) এবং লিখুন ( put ) বাইট-বাই-বাইট অ্যাক্সেস ব্যবহার করে রুটিন:

bool put ( queue_t * q, uint8_t * data, size_t size) if (q -> buffer_size - q -> bytes_avail < size) return false; for ( size_t i = 0 ; i < size; i ++ ) q -> buffer((q -> tail + i) % q -> buffer_size) = data(i); q -> tail = (q -> tail + size) % q -> buffer_size; q -> bytes_avail += size; return true; bool get ( queue_t * q, uint8_t * data, size_t size) if (q -> bytes_avail < size) return false; for ( size_t i = 0 ; i < size; i ++ ) data(i) = q -> buffer((q -> head + i) % q -> buffer_size); q -> head = (q -> head + size) % q -> buffer_size; q -> bytes_avail -= size; return true;

উল্লেখ্য যে এই put রুটিন উপরে প্রদত্ত একটির সাথে অভিন্ন, বাদে আমরা এখন পরীক্ষা করে দেখি যে লেখার চেষ্টা করার আগে পর্যাপ্ত জায়গা পাওয়া যায়। আমি উদ্দেশ্যমূলকভাবে সিঙ্ক্রোনাইজেশন লজিককে উপেক্ষা করেছি (যা সার্কুলার বাফারের যেকোনো বাস্তব প্রয়োগের জন্য একেবারে প্রয়োজনীয় হবে)।

বাইট-বাই-বাইট অ্যাক্সেস প্যাটার্ন এবং লুপের প্রতিটি পুনরাবৃত্তিতে এমবেড করা মডুলার গাণিতিক এই কোডটিকে ভয়ঙ্করভাবে ধীর করে তোলে। আমরা পরিবর্তে দুটি দিয়ে প্রতিটি পঠন বা লেখা অপারেশন বাস্তবায়ন করতে পারি memcpy কল, যেখানে একজন বাফারের শেষে একটি বার্তার অংশ পরিচালনা করে এবং অন্যটি শুরুতে অংশটি পরিচালনা করে যদি আমরা চারপাশে মোড়ানো হয়।

static inline off_t min ( off_t a, off_t b) return a < b ? a : b; bool put ( queue_t * q, uint8_t * data, size_t size) if (q -> buffer_size - q -> bytes_avail < size) return false; const size_t part1 = min (size, q -> buffer_size - q -> tail); const size_t part2 = size - part1; memcpy (q -> buffer + q -> tail, data, part1); memcpy (q -> buffer, data + part1, part2); q -> tail = (q -> tail + size) % q -> buffer_size; q -> bytes_avail += size; return true; bool get ( queue_t * q, uint8_t * data, size_t size) if (q -> bytes_avail < size) return false; const size_t part1 = min (size, q -> buffer_size - q -> head); const size_t part2 = size - part1; memcpy (data, q -> buffer + q -> head, part1); memcpy (data + part1, q -> buffer, part2); q -> head = (q -> head + size) % q -> buffer_size; q -> bytes_avail -= size; return true;

এই বৃত্তাকার বাফারের একটি উদাহরণ ব্যবহার নিম্নরূপ হবে:

int main () queue_t queue; queue.buffer = malloc ( 128 ); queue.buffer_size = 128 ; queue.head = 0 ; queue.tail = 0 ; queue.bytes_avail = 0 ; put ( & q, "hello " , 6 ); put ( & q, "world

" , 7 ); char s( 13 ); get ( & q, ( uint8_t * ) s, 13 ); printf (s); // prints "hello world"

আমাদের কোড সহজ, এবং এটি সূক্ষ্ম কাজ করে। কিন্তু কেন এটা আরো জটিল না?

পৃষ্ঠা টেবিল লিখুন

ব্যক্তিগত কম্পিউটিং-এর প্রথম দিকে, কম্পিউটারগুলি মূলত একটি সময়ে শুধুমাত্র একটি প্রোগ্রাম চালাতে পারত। আমরা যে প্রোগ্রামটি চালাতাম তাতে পূর্ণ, সরাসরি শারীরিক মেমরিতে অ্যাক্সেস থাকবে। দেখা যাচ্ছে যে আমরা যদি একসাথে বেশ কয়েকটি প্রোগ্রাম চালাতে চাই, তবে তারা সেই মেমরির কোন অঞ্চলগুলি ব্যবহার করতে চায় তা নিয়ে লড়াই করার প্রবণতা রয়েছে। এই দ্বন্দ্বের সমাধান হল ভার্চুয়াল মেমরিযার অধীনে প্রতিটি প্রোগ্রাম মনে করে এটা নিয়ন্ত্রণ করে সব মেমরির, কিন্তু বাস্তবে অপারেটিং সিস্টেম সিদ্ধান্ত নেয় কে কোথা থেকে মেমরি পাচ্ছে।

ভার্চুয়াল মেমরির চাবিকাঠি হল পৃষ্ঠা টেবিলযার মাধ্যমে অপারেটিং সিস্টেম সিপিইউকে এর মধ্যে ম্যাপিং সম্পর্কে অবহিত করে ভার্চুয়াল পেজ এবং শারীরিক পৃষ্ঠাগুলি. একটি পৃষ্ঠা হল একটি (সাধারণত) নির্দিষ্ট আকারের মেমরির সংলগ্ন, সারিবদ্ধ অঞ্চল, প্রায় 4 KiB বলুন। যখন একটি প্রোগ্রাম কিছু (ভার্চুয়াল) মেমরি অ্যাক্সেস করতে চায়, তখন সিপিইউ এটি কোন পৃষ্ঠার অন্তর্গত তা নির্ধারণ করে তারপর পৃষ্ঠা টেবিলটি ফিজিক্যাল মেমরিতে ইন্ডেক্স করতে ব্যবহার করে।

কিছু প্রোগ্রাম A এর জন্য পৃষ্ঠা টেবিলটি এইরকম দেখতে পারে:

ভার্চুয়াল পৃষ্ঠা নম্বর শারীরিক পৃষ্ঠা নম্বর 0 নাল 1 25 2 12 3 নাল 4 56 … …

এদিকে, প্রোগ্রাম B এর নিম্নরূপ হতে পারে:

ভার্চুয়াল পৃষ্ঠা নম্বর শারীরিক পৃষ্ঠা নম্বর 0 11 1 নাল 2 92 3 21 4 নাল … …

মূল বিষয় হল ভার্চুয়াল পৃষ্ঠাগুলিতে ভৌত পৃষ্ঠাগুলিকে যেভাবে বরাদ্দ করা হয় তার জন্য কোনও ছড়া বা কারণের প্রয়োজন নেই৷ ভার্চুয়াল পৃষ্ঠাগুলির ক্ষেত্রে এগুলি অব্যবস্থাপক হতে পারে এবং কিছু ভার্চুয়াল পৃষ্ঠাগুলির জন্য তাদের জন্য নির্ধারিত শারীরিক মেমরির প্রয়োজন হয় না৷ আমাদের দুটি প্রোগ্রাম একই ভার্চুয়াল পৃষ্ঠা নম্বর ব্যবহার করে বিভিন্ন শারীরিক পৃষ্ঠাগুলি উল্লেখ করতে পারে, এবং এইভাবে তাদের একে অপরের স্মৃতির সাথে বিরোধের বিষয়ে চিন্তা করার দরকার নেই৷

পৃষ্ঠা নম্বরগুলি বের করার পিছনের বিশদ বিবরণ, মেমরি বরাদ্দ করা এবং পৃষ্ঠা টেবিলে সূচীকরণ এই নিবন্ধের সুযোগের বাইরে, তবে কী হতে চলেছে তা বোঝার জন্য অপ্রয়োজনীয়।

কিছু সাধারণ সিস্টেম কল, এবং একটি যে glibc চায় না আপনি সম্পর্কে জানুন

আমাদের সার্কুলার বাফার অপ্টিমাইজ করার জন্য পৃষ্ঠা টেবিলটি কাজে লাগানোর আগে, আসুন কিছু সাধারণ লিনাক্স সিস্টেম কল পর্যালোচনা করি।

সিস্টেম কল বর্ণনা int getpagesize() মেমরির একটি পৃষ্ঠায় বাইটের সংখ্যা প্রদান করে। (প্রযুক্তিগতভাবে সবসময় একটি সিস্টেম কল নয়, কিন্তু যথেষ্ট বন্ধ।) int ftruncate(int fd, off_t length) একটি ফাইলের আকার সেট করে length এর ফাইল বর্ণনাকারী ব্যবহার করে, fd . void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset) দ্বারা বর্ণিত ফাইল ম্যাপ fd মেমরিতে এবং নতুন মেমরি অঞ্চলে একটি পয়েন্টার প্রদান করে। কনফিগারেশনের মাধ্যমে খারাপ কাজ করতে চালিত করা যেতে পারে flags .

এবং এখন, একটি কম সাধারণ সিস্টেম কল যে glibc (আমাদের বন্ধুত্বপূর্ণ ইউজারল্যান্ড ইন্টারফেস কার্নেল) আমাদের কাছে প্রকাশ করে না:

সিস্টেম কল বর্ণনা int memfd_create(const char *name, unsigned int flags) একটির জন্য একটি ফাইল বর্ণনাকারী প্রদান করে anonymous file যা শুধুমাত্র স্মৃতিতে বিদ্যমান।

আকর্ষণীয়! যেহেতু glibc এটি বাস্তবায়ন করে না, আমরা যদি এটি ব্যবহার করতে চাই তবে আমাদেরকে কিছুটা মোড়ক কোড লিখতে হবে।

int memfd_create ( const char * name, unsigned int flags) return syscall (__NR_memfd_create, name, flags);

চমৎকার, এখন আমরা এটিকে অন্য যেকোনো ফাংশনের মতো কল করতে সক্ষম হব। এটি আমাদের মেমরি বরাদ্দ করতে এবং এটিকে একটি ফাইলের মতো ম্যানিপুলেট করতে দেয়। যেহেতু এটি একটি ফাইলের মতো কাজ করে, তাই আমরা যেখানে খুশি এটিকে এমএমপ করতে সক্ষম হব (স্পয়লার সতর্কতা)।

ইভিল ব্ল্যাক ম্যাজিক পেজ টেবিল হ্যাকিং

ঠিক আছে, আসুন ব্যবসায় নেমে আসি। আসুন উইকিপিডিয়া যা বলেছে তাই করি এবং দুটি সংলগ্ন পৃষ্ঠাগুলিকে একই স্মৃতিতে নির্দেশ করি। আমাদের সারি কাঠামো সংশোধন করতে হবে এবং একটি সুবিধাজনক প্রাথমিক পদ্ধতির সাথে এর API প্রসারিত করতে হবে।

typedef struct uint8_t * buffer; size_t buffer_size; int fd; size_t head; size_t tail; queue_t ; bool init (queue * q, size_t size) MAP_FIXED, q -> fd, 0 ); // Initialize our buffer indices q -> head = 0 ; q -> tail = 0 ;

ঠিক আছে, কি হচ্ছে? আচ্ছা, প্রথমে আমরা কল করি memfd_create এটি টিনের উপর যা বলে ঠিক তাই করে। আমরা বাফারের দুটি কপির জন্য কিছু স্থান খুঁজে পাই এবং এটিকে আমাদের বাফার ঠিকানা হিসাবে সংরক্ষণ করি। তারপর আমরা ভার্চুয়াল ফাইলটিকে মেমরিতে ম্যাপ করি, mmap আমাদের দেওয়া ঠিকানায়। তার পরেই আমাদের মন্দ প্রবেশ করে।

আমরা জিজ্ঞাসা mmap ঠিকানায় আবার আমাদের ফাইল ম্যাপ করতে size বাইট তার আসল অবস্থান অতিক্রম করে। এখন, পৃষ্ঠা টেবিলটি এরকম কিছু দেখতে যাচ্ছে (অনুমান করে size এক পৃষ্ঠার চেয়ে বড়):

ভার্চুয়াল ঠিকানা শারীরিক ঠিকানা … … q->buffer বেনামী ফাইল q->fd অফসেট 0 q->buffer + getpagesize() বেনামী ফাইল q->fd অফসেট getpagesize() … … q->buffer + size বেনামী ফাইল q->fd অফসেট 0 q->buffer + size + getpagesize() বেনামী ফাইল q->fd অফসেট getpagesize() … …

হ্যাঁ, আমাদের দুটি ভার্চুয়াল পৃষ্ঠা রয়েছে যা আমাদের বাফারের প্রতিটি পৃষ্ঠার জন্য একই শারীরিক পৃষ্ঠার দিকে নির্দেশ করে। আসুন দেখি কিভাবে এটি আমাদের সার্কুলার বাফার লজিককে প্রভাবিত করবে:

bool put ( queue_t * q, uint8_t * data, size_t size) if (q -> buffer_size - (q -> tail - q -> head) < size) return false; memcpy ( & q -> buffer(q -> tail), data, size); q -> tail += size; return true; bool get ( queue_t * q, uint8_t * data, size_t size) if (q -> tail - q -> head < size) return false; memcpy (data, & q -> buffer(q -> head), size); q -> head += size; if (q -> head > q -> buffer_size) q -> head -= q -> buffer_size; q -> tail -= q -> buffer_size; return true;

আমরা আমাদের অনুমতি tail দ্বিতীয় ভার্চুয়াল মেমরি অঞ্চলে অগ্রসর হওয়ার জন্য অফসেট, “বাস্তব” বাফারের সীমা অতিক্রম করে। যাইহোক, এটি এখনও একই শারীরিক স্মৃতিতে লেখে। একইভাবে, আমরা প্রথম অঞ্চলের সীমানা পেরিয়ে পড়তে পারি এবং দ্বিতীয় অঞ্চলে গিয়ে আমরা একই শারীরিক স্মৃতি পড়তে পারি যেন আমরা ম্যানুয়ালি চারপাশে মোড়ানো।

লক্ষ্য করুন যে আমাদের দুটির পরিবর্তে শুধুমাত্র একটি মেমসিপি কল করতে হবে। আমরা তথ্য পড়ার পর চেক করি যে মাথা পয়েন্টার বাফারের দ্বিতীয় ভার্চুয়াল কপিতে স্থানান্তরিত হয়নি। যদি এটি করে থাকে, আমরা উভয়ই বাফার আকার দ্বারা হ্রাস করতে পারি; তারা একই শারীরিক মেমরি নির্দেশ করবে, যদিও ভার্চুয়াল ঠিকানা ভিন্ন হবে। API আগের মতই থাকে।

এটা কতটা ভালো?

এখানে মূল পার্থক্য হল যে আমরা পারি সর্বদা ভার্চুয়াল মেমরির সংলগ্ন ব্লকগুলি অ্যাক্সেস করুন, মিড-মেসেজের চারপাশে মোড়ানো নিয়ে চিন্তা করার পরিবর্তে। আমরা একটি সাধারণ মাইক্রো-বেঞ্চমার্ক লিখতে পারি যা এই আচরণকে নিম্নরূপ বিচ্ছিন্ন করে:

#include <stdio.h> #include <string.h> #include <stdint.h> #include <sys/time.h> #define BUFFER_SIZE (1024) #define MESSAGE_SIZE (32) #define NUMBER_RUNS (1000000) static inline double microtime () struct timeval tv; gettimeofday ( & tv, NULL); return 1e6 * tv.tv_sec + tv.tv_usec; static inline off_t min ( off_t a, off_t b) return a < b ? a : b; int main () uint8_t message(MESSAGE_SIZE); uint8_t buffer( 2 * BUFFER_SIZE); size_t offset; double slow_start = microtime (); offset = 0 ; for ( int i = 0 ; i < NUMBER_RUNS; i ++ ) const size_t part1 = min (MESSAGE_SIZE, BUFFER_SIZE - offset); const size_t part2 = MESSAGE_SIZE - part1; memcpy (buffer + offset, message, part1); memcpy (buffer, message + part1, part2); offset = (offset + MESSAGE_SIZE) % BUFFER_SIZE; double slow_stop = microtime (); double fast_start = microtime (); offset = 0 ; for ( int i = 0 ; i < NUMBER_RUNS; i ++ ) memcpy ( & buffer(offset), message, MESSAGE_SIZE); offset = (offset + MESSAGE_SIZE) % BUFFER_SIZE; double fast_stop = microtime (); printf ( "slow: %f microseconds per write

" , (slow_stop - slow_start) / NUMBER_RUNS); printf ( "fast: %f microseconds per write

" , (fast_stop - fast_start) / NUMBER_RUNS); return 0 ;

আমার i5-6400 এ, আমি বেশ সামঞ্জস্যপূর্ণ ফলাফল পাই, এইরকম কিছু খুঁজছি:

slow: 0.012196 microseconds per write fast: 0.004024 microseconds per write

মনে রাখবেন যে একক-memcpy কোড ডাবল-memcpy কোডের চেয়ে প্রায় তিনগুণ দ্রুত। আমাদের নিষ্পাপ বাইট-বাই-বাইট কপির চেয়ে অনেক বড় মার্জিন রয়েছে, যা প্রতি লেখায় 0.104943 মাইক্রোসেকেন্ডে বেঞ্চমার্ক করা হয়েছে। এই মাইক্রো-বেঞ্চমার্কটি সম্পূর্ণ কিউ লজিকের সম্পূর্ণ প্রতিনিধি নয় (যা পৃষ্ঠার ত্রুটি এবং TLB মিস হওয়ার মতো অবস্থার দ্বারা প্রভাবিত হতে পারে), তবে আমাদের একটি ভাল ইঙ্গিত দেয় যে আমাদের অপ্টিমাইজেশন সার্থক ছিল।

হোয়াট হ্যাপেনড?

দৃশ্যত এই কৌশলটি কিছু সময়ের জন্য পরিচিত, কিন্তু খুব কমই ব্যবহৃত হয়। তবুও, সফ্টওয়্যার অপ্টিমাইজ করার জন্য এটি একটি মেশিনের নিম্ন-স্তরের আচরণের সুবিধা নেওয়ার একটি দুর্দান্ত উদাহরণ।

আপনি যদি আমার সম্পূর্ণ সার্কুলার বাফার বাস্তবায়ন দেখতে আগ্রহী হন, আপনি করতে পারেন GitHub এ এটি খুঁজুন. সেখানে সংস্করণটি সিঙ্ক্রোনাইজেশন, ত্রুটি পরীক্ষা করা এবং ইচ্ছামত আকারের বার্তাগুলির গ্রানুলারিটিতে অ্যাক্সেস সহ সম্পূর্ণ।