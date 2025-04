কোয়ান্টকোতে, আমরা সহজেই আমাদের কোড বেসগুলির গুণমান উন্নত করার চেষ্টা করছি যাতে সেগুলি সহজেই রক্ষণাবেক্ষণযোগ্য থাকে। অতি সম্প্রতি, এটি প্রায়শই থেকে ডেটা পাইপলাইনগুলি স্থানান্তরিত করতে জড়িত pandas থেকে polars উল্লেখযোগ্য পারফরম্যান্স লাভ অর্জনের জন্য।

2023 এর শেষে, আমরা আমাদের দীর্ঘতম চলমান প্রকল্পগুলির মধ্যে একটিতে একটি বিশাল উত্তরাধিকার কোডবেসকে আধুনিকীকরণের প্রচেষ্টা শুরু করি। এটি করার সময়, আমরা বুঝতে পেরেছিলাম যে আমাদের বিদ্যমান ডেটা ফ্রেম প্রসেসিং কোডের একটি অবিচ্ছেদ্য ত্রুটি ছিল: কলামের নাম, ডেটা প্রকার, মান ব্যাপ্তি এবং অন্যান্য আক্রমণকারী – এর কোনওটিই কেবল কোডটি পড়া থেকে স্পষ্ট ছিল না।

ফলস্বরূপ, কোনও ফাংশনের আচরণ বোঝার জন্য সাধারণ পদ্ধতির ক্লায়েন্ট অবকাঠামোতে এটি সম্পাদন করা জড়িত – আসল ডেটা উপলব্ধ একমাত্র জায়গা। তারপরে, আমরা ম্যানুয়ালি প্রত্যেকের মধ্য দিয়ে পদক্ষেপ নেব pandas প্রতিটি পরিবর্তনের আগে এবং পরে ডেটা পরিদর্শন করতে রূপান্তর। স্বাভাবিকভাবেই, এটি ক্লান্তিকর, ত্রুটি-প্রবণ এবং দক্ষ থেকে অনেক দূরে।

একবার আমরা রূপান্তরগুলির একটি চেইন আবার লিখতে চাই polars ডেটা ফ্রেমের সামগ্রীতে স্ট্যাটিক টাইপ চেকিং বা রানটাইম বৈধতার অনুপস্থিতির অর্থ হ’ল বাগগুলি ধরা শক্ত। নির্ভুলতা নিশ্চিত করতে, আমাদের প্রায়শই আমাদের পুরো পাইপলাইনটি বড় ডেটাসেটগুলিতে শেষ-থেকে-শেষ চালাতে হত-যার জন্য উল্লেখযোগ্য সময় এবং গণনা সংস্থান প্রয়োজন।

অবশেষে, আমরা বুঝতে পেরেছিলাম যে আমাদের ডেটা পাইপলাইনে ডেটা ফ্রেমের বিষয়বস্তু সম্পর্কে বর্ণনা, বৈধতা এবং যুক্তি দেওয়ার জন্য আমাদের আরও ভাল উপায়ের প্রয়োজন। আমরা কোডটি পড়ার সময় আক্রমণকারীদের সুস্পষ্ট করে তুলতে চেয়েছিলাম এবং সঠিকতা নিশ্চিত করার জন্য রানটাইমে এই আক্রমণকারীদের প্রকৃতপক্ষে প্রয়োগ করতে চেয়েছিলাম।

এই সমস্যার একটি প্রাকৃতিক সমাধান হ’ল ডেটা ফ্রেম বৈধতা গ্রন্থাগার। ইতিমধ্যে 2023 সালে, পাইথন লাইব্রেরিগুলি বিদ্যমান ছিল যা ডেটা ফ্রেম স্কিমা সংজ্ঞায়িত করার অনুমতি দেয় এবং যাচাই করার অনুমতি দেয় যে ডেটা ফ্রেমগুলি এই স্কিমাগুলির সাথে মেনে চলে, অর্থাত্ পূর্বনির্ধারিত প্রত্যাশাগুলি পূরণ করে।

কিছু প্রকল্পে, আমরা ইতিমধ্যে ব্যবহার করেছি pandera বৈধতা দেওয়ার জন্য একটি বহুল পরিচিত ওপেন সোর্স লাইব্রেরি pandas ডেটা ফ্রেম। দুর্ভাগ্যক্রমে, 2023 সালে ফিরে, pandera কোন কিছু ছিল না polars সমর্থন এবং একটি উল্লেখযোগ্য পোলার-স্থানীয় বিকল্প, যথা patito এখনও তার শৈশবে ছিল এবং উত্পাদন-প্রস্তুত হিসাবে বিবেচিত হতে পারে না।

তবে, আজও, আমরা এখনও এর সাথে বেশ কয়েকটি সীমাবদ্ধতার মুখোমুখি হয়েছি pandera এবং patito আমাদের ব্যবহারের ক্ষেত্রে। আমরা উপসংহারে পৌঁছেছি যে এগুলি তাদের সুযোগ এবং নকশার অন্তর্নিহিত এবং এই প্রকল্পগুলিতে অবদান রেখে সহজেই সমাধান করা যায় না – যা আমরা এখনও সক্রিয়ভাবে নির্বিশেষে করি (যেমন, আমরা কন্ডা -ফরম ফিডস্টক বজায় রাখি pandera )।

বিশেষত, pandera এবং patito এর জন্য সমর্থন অনুপস্থিত

এই গ্রন্থাগারগুলির ত্রুটিগুলি প্রতিকারের জন্য, আমরা বিকাশ করেছি dataframely । dataframely এর জন্য প্রথম শ্রেণির সমর্থন সহ একটি ঘোষণামূলক ডেটা ফ্রেম বৈধতা গ্রন্থাগার polars ডেটা ফ্রেম। এর উদ্দেশ্য হ’ল ডেটা পাইপলাইনগুলি লিখিত করা polars (1) আরও শক্তিশালী ডেটা প্রত্যাশা পূরণ করে তা নিশ্চিত করে এবং (2) আরও পঠনযোগ্য ডেটা ফ্রেম টাইপের ইঙ্গিতগুলিতে স্কিমা তথ্য যুক্ত করে।

টক সস্তা, সুতরাং, আসুন কিছু কোড উদাহরণগুলি দেখুন।

সাথে শুরু করতে dataframely আপনি প্রথমে একটি স্কিমা সংজ্ঞায়িত করুন। কোয়ান্টকোতে, আমরা প্রায়শই বীমা দাবীগুলি নিয়ে কাজ করি – উদাহরণস্বরূপ, আমরা হাসপাতালের চালানযুক্ত ডেটা ফ্রেমের জন্য একটি স্কিমা তৈরি করতে পারি:

যদিও আমরা এর কলামগুলি এবং তাদের ডেটা ধরণের ক্ষেত্রে ডেটা ফ্রেমটি বর্ণনা করতে পারি, আমরা কলাম স্তরের পাশাপাশি কলামগুলি জুড়েও প্রত্যাশাগুলি এনকোড করতে পারি। উদাহরণস্বরূপ, আমরা একটি (বা একাধিক) কলাম (গুলি) প্রাথমিক কী হিসাবে মনোনীত করতে পারি বা একটি কাস্টম বৈধতা বিধি সংজ্ঞায়িত করতে পারি যা কাজ করে জুড়ে কলাম।

একবার আমরা একটি স্কিমা সংজ্ঞায়িত করার পরে, আমরা একটি পাস করতে পারি pl.DataFrame বা pl.LazyFrame এর মধ্যে validate ক্লাসমথড যা বৈধতা দেয় যে বিষয়বস্তুগুলি স্কিমা সংজ্ঞার সাথে মেলে। আমরা যদি স্কিমাতে নির্দিষ্ট প্রকারগুলিতে কলামের প্রকারগুলি স্বয়ংক্রিয়ভাবে বাধ্য করতে চাই তবে আমরা পাস করতে পারি cast=True ।

যদি কোন সারি invoices অবৈধ, অর্থাত্, পৃথক কলামগুলিতে সংজ্ঞায়িত যে কোনও নিয়ম বা পুরো স্কিমা মূল্যায়ন করে False একটি বৈধতা ব্যতিক্রম উত্থাপিত হয়। অন্যথায়, যদি সমস্ত সারি মধ্যে থাকে invoices বৈধ হয়, validate প্রকারের একটি বৈধতাযুক্ত ডেটা ফ্রেম প্রদান করে dy.DataFrame(InvoiceSchema) ।

গুরুত্বপূর্ণভাবে, dy.DataFrame(InvoiceSchema) একটি খাঁটি টাইপিং কনস্ট্রাক্ট এবং একটি এখনও একটি সঙ্গে ডিল করে pl.DataFrame রানটাইম এ। এই সুবিধা আছে dataframely ধীরে ধীরে ফ্যাশনে গৃহীত হতে পারে যেখানে কোনও dy.DataFrame(...) সহজেই এমন একটি পদ্ধতিতে পাস করা যেতে পারে যা একটি গ্রহণ করে pl.DataFrame (এবং ব্যবহার করে বিপরীতে type: ignore মন্তব্য)।

তবে সবচেয়ে বড় সুবিধাটি হ’ল: জেনেরিক ডেটা ফ্রেমের ধরণটি অবিলম্বে কোডের পাঠককে জানায় যে তারা ডেটা ফ্রেমে কী ডেটা খুঁজে পেতে পারে। এটি স্পষ্টতই এর কার্যকারিতা উন্নত করে mypy ডেটা ফ্রেম-ভিত্তিক কোডের জন্য: টাইপ চেকার এখন নিশ্চিত করতে পারে যে কোনও পদ্ধতিতে পাস করা কোনও ডেটা ফ্রেম নির্দিষ্ট পূর্বশর্তগুলি ডাব্লুআরটি পূরণ করে। এর বিষয়বস্তু – রানটাইমে কোনও লুকানো পারফরম্যান্স হিট ছাড়াই।

প্রায়শই, ডেটা ফ্রেম (বা বরং “টেবিলগুলি”) আন্তঃনির্ভরশীল এবং যথাযথ ডেটা বৈধকরণের জন্য একাধিক টেবিলের বিবেচনা প্রয়োজন যা একটি সাধারণ প্রাথমিক কী ভাগ করে। dataframely সংগ্রহের স্তরে বৈধতা বিধি সহ ডেটা ফ্রেমের গ্রুপগুলির জন্য ব্যবহারকারীদের “সংগ্রহগুলি” সংজ্ঞায়িত করতে সক্ষম করে। সংগ্রহ তৈরি করতে, আমরা প্রথমে ডায়াগনোসিস ডেটা ফ্রেমের জন্য একটি দ্বিতীয় স্কিমা প্রবর্তন করি:

এরপরে আমরা এমন একটি সংগ্রহ তৈরি করতে পারি যা চালানগুলি বান্ডিল করে এবং এই চালানের অন্তর্ভুক্ত রোগ নির্ণয়গুলি: