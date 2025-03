1। ডেটাফ্রেম স্কেল গ্যাপ

আমি যখন পোলারগুলিতে কাজ শুরু করি, তখন আমি অবাক হয়েছি যে এসকিউএল এবং ডাটাবেসগুলির চেয়ে ডেটাফ্রেম বাস্তবায়নগুলি কতটা পৃথক। এসকিউএল যে কোনও জায়গায় দৌড়াতে পারে 1। এটি এমবেডেড, ক্লায়েন্ট সার্ভার মডেল বা সম্পূর্ণ ওএলএপি ডেটা গুদামগুলিতে চালাতে পারে।

যেখানে ডেটাফ্রেমগুলির জন্য, এপিআই ব্যবহারের ক্ষেত্রে আলাদা ছিল এবং এসকিউএল সমাধানের পিছনে পারফরম্যান্সের অভাব ছিল। স্থানীয়ভাবে, পান্ডাস প্রভাবশালী ছিল এবং দূরবর্তীভাবে/বিতরণ করা হয়েছিল, এটি ছিল পাইপার্ক। শেষ ব্যবহারকারীদের জন্য, পান্ডাস উঠতে এবং চালানো খুব সহজ ছিল, তবে এটি কয়েক দশক ধরে ডাটাবেসগুলি যা শিখেছে তা উপেক্ষা করেছে বলে মনে হয়, কোনও ক্যোয়ারী অপ্টিমাইজেশন ছিল না, দুর্বল ডেটা টাইপ বাস্তবায়ন, অনেকগুলি অপ্রয়োজনীয় বস্তুগতকরণ ছিল, এটি নুমপির কাছে মেমরি হ্যান্ডলিং অফলোড করেছে এবং আরও কয়েকটি ডিজাইনের সিদ্ধান্ত যা দুর্বল স্কেলিং এবং অসামঞ্জস্যপূর্ণ আচরণের দিকে পরিচালিত করে। পিসপার্ক ডাটাবেসের অনেক কাছাকাছি ছিল, এটি রিলেশনাল মডেল অনুসরণ করে, অপ্টিমাইজেশন রয়েছে, একটি বিতরণ করা ক্যোয়ারী ইঞ্জিন এবং সঠিকভাবে স্কেল করা হয়েছে। তবে পিসপার্ক স্কালায় লেখা আছে, জেভিএম স্থানীয়ভাবে চালানোর জন্য প্রয়োজন, খুব দুর্বল আনপাইথোনিক ইউএক্স রয়েছে (একটির জন্য জাভা ব্যাকট্রেস), এবং ওএমএসের প্রতি খুব সংবেদনশীল। এটি এক দশক আগে পণ্য হার্ডওয়ারের জন্যও ডিজাইন করা হয়েছিল এবং সারি-ভিত্তিক ওএলএপি এক্সিকিউশনটি সাবঅপটিমাল হিসাবে প্রমাণিত হয়েছে।

পোলারগুলির সাথে আমরা সেই দুটি পৃথিবীর নীচে একত্রিত করতে চাই একটি নমনীয় ডেটাফ্রেম এপিআই, উচ্চ পারফরম্যান্ট গণনা দ্বারা সমর্থিত। আমাদের প্রাথমিক (এবং অর্জন) লক্ষ্যটি একটি নমনীয় এপিআই সহ পান্ডাসের জন্য একটি বিকল্প সরবরাহ করছিল যা ক্যোয়ারী অপ্টিমাইজেশন এবং সমান্তরাল স্ট্রিমিং এক্সিকিউশন সক্ষম করে। দ্বিতীয় আমরা চলমান ডেটাফ্রেম কোডটি দূরবর্তীভাবে সহজ করতে চাই। এসকিউএল -এর মতো, একটি পোলার LazyFrame এটি একটি ক্যোয়ারির বিবরণ, এবং এটি কোনও সার্ভারে দূরবর্তীভাবে কার্যকর করার জন্য প্রেরণ করা যেতে পারে। এটি সহজ মৃত হওয়া উচিত। মেঘের প্রভাবশালী যুগে আপনার ল্যাপটপের সীমানার মধ্যে সীমাবদ্ধ থাকা উচিত নয়।

2। সর্বত্র পোলার চালান

আমাদের লক্ষ্য সক্ষম করা পোলারগুলির এপিআইয়ের সমস্ত নমনীয়তা এবং প্রকাশের সাথে স্কেলযোগ্য ডেটা প্রসেসিং। আমরা দুটি জিনিস নিয়ে কাজ করছি; মেঘ এবং একটি সম্পূর্ণ উপন্যাস স্ট্রিমিং ইঞ্জিন নকশা। আমরা পরবর্তী পোস্টগুলিতে স্ট্রিমিং ইঞ্জিন সম্পর্কে আরও ব্যাখ্যা করব; আজ আমরা পোলার ক্লাউডের সাথে কী তৈরি করছে তা ভাগ করতে চাই।

আমরা যে বৈশিষ্ট্যগুলি অফার করব:

বিতরণ করা মেরু; সমস্ত উচ্চ পারফরম্যান্ট ডেটাফ্রেমের প্রয়োজনের জন্য একটি এপিআই;

সার্ভারলেস গণনা;

কনফিগারযোগ্য হার্ডওয়্যার, উভয় জিপিইউ এবং সিপিইউ;

তির্যক স্কেলিং; অনুভূমিকভাবে এবং উল্লম্বভাবে উভয় স্কেলিং;

আপনার নিজের মেঘ আনুন; এডাব্লুএস, অ্যাজুরে এবং জিসিপি;

প্রিমিস লাইসেন্সিং;

দোষ সহনশীলতা;

ডেটা বংশ;

পর্যবেক্ষণযোগ্যতা;

প্রোডাকশন ইটিএল কাজের জন্য ব্যাচ মোডে, বা ইন্টারেক্টিভভাবে ডেটা অন্বেষণ করা হার্ডওয়্যার স্পিন আপ করা এবং পোলারগুলি দূরবর্তীভাবে চালানো খুব নির্বিঘ্ন হবে। পোস্টের বাকি অংশগুলি, আমরা কয়েকটি কোড উদাহরণের মাধ্যমে এটি অন্বেষণ করতে চাই।

3 … একটি দূরবর্তী ক্যোয়ারী।

এটি আমাদের পক্ষে গুরুত্বপূর্ণ যে একটি দূরবর্তী ক্যোয়ারী শুরু করা শেষ ব্যবহারকারীর জন্য স্থানীয় এবং বিরামবিহীন বোধ করে। দূরবর্তীভাবে একটি ক্যোয়ারী চালানো পোলারের নেটিভ এপিআইয়ের মধ্যে থেকে পাওয়া যাবে।

মনে রাখবেন যে আপনি যেখানে এই কোডটি কল করি সে সম্পর্কে আমরা অজ্ঞেয়বাদী। আপনি আপনার মেশিনে একটি নোটবুক, একটি এয়ারফ্লো ডিএজি, একটি এডাব্লুএস ল্যাম্বদা, আপনার সার্ভার ইত্যাদি থেকে একটি দূরবর্তী ক্যোয়ারী শুরু করতে পারেন ডেটা-প্রসেসিংয়ের জন্য প্রয়োজনীয় গণনাটি প্রায়শই এয়ারফ্লো বা প্রিফেক্টের অর্কেস্টেশনের জন্য প্রয়োজনীয় গণনার চেয়ে অনেক বেশি। আপনাকে এমন কোনও প্ল্যাটফর্মে সীমাবদ্ধ না করে যেখানে আপনাকে আপনার প্রশ্নগুলি চালানো দরকার, আমরা আপনাকে যে কোনও পরিবেশে এম্বেড পোলার মেঘের নমনীয়তা দিই।

নীচের ক্যোয়ারিতে আমরা আমাদের প্রথম ক্যোয়ারী শুরু করি।

import polars as pl import polars_cloud as pc from datetime import date query = (pl . scan_parquet ( "s3://my-dataset/" ) . filter (pl. col ( "l_shipdate" ) <= date ( 1998 , 9 , 2 )) . group_by ( "l_returnflag" , "l_linestatus" ) . agg ( avg_price = pl. mean ( "l_extendedprice" ), avg_disc = pl. mean ( "l_discount" ), count_order = pl. len () ) ) in_progress = ( query . remote (pc. ComputeContext (cpus = 16 , memory = 64 )) . sink_parquet ( "s3://my-dst/" ) )

আমরা একটি তৈরি LazyFrame এবং স্থানীয়ভাবে এটি সংগ্রহের পরিবর্তে আমরা কল করতে পারি .remote() যা পোলারকে প্রদত্ত সাথে দূরবর্তীভাবে এই ক্যোয়ারীটি চালাতে বলে pc.ComputeContext । দ্য ComputeContext

স্পিন আপ করতে কোন ধরণের হার্ডওয়্যার ব্যবহার করুন এবং sink_parquet কল ক্যোয়ারী ফায়ারস। আমরা একটি ফিরে পেতে InProgressQueryRemote অবজেক্টটি নির্দেশ করে যে আমাদের ক্যোয়ারী দূরবর্তীভাবে চলে। মাঝামাঝি সময়ে আমরা অন্যান্য স্টাফগুলিতে asynchronlyভাবে কাজ করতে পারি, বা আমরা ফলাফলটি অবরুদ্ধ করতে এবং অপেক্ষা করতে পারি। অবশেষে, InProgressQueryRemote একটিতে পরিণত হতে পারে LazyFrame আবার দূরবর্তী প্রশ্নের ফলাফল নিয়ে কাজ চালিয়ে যেতে। আসুন এটি করা যাক।

result = in_progress . await_result () print (result) new_lf : pl . LazyFrame = result . lazy ()

shape: (4, 5) ┌──────────────┬──────────────┬──────────────┬──────────┬─────────────┐ │ l_returnflag ┆ l_linestatus ┆ avg_price ┆ avg_disc ┆ count_order │ │ --- ┆ --- ┆ --- ┆ --- ┆ --- │ │ str ┆ str ┆ f64 ┆ f64 ┆ u32 │ ╞══════════════╪══════════════╪══════════════╪══════════╪═════════════╡ │ A ┆ F ┆ 38273.129735 ┆ 0.049985 ┆ 1478493 │ │ N ┆ O ┆ 38249.117989 ┆ 0.049997 ┆ 2920374 │ │ R ┆ F ┆ 38250.854626 ┆ 0.050009 ┆ 1478870 │ │ N ┆ F ┆ 38284.467761 ┆ 0.050093 ┆ 38854 │ └──────────────┴──────────────┴──────────────┴──────────┴─────────────┘

4। স্কেলিং কৌশল

পোলারগুলি আপনার পাইথন লাইব্রেরির জন্য প্রত্যাশার চেয়ে দূরবর্তীভাবে এই প্রশ্নগুলি চালাতে পারে। আমাদের আচারের মাধ্যমে সিরিয়ালাইজেশনের প্রয়োজন হয় না কারণ আমরা মরিচাগুলিতে স্থানীয়ভাবে একটি ডিএসএল গাছ তৈরি করি। এই ডিএসএল বিশ্লেষণ করে চালানোর জন্য সার্ভারে প্রেরণ করা হয়। ক্লাস্টার সাইড, আমরা মরিচাগুলিতে একটি বিতরণকারী শিডিয়ুলার-ওয়ার্কার আর্কিটেকচার তৈরি করেছি যা এই প্রশ্নগুলি বিশ্লেষণ করতে পারে, একটি অভিযোজিত পোলার অপ্টিমাইজার চালায় এবং ক্যোয়ারির উপর নির্ভর করে একটি শারীরিক পরিকল্পনা নিয়ে আসে যা অনুভূমিকভাবে বা উল্লম্বভাবে স্কেল করে। পোলারগুলি উল্লম্ব স্কেলিংয়ে খুব শক্তিশালী এবং আমরা স্বীকার করি যে অনেকগুলি প্রশ্নগুলি একটি একক মেশিনে সবচেয়ে কার্যকর কার্যকর হবে। তবে এটিও খুব সাধারণ বিষয় যে ক্যোয়ারীগুলি এমন একটি সেট দিয়ে শুরু করে যা ডেটাসেটের আকার হ্রাস করে (গ্রুপ-বাই এবং ফিল্টারগুলির কথা ভাবেন)। ক্লাউড স্টোরেজ থেকে বড় ডেটা আকারগুলি জিজ্ঞাসা করার সময়, আপনি একটি একক নোডের আইও সীমাতে আবদ্ধ। অনুভূমিক স্কেলিংয়ের সাহায্যে আমরা সেই ডাউনলোডের সীমাগুলি মারাত্মকভাবে বাড়িয়ে তুলতে পারি এবং আকার হ্রাসের পরে একক মেশিনে শেষ হয়ে যায়। আমরা এমন একটি আর্কিটেকচার তৈরি করছি যা অনুভূমিকভাবে এবং উল্লম্বভাবে স্কেলিং উভয় ক্ষেত্রেই জ্বলজ্বল করে, তির্যক স্কেলিং ডাব করে, সর্বোত্তম কৌশলটি গতিশীলভাবে বেছে নিয়ে।

5 .. ইঞ্জিন (সিপিইউ এবং জিপিইউ)

একাধিক স্কেলিং কৌশল ছাড়াও, আমরা কর্মী নোডগুলিতে আমাদের ইঞ্জিন হিসাবে ওপেন সোর্স পোলারগুলি চালানোর প্রতিশ্রুতিবদ্ধ। এটি নিশ্চিত করে যে আমাদের প্রণোদনাগুলি একত্রিত হয়েছে এবং পোলার মেঘের শব্দার্থবিজ্ঞান বিচ্যুত হবে না। পোলারগুলি আপনাকে সমস্ত ইঞ্জিন চালানোর অনুমতি দেবে। তার মানে সেখানেও থাকবে জিপিইউ সমর্থন। আপনি একটি উচ্চ প্রান্তের জিপিইউ সহ একটি মেশিন স্পিন করতে সক্ষম হবেন এবং স্থানীয়ভাবে ইন্টারেক্টিভ মোডে সংযুক্ত করতে পারবেন। আমাদের নতুন স্ট্রিমিং ইঞ্জিন একটি আছে কোর-এর বাইরে ডিজাইন করুন, এবং একটি দক্ষ পদ্ধতিতে ডিস্কে ছড়িয়ে দিতে সক্ষম হবেন। বিতরণ করা প্রশ্নগুলির সাথে একসাথে, এটি সত্যই কোনও ডেটাসেটে পোলারগুলি স্কেল করবে। আমাদের ইতিমধ্যে প্রথম প্রাথমিক ফলাফল এবং পিডিএস-এইচ-তে রয়েছে2 বেঞ্চমার্ক এবং তারা খুব আশাব্যঞ্জক দেখায়। আমরা ইতিমধ্যে আমাদের ইন-মেমরি ইঞ্জিনকে ~ 3 এর একটি ফ্যাক্টর দ্বারা পরাজিত করেছি (এবং এখনও প্রচুর পারফরম্যান্সের সুযোগ রয়েছে) এবং এটি মেমরি চার্চেরিস্টিকস আরও ভাল বলে না বলে যায়।

6 .. বিতরণ কৌশল

বিতরণ

উল্লিখিত হিসাবে, আপনি মেশিনগুলির একটি ক্লাস্টার স্পিন করতে পারেন। এটি আপনাকে বিতরণ মোডে একটি ক্যোয়ারী চালানোর অনুমতি দেয়।

lf : LazyFrame result = ( lf . remote () . distributed () . collect () . await_result () )

একটি বিতরণ করা ক্যোয়ারির শব্দার্থবিজ্ঞান পরিবর্তন হয় না, এটি কেবল পোলার ক্লাউডকে বলে যে এটি যদি প্রয়োজন হয় তবে ক্যোয়ারীটি শেষ করতে একাধিক নোড ব্যবহার করতে পারে। প্রতিটি পোলার অপারেশন এখনও সমর্থিত নয়, তবে এটি এখনও উপকারী হবে কারণ বিতরণ করা প্রশ্নগুলি কোনও একক নোড স্ট্রিমিং ইঞ্জিনে এটি শেষ না করা পর্যন্ত ডেটাসেটের আকার হ্রাস করতে পারে। বর্তমানে সমর্থিত অপারেশনগুলি হ’ল সমস্ত স্ট্রিমেবল অপারেশন যেমন filter , explode , map এবং পার্টিশনেবল অপারেশন যেমন group-by এবং equi-joins ।

বিভাজন

তদ্ব্যতীত, আমাদের বিভাজনযুক্ত প্রশ্ন রয়েছে, যা প্রদত্ত ক্যোয়ারীকে বিভাজন করে key ক্লাস্টারে উপলভ্য নোডগুলিতে। এটি শব্দার্থগতভাবে ক্যোয়ারীটি পরিবর্তন করবে কারণ আপনি প্রতিটি অনন্য কীটির জন্য ফলাফল পাবেন, যার অর্থ একটি একক ক্যোয়ারী থাকবে n_unique(key) ফলাফল:

lf : LazyFrame result = ( lf . remote (pc. ComputeContext (cpus = 16 , memory = 64 , cluster_size = 32 )) . partition_by ( "day" ) . collect () . await_result () )

এটি এমন সময়গুলির জন্য খুব দরকারী হতে পারে যেখানে আপনি নির্দিষ্ট সময়ের ব্যবধানে একটি ক্যোয়ারী চালাতে চান, যেমন দৈনিক, সাপ্তাহিক, মাসিক ইত্যাদি

সমান্তরালভাবে অনেক প্রশ্ন স্প্যান

অবশেষে আমরা দূর থেকে অনেক প্রশ্ন চালানো সহজ করি। আমরা একটি ফাংশন সরবরাহ spawn_many যা একটি তালিকা নেয় LazyFrame এর, যা ক্লাস্টারে চলবে।

import polars_cloud as pc lazy_frames : list ( LazyFrame ) results = pc . spawn_many (lazy_frames, partition_by = "day" , dst = "s3://result_dst/" ). await_result ()

7 .. ত্রুটি সহনশীলতা

একবার আপনি একাধিক কর্মী এবং হার্ডওয়্যার নিয়ে কাজ শুরু করার পরে, জিনিসগুলি ব্যর্থ হবে, ডিস্কগুলি হ্রাস পাবে, মেশিনগুলি সংযোগ বিচ্ছিন্ন করবে ইত্যাদি এটি ব্যবহারকারীর কাছ থেকে পুরোপুরি লুকিয়ে রাখতে হবে এবং এই জটিলতাটি আমাদের দ্বারা পরিচালিত হবে। শ্রমিকরা ব্যর্থ হলে আমরা কাজগুলি পুনরায় নির্ধারণ করব এবং হার্ডওয়্যার ব্যর্থতার থেকে পৃথক ক্যোয়ারী শেষ করে তা নিশ্চিত করব।

প্রাথমিক অ্যাক্সেসের জন্য আবেদন করুন

এই মাসের শেষে আমরা আমাদের প্রথম ক্লায়েন্টদের উপর দিয়ে আছি। এর পরপরই আমরা এডাব্লুএস -এ তাদের ক্লাউড স্ট্যাক থাকা ব্যক্তিদের স্কেল করতে এবং আমন্ত্রণ জানাতে চাই। এর পরে আমরা অন্যান্য ক্লাউড বিক্রেতাদের এবং কুবারনেটসে কাজ করব। আপনি কি তাড়াতাড়ি অ্যাক্সেস চান, আমাদের কাছে পৌঁছান!