জিসিপি আউটেজে রেডপান্ডা ক্লাউডের প্রতিক্রিয়া

জিসিপি আউটেজে রেডপান্ডা ক্লাউডের প্রতিক্রিয়া

12 ই জুন, 2025 -এ, গুগল ক্লাউড প্ল্যাটফর্ম (জিসিপি) তাদের এপিআই পরিচালন ব্যবস্থায় একটি স্বয়ংক্রিয় কোটা আপডেটের দ্বারা ট্রিগার করা দুর্ভাগ্যজনক গ্লোবাল আউটেজের অভিজ্ঞতা অর্জন করেছে।

ইন্টারনেটের একটি বড় অংশের জন্য একটি বড় আউটেজ কী ছিল তা ছিল রেডপান্ডা ক্লাউড গ্রাহকদের জন্য আরও একটি সাধারণ দিন। যদিও জিসিপি অনেক সমালোচনামূলক পরিষেবাকে প্রভাবিত করে এমন ব্যাপক বিঘ্নের সাথে মোকাবিলা করেছে, জিসিপিতে রেডপান্ডা ক্লাউড ক্লাস্টারগুলি স্থিতিশীল ছিল, আমরা যে এসএলএর প্রস্তাবিত এসএলএর জন্য উদ্দেশ্যমূলকভাবে ডিজাইন করা হয়েছে তার জন্য ধন্যবাদ, পাশাপাশি একটি সহ সেল-ভিত্তিক আর্কিটেকচার যে আমরা একটি পণ্য নীতিও তৈরি করেছি। তবে পর্দার আড়ালে, এটি শান্ত থেকে অনেক দূরে ছিল।

এই পোস্টটি আমাদের নিজস্ব অভিজ্ঞতা, আমাদের প্রতিক্রিয়া, রেডপান্ডা ক্লাউড সম্পর্কে পূর্বে অবিচ্ছিন্ন বিবরণ এবং আমাদের শিল্পে সুরক্ষা এবং নির্ভরযোগ্যতা অনুশীলনের বিষয়ে চিন্তাভাবনা বন্ধ করার একটি সংক্ষিপ্ত সময়রেখা সরবরাহ করে।

কেন এই জাতীয় ঘটনা ঘটে

আধুনিক কম্পিউটার সিস্টেমগুলি জটিল সিস্টেমগুলি-এবং জটিল সিস্টেমগুলি তাদের অ-রৈখিক প্রকৃতি দ্বারা চিহ্নিত করা হয়, যার অর্থ একটি আউটপুটে পরিবর্তনগুলি পর্যবেক্ষণ করেছে না ইনপুট পরিবর্তনের সমানুপাতিক। এই ধারণাটি বিশৃঙ্খলা তত্ত্ব হিসাবেও পরিচিত প্রজাপতি প্রভাববা সিস্টেমের চিন্তাভাবনায়, এই অভিব্যক্তি সহ, “পুরোটি তার অংশগুলির যোগফলের চেয়ে বেশি”।

যখন এই গাণিতিক সত্যটি স্বীকৃত হয়, তখন সুরক্ষা এবং নির্ভরযোগ্য ব্যবস্থাগুলি স্থাপন করা হয়, যেমন প্রতিক্রিয়া নিয়ন্ত্রণ লুপগুলি বন্ধ করে দেওয়া, পরিবর্তনের রোলআউটগুলি পর্যায়ক্রমে পরিবর্তন করা, লোড শেডিং লোড, ব্যাকপ্রেসার প্রয়োগ করা, এলোমেলোভাবে পুনরায় চেষ্টা করা এবং ঘটনার প্রতিক্রিয়া প্রক্রিয়াগুলি সংজ্ঞায়িত করা অন্যদের মধ্যে।

জিসিপি -র আপাতদৃষ্টিতে নিরীহ স্বয়ংক্রিয় কোটা আপডেট ট্রিগার করেছে প্রজাপতি প্রভাব যে কোনও মানুষ ভবিষ্যদ্বাণী করতে পারে না, বেশ কয়েকটি সংস্থাকে প্রভাবিত করে-কিছু তাদের চিত্তাকর্ষক প্রকৌশল সংস্কৃতির জন্য পরিচিত এবং তাদের দীর্ঘস্থায়ী প্রাপ্যতা রেকর্ডের জন্য ইন্টারনেট স্তম্ভগুলি বিবেচনা করে।

টাইমলাইন

18:41:00 ইউটিসি

আমাদের গুগল ক্লাউড টেকনিক্যাল অ্যাকাউন্ট ম্যানেজার (টিএএম) আউটেজ সম্পর্কে আমাদের অবহিত করেছে:

18:42:00 ইউটিসি

আমরা আমাদের রেডপান্ডা ক্লাউড জিসিপি গ্রাহকদের উপর প্রভাবটি মূল্যায়ন করতে শুরু করেছি, যার মধ্যে আমরা কোনও সমর্থন টিকিট পেয়েছি কিনা তা সহ।

18:43:00 ইউটিসি

আমরা লক্ষ্য করেছি যে আমাদের পর্যবেক্ষণ একটি অবনমিত অবস্থায় চলছে। আমাদের পর্যবেক্ষণের ডেটা এবং স্ট্যাকের স্ব-হোস্টিং সত্ত্বেও, আমরা এখনও ড্যাশবোর্ডিং এবং সতর্কতার প্রয়োজনের জন্য একটি তৃতীয় পক্ষের সরবরাহকারী ব্যবহার করি। এই সরবরাহকারী আংশিকভাবে প্রভাবিত হয়েছিল। আমরা এখনও মেট্রিকগুলি নিরীক্ষণ করতে পারি, তবে আমরা সতর্কতা বিজ্ঞপ্তি পাচ্ছিলাম না।

আমরা সতর্কতা বিজ্ঞপ্তিগুলির ক্ষতিটিকে সমালোচনামূলক বলে মনে করেছি যেহেতু আমরা এখনও আমাদের স্ব-পরিচালিত মেট্রিকগুলি জিজ্ঞাসা করা এবং লগিং স্ট্যাকের মতো অন্যান্য উপায়ে প্রভাবগুলি মূল্যায়ন করতে সক্ষম হয়েছি।

19:08:00 ইউটিসি

এই মুহুর্তে, এটি স্পষ্ট ছিল যে একাধিক জিসিপি পরিষেবাগুলি আমাদের গ্রাহকদের কাছ থেকে সমর্থন টিকিট না পেয়ে বা রেডপান্ডা ক্লাউড সতর্কতা দ্বারা পেজযুক্ত হওয়া সত্ত্বেও বিশ্বব্যাপী বিভ্রাটের মুখোমুখি হচ্ছিল। সুতরাং, সবচেয়ে খারাপের প্রস্তুতির জন্য, আমরা একাধিকের প্রতিক্রিয়া সমন্বয় করতে একটি নিম্ন-তীব্র ঘটনা তৈরি করেছি সম্ভাবনা ঘটনা।

19:23:00 ইউটিসি

ক্লাউড মার্কেটপ্লেসগুলি পরিচালনা করার জন্য আমরা যে বিক্রেতার ব্যবহার করি তা আমাদের দ্বারা অবহিত করা হয়েছিল যে তাদের সমস্যা রয়েছে। তারা দ্বারা প্রভাবিত হয়েছিল ক্লাউডফ্লেয়ার আউটেজযা আমরা পরে শিখেছি জিসিপি বিভ্রাটের সাথে সংযুক্ত ছিল। এই পরিষেবাটি অবনমিত হওয়া আমাদের কাছে সমালোচনা ছিল না, তাই আমরা এটি অপেক্ষার তালিকায় রেখেছি।

19:41:00 ইউটিসি

গুগল ট্রিগার কারণ এবং প্রয়োগ প্রশমিতকরণ চিহ্নিত করেছে। এই মুহুর্তে, রেডপান্ডা ক্লাউড গ্রাহকদের নেতিবাচকভাবে প্রভাবিত হচ্ছিল এমন কোনও প্রমাণ নেই।

20:26:00 ইউটিসি

আমরা বিলম্বিত সতর্কতা বিজ্ঞপ্তিগুলি গ্রহণ করতে শুরু করি, বেশিরভাগই টায়ার্ড স্টোরেজ ত্রুটিগুলি বৃদ্ধির সাথে সম্পর্কিত, যা রেডপান্ডার প্রাথমিক স্টোরেজ নয়। আমরা উচ্চ ডিস্ক ব্যবহারের সতর্কতাগুলি পাইনি, যা সাধারণত টায়ার্ড স্টোরেজ সাবসিস্টেমটি বর্ধিত সময়ের (দিনগুলি) সমস্যাগুলি অনুভব করে যখন আমরা সাধারণত পাই।

অতিরিক্তভাবে, একটি নির্ভরযোগ্যতা ব্যবস্থা হিসাবে, আমরা ডিস্কের স্থান অব্যবহৃত এবং ব্যবহৃত-তবে-পুনরুদ্ধারযোগ্য (ক্যাচিংয়ের জন্য) ছেড়ে যাই, যা পরিস্থিতি যদি এটি পরোয়ানা দেয় তবে আমরা পুনরায় দাবি করতে পারি। এই আউটেজ সেই পরিস্থিতি ছিল না।

20:56:00 ইউটিসি

প্রথাগত হিসাবে আমরা কোনও কিছু অনুপস্থিত না, এবং আমাদের সমর্থন দেখানোর জন্য নিশ্চিত করার জন্য আমরা সর্বোচ্চ টায়ার্ড স্টোরেজ ত্রুটি হারের সাথে গ্রাহকদের কাছে পৌঁছানো শুরু করেছি। আমরা আমাদের গ্রাহকদের পক্ষে এই BYOC ক্লাস্টারগুলি পুরোপুরি পরিচালনা করি এবং সম্পূর্ণ দৃশ্যমানতা পেয়েছি – আমরা প্রশ্নের উত্তরগুলি জানি, তবে আমরা যাইহোক জিজ্ঞাসা করি। এগুলি সর্বোপরি জটিল সিস্টেম।

21:38:00 ইউটিসি

কিছু সময়ের জন্য আমাদের জিসিপি বহরটি নিবিড়ভাবে পর্যবেক্ষণ করার পরে, আমরা ঘটনাটি প্রশমিত করা বিবেচনা করেছি – তীব্রতা অপরিবর্তিত (এসইভি 4) সহ, এবং নেতিবাচক গ্রাহকের প্রভাবের কোনও প্রমাণ নেই। আমরা জিসিএসের বিরুদ্ধে এপিআই কলগুলির জন্য ত্রুটির হারের বৃদ্ধি লক্ষ্য করেছি, কিছু ক্ষেত্রে ন্যূনতম বিলম্বিত প্রভাব রয়েছে। তবে শত শত জিসিপি ক্লাস্টারগুলি স্বাস্থ্যকর ছিল এবং স্বাস্থ্যকর ছিল।

জিসিএসে এপিআই কলগুলির নমুনা ত্রুটি হার (অনুরোধগুলি প্রভাবশালী ছিল)

শক্তি যে আমাদের পক্ষে খেলেছে

হ্যান্ডসাইট পক্ষপাতিত্বের ঝুঁকি স্বীকার করে, নিম্নলিখিত কারণগুলি জিসিপি বিভ্রাটে আমাদের রেডপান্ডা ক্লাউড জিসিপি গ্রাহকদের উপর কোনও নেতিবাচক প্রভাব ফেলবে না।

সেল-ভিত্তিক আর্কিটেকচার

রেডপান্ডা ক্লাউড ক্লাস্টারগুলি তাদের মেটাডেটা বা অন্য কোনও সমালোচনামূলক পরিষেবাগুলিকে বহিরাগত করে না। ডেটা লিখতে এবং পড়ার জন্য, বিষয়গুলি, এসিএল এবং অন্যান্য কাফকা সত্তা পরিচালনা করার জন্য প্রয়োজনীয় সমস্ত পরিষেবাগুলি সহ-অবস্থিত, রেডপান্ডা কোর তার একক-বাইনারি আর্কিটেকচারের সাথে এগিয়ে চলেছে। এটি একটি সুপরিচিত অনুসরণ করে স্থাপত্য প্যাটার্ন ব্যর্থতার প্রভাব ব্যাসার্ধ হ্রাস করার লক্ষ্যে, যা সুরক্ষাও উন্নত করে।

আমরা এই প্যাটার্নটি আরও গ্রহণ করেছি এবং এটিকে একটি পণ্য নীতি তৈরি করেছি। বিপরীতে, অন্যান্য পণ্য কেন্দ্রীভূত মেটাডেটা এবং একটি ডিস্কলেস আর্কিটেকচার গর্বিত করে সম্ভবত এই বৈশ্বিক বিভ্রাটের সম্পূর্ণ ওজন অনুভব করেছে।

আমরা যে স্লা অফার করি তার জন্য উদ্দেশ্যমূলকভাবে ডিজাইন করা হয়েছে

রেডপান্ডা ক্লাউড চালু করার পরে, 99.99% প্রাপ্যতা এসএলএ সরবরাহ করতে আমাদের দুই বছর সময় লেগেছে। এসএলএর 1 টি অতিরিক্ত 9 টি অতিরিক্ত সরবরাহের জন্য উল্লেখযোগ্য পরিমাণ বিনিয়োগ এবং প্রচেষ্টা গ্রহণ করে। জিসিপিতে মাল্টি-এজেড রেডপান্ডা ক্লাউড ক্লাস্টারগুলি কমপক্ষে 99.999%এর একটি প্রাপ্যতা এসএলও সমর্থন করার জন্য ডিজাইন করা হয়েছিল। অনুশীলনে, আমরা এমনকি উচ্চতর পরিমাপ পর্যবেক্ষণ করি।

এটি একাধিক কারণের জন্য ধন্যবাদ:

  • রেডপান্ডা ক্লাউড ক্লাস্টারগুলি সমস্ত বিষয়ের উপর কমপক্ষে 3 টির একটি প্রতিলিপি ফ্যাক্টর প্রয়োগ করে; গ্রাহকরা প্রতিলিপি ফ্যাক্টরটি হ্রাস করতে পারবেন না, কেবল এটি বাড়িয়ে দিন।
  • রেডপান্ডা স্থানীয় এনভিএমই ডিস্কের প্রাথমিক ডেটা সঞ্চয় করে এবং পুরানো ডেটা টায়ার্ড স্টোরেজে প্রেরণ করে।
  • সমস্ত রেডপান্ডা পরিষেবাগুলি অপ্রয়োজনীয়: কাফকা এপিআই, স্কিমা রেজিস্ট্রি এবং কাফকা এইচটিটিপি প্রক্সি
  • ভিপিসি, কম্পিউট নোড এবং তাদের স্থানীয়ভাবে সংযুক্ত ডিস্ক ব্যতীত অন্য কোনও সমালোচনামূলক পথে কোনও অতিরিক্ত নির্ভরতা নেই*
  • আমরা ক্রমাগত বিশৃঙ্খলা-পরীক্ষা এবং লোড-টেস্ট রেডপান্ডা ক্লাউড স্তরগুলির কনফিগারেশনগুলি
  • আমাদের একটি কঠোর রিলিজ ইঞ্জিনিয়ারিং প্রক্রিয়া রয়েছে যা প্রতিটি মেঘ সরবরাহকারীর মধ্যে তারা যে থ্রুপুট বিজ্ঞাপন দেয় তার জন্য রেডপান্ডা ক্লাউড স্তরগুলি পরীক্ষা করে এবং শংসাপত্র দেয়।
  • যেমন অপারেশনগুলি জারি করা হয়, যেমন রেডপান্ডা বা ক্লাউড অবকাঠামো আপগ্রেডগুলি, আমরা আমাদের বন্ধ করার চেষ্টা করি প্রতিক্রিয়া নিয়ন্ত্রণ লুপ পর্যায়ক্রমে রোলআউট অগ্রগতির সাথে সাথে রেডপান্ডা মেট্রিকগুলি দেখে এবং যখন ব্যবহারকারী-মুখোমুখি সমস্যাগুলি সনাক্ত করা হয় তখন থামছে।

* যখন প্রাইভেট সার্ভিস কানেক্ট (পিএসসি) সক্ষম করা থাকে তবে এই ক্ষেত্রে, পিএসসি রেডপান্ডায় ডেটা পড়া এবং লেখার জন্য গুরুত্বপূর্ণ পথের অংশ হয়ে যায়।

যেখানে আমরা ভাগ্যবান পেয়েছি

রেডপান্ডা ক্লাউডের মতো ক্লাউড পরিষেবাদির জন্য, যা তিনটি প্রধান ক্লাউড সরবরাহকারী জুড়ে পরিচালনা করে এবং অসংখ্য ইঞ্জিনিয়ার রয়েছে যে ক্রমাগত সিস্টেমটি সংশোধন করে, এটি কিছুটা ভাগ্য ছাড়াই এই জাতীয় বৈশ্বিক বিভ্রাট থেকে ক্ষতিগ্রস্থ হয়ে উঠতে চ্যালেঞ্জিং – যদিও আমরা পরে শিখেছি যে একটি ক্লাস্টার খারাপভাবে প্রভাবিত হয়েছিল, বিশদটি পড়তে থাকুন।

আমাদের গ্রাহকদের প্রযুক্তিগত স্ট্যাকগুলিতে রেডপান্ডার অবস্থান

বোধগম্যভাবে, জিসিপি গ্রাহকরা উল্লেখযোগ্য অভ্যন্তরীণ বিশৃঙ্খলা ভোগ করছিলেন এবং যখন আমরা পৌঁছেছি তখন পুরো প্রভাবটি মূল্যায়নের জন্য সংগ্রাম করছিলেন। তাদের কারও কারও জন্য, জিসিপি’র পাব/সাব তাদের রেডপান্ডা বিওয়াইওসি ক্লাস্টারগুলির ডেটা উত্স হিসাবে কাজ করেছে, তাই তাদের প্রথমে এটি পুনরুদ্ধার করা দরকার। যদিও এর অর্থ এই ক্ষেত্রে রেডপান্ডার অপারেশনাল স্ট্যাটাসটি কম সমালোচিত ছিল, তবুও তাদের চিন্তিত হওয়া তাদের পক্ষে এখনও একটি কম উপাদান ছিল।

ঘটনার সময় আমরা নোডগুলি হারাতে পারি নি

আমি যখন এই পোস্টটি গুটিয়ে নিচ্ছিলাম, তখন আরও একটি ঘটনা উদ্ঘাটিত হয়েছিল এবং তা প্রশমিত করা হয়েছিল। এর ঘটনার বিশ্লেষণের সময়, আমরা প্রমাণ পেয়েছি যে জিসিপি বিভ্রাট একটি নোড হারাতে এবং কোনও প্রতিস্থাপন ফিরে না আসার ক্ষেত্রে একটি অবদানকারী কারণ ছিল। যাইহোক, এই ইভেন্টটি বিচ্ছিন্ন ছিল us-central-1 এবং ক্লাস্টারের অভ্যন্তরীণ অবকাঠামো উপাদানগুলির মধ্যে একটি অস্বাভাবিক মিথস্ক্রিয়া।

শত শত গুচ্ছগুলির মধ্যে আমরা ভাগ্যবান যে কেবলমাত্র একটি ক্লাস্টার ক্ষতিগ্রস্থ হয়েছিল। প্রতিস্থাপন নোড চালু করতে প্রায় দুই ঘন্টা সময় লেগেছিল, প্রায় আউটেজের সময়কাল us-central-1যে অঞ্চলে এই ক্লাস্টারটি অবস্থিত ছিল। ভাগ্যক্রমে গ্রাহকের জন্য, আক্রান্ত ক্লাস্টারটি কোনও উত্পাদন নয় বরং একটি মঞ্চিং ক্লাস্টার ছিল। তাদের উত্পাদন রেডপান্ডা ক্লাস্টারটি প্রভাবিত হয়নি।

জিসিপি থেকে ঘটনার প্রতিবেদন উদ্ধৃতি

পর্যবেক্ষণ অবকাঠামো

আমরা গত বছর একটি স্ব-পরিচালিত পর্যবেক্ষণের স্ট্যাকটিতে চলে এসেছি, মূলত স্কেল এবং ব্যয়ের কারণে এবং কেবলমাত্র ড্যাশবোর্ডিং এবং সতর্কতার প্রয়োজনের জন্য তৃতীয় পক্ষের পরিষেবা ব্যবহার করছিলাম। আমরা যদি সেই পরিষেবাটিতে আমাদের সম্পূর্ণ পর্যবেক্ষণের স্ট্যাকটি রাখি তবে আমরা আমাদের সমস্ত বহর-প্রশস্ত লগ অনুসন্ধানের ক্ষমতাগুলি হারিয়ে ফেলতাম, আমাদের স্কেলটি প্রদত্ত তাত্পর্যপূর্ণভাবে আরও বড় ব্যয় সহ অন্য বিক্রেতার কাছে ব্যর্থ হতে বাধ্য করতাম।

অন্য কথায়, এই গ্রাফটি আরও অনেক লাল বার এবং অশ্রুতে ভরা হত:

বন্ধ চিন্তা

একটি শিল্প হিসাবে, মনে হয় আমাদের অতীত থেকে কঠোর পাঠগুলি পুনরায় করতে হবে। খুব বেশি দিন আগে, আমরা সবাই বিস্মিত ছিলাম গ্লোবাল ক্রাউডস্ট্রাইক আউটেজযেখানে একই রকম নিয়ন্ত্রণগুলি নিরাপদ গ্লোবাল রোলআউটগুলি সক্ষম করতে অনুপস্থিত ছিল, কয়েক মিলিয়ন উইন্ডোজ কম্পিউটারকে প্রভাবিত করে এবং এর ফলে তাদের গ্রাহকদের কয়েক মিলিয়ন মিলিয়ন ডলার ক্ষতিপূরণ হয়।

এআইয়ের পুনরুত্থানের সাথে সাথে সিস্টেমগুলি অনিবার্যভাবে আরও জটিল হয়ে উঠবে। সুতরাং, এটি আমাদের বর্তমান মানসিকতার পুনর্বিবেচনা করা মূল্যবান এবং সময়োপযোগী বলে মনে হচ্ছে এবং আমি একটির চেয়ে ভাল কিছু ভাবতে পারি না সিস্টেম চিন্তাভাবনা মানসিকতাবিশেষত যখন আমাদের আর্থ-প্রযুক্তিগত সিস্টেমগুলি ইঞ্জিনিয়ারিং করে, যার ফলে আমাদের পরিবর্তন পরিচালনার সরঞ্জামগুলিতে নিয়ন্ত্রণ তত্ত্বের গ্রহণও বৃদ্ধি করা উচিত।

সময়টি বলবে, সম্ভবত উপরের সমস্তগুলি নিয়ন্ত্রণ করার জন্য এআই এজেন্টদের কাছে রেখে দেওয়া হবে, সম্ভবত এটি নয়, ভবিষ্যতের জন্য, মনে হয় আমাদের কোনও এআই প্রতিস্থাপন নেই, তাই আমরা আমাদের সিস্টেমের চিন্তাভাবনা দক্ষতা আরও ভাল করে তুলছি।

এরই মধ্যে, আপনি রেডপান্ডা ক্লাউড দিয়ে বিনামূল্যে শুরু করতে পারেন বা একটি ডেমোর জন্য যোগাযোগ করতে পারেন। অন্য যে কোনও প্রশ্নের জন্য, আমাদের স্ল্যাকের একটি নোট ফেলে দিন।

Source link

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।