এক্সবো – অ্যালো থেকে নির্মিত এজেন্ট

এক্সবো – অ্যালো থেকে নির্মিত এজেন্ট

এই বসন্তে, আমাদের একটি সহজ এবং আমার জ্ঞানের কাছে অভিনব ধারণা ছিল যা এক্সবো -তে আমাদের দুর্বলতা সনাক্তকরণ এজেন্টদের কর্মক্ষমতা নাটকীয়ভাবে বাড়িয়ে তুলেছিল। স্থির বেঞ্চমার্কগুলিতে এবং একটি সীমাবদ্ধ সংখ্যার সাথে, আমরা দেখেছি সাফল্যের হার 25%থেকে 40%এ বৃদ্ধি পেয়েছে এবং তারপরে শীঘ্রই 55%এ পৌঁছেছে।

অ্যালোগুলির সাথে এবং ছাড়াই সমাধানের হারের অগ্রগতি

এই ধারণার পিছনে নীতিগুলি সাইবারসিকিউরিটির মধ্যে সীমাবদ্ধ নয়। তারা এজেন্ট এআই সেটআপগুলির একটি বৃহত শ্রেণির ক্ষেত্রে প্রয়োগ করে। আমাকে ভাগ করতে দিন।

এক্সবো এর চ্যালেঞ্জ

এক্সবো একটি স্বায়ত্তশাসিত পেন্টেস্টার। আপনি এটি আপনার ওয়েবসাইটে নির্দেশ করেছেন এবং এটি এটি হ্যাক করার চেষ্টা করে। যদি এটি কোনও উপায় খুঁজে পায় (কিছু এক্সবো বরং ভাল) তবে এটি আবার রিপোর্ট করে যাতে আপনি দুর্বলতাটি ঠিক করতে পারেন। এটি স্বায়ত্তশাসিত, যার অর্থ: আপনি একবার আপনার প্রাথমিক সেটআপটি সম্পন্ন করার পরে, আর কোনও মানব হ্যান্ডহোল্ডিংয়ের অনুমতি নেই।

সম্পদ পেন্টেস করার সময় বেশ কিছুটা করণীয় এবং সংগঠিত করার আছে। আপনাকে আবিষ্কার চালাতে হবে এবং ওয়েবসাইটটির একটি মানসিক মডেল তৈরি করতে হবে, এর প্রযুক্তি স্ট্যাক, যুক্তি এবং আক্রমণ পৃষ্ঠের, তারপরে সেই মানসিক মডেলটি আপডেট করা, লিড তৈরি করা এবং এর প্রতিটি অংশকে বিভিন্ন উপায়ে নিয়মিতভাবে অনুসন্ধান করে এগুলি বাতিল করে দেওয়া উচিত। এটি একটি আকর্ষণীয় চ্যালেঞ্জ, তবে এই ব্লগ পোস্টটি কী তা নয়। আমি একটি বিশেষ, ছত্রাকযোগ্য সাবটাস্ক সম্পর্কে কথা বলতে চাই যা প্রতিটি পরীক্ষায় কয়েকশ বার আসে এবং যার জন্য আমরা একটি উত্সর্গীকৃত সাবগেন্ট তৈরি করেছি: আপনি যে বাগের জেনারটি সন্ধান করছেন তা জেনে আপনি আক্রমণ পৃষ্ঠের একটি অংশের দিকে ইঙ্গিত করেছেন এবং আপনার দুর্বলতাটি প্রদর্শনের কথা রয়েছে।

এটি কিছুটা সিটিএফ চ্যালেঞ্জের প্রতিযোগিতার মতো: একটি নির্দিষ্ট স্থানে রাখা একটি দুর্বলতা ব্যবহার করে আপনি যে পতাকাটি পেতে পারেন তা সন্ধান করার চেষ্টা করুন। প্রকৃতপক্ষে, আমরা এই জাতীয় কাজের একটি বেঞ্চমার্ক সেট তৈরি করেছি এবং সেগুলি একটি সিটিএফ-এর মতো স্টাইলে প্যাকেজ করেছি যাতে আমরা সহজেই এটিতে আমাদের “সলভার এজেন্টের” পারফরম্যান্সটি পুনরাবৃত্তি করতে, স্কেল করতে এবং মূল্যায়ন করতে পারি। মূল সেটটি দুঃখজনকভাবে, বেশিরভাগ ক্ষেত্রে এর কার্যকারিতাটি ছড়িয়ে দিয়েছে কারণ আমাদের সলভার এজেন্ট এখনই এটিতে খুব ভাল, তবে আমরা যে ওপেন সোর্স প্রকল্পগুলি চালিয়েছি তা থেকে আমরা আরও চ্যালেঞ্জিং উদাহরণগুলি সংগ্রহ করেছি।

এজেন্টের কাজ

এই জাতীয় সিটিএফ-এর মতো চ্যালেঞ্জে, সলভারটি মূলত বেশ কয়েকটি পুনরাবৃত্তির জন্য কাজ করার জন্য একটি এজেন্ট লুপ সেট। প্রতিটি পুনরাবৃত্তিতে সলভার একটি ক্রিয়া সম্পর্কে সিদ্ধান্ত নিয়ে গঠিত: একটি টার্মিনালে একটি কমান্ড, একটি পাইথন স্ক্রিপ্ট লিখে, আমাদের একটি পেন্টেস্টিং সরঞ্জাম চালাচ্ছে। আমরা ক্রিয়াটি পরীক্ষা করে এটিকে সম্পাদন করি, সলভারটিকে এর ফলাফলটি দেখান এবং সলভার পরেরটিতে সিদ্ধান্ত নেয়। একটি নির্দিষ্ট সংখ্যক পুনরাবৃত্তির পরে আমরা আমাদের ক্ষতি কেটে ফেলেছি। সাধারণত এবং এই পোস্টের পরীক্ষাগুলির জন্য, এই সংখ্যাটি 80: যদিও আমরা আরও পুনরাবৃত্তির পরেও সমাধান করি, সময়ের সাথে সাথে সংশ্লেষিত ভুল বোঝাবুঝি এবং মিথ্যা অনুমানগুলি দ্বারা বঞ্চিত একটি নতুন সলভার এজেন্ট শুরু করা আরও দক্ষ হয়ে ওঠে।

এই কাজটি কী বিশেষ করে তোলে, একটি এজেন্ট টাস্ক হিসাবে? এজেন্ট এআই প্রায়শই অবিচ্ছিন্নভাবে তৈরি-অগ্রগতি ধরণের সমস্যাগুলিতে ব্যবহৃত হয়, যেখানে প্রতিটি পদক্ষেপ আপনাকে লক্ষ্যটির আরও কাছে নিয়ে আসে। এই কাজটি আরও বিস্তৃত অনুসন্ধানের জায়গার মাধ্যমে প্রত্যাশার মতো: এজেন্ট অনেক জায়গায় খনন করে, কিছু সময়ের জন্য মিথ্যা লিডগুলি অনুসরণ করে এবং শেষ পর্যন্ত কোর্সটি অন্য কোথাও সোনার আঘাতের সংশোধন করে।

একটি চ্যালেঞ্জ চলাকালীন, সমস্ত মৃত প্রান্তের মধ্যে, এআই এজেন্টকে বেশ কয়েকটি দুর্দান্ত ধারণা নিয়ে আসা এবং একত্রিত করতে হবে।

আপনি যদি কখনও এর মতো কোনও এজেন্ট এআই টাস্কের মুখোমুখি হন তবে মডেল অ্যালোগুলি আপনার জন্য হতে পারে।

এলএলএম

আমাদের শুরু থেকেই, এটি আমাদের এআই কৌশলটির অংশ ছিল যে এক্সবো মডেল সরবরাহকারী অজ্ঞেয়বাদী হতে পারে। এর অর্থ আমরা আমাদের ব্যবহারের ক্ষেত্রে সেরা এলএলএম প্লাগ-অ্যান্ড-প্লে করতে পারি। আমাদের বেঞ্চমার্ক সেটটি মডেলগুলির তুলনা করা সহজ করে তোলে এবং আমরা ক্রমাগত নতুনগুলি মূল্যায়ন করি। কিছুক্ষণের জন্য, ওপেনাইয়ের জিপিটি -4 হ’ল আমরা মূল্যায়ন করেছি সেরা অফ-শেল্ফ মডেল, তবে যেহেতু অ্যানথ্রোপিকের সনেট 3.5 গত বছরের জুনে এসেছিল, অন্য কোনও সরবরাহকারী কিছুক্ষণের জন্য কাছে আসতে পারেনি, আমরা যতই পরীক্ষা করুক না কেন।

মিথুন বনাম সনেট

সনেট ৩.7 তার পূর্বসূরীর তুলনায় একটি পরিমিত কিন্তু স্বীকৃত উন্নতি উপস্থাপন করেছে, কিন্তু গুগল যখন জেমিনি 2.5 প্রো (মার্চ মাসে পূর্বরূপ) প্রকাশ করেছে, তখন এটি একটি বাস্তব পদক্ষেপ উপস্থাপন করে। তারপরে অ্যানথ্রোপিক সোননেট 4.0 এর সাথে ফিরে এসেছিল, যা আবার আরও ভাল পারফর্ম করেছে। গড়। স্বতন্ত্র চ্যালেঞ্জগুলির ভিত্তিতে, কিছু কিছু জেমিনি দ্বারা সর্বোত্তম সমাধান করা হয়, কিছু সনেট দ্বারা।

এটা ভয়াবহ আশ্চর্যজনক নয়। যদি প্রতিটি এজেন্টকে চ্যালেঞ্জের মাধ্যমে অগ্রগতির জন্য পাঁচটি ভাল অন্তর্দৃষ্টি প্রয়োজন হয়, তবে পাঁচটির কিছু সেট হ’ল সোনাতে সহজেই আসে এবং পাঁচজনের কিছু সেট সহজেই জেমিনিতে আসে। তবে পাঁচটি ভাল ধারণাগুলির যে চ্যালেঞ্জগুলির প্রয়োজন, তার মধ্যে তিনটিই সোননেট ভাল, এবং দু’জনের মতোই যে জেমিনি ভাল?

অ্যালোয়েড এজেন্ট

বেশিরভাগ সাধারণ এআই এজেন্টদের মতো, আমরা মডেলটিকে একটি লুপে কল করি। একটি খাদের পিছনে ধারণাটি সহজ: সর্বদা একই মডেলটিকে কল করার পরিবর্তে, কখনও কখনও একটি এবং কখনও কখনও অন্যকে কল করে।

কৌশলটি হ’ল আপনি এখনও একজন ব্যবহারকারী এবং একক সহকারী সহ একক চ্যাট থ্রেডে রাখেন। সুতরাং কথোপকথনে সহকারী বার্তাগুলির আসল উত্সটি বিকল্প হিসাবে, মডেলগুলি একে অপরকে সচেতন নয়। অন্য মডেল যাই বলুক না কেন, তারা মনে করে এটি তাদের দ্বারা বলা হয়েছিল।

সুতরাং প্রথম রাউন্ডে, আপনি এই জাতীয় প্রম্পট সহ কোনও ক্রিয়াকলাপ শুরু করার জন্য সনেটকে কল করতে পারেন:

System:       Find the bug!

ধরা যাক এটি আপনাকে কার্ল ব্যবহার করতে বলে। আপনি এটি করেন এবং মডেলটিতে উপস্থাপনের জন্য আউটপুট সংগ্রহ করুন। সুতরাং এখন আপনি এই জাতীয় প্রম্পট দিয়ে মিথুনকে কল করুন:

System:       Find the bug!
Assistant:    Let's start by curling the app.
User:         You got a 401 Unauthorized response.

মিথুন আপনাকে অ্যাডমিন শংসাপত্রগুলির সাথে লগ ইন করতে বলতে পারে এবং আপনি এটি করেন এবং তারপরে আপনি ফলাফলটি সনেটে উপস্থাপন করতে পারেন:

System:       Find the bug!
Assistant:    Let's start by curling the app.
User:         You got a 401 Unauthorized response.
Assistant:    Let's try to log in with the admin credentials.
User:         You got a 200 OK response.

সনেট বিশ্বাস করে যে এটি লিখেছিল তা আসলে জেমিনি দ্বারা রচিত এবং তদ্বিপরীত।

আমাদের বাস্তবায়নে, আমরা প্রকৃতপক্ষে বৃহত্তর পরিবর্তনের জন্য মডেলটিকে এলোমেলোভাবে পছন্দ করি তবে আপনি আরও জটিল কৌশলগুলিও বিকল্প বা পরীক্ষা করতে পারেন।

দুটি মডেলকে মিশ্রণের মূল সুবিধাটি হ’ল:

  1. আপনি মোট মডেলের সংখ্যা কল একই রাখেন, তবে এখনও
  2. আপনি প্রতিটি মডেলকে সমাধানটিতে এর শক্তি অবদান রাখার সুযোগ দেন।

এমন পরিস্থিতিতে যেখানে বেশ কয়েকটি উজ্জ্বল ধারণাগুলি ফলো-আপ ক্রিয়াকলাপের মতো ওয়ার্কহর্সগুলির সাথে ছেদ করা হয়, এটি বিভিন্ন মডেলের শক্তিগুলিকে একত্রিত করার এক দুর্দান্ত উপায়।

ফলাফল

ধাতবগুলির একটি মিশ্রণের মতোই তার পৃথক উপাদানগুলির চেয়ে শক্তিশালী, যেকোন দুটি (এবং কখনও কখনও তিনটি) মডেল আমরা একত্রিত করি, মিশ্রণটি পৃথক মডেলগুলিকে ছাড়িয়ে যায়। সনেট ৩.7, জিপিটি -৪.১, জেমিনি ২.৫ প্রো, এবং সনেট ৪.০ সবই যখন একা ব্যবহৃত হওয়ার চেয়ে একে অপরের সাথে মিশ্রিত হয় তখন আরও ভাল পারফর্ম করে।

মিথুন বনাম সনেট

তবে আমরা লক্ষ্য করেছি এমন কয়েকটি ট্রেন্ড রয়েছে:

  • মডেলগুলি যত বেশি আলাদা, খাদটি তত ভাল সম্পাদন করে। সনেট 4.0.০ এবং জেমিনি 2.5 প্রো এর পৃথক চ্যালেঞ্জগুলির সমাধানের হারের মধ্যে সর্বনিম্ন সম্পর্ক রয়েছে (0.46 এর একটি স্পিয়ারম্যান পারস্পরিক সম্পর্কের সহগে), এবং খাদ বুস্টটি সর্বোচ্চ।
  • স্বতন্ত্রভাবে আরও ভাল এমন একটি মডেল একটি মিশ্রণে আরও ভাল হতে পারে। অন্যের পিছনে খুব পিছিয়ে থাকা একটি মডেল এমনকি একটি খাদকে নীচে টানতে পারে।
  • ভারসাম্যহীন মিশ্রণগুলি শক্তিশালী পৃথক মডেলের দিকে ভারসাম্যপূর্ণ হওয়া উচিত। আমরা নীচে কিছু উদাহরণ দেখাব।

ভারসাম্যহীন মিশ্রণ

যখন মডেল অ্যালো ব্যবহার করবেন

অ্যালো সম্পর্কে ভাবুন যদি:

  • কমপক্ষে একটি ডাবল ডিজিটের মডেল কল সহ আপনি কোনও সমাধানে পৌঁছানো পর্যন্ত আপনি একটি পুনরাবৃত্ত লুপে এলএলএম কল করে আপনার টাস্কের কাছে যান।
  • টাস্কটি সমাধান করার জন্য বেশ কয়েকটি বিভিন্ন ধারণা একত্রিত করা প্রয়োজন।
  • তবে এই ধারণাগুলি প্রক্রিয়াটির বিভিন্ন পয়েন্টে আসতে পারে।
  • আপনার কাছে পর্যাপ্ত ভিন্ন মডেল অ্যাক্সেস রয়েছে।
  • এই সমস্ত মডেলের নিজস্ব শক্তি এবং দুর্বলতা রয়েছে।

বিভিন্ন মিশ্রণ

যখন মডেল অ্যালো ব্যবহার করবেন না

মডেল অ্যালো দুর্দান্ত হতে পারে তবে তাদের ত্রুটি রয়েছে। এমন পরিস্থিতি যা আপনাকে দুবার ভাবতে পারে:

  • আপনার প্রম্পটগুলি আপনার পরিপূর্ণতার চেয়ে দীর্ঘতর দৈর্ঘ্য এবং তাই আপনি আপনার ব্যয়গুলি হ্রাস করার জন্য প্রম্পট ক্যাশে করার উপর যথেষ্ট নির্ভর করেন – ভাল, প্রতিটি মডেলের জন্য একবারে আপনাকে সমস্ত কিছু ক্যাশে করা দরকার।
  • আপনার কাজটি খুব স্থির-অগ্রগতি, মাঝে মাঝে উজ্জ্বলতার ফেটে নয় যে মিশ্রণগুলি সংমিশ্রণে ভাল। সেক্ষেত্রে আপনার মিশ্রণটি সম্ভবত ব্যক্তিদের গড়ের মতোই ভাল হবে।
  • আপনার একটি টাস্ক রয়েছে কেবলমাত্র একটি মডেল সত্যই ছাড়িয়ে যায়। তারপরে আপনার প্রিয় মডেলটি মিশ্রিত করার মতো কিছুই নেই।
  • আপনার সমস্ত মডেলগুলি কোন কাজগুলি কঠোর এবং কোনটি সহজ এবং তারা একে অপরের পরিপূরক হবে না সে বিষয়ে একমত।

আমরা যখন একই সরবরাহকারীর কাছ থেকে বিভিন্ন মডেলকে মিশ্রিত করার চেষ্টা করি তখন সেই পরবর্তী পয়েন্টটি আমাদের জন্য বাড়িতে আঘাত করে। যখন সোননেট ৩.7 এবং সনেট ৪.০, বা সনেট এবং হাইকু অ্যালোইং করা হয়, আমরা এমন পারফরম্যান্স দেখেছি যা দুটি নির্বাচনের গড়কে মিরর করে, আর নেই। তারা কেবল একে অপরের সাথে খুব মিল ছিল।

এটি কেবলমাত্র যখন বিভিন্ন সরবরাহকারীদের মডেলগুলির সংমিশ্রণ করেছিল তখন আমরা একটি সত্যিকারের উত্সাহ দেখেছি।

এটি আমাকে মনে করিয়ে দেয় …

আমরা স্পষ্টতই বুঝতে পারি না যে দুটি মাথা একের চেয়ে ভাল, এবং বিভিন্ন মডেলের শক্তি একত্রিত করার জন্য একটি অগণিত উপায় রয়েছে। তাদের বেশিরভাগ যদিও তিনটি বিভাগের মধ্যে একটিতে পড়ে:

  • বিভিন্ন কাজের জন্য বিভিন্ন মডেল ব্যবহার করুন, যেমন কিছু যেমন ভারীভাবে জোর দেওয়া হয়েছে অটোগিপ্ট বাস্তুতন্ত্র। এই বিভিন্ন কাজগুলি সংজ্ঞায়িত করা সর্বদা সহজ নয়, তবে একটি সাধারণ প্যাটার্ন হ’ল পরিকল্পনাটি করার জন্য একটি উচ্চ স্তরের মডেল এবং সেই পরিকল্পনাটি কার্যকর করার জন্য আরও বিশেষায়িত মডেল ব্যবহার করা। উচ্চতর স্তরের মডেল পর্যায়ক্রমে পরামর্শ দেওয়ার জন্য বা পরিকল্পনাটি সামঞ্জস্য করার জন্য অগ্রগতি চেক ইন করতে পারে। এটি অনেক ক্ষেত্রে একটি ভাল সমাধান; এটি আমাদের লুপে যোগ করবে এমন পরিমাণের পরিমাণ দিয়ে আমরা মুখ ফিরিয়ে নিয়েছি।
  • প্রতিটি পদক্ষেপে বিভিন্ন মডেল, বা বিভিন্ন প্রম্পট সহ একই মডেল জিজ্ঞাসা করুন। তারপরে আপনি হয় উত্তরগুলি একত্রিত করুন, বা ভোট গ্রহণ করুন, বা কোন উত্তরটি সবচেয়ে ভাল তা সিদ্ধান্ত নিতে কোনও বিচারকের কাছে আরও একটি মডেল কল ব্যবহার করুন। মিশ্রণ অফ-এজেন্টস এর একটি দুর্দান্ত উদাহরণ। এটি অবশ্যই মডেল কলগুলির সংখ্যার উপর গুণক উপস্থাপন করে এবং আমাদের ব্যবহারের ক্ষেত্রে দক্ষ হবে না (আমরা বরং আরও স্বতন্ত্র এজেন্টগুলি শুরু করব!)।
  • মডেলগুলি একে অপরের সাথে সরাসরি কথা বলতে দিন, তাদের নিজস্ব কেস তৈরি করা এবং একে অপরের উত্তর পরিশোধন করে। প্যাটার্নগুলিতে উদাহরণযুক্ত মাল্টি-এজেন্ট বিতর্কএটি সত্যই সমালোচনামূলক স্বতন্ত্র ক্রিয়াকলাপগুলির জন্য একটি দুর্দান্ত সমাধান। তবে এক্সবো মূলত একটি অনুসন্ধান চালাচ্ছে, এবং প্রতিটি পাথরের জন্য সিদ্ধান্ত নেওয়ার জন্য এটির কোনও কমিটির প্রয়োজন নেই এটি আরও ভাল না হতে পারে কিনা তা নিয়ে ঘুরে।

এবং স্পষ্টতই, আপনি কেবল সনেটের সাথে একজন এজেন্ট এবং একটি জেমিনির সাথে একজনকে চালাতে পারেন এবং যদি তাদের উভয়কেই চ্যালেঞ্জ সমাধান করে তবে এটি একটি জয় হিসাবে গণনা করতে পারে। তবে যেহেতু এই দুটি মডেলের মধ্যে পারফরম্যান্সের পার্থক্য রয়েছে, এটি কেবল সোননেট 4 চালানোর বিরুদ্ধে প্রতিযোগিতামূলকও নয়, এটি অ্যালোয়েড এজেন্ট পরিচালনার বিরুদ্ধে অনেক কম।

প্রথম এজেন্টদ্বিতীয় এজেন্টসম্মিলিত সাফল্যের হার
মিথুন 2.5মিথুন 2.546.4%
সনেট 4.0সনেট 4.057.5%
সনেট 4.0মিথুন 2.557.2%
মিশ্রণ 2.5 + 4.0মিশ্রণ 2.5 + 4.068.8%

ডেটা

আপনি যদি আমাদের ডেটা নিয়ে ঘুরে বেড়াতে চান তবে এগিয়ে যান, আমরা এটি এখানে ভাগ করে নিচ্ছি – সম্ভবত আপনি এমন কিছু দেখতে পাবেন যা আমরা মিস করেছি।

আরও মজার বিষয় হলেও, যদি আপনার কোনও ব্যবহারের ক্ষেত্রে থাকে যেখানে আপনি মনে করেন যে মডেল অ্যালোগুলি সহায়তা করতে পারে তবে এটি চেষ্টা করে দেখুন! এবং এটি সম্পর্কে আমাকে লিখুন (ইমেল সুরক্ষিত) – আমি আপনার অভিজ্ঞতা সম্পর্কে শুনতে চাই!

Source link

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।