মিনিম্যাক্স-এআই/মিনিম্যাক্স-এম 1: মিনিম্যাক্স-এম 1, বিশ্বের প্রথম উন্মুক্ত ওজন, বৃহত আকারের হাইব্রিড-অ্যাটেনশন যুক্তি মডেল।

মিনিম্যাক্স-এআই/মিনিম্যাক্স-এম 1: মিনিম্যাক্স-এম 1, বিশ্বের প্রথম উন্মুক্ত ওজন, বৃহত আকারের হাইব্রিড-অ্যাটেনশন যুক্তি মডেল।

মিনিম্যাক্স


আমরা মিনিম্যাক্স-এম 1 প্রবর্তন করি, বিশ্বের প্রথম উন্মুক্ত ওজন, বৃহত আকারের হাইব্রিড-অ্যাটেনশন যুক্তি মডেল। মিনিম্যাক্স-এম 1 একটি বিদ্যুৎ মনোযোগ ব্যবস্থার সাথে মিলিত একটি হাইব্রিড মিশ্রণ-বিশেষজ্ঞ (এমওই) আর্কিটেকচার দ্বারা চালিত। মডেলটি আমাদের আগের উপর ভিত্তি করে তৈরি করা হয়েছে মিনিম্যাক্স-টেক্সট -01 মডেলএতে টোকেন প্রতি সক্রিয় 45.9 বিলিয়ন পরামিতি সহ মোট 456 বিলিয়ন পরামিতি রয়েছে। মিনিম্যাক্স-টেক্সট -01 এর সাথে সামঞ্জস্যপূর্ণ, এম 1 মডেলটি স্থানীয়ভাবে 1 মিলিয়ন টোকেনের প্রসঙ্গ দৈর্ঘ্য সমর্থন করে, ডিপসেক আর 1 এর প্রসঙ্গ আকার 8x। তদ্ব্যতীত, মিনিম্যাক্স-এম 1-তে বজ্রপাতের মনোযোগ প্রক্রিয়াটি পরীক্ষা-সময় গণনার দক্ষ স্কেলিং সক্ষম করে-উদাহরণস্বরূপ, ডিপসেক আর 1 এর তুলনায়, এম 1 100 কে টোকেনের প্রজন্মের দৈর্ঘ্যে 25% ফ্লপ গ্রাস করে। এই বৈশিষ্ট্যগুলি এম 1 কে জটিল কাজের জন্য বিশেষভাবে উপযুক্ত করে তোলে যার জন্য দীর্ঘ ইনপুটগুলি প্রক্রিয়াজাতকরণ এবং ব্যাপকভাবে চিন্তাভাবনা করা প্রয়োজন। মিনিম্যাক্স-এম 1 traditional তিহ্যবাহী গাণিতিক যুক্তি থেকে শুরু করে স্যান্ডবক্স-ভিত্তিক, রিয়েল-ওয়ার্ল্ড সফটওয়্যার ইঞ্জিনিয়ারিং পরিবেশ পর্যন্ত বিভিন্ন সমস্যার জন্য বৃহত আকারের শক্তিবৃদ্ধি লার্নিং (আরএল) ব্যবহার করে প্রশিক্ষণপ্রাপ্ত। আমরা দুটি দৃষ্টিকোণকে হাইলাইট করে এম 1 এর জন্য একটি দক্ষ আরএল স্কেলিং ফ্রেমওয়ার্ক বিকাশ করি: (1) আমরা সিসপো প্রস্তাব করি, একটি অভিনব অ্যালগরিদম যা টোকেন আপডেটের পরিবর্তে স্যাম্পলিং ওজনকে ক্লিপ করে, যা অন্যান্য প্রতিযোগিতামূলক আরএল বৈকল্পিককে ছাড়িয়ে যায়; (২) আমাদের হাইব্রিড-অ্যাটেনশন ডিজাইনটি স্বাভাবিকভাবেই আরএল এর দক্ষতা বাড়ায়, যেখানে হাইব্রিড আর্কিটেকচারের সাথে আরএলকে স্কেল করার সময় আমরা অনন্য চ্যালেঞ্জগুলির সমাধান করি। আমরা মিনিম্যাক্স-এম 1 মডেলের দুটি সংস্করণ সহ প্রশিক্ষণ দিই 40 কে এবং
80 কে যথাক্রমে বাজেট চিন্তাভাবনা। স্ট্যান্ডার্ড বেঞ্চমার্কগুলির পরীক্ষাগুলি দেখায় যে আমাদের মডেলগুলি অন্যান্য শক্তিশালী ওপেন-ওজন মডেলগুলিকে ছাড়িয়ে যায় যেমন মূল ডিপসেক-আর 1 এবং কিউইএনইএন 3-235 বি, বিশেষত জটিল সফ্টওয়্যার ইঞ্জিনিয়ারিং, সরঞ্জাম ব্যবহার এবং দীর্ঘ প্রসঙ্গের কার্যগুলিতে। টেস্ট-টাইম কম্পিউটারের দক্ষ স্কেলিংয়ের সাথে, মিনিম্যাক্স-এম 1 পরবর্তী প্রজন্মের ভাষা মডেল এজেন্টদের বাস্তব-বিশ্বের চ্যালেঞ্জগুলি যুক্তি এবং মোকাবেলায় একটি শক্তিশালী ভিত্তি হিসাবে কাজ করে।



প্রতিযোগিতা-স্তরের গণিত, কোডিং, সফটওয়্যার ইঞ্জিনিয়ারিং, এজেন্ট সরঞ্জাম ব্যবহার এবং দীর্ঘ-প্রসঙ্গ বোঝার কাজগুলি জুড়ে শীর্ষস্থানীয় বাণিজ্যিক এবং উন্মুক্ত ওজন মডেলের বেঞ্চমার্ক পারফরম্যান্সের তুলনা। আমরা মিনিম্যাক্স-এম 1 এর জন্য এখানে মিনিম্যাক্স-এম 1-80 কে মডেল ব্যবহার করি।

কোর বেঞ্চমার্কগুলিতে মিনিম্যাক্স-এম 1 এর পারফরম্যান্স।

বিভাগকাজমিনিম্যাক্স-এম 1-80 কেমিনিম্যাক্স-এম 1-40 কেQwen3-23 বি-এ 22 বিডিপসেক-আর 1-0528ডিপসেক-আর 1বীজ-চিন্তাভাবনা-ভি 1.5চতুর্থ কাজ বন্ধ করুনমিথুন 2.5 প্রো (06-05)ওপেনএআই-ও 3
বর্ধিত চিন্তাভাবনা80 কে40 কে32 কে64 কে32 কে32 কে64 কে64 কে100 কে
গণিতএআইএম 202486.083.385.791.479.886.776.092.091.6
এআইএম 202576.974.681.587.570.074.075.588.088.9
ম্যাথ -50096.896.096.298.097.396.798.298.898.1
সাধারণ কোডিংলাইভকোডবেঞ্চ (24/8 ~ 25/5)65.062.365.973.155.967.556.677.175.8
ফুলস্ট্যাকব্যাঞ্চ68.367.662.969.470.169.970.369.3
যুক্তি এবং জ্ঞানজিপিকিউএ ডায়মন্ড70.069.271.181.071.577.379.686.483.3
দ্য (কোনও সরঞ্জাম নেই)8.4*7.2*7.6*17.7*8.6*8.210.721.620.3
সেতু86.880.180.395.178.784.495.191.695.8
এমএমএলইউ-ফর81.180.683.085.084.087.085.086.085.0
সফটওয়্যার ইঞ্জিনিয়ারিংসুই-বেঞ্চ যাচাই করা হয়েছে56.055.634.457.649.247.072.567.269.1
দীর্ঘ প্রসঙ্গওপেনএআই-এমআরসিআর (128 কে)73.476.127.751.535.854.348.976.856.5
ওপেনএআই-এমআরসিআর (1 মি)56.258.658.8
লংবেঞ্চ-ভি 261.561.050.152.158.352.555.665.058.8
এজেন্ট সরঞ্জাম ব্যবহারসংখ্যা-বেঞ্চ (এয়ারলাইন)62.060.034.753.544.059.650.052.0
সংখ্যা-বেঞ্চ (খুচরা)63.567.858.663.955.781.467.073.9
বাস্তবতাসিম্পলকিউ18.517.911.027.830.112.954.049.4
সাধারণ সহকারীমাল্টিচ্যালেনজ44.744.740.045.040.743.045.851.856.5

* কেবল পাঠ্য-কেবলমাত্র এইচএলই সাবসেটে পরিচালিত।

আমাদের মডেলগুলির সাথে মূল্যায়ন করা হয় temperature=1.0, top_p=0.95

আমরা এজেন্টলেস স্ক্যাফোল্ড থেকে প্রাপ্ত ফলাফলগুলি প্রতিবেদন করি। মূল পাইপলাইন থেকে প্রস্থান করে, আমাদের পদ্ধতিটি একটি দ্বি-পর্যায়ের স্থানীয়করণ প্রক্রিয়া নিয়োগ করে (কোনও এম্বেডিং-ভিত্তিক পুনরুদ্ধার প্রক্রিয়া ছাড়াই): প্রাথমিক মোটা-দানাদার ফাইল স্থানীয়করণ এবং নির্দিষ্ট ফাইল এবং কোড উপাদানগুলিতে সূক্ষ্ম-দানাযুক্ত স্থানীয়করণ দ্বারা। আমাদের মডেলগুলির মানগুলি n = 486 যাচাই করা কার্যগুলির উপসেটে গণনা করা হয় যা আমাদের অবকাঠামোতে কাজ করে। আমাদের অভ্যন্তরীণ অবকাঠামোর সাথে বেমানান ছিল এমন 14 টি পরীক্ষার কেসগুলি হ’ল:
"astropy__astropy-7606",
"astropy__astropy-8707",
"astropy__astropy-8872",
"django__django-10097",
"matplotlib__matplotlib-20488",
"psf__requests-2317",
"psf__requests-2931",
"psf__requests-5414",
"pylint-dev__pylint-6528",
"pylint-dev__pylint-7277",
"sphinx-doc__sphinx-10435",
"sphinx-doc__sphinx-7985",
"sphinx-doc__sphinx-8269",
"sphinx-doc__sphinx-8475"

আমরা জিপিটি -৪.১ এর সাথে ব্যবহারকারীর মডেল হিসাবে এবং কোনও কাস্টম সরঞ্জাম ছাড়াই তাউ-বঞ্চকে মূল্যায়ন করি। ইন্টারঅ্যাকশন পদক্ষেপের সর্বাধিক সংখ্যা 40। আমাদের সাধারণ সিস্টেম প্রম্পটটি হ’ল:

- In each round, you need to carefully examine the tools provided to you to determine if any can be used.
- You must adhere to all of the policies. Pay attention to the details in the terms. Solutions for most situations can be found within these policies.

হিউজিংফেস রিপোজিটরি থেকে মডেলটি ডাউনলোড করুন:

উত্পাদন স্থাপনার জন্য, আমরা ব্যবহার করার পরামর্শ দিই Vllm মিনিম্যাক্স-এম 1 পরিবেশন করতে। ভিএলএলএম নিম্নলিখিত বৈশিষ্ট্যগুলি সহ বৃহত ভাষার মডেলগুলি পরিবেশন করার জন্য দুর্দান্ত পারফরম্যান্স সরবরাহ করে:

  • Performance পারফরম্যান্স জুড়ে অসামান্য পরিষেবা
  • ⚡ দক্ষ এবং বুদ্ধিমান মেমরি ম্যানেজমেন্ট
  • 📦 শক্তিশালী ব্যাচ অনুরোধ প্রক্রিয়াকরণ ক্ষমতা
  • ⚙ গভীরভাবে অন্তর্নিহিত কর্মক্ষমতা অপ্টিমাইজড

বিস্তারিত ভিএলএলএম স্থাপনার নির্দেশাবলীর জন্য, দয়া করে আমাদের ভিএলএলএম ডিপ্লোয়মেন্ট গাইডটি দেখুন। বিকল্পভাবে, আপনি সরাসরি ট্রান্সফর্মার ব্যবহার করে মোতায়েন করতে পারেন। বিস্তারিত ট্রান্সফর্মার স্থাপনার নির্দেশাবলীর জন্য, আপনি আমাদের মিনিম্যাক্স-এম 1 ট্রান্সফর্মার ডিপ্লোয়মেন্ট গাইড দেখতে পারেন।

মিনিম্যাক্স-এম 1 মডেল ফাংশন কলিং ক্ষমতা সমর্থন করে, মডেলটিকে যখন বাহ্যিক ফাংশনগুলি কল করা দরকার তা সনাক্ত করতে সক্ষম করে এবং কাঠামোগত বিন্যাসে আউটপুট ফাংশন কল প্যারামিটারগুলি। মিনিম্যাক্স-এম 1 ফাংশন কল গাইড মিনিম্যাক্স-এম 1 এর ফাংশন কলিং বৈশিষ্ট্যটি কীভাবে ব্যবহার করবেন সে সম্পর্কে বিস্তারিত নির্দেশাবলী সরবরাহ করে।

সাধারণ ব্যবহার এবং মূল্যায়নের জন্য, আমরা একটি সরবরাহ করি চ্যাটবট অনলাইন অনুসন্ধানের ক্ষমতা এবং অনলাইন এপিআই বিকাশকারীদের জন্য। সাধারণ ব্যবহার এবং মূল্যায়নের জন্য, আমরা মিনিম্যাক্স এমসিপি সার্ভারকে ভিডিও প্রজন্ম, চিত্র প্রজন্ম, স্পিচ সংশ্লেষণ এবং বিকাশকারীদের জন্য ভয়েস ক্লোনিং সরবরাহ করি।

মডেল@minimax.io এ আমাদের সাথে যোগাযোগ করুন।

Source link

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।