আমি নিজের একটি এআই সংস্করণ নিয়ে কথা বলেছি, হিউমের ফ্রি সরঞ্জামকে ধন্যবাদ – এটি কীভাবে চেষ্টা করা যায়

আমি নিজের একটি এআই সংস্করণ নিয়ে কথা বলেছি, হিউমের ফ্রি সরঞ্জামকে ধন্যবাদ – এটি কীভাবে চেষ্টা করা যায়

চিকেন সাহসী/গেটি চিত্র

আপনি যদি নিজের একটি এআই সংস্করণের সাথে কথোপকথন করার তাগিদ থাকেন তবে এখন আপনি পারেন – ধরণের।

বৃহস্পতিবার, এআই স্টার্ট-আপ হিউম একটি নতুন “হাইপাররিয়ালিস্টিক ভয়েস ক্লোনিং” চালু করার ঘোষণা দিয়েছে বৈশিষ্ট্য এর সহানুভূতিশীল ভয়েস ইন্টারফেস (ইভিআই) মডেল, ইভিআই 3 এর সর্বশেষ পুনরাবৃত্তির জন্য, যা গত মাসে উন্মোচিত হয়েছিল। ধারণাটি হ’ল নিজের কথা বলার একটি সংক্ষিপ্ত অডিও রেকর্ডিং আপলোড করে-আদর্শভাবে 30 থেকে 90 সেকেন্ডের মধ্যে-মডেলটি আপনার ভয়েসের একটি এআই-উত্পাদিত প্রতিরূপটি দ্রুত মন্থন করতে সক্ষম হওয়া উচিত, যা আপনি তখন মৌখিকভাবে যোগাযোগ করতে পারেন, ঠিক যেমন আপনি আপনার সামনে দাঁড়িয়ে অন্য ব্যক্তির সাথে চান।

এছাড়াও: অনুভূতির সাথে পাঠ্য-থেকে-স্পিচ-এই নতুন এআই মডেলটি সব কিছু করে তবে একটি টিয়ার বর্ষণ করে

আমি আমার ভয়েসের একটি রেকর্ডিং এভিআই 3 -তে আপলোড করেছি এবং আমার ভয়েসের মডেলটির অনুকরণের সাথে কিছুটা সময় চ্যাট করতে ব্যয় করেছি। আমি আশা করছিলাম (সম্ভবত নির্বোধভাবে) একটি অস্বাভাবিক উপত্যকার অভিজ্ঞতা আছে – যা অনুভূত হয় এমন কোনও কিছুর সাথে আলাপচারিতার বিরল অনুভূতি প্রায় সম্পূর্ণ বাস্তব, তবুও অফ-কিল্টারকে কিছুটা অস্বস্তি বোধ করার জন্য যথেষ্ট-এবং যখন এভি 3 এমই আমার নিজের অডিও কার্টুন সংস্করণের মতো ছিল তখন হতাশ হয়েছিলেন।

আমাকে কিছুটা আনপ্যাক করতে দিন।

এভিআই 3 এর ভয়েস ক্লোনিং বৈশিষ্ট্য ব্যবহার করে

হিউম ব্যবহার করে ভয়েস ক্লোনিং

ওয়েব রাইট/জেডডনেট দ্বারা স্ক্রিনশট

আমার কণ্ঠের অনুকরণটি কিছু উপায়ে অনস্বীকার্যভাবে বাস্তববাদী ছিল। পরিচিত ভোকাল ফ্রাইয়ের স্পর্শের সাথে আমি যেভাবে করি সেভাবে কমবেশিতে কথা বলার সময় মাঝে মাঝে বিরতি দেওয়া বলে মনে হয়েছিল। কিন্তু মিররিং সেখানে থামল।

হিউম তার ব্লগ পোস্টে দাবি করেছেন যে এভি 3 এর নতুন ভয়েস ক্লোনিং বৈশিষ্ট্যটি “স্পিকারের ব্যক্তিত্বের দিকগুলি” ক্যাপচার করতে পারে। এটি একটি অস্পষ্ট প্রতিশ্রুতি (সম্ভবত ইচ্ছাকৃতভাবে তাই), তবে আমার নিজের পরীক্ষায় মডেলটি এই ক্ষেত্রে কম পড়েছে বলে মনে হয়েছিল। আমার নিজের আচরণের কৌতূহল এবং হাস্যরসের বোধের দৃ inc ়প্রত্যয়ী অনুকরণের মতো অনুভূতি থেকে দূরে, মডেলটি একটি চিপারের সাথে কথা বলেছিল, আগ্রহী-থেকে-প্লিজ টোন যা এন্টিডিপ্রেসেন্টসগুলির জন্য একটি রেডিও বিজ্ঞাপনের সাথে উপযুক্ত ছিল। আমি নিজেকে বন্ধুত্বপূর্ণ এবং সাধারণত উত্সাহী বলে ভাবতে চাই, তবে এআই স্পষ্টতই সেই নির্দিষ্ট চরিত্রের বৈশিষ্ট্যগুলিকে অতিরঞ্জিত করেছিল।

এছাড়াও: এআইয়ের সাথে এআইয়ের সাথে লড়াই করা, ফিনান্স সংস্থাগুলি জালিয়াতিতে 5 মিলিয়ন ডলার প্রতিরোধ করেছে – তবে কোন মূল্যে?

এটি সাধারণত কুকুরছানা জাতীয় আচরণ সত্ত্বেও, মডেলটি একটি উচ্চারণে কথা বলার চেষ্টা করতে অস্বীকার করে অদ্ভুতভাবে কড়া ছিল, যা আমার কাছে মনে হয়েছিল এটি এমন এক ধরণের কৌতুকপূর্ণ ভয়েস অনুশীলন হবে যা এটি শ্রেষ্ঠ হয়ে উঠবে। আমি যখন এটি একটি অস্ট্রেলিয়ান উচ্চারণকে ঘূর্ণি দিতে বলেছিলাম, তখন এটি আমার স্বাভাবিক কণ্ঠে একবার বা দু’বার “G’day” এবং “সাথী” বলেছিল, তখন তত্ক্ষণাত আরও সাহসী কিছু থেকে দূরে সরে যায়। এবং আমি যা সম্পর্কে কথা বলতে অনুরোধ করেছি তা বিবেচনা না করেই, এটি আমি যখন আমার ভয়েসটি ব্যবহারের জন্য একটি নমুনা হিসাবে রেকর্ড করেছিলাম তখন আমি যে বিষয়টি নিয়ে আলোচনা করছিলাম তখন আমি যে বিষয়টি নিয়ে আলোচনা করছিলাম সেটিতে ফিরে যাওয়ার জন্য কিছু সৃজনশীল এবং চক্রের পথ খুঁজে পেয়েছিল, গত বছর নৃতাত্ত্বিক থেকে একটি পরীক্ষার কথা স্মরণ করিয়ে দেওয়া হয়েছিল যেখানে ক্লাডকে টুইট করা হয়েছিল। গোল্ডেন গেট ব্রিজের সাথে আচ্ছন্ন

আমার দ্বিতীয় পরীক্ষায়, উদাহরণস্বরূপ, আমি নিজেকে এলইডি জেপেলিন সম্পর্কে কথা বলতে রেকর্ড করেছি, যা আমি সেদিন সকালে শুনছিলাম। আমি তখন যখন আমি এভি 3 এর ভয়েস ক্লোনকে অন্ধকার পদার্থের প্রকৃতি সম্পর্কে তার চিন্তাভাবনাগুলি ব্যাখ্যা করার জন্য জিজ্ঞাসা করেছি, তখন এটি দ্রুত তার প্রতিক্রিয়াটিকে সংগীতের বিষয়টিতে ফিরিয়ে আনার একটি উপায় খুঁজে পেয়েছিল, রহস্যজনকভাবে অদৃশ্য শক্তিটির সাথে তুলনা করে অদৃশ্য সুরের সাথে কসমসকে বিস্তৃত করে যা একটি গানকে অর্থ এবং শক্তির সাথে সজ্জিত করে।

আপনি নিজের জন্য এভি 3 এর নতুন ভয়েস ক্লোনিং বৈশিষ্ট্যটি চেষ্টা করতে পারেন এখানে

হিউমের মতে ওয়েবসাইটএভিআই এপিআইয়ের সাথে মিথস্ক্রিয়া থেকে উত্পাদিত ব্যবহারকারীর ডেটা সংস্থার মডেলগুলি প্রশিক্ষণের জন্য ডিফল্টরূপে সংগ্রহ করা হয় এবং বেনামে করা হয়। আপনি এটি আপনার প্রোফাইলে “শূন্য ডেটা রিটেনশন” বৈশিষ্ট্যের মাধ্যমে এটি বন্ধ করতে পারেন। উপরে লিঙ্কযুক্ত ডেমো সহ নন-এপিআই পণ্যগুলির জন্য, সংস্থাটি বলেছে যে এটি “পারে” এর মডেলগুলি উন্নত করতে ডেটা সংগ্রহ এবং ব্যবহার করতে পারে-তবে আবারও, আপনি যদি ব্যক্তিগত প্রোফাইল তৈরি করেন তবে আপনি এটি টগল করতে পারেন।

ফিসফিসিং রোবট

এআই কণ্ঠস্বর বেশ কিছু সময়ের জন্য ছিল, তবে তারা histor তিহাসিকভাবে তাদের বাস্তবতায় সীমাবদ্ধ ছিল; উদাহরণস্বরূপ, আপনি যখন ক্লাসিক সিরি বা আলেক্সা থেকে প্রতিক্রিয়া পাবেন তখন আপনি কোনও রোবটের সাথে কথা বলছেন এটি খুব স্পষ্ট। বিপরীতে, এআই ভয়েস মডেলগুলির একটি নতুন তরঙ্গ, তাদের মধ্যে এভি 3, কেবল প্রাকৃতিক ভাষায় কথা বলার জন্য নয়, এবং আরও গুরুত্বপূর্ণভাবে, সূক্ষ্ম প্রতিচ্ছবি, অন্তর্নিহিত, আইডিসিঙ্ক্রেসি এবং ক্যাডেন্সকে নকল করার জন্য ইঞ্জিনিয়ার করা হয়েছে যা বাস্তব, দৈনন্দিন মানব বক্তৃতা দেয়।

হিউমের প্রধান নির্বাহী কর্মকর্তা এবং প্রধান বিজ্ঞানী অ্যালান কাউয়েন আমাকে বলেছিলেন, “মানব যোগাযোগের একটি বড় অংশ সঠিক শব্দের উপর জোর দিচ্ছে, সঠিক সময়ে বিরতি দিচ্ছে, সঠিক কণ্ঠের স্বর ব্যবহার করে,” হিউমের প্রধান নির্বাহী কর্মকর্তা এবং প্রধান বিজ্ঞানী অ্যালান কাউইন আমাকে বলেছিলেন।

হিউমে যেমন একটি লিখেছেন ব্লগ পোস্ট বৃহস্পতিবার, এভি 3 “কী শব্দের উপর জোর দেওয়া উচিত, মানুষকে কী হাসায় এবং কীভাবে উচ্চারণ এবং অন্যান্য ভয়েস বৈশিষ্ট্যগুলি শব্দভাণ্ডারগুলির সাথে যোগাযোগ করে তা জানে।” সংস্থার মতে, এটি পূর্ববর্তী বক্তৃতা-উত্পাদক মডেলগুলি থেকে একটি বড় প্রযুক্তিগত লিপকে এগিয়ে রাখে, “যার ভাষার অর্থবহ বোঝার অভাব রয়েছে।”

অনেক এআই বিশেষজ্ঞরা এই প্রসঙ্গে “বোঝার” মতো শব্দের ব্যবহারের সাথে ছত্রাক নেবেন যেহেতু এভিআই 3 এর মতো মডেলগুলি কেবল তাদের প্রশিক্ষণের ডেটাগুলির প্রচুর পরিমাণে সোথগুলি থেকে প্রাপ্ত নিদর্শনগুলি সনাক্ত এবং পুনরায় তৈরি করার জন্য প্রশিক্ষণপ্রাপ্ত, এমন একটি প্রক্রিয়া যা যুক্তিযুক্তভাবে আমরা সত্যিকার অর্থে বোঝার হিসাবে স্বীকৃতি হিসাবে কোনও জায়গা ছাড়েন না।

এছাড়াও: চ্যাটজিপ্ট কেবল আর চ্যাট করার জন্য নয় – এখন এটি আপনার জন্য আপনার কাজ করবে

হিউমের ব্লগ পোস্ট অনুসারে এভি 3 “ট্রিলিয়ন টোকেন টোকেন এবং তারপরে কয়েক মিলিয়ন ঘন্টা বক্তৃতা” প্রশিক্ষণ দেওয়া হয়েছিল। কোভেনের মতে, এই পদ্ধতির একাই মডেলটিকে স্বরগুলিতে কথা বলতে সক্ষম করেছে যা স্বজ্ঞাতভাবে প্রত্যাশার চেয়ে অনেক বেশি বাস্তবসম্মত। “ভয়েস (মডেল) সহ, সবচেয়ে অবাক করা বিষয় হ’ল মানব (তারা) কেবলমাত্র প্রচুর ডেটা প্রশিক্ষণ দিয়ে কীভাবে হতে পারে,” তিনি বলেছিলেন।

তবে দার্শনিক যুক্তিগুলি একদিকে রেখে, এআই ভয়েস মডেলগুলির নতুন তরঙ্গটি অনিয়ন্ত্রিতভাবে চিত্তাকর্ষক। যখন অনুরোধ জানানো হয়, তারা তাদের পূর্বসূরীদের তুলনায় ভোকাল এক্সপ্রেশনটির অনেক বেশি ভ্যাস্টার পরিসীমা অন্বেষণ করতে পারে। হিউম এবং ইলেভেনল্যাবের মতো সংস্থাগুলি দাবি করে যে এই নতুন মডেলগুলির বিনোদন এবং বিপণনের মতো শিল্পগুলির জন্য ব্যবহারিক সুবিধা থাকবে, তবে কিছু বিশেষজ্ঞরা আশঙ্কা করছেন যে তারা প্রতারণার জন্য নতুন দরজা খুলবেন – যেমনটি গত সপ্তাহে চিত্রিত হয়েছিল যখন কোনও অজানা ব্যক্তি মার্কিন যুক্তরাষ্ট্রের সেক্রেটারি অফ মার্কো রুবিওর ভয়েস অনুকরণ করতে এআই ব্যবহার করেছিলেন এবং পরবর্তীকালে সরকারের আধিকারিকদের ডুবে যাওয়ার প্রয়াসে ভয়েস ক্লোন স্থাপন করেছিলেন।

“আমি কোনও কারণ দেখতে পাচ্ছি না যে আমাদের কোনও রোবট ফিসফিসিংয়ের প্রয়োজন হবে,” এমিলি এম বেন্ডার, একজন ভাষাবিদ এবং সহকারী এআই কনসম্প্রতি আমাকে বলেছে। “লাইক, এটাই কিসের জন্য? আপনি যা শুনছেন তা সিন্থেটিক এই সত্যটি ছদ্মবেশ ধারণ করে?”

বিপ্লবী রুটিন হয়ে যায়

হ্যাঁ, সমস্ত এআই সরঞ্জামগুলির মতো এভি 3 এর ভয়েস ক্লোনিং বৈশিষ্ট্যটির ত্রুটি রয়েছে। তবে এগুলি এর উল্লেখযোগ্য গুণাবলী দ্বারা উল্লেখযোগ্যভাবে ছাপিয়ে গেছে।

একটি বিষয়, আমাদের মনে রাখা উচিত যে আজ বাজারে আঘাত করা জেনারেটর এআই মডেলগুলি প্রযুক্তির শৈশবের অংশ এবং তারা কেবল উন্নতি করতে থাকবে। তিন বছরেরও কম সময়ের মধ্যে, আমরা চ্যাটজিপিটি -র জনসাধারণের প্রকাশ থেকে এআই মডেলগুলিতে চলে এসেছি যা কমবেশি দৃ inc ়তার সাথে গুগলের ভিইও 3 এর মতো বাস্তব মানব ভয়েস এবং সরঞ্জামগুলি অনুকরণ করতে পারে, যা বাস্তবসম্মত ভিডিও এবং সিঙ্ক্রোনাইজড অডিও তৈরি করতে পারে। জেনারেটর এআই অগ্রগতির দমকে থাকা গতি আমাদের বিরতি দেওয়া উচিত, কমপক্ষে বলতে গেলে।

এছাড়াও: এআই এজেন্টরা ইন্টারনেট আকারের উপায়ে কাজ এবং সমাজ পরিবর্তন করবে, এডাব্লুএস ভিপি বলেছেন

আজ, এভিআই 3 আপনার ভয়েসের মোটামুটি অনুমানের অনুকরণ করতে পারে। তবে এটি আশা করা অযৌক্তিক নয়, তবে এর উত্তরসূরি-বা সম্ভবত গ্র্যান্ড-সোসেসর-এমনভাবে আপনার ভয়েসকে এমনভাবে ক্যাপচার করতে সক্ষম হবেন যা সত্যই দৃ inc ়প্রত্যয়ী বোধ করে। এই জাতীয় বিশ্বে, কেউ এভিআই বা অনুরূপ ভয়েস-উত্পাদক মডেলকে কোনও এআই এজেন্টের সাথে জুটিবদ্ধ করার কথা ভাবতে পারে, বলুন, আপনার পক্ষ থেকে জুম সভাগুলিতে যোগদান করুন। এটি, কম আশাবাদীভাবে, একটি কেলেঙ্কারী শিল্পীর স্বপ্ন সত্য হতে পারে।

যদিও আমার অভিজ্ঞতা সম্পর্কে এভিআই 3 এর ভয়েস ক্লোনিং বৈশিষ্ট্যের সাথে ইন্টারঅ্যাক্ট করার বিষয়ে সবচেয়ে আকর্ষণীয় সত্য, যদিও এই প্রযুক্তিটি ইতিমধ্যে কতটা জাগতিক অনুভূত হয়েছে।

প্রযুক্তিগত উদ্ভাবনের গতি যেমন ত্বরান্বিত হয়, তেমনি তাত্ক্ষণিকভাবে আমাদেরকে স্বাভাবিক করার জন্য আমাদের ক্ষমতাও যা পূর্ববর্তী প্রজন্মকে মানুষকে হতবাক করে দিত না। ওপেনাইয়ের স্যাম আল্টম্যান সাম্প্রতিক একটি ব্লগ পোস্টে এই বিষয়টি খুব স্পষ্ট করে তুলেছে: আল্টম্যানের মতে, আমরা এককতার কাছে পৌঁছেছি, তবুও বেশিরভাগ অংশের জন্য এটি যথারীতি ব্যবসায়ের মতো মনে হয়।

এআই সম্পর্কে আরও গল্প চান? উদ্ভাবনের জন্য সাইন আপ করুনআমাদের সাপ্তাহিক নিউজলেটার।



Source link