নমুনা থেকেই ‘কণ্ঠস্বর নকল করে’ মাইক্রোসফটের এআই মডেল

বিডি নিউজ ২৪ প্রকাশিত: ১১ জানুয়ারি ২০২৩, ১৫:৫০

নিজেদের সর্বশেষ গবেষণায় নতুন এক ধরনের এআই মডেল দেখিয়েছে মাইক্রোসফট। এটি তিন সেকেন্ডের অডিও নমুনা থেকেও কারও কণ্ঠস্বর হুবহু নকল করতে পারে।


এআই মডেলটির নাম ‘ভাল-ই’। এটি মাইক্রোসফটের ‘টেক্সট-টু-স্পিচ’ ফিচারে ব্যবহার করা যাবে বলে প্রযুক্তিবিষয়ক সাইট আর্স টেকনিকা উল্লেখ করেছে প্রতিবেদনে।


এটি কেবল গলাই মেলায় না, বরং বক্তার আবেগপূর্ণ কণ্ঠস্বর এমনকি কোনো রুমের একক ধ্বনিও মিলিয়ে ফেলতে পারে। 


ভবিষ্যতে কাস্টমাইজ করা বা উচ্চমানের ‘টেক্সট-টু-স্পিচ’ অ্যাপ্লিকেশনে এটি ব্যবহারের সম্ভাবনা থাকলেও, ডিপফেইকের মতোই এতে অপব্যবহারের ঝুঁকিও রয়েছে।


‘ভাল-ই’কে মাইক্রোসফট আখ্যা দিয়েছে একটি ‘নিউরাল কোডেক ল্যাংগুয়েজ মডেল’ হিসেবে। মেটার এআই চালিত ‘কম্প্রেশন নিউরাল নেট এনকোডেক’ থেকে পাওয়া ‘টেক্সট ইনপুট’ ও বক্তার কাছ থেকে পাওয়া স্বল্পদৈর্ঘ্য নমুনা থেকে এটি অডিও তৈরি করে বলে প্রতিবেদনে উল্লেখ করেছে প্রযুক্তিবিষয়ক সাইট এনগ্যাজেট।


এক গবেষণা পত্রে গবেষকরা ব্যাখ্যা করেন, তারা কীভাবে মেটার ‘লিব্রিলাইট’ নামের অডিও লাইব্রেরিতে থাকা সাত হাজারের বেশি বক্তার ৬০ হাজার ঘন্টা দীর্ঘ ইংরেজি ভাষায় দেওয়া বক্তব্যের মাধ্যমে ভাল-ই’কে প্রশিক্ষণ দিয়েছেন।

সম্পূর্ণ আর্টিকেলটি পড়ুন

ট্রেন্ডিং

সংবাদ সূত্র

News

The Largest News Aggregator
in Bengali Language

Email: [email protected]

Follow us