নিজেদের সর্বশেষ গবেষণায় নতুন এক ধরনের এআই মডেল দেখিয়েছে মাইক্রোসফট। এটি তিন সেকেন্ডের অডিও নমুনা থেকেও কারও কণ্ঠস্বর হুবহু নকল করতে পারে।
এআই মডেলটির নাম ‘ভাল-ই’। এটি মাইক্রোসফটের ‘টেক্সট-টু-স্পিচ’ ফিচারে ব্যবহার করা যাবে বলে প্রযুক্তিবিষয়ক সাইট আর্স টেকনিকা উল্লেখ করেছে প্রতিবেদনে।
এটি কেবল গলাই মেলায় না, বরং বক্তার আবেগপূর্ণ কণ্ঠস্বর এমনকি কোনো রুমের একক ধ্বনিও মিলিয়ে ফেলতে পারে।
ভবিষ্যতে কাস্টমাইজ করা বা উচ্চমানের ‘টেক্সট-টু-স্পিচ’ অ্যাপ্লিকেশনে এটি ব্যবহারের সম্ভাবনা থাকলেও, ডিপফেইকের মতোই এতে অপব্যবহারের ঝুঁকিও রয়েছে।
‘ভাল-ই’কে মাইক্রোসফট আখ্যা দিয়েছে একটি ‘নিউরাল কোডেক ল্যাংগুয়েজ মডেল’ হিসেবে। মেটার এআই চালিত ‘কম্প্রেশন নিউরাল নেট এনকোডেক’ থেকে পাওয়া ‘টেক্সট ইনপুট’ ও বক্তার কাছ থেকে পাওয়া স্বল্পদৈর্ঘ্য নমুনা থেকে এটি অডিও তৈরি করে বলে প্রতিবেদনে উল্লেখ করেছে প্রযুক্তিবিষয়ক সাইট এনগ্যাজেট।
এক গবেষণা পত্রে গবেষকরা ব্যাখ্যা করেন, তারা কীভাবে মেটার ‘লিব্রিলাইট’ নামের অডিও লাইব্রেরিতে থাকা সাত হাজারের বেশি বক্তার ৬০ হাজার ঘন্টা দীর্ঘ ইংরেজি ভাষায় দেওয়া বক্তব্যের মাধ্যমে ভাল-ই’কে প্রশিক্ষণ দিয়েছেন।