
মঙ্গলবার, Amazon তাদের নতুন জেনারেটিভ এআই ভয়েস মডেল Nova Sonic প্রকাশ করেছে। এই মডেলটি মানুষের মতো স্বাভাবিক কণ্ঠে কথা বলতে পারে এবং সরাসরি ভয়েস প্রক্রিয়াকরণে সক্ষম। অ্যামাজনের দাবি, Nova Sonic গতি, স্পিচ রিকগনিশন, এবং কথোপকথনের মানের দিক থেকে OpenAI ও Google-এর উন্নত ভয়েস মডেলগুলোর সঙ্গে প্রতিযোগিতা করতে পারে।Nova Sonic তৈরি হয়েছে আধুনিক ও প্রাকৃতিক কথোপকথনের জন্য, যেখানে পুরনো দিনের Alexa-এর মতো রোবটিক শোনায় না। প্রযুক্তির অগ্রগতির কারণে এখনকার ব্যবহারকারীরা আরও বাস্তবমুখী এবং স্মার্ট সহকারী প্রত্যাশা করে।এই মডেলটি অ্যামাজনের Bedrock প্ল্যাটফর্মের মাধ্যমে ডেভেলপারদের জন্য উন্মুক্ত, যেখানে এটি দুই-পথের স্ট্রিমিং API ব্যবহার করে। অ্যামাজন জানিয়েছে, এটি বাজারের সবচেয়ে কম খরচের এআই ভয়েস মডেল, যা OpenAI-এর GPT-4o এর তুলনায় প্রায় ৮০% সাশ্রয়ী।Nova Sonic-এর কিছু প্রযুক্তি ইতিমধ্যে Alexa+ নামক আপগ্রেডেড ডিজিটাল অ্যাসিস্ট্যান্টে ব্যবহার হচ্ছে। অ্যামাজনের সিনিয়র ভাইস প্রেসিডেন্ট ও AGI (Artificial General Intelligence) প্রধান বিজ্ঞানী রোহিত প্রসাদ বলেন, এই মডেলটি Alexa তৈরিতে ব্যবহৃত বড় প্রযুক্তিগত সিস্টেমের ওপর ভিত্তি করে গড়ে উঠেছে।Nova Sonic-এর সবচেয়ে বড় সুবিধাগুলোর একটি হলো, এটি বুঝতে পারে কখন কোনও ব্যবহারকারীর প্রশ্নের উত্তর দিতে হবে, কখন ইন্টারনেট থেকে তথ্য নিতে হবে, বা বাইরের কোনও অ্যাপে কাজ করতে হবে — এবং সেই অনুযায়ী ঠিক টুল ব্যবহার করে কাজটি করে ফেলে।অ্যামাজনের মতে, Nova Sonic কথোপকথনের সময় মানুষের পজ বা থেমে যাওয়া বুঝে তবেই উত্তর দেয়, এবং পুরো কথোপকথনের লিখিত ট্রান্সক্রিপ্টও তৈরি করে, যেটি ডেভেলপাররা বিভিন্ন কাজে ব্যবহার করতে পারেন।রোহিত প্রসাদ বলেন, এই মডেলটি অন্য অনেক এআই ভয়েস মডেলের তুলনায় কম ভুল করে, এমনকি কেউ যদি ভুল করে কিছু বলে বা চারপাশে শব্দ বেশি থাকে তবুও Nova Sonic সাধারণত ব্যবহারকারীর উদ্দেশ্য ঠিকমতো ধরতে পারে।একটি গুরুত্বপূর্ণ টেস্টে (Multilingual LibriSpeech) Nova Sonic মাত্র ৪.২% ভুল করেছে — অর্থাৎ প্রতি ১০০টি শব্দে গড়ে মাত্র ৪টি ভুল হয়েছে, তাও বিভিন্ন ভাষায় (ইংরেজি, ফরাসি, ইতালীয়, জার্মান, স্প্যানিশ)।আরেকটি টেস্টে (Augmented Multi Party Interaction), Nova Sonic OpenAI-এর GPT-4o মডেলের তুলনায় ৪৬.৭% বেশি নির্ভুল।গতি হিসেবেও এটি দ্রুততম — ১.০৯ সেকেন্ডে প্রতিক্রিয়া দেয়, যা GPT-4o-এর ১.১৮ সেকেন্ডের চেয়েও দ্রুত।রোহিত প্রসাদ জানান, Nova Sonic অ্যামাজনের AGI লক্ষ্য (যেখানে এআই মানুষ যা পারে, কম্পিউটারে তাই করতে পারবে) এর অংশ। ভবিষ্যতে অ্যামাজন এমন এআই মডেল আনবে যেগুলো শুধু ভয়েস নয়, ছবি, ভিডিও, ও অন্যান্য সেন্সরি ডেটা-ও বুঝতে পারবে।সম্প্রতি অ্যামাজন Nova Act নামের একটি ব্রাউজার-চালিত এআই মডেলের প্রিভিউও চালু করেছে, যা Alexa+ এবং “Buy for Me” ফিচারে ব্যবহৃত হচ্ছে।Nova Sonic-এর মাধ্যমে অ্যামাজন এখন তাদের এআই প্রযুক্তি ডেভেলপারদের হাতে তুলে দিতে চায়, যেন তারা আরও নতুন ও চমকপ্রদ অ্যাপ্লিকেশন তৈরি করতে পারে।
