حالت صدای فوق واقع‌گرایانه هوش مصنوعی / گسترش تدریجی تا پایان سال

OpenAI حالت صدای پیشرفته ChatGPT را معرفی کرده است که پاسخ‌های صوتی فوق‌واگرایانه و با تشخیص احساسات ارائه می‌دهد. این ویژگی ابتدا برای کاربران Plus در دسترس است و به تدریج گسترش خواهد یافت. تدابیر ایمنی برای جلوگیری از سواستفاده‌های احتمالی و مسائل حقوقی در نظر گرفته شده است.

کد خبر: ۲۱۱۲۵۳

تیتر یک اقتصاد |

OpenAI با معرفی حالت صدای پیشرفته برای ChatGPT، یک گام بزرگ در فناوری هوش مصنوعی برداشته است. این ویژگی جدید که پاسخ‌های صوتی فوق‌واقع‌گرایانه ارائه می‌دهد، ابتدا برای گروهی منتخب از کاربران Plus ChatGPT در دسترس قرار گرفت. عرضه این ویژگی از 30 جولای 2024 آغاز شد و گسترش تدریجی آن به تمامی کاربران Plus تا پاییز 2024 پیش‌بینی می‌شود. این پیشرفت، نمایانگر یک گام بزرگ در بهبود تعاملات انسان و هوش مصنوعی است و مکالمات انسانی‌تر و احساسی‌تری را ممکن می‌سازد.

صدایی که غیرقانونی به نظر می‌رسید

حالت صدای پیشرفته اولین بار در می 2024 معرفی شد، جایی که تماشاگران را با پاسخ‌های سریع و صدای بسیار مشابه انسان، به ویژه شبیه به صدای اسکارلت جوهانسون در فیلم "Her" شگفت‌زده کرد. با وجود این هیجان اولیه، این تشابه منجر به جنجال شد، زمانی که جوهانسون به‌طور علنی اظهار داشت که اجازه استفاده از صدایش را نداده و اقدام به اقدامات قانونی علیه OpenAI کرد. OpenAI استفاده از صدای او را انکار کرد اما نسخه نمایشی را حذف کرد. سپس شرکت، عرضه این ویژگی را برای رفع نگرانی‌های ایمنی و اخلاقی به تأخیر انداخت.

در ادامه این گزارش به بررسی بیشتر این تکامل خواهیم پرداخت.

ویژگی‌های حالت صدای پیشرفته

ترکیبی از چند مدل

حالت صدای پیشرفته ChatGPT که با GPT-4o تقویت شده، به‌طور قابل توجهی با نسخه قبلی متفاوت است. حالت صدای قدیمی از سه مدل جداگانه برای تبدیل صدا به متن، پردازش متن و سپس تبدیل متن به صدا استفاده می‌کرد. GPT-4o که چندمدلی است، این وظایف را در یک مدل واحد ادغام می‌کند که منجر به کاهش تاخیر و مکالمات روان‌تر می‌شود. این ادغام، به هوش مصنوعی امکان می‌دهد تا ورودی‌های کاربر را سریع‌تر و طبیعی‌تر پردازش و پاسخ دهد.

تکاملی که از آن می‌خوانید گامی بزرگ در جهت تعاملات بیشتر و حرفه‌ای بین انسان‌ها و هوش مصنوعی به شمار می‌رود. گامی بلند به‌سوی زمانی که هر انسانی یک دستیار شخصی حرفه‌ای داشته باشد و این دستیار حرفه‌های ساختاریافته بر هوش مصنوعی، از طریق مکالمه با شما به درخواست شما آگاه شود و به شما مانند یک انسان پاسخ دهد.

لحن شما هم تشخیص داده خواهد شد

یکی از ویژگی‌های برجسته GPT-4o، توانایی تشخیص و پاسخ به لحن‌های احساسی در صدای کاربر است. چه کاربر احساس غم، هیجان یا حتی آواز بخواند، هوش مصنوعی می‌تواند این نوانس‌ها را تشخیص دهد و به‌طور مناسب پاسخ دهد. این قابلیت، تعامل با ChatGPT را بیشتر جذب‌کننده و همدردانه می‌سازد و تجربه کاربری را بهبود می‌بخشد.

هوش مصنوعی به سرعت روزافزونی در حال پیشرفت و درنوردیدن مرزهای قبلی است. حالا با چنین امکانی ابزار هوش مصنوعی می‌تواند لحن شما را شناسایی کند و متناسب با همین لحن به شما پاسخ دهد. پاسخ هوش مصنوعی به درخواست‌های شما باید دقیق و با نیازسنجی کاملی صورت بگیرد. چیزی که هنوز به کمال اتفاق نیافتاده اما می‌توان مسیری را به همین مقصد برای این تکنولوژی ترسیم کرد.

عرضه محدود اولیه و تدابیر ایمنی

OpenAI این ویژگی را به‌تدریج منتشر می‌کند تا استفاده از آن را از نزدیک نظارت کند. کاربران گروه آلفا در برنامه ChatGPT اعلان‌هایی دریافت خواهند کرد و سپس ایمیلی با دستورالعمل‌های استفاده از حالت صدای جدید دریافت خواهند کرد. این رویکرد محتاطانه به منظور جمع‌آوری بازخورد کاربران و اطمینان از ایمنی و قابل اعتماد بودن فناوری قبل از انتشار گسترده‌تر است.

برای جلوگیری از سواستفاده‌های احتمالی، مانند دیپ‌فیک‌ها و نقض حقوق مالکیت معنوی، OpenAI چندین تدبیر ایمنی را پیاده‌سازی کرده است. ChatGPT به چهار صدای از پیش تنظیم شده - Juniper، Breeze، Cove و Ember - که با همکاری بازیگران صوتی قراردادی توسعه یافته‌اند، محدود خواهد شد. صدای Sky از نسخه نمایشی اولیه دیگر در دسترس نیست. علاوه بر این، هوش مصنوعی نمی‌تواند صدای دیگر افراد، از جمله شخصیت‌های عمومی، را تقلید کند و خروجی‌هایی که سعی در انحراف از صداهای از پیش تنظیم شده دارند را مسدود خواهد کرد.

دیپ‌فیک‌ در کمین است

تلاش‌های OpenAI برای جلوگیری از جنجال‌های دیپ‌فیک قابل توجه است، به ویژه با توجه به حوادث گذشته که فناوری‌های تقلید صدا را شامل می‌شود. برای مثال، در ژانویه 2024، فناوری تقلید صدای ElevenLabs برای تقلید از صدای رئیس جمهور بایدن استفاده شد که رای‌دهندگان اولیه در نیوهمپشایر را فریب داد. برای جلوگیری از چنین سناریوهایی، OpenAI فیلترهای جدیدی برای مسدود کردن درخواست‌هایی که ممکن است موسیقی یا صدای دارای حقوق مالکیت تولید کنند معرفی کرده است. این حرکت به منظور جلوگیری از مشکلات قانونی مشابه با شرکت‌های هوش مصنوعی دیگر مانند Suno و Udio است که توسط شرکت‌های ضبط برای نقض حقوق مالکیت معنوی شکایت شده‌اند.

چشم‌انداز آینده

معرفی حالت صدای پیشرفته توسط OpenAI یک نقطه عطف مهم در توسعه هوش مصنوعی است. در حالی که انتشار اولیه محدود و به‌دقت نظارت می‌شود، پتانسیل برای تعاملات طبیعی‌تر و آگاه‌تر به احساسات انسانی با هوش مصنوعی بسیار زیاد است. شرکت قصد دارد گزارش تلاش‌های ایمنی قابلیت‌های صدای GPT-4o را در اوایل آگوست منتشر کند و اطلاعات بیشتری درباره توسعه و اجرای این فناوری ارائه دهد.

این یک پیشرفت چشمگیر به حساب می‌آید. پیشرفتی که باعث می‌شود تخیل ما از آینده نزدیک و نزدیک‌تر شود و به مرحله ظهور برسد.