هدفون های هوش مصنوعی که صحبت چندین گوینده را هم زمان ترجمه می کنند
به گزارش گردو دانلود، هدفون های مجهز به هوش مصنوعی می توانند ترجمه گروهی را به صورت هم زمان با شبیه سازی صدا عرضه کنند.
به گزارش گردو دانلود به نقل از ایسنا، «توچائو چن»(Tuochao Chen) دانشجوی «دانشگاه واشنگتن» به تازگی از موزه ای در مکزیک بازدید نمود. چن اسپانیایی صحبت نمی نماید. بنابراین، یک اپلیکیشن ترجمه را روی تلفن همراه خود اجرا کرد و میکروفون را بسمت راهنمای تور گرفت اما حتی در سکوت نسبی موزه، سر و صدای اطراف زیاد بود و متن حاصل فایده زیادی نداشت.
به نقل از تک اکسپلور، به تازگی فناوری های گوناگونی ظهور کرده اند که ترجمه روان را نوید می دهند اما هیچ کدام از این تکنولوژی ها مشکل چن را در فضاهای عمومی حل نکردند. برای نمونه، عینک های جدید شرکت «متا»(Meta) فقط با یک بلندگوی مجزا کار می کنند. آنها بعد از به پایان رسیدن صحبت گوینده، ترجمه صوتی خودکار را پخش می کنند.
حالا چن و گروهی از محققان دانشگاه واشنگتن یک سیستم هدفون طراحی نموده اند که هم زمان صحبت چندین گوینده را ترجمه می کند و در عین حال، جهت و کیفیت صدای افراد را حفظ می نماید. این گروه پژوهشی، سیستم را با هدفون های نویزگیر موجود در بازار که به میکروفون مجهز هستند، ساخته اند. الگوریتم های این گروه پژوهشی، گویندگان متفاوت را در یک فضا جدا می کنند، آنها را هنگام حرکت دنبال می کنند، گفتار آنها را ترجمه می کنند و با تأخیر دو تا چهار ثانیه ای پخش می کنند.
«شیام گولاکوتا»(Shyam Gollakota) استاد دانشکده علوم کامپیوتر و مهندسی دانشگاه واشنگتن و پژوهشگر ارشد این پروژه اظهار داشت: کد دستگاه برای دیگران در دسترس می باشد تا برپایه آن کار کنند. سایر فناوری های ترجمه بر این فرض ساخته شده اند که فقط یک نفر صحبت می کند اما در دنیای واقعی نمی توانید فقط یک صدای رباتیک داشته باشید که برای چندین نفر در یک اتاق صحبت کند. ما برای نخستین بار صدای هر شخص و جهتی را که صدا از آن می آید، حفظ نموده ایم.
این سیستم سه نوآوری را در بر دارد. نخست اینکه وقتی روشن می شود، فورا تشخیص می دهد چه تعداد اسپیکر در فضای داخلی یا خارجی وجود دارد. چن اظهار داشت: الگوریتم های ما کمی شبیه به رادار کار می کنند. بنابراین، آنها فضا را به شکل ۳۶۰ درجه مورد بررسی قرار می دهند و دائما بروزرسانی می کنند تا مشخص شود چند نفر درحال صحبت کردن هستند.
سپس سیستم، گفتار را ترجمه می کند و کیفیت بیان و بلندی صدای هر گوینده را هنگام اجرا روی یک دستگاه مجهز به تراشه «Apple M۲» مانند لپ تاپ ها و هدست «اپل ویژن پرو»(Apple Vision Pro) حفظ می نماید. این گروه پژوهشی به علت نگرانی های در ارتباط با حریم خصوصی پیرامون شبیه سازی صدا، از به کار بردن محاسبات ابری اجتناب کردند. در نهایت، هنگامی که گوینده ها سر خویش را حرکت می دهند، سیستم همچنان به ردیابی جهت و کیفیت صدای آنها همراه با تغییرات صورت گرفته ادامه می دهد.
این سیستم در ۱۰ محیط داخلی و خارجی آزمایش شد و در یک آزمایش با ۲۹ شرکت کننده، کاربران این سیستم را به مدل هایی که اسپیکرها را در فضا ردیابی نمی کردند، ترجیح دادند.
در یک آزمایش جداگانه روی کاربران، بیشتر شرکت کنندگان تأخیر سه تا چهار ثانیه ای را ترجیح دادند چونکه سیستم هنگام ترجمه با تأخیر یک تا دو ثانیه ای، خطاهای بیشتری مرتکب می شد. این گروه پژوهشی در تلاش هستند تا سرعت ترجمه را در نسخه های آینده کاهش دهند. این سیستم هم اکنون فقط روی گفتار روزمره کار می کند، نه زبان تخصصی مانند اصطلاحات فنی. محققان در این پروژه با زبان های اسپانیایی، آلمانی و فرانسوی کار کردند اما بررسی های پیشین روی مدلهای ترجمه نشان داده اند که میتوان آنها را برای ترجمه حدود ۱۰۰ زبان آموزش داد.
چن اظهار داشت: این گامی به سمت از بین بردن موانع زبانی بین فرهنگ هاست. بنابراین، اگر من در خیابان مکزیک قدم بزنم، حتی اگر اسپانیایی صحبت نکنم هم می توانم صدای همه مردم را ترجمه کنم و بدانم چه کسی چه گفته است.
منبع: gerdoodl.ir
این مطلب را می پسندید؟
(1)
(0)
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب