صدا عامل درک احساسات انسان توسط رایانه

S i s i l

عضو جدید
کاربر ممتاز
تعامل انسان و رایانه در سالهای آینده وارد مرحله ای خواهد شد که هم به انسان و هم به رایانه اجازه می دهد با درک صداهای کلامی طبیعی و مصنوعی هم بتوانند احساسات یکدیگر را درک و به روشی موثرتر باهم تعامل کنند.


10 سال پس از اینکه "آرتور کلارک" در رمان "اودیسه فضایی 2001" خود ابررایانه ای به نام HAL 9000 را به تصویر کشید که در شاتل فضایی "دیسکاوری- وان" نصب شده بود و می توانست واژگان انسان را بخواند این توانایی به واقعیت بدل شد.

در این رمان که "استنلی کوپریک" نیز فیلم جاودانه خود را براساس آن ساخت زمانی که کادر فضاپیما که به سمت سیاره مشتری در حرکت بود به دلیل خرابی سیستم اتصال در کابین خود زندانی شدند ابررایانه HAL 9000 توانست با دوربینهایش حرکت لبهای آنها را بخواند و به فرمانده مطلق "دیسکاوری- وان" تبدیل شود.

VIDAS؛ سیستمی که افسردگی را درک می کند

در طول دهه های اخیر، سیستمهای رایانه ای پیشرفته ای ساخته شده اند که می توانند واژگان و حتی احساسات انسان را درک کنند.

یکی از تازه ترین این سیستمها VIDAS (سیستم آنالیز دیجیتالی یکپارچه با صدا) نام دارد که قادر است حالت روحی افراد با زبان مادری انگلیسی و اسپانیایی (دو زبان بسیار رایج در آمریکا) را با دقت 79 درصد درک کند و حتی با دقت کمتری احساسات افرادی را هم که اسپانیایی و انگلیسی زبان دوم آنها است تشخیص دهد.

در تحقیقات این سیستم که نتایج آن در مجله علمی Voice & Emotion (صدا و احساس) منتشر شده است، محققان موسسه Seguro Social در مکزیک شرح دادند که این سیستم توانایی پردازش رایانه ای تشخیص صدا را دارد و می تواند با سرعت بالایی بیماران افسرده را نسبت به بیماران غیر افسرده در بدو ورود به بیمارستان شناسایی کند.

به گفته این پژوهشگران، به کمک این سیستم می توان بیماران را به روشی صحیح به بخشهای تخصصی مناسب هدایت کرد.

اثر مک- گرک و توانایی انسان در درک صداهای رایانه ای

"اثر مک- گرک"، اصطلاحی است که عنوان خود را از نام "هری مک- کرگ" گرفته است. این دانشمند انگلیسی دانشگاه سوری همراه با "جان مک دونالد" در تحقیقی با عنوان "شنیدن لبها و دیدن صدا" که در مجله "نیچر" منتشر کرد، برای اولین بار نشان داد که قدرت بینایی چگونه در درک ما از صدا اثر می گذارد.

این اثر بیان می دارد اگر ما به لب کسی که دو هجای "با- با" را تلفظ می کند، نگاه کنیم به نظرمان می رسد که دو هجای "گا- گا" را تلفظ می کند اما آن را به صورت دو هجای "دا- دا" می شنویم.

در واقع این اثر نشان می دهد که تحریکات دیداری و شنیداری در درک یک واژه با هم در درگیری مداوم هستند. بنابراین، اگر بدون تماشای یک فیلم تنها به صدای آن گوش دهیم هجای "با" را می شنویم درحالی که اگر تنها فیلم را بدون صدا کنیم هجا را به صورت "گا" درک می کنیم.

رمزگذاری صدا (vocoding)

در ادامه می توان موقعیت متضادی را هم متصور شد. در حقیقت، ما در درک صدای سنتزی و مصنوعی باید از عملکردی استفاده کنیم که در اصطلاح فنی به آن "رمزگذاری صدا" (vocoding) گفته می شود. در این مورد، تنها درک ویژگیهای صدا کافی نیست بلکه به توانایی تشخیص یک ساختمان قابل فهم از صدا هم نیاز است.

گروهی بین المللی که نتایج یافته های خود را در مجله "بیو مد سنترال نوروساینس" منتشر کردند در تحقیقات خود نشان دادند که فضای گیجگاهی مغز ما که توانایی تمایز دادن میان زبان قابل فهم، زبان غیرمفهوم و اصوات محیطی را دارد چگونه در مواجهه با صدای مصنوعی رایانه ای فعال می شود تا بتواند پیام شنیده شده را درک کند.

این بررسیها نشان داد اگر جمله رایانه ای مفهوم باشد تنها فضاهای گیجگاهی عقبی و کناری مغز فعال می شوند این نواحی زمانی که زبان مفهوم نباشد (برای مثال در مورد زبانی که با آن آشنایی نداریم) فعال نمی شوند. در عوض زمانی که ما به اصوات پیچیده ای که ویژگیهای یک پیام کلامی را ندارند (اصوات محیطی) گوش می دهیم نواحی گیجگاهی قدامی روشن می شوند.
صدای رایانه ها بخش احساسی ندارد
بخش احساسی که در انتقال یک پیام کلامی نقشی بنیادی ایفا می کند مسئله ای است که در مورد صدای یک رایانه وجود ندارد.
به همین علت، معلولانی که برای مثال از بیماری فلج مغزی رنج می برند و از سیستمهای ارتباطات صدای سنتزی استفاده می کنند با قبول این مسئله که چرا با گوش دادن به این صدا ردپای احساسی آن درک نمی شود مشکل دارند، حتی اگر این صدای مصنوعی به طور مطلوبی قابل درک باشد.

یکی از بهترین راه حلهایی که برای رفع این مشکل ارائه شده سیستمی به نام EDVOX است. در این سیستم به راحتی می توان صدا را به بیش از 30 شخصیت کلامی ممکن مناسب و براساس سن، جنسیت و ... مختلف تغییر داد.

دو محقق اسکاتلندی به نامهای "یان مورای" و "جان آرنو" از دانشگاه کامپیوتر دوندی در تحقیقاتی که نتایج آن را در "ژورنال انجمن آکوسیتال آمریکا" منتشر کردند ارتباط میان نوع صدا و حالت روحی انسان را نشان دادند و کشف کردند که هر یک از ما هر بار که به حرف زدن کسی گوش می دهیم در اندازه های متغیری آن را درک می کنیم.

بنابراین نه تنها هر یک از ما کارشناسان بزرگ صدا هستیم و آن را تولید و درک می کنیم بلکه می توانیم یک سری از اطلاعاتی را که از نظر اجتماعی، محتواهای عمیق تری از بخشهای غیر زبانی را ارائه می کنند از لایه های صدای گفتاری استخراج کنیم. کاری که ابررایانه معروف HAL 9000 فضاپیمای دیسکاوری- وان اودیسه فضایی 2001 هرگز توانایی انجام آن را به دست نیاورد.

KINECTC 2؛ فناوری غول نرم افزاری دنیا

"کینکت" (Kinect) عنوان فناوری است که مایکروسافت در نوامبر 2010 ویژه کنسول بازی "ایکس باکس 360" ارائه کرد. این فناوری به بازیکن اجازه می دهد که حرکات بدن خود را به شخصیتهای بازی ویدیویی منتقل کند و از راه دور تنها با حرکت دستها و بدن، عملکردهای "ایکس باکس" را کنترل کند.

نسخه آینده "کینکت" که قرار است بر روی نسل جدید کنسول "ایکس باکس" نصب شود نه تنها قادر است حرکات دست را تشخیص دهد، بلکه می تواند با دقت بسیار بالایی لبخوانی کرده و حرکات لبهای بازیکن را برای دریافت فرامین کنترل درک کند.

علاوه بر این، "کینکت 2" قادر است لحن صدای کاربر را درک و حالات مختلف چهره را برای اندازه گیری حالت روحی تجزیه و تحلیل کند.

تلاش برای احساساتی کردن رایانه‌ها
تیم تحقیقاتی پروفسور پیتر رابینستون از دانشگاه کمبریج از سال گذشته تلاشهایی را آغاز کرده اند تا بتوانند احساسات انسان را برای روباتها و رایانه ها تعریف کنند. به این ترتیب، انسان در آینده می تواند با ماشینهای "طبیعی تری" تعامل کند.

این دانشمندان با تحقیقات خود قصد دارند به سه سئوال جواب دهند: آیا رایانه ها می توانند احساسات را درک کنند؟ آیا می توانند احساسات خود را بیان کنند؟ آیا می توانند احساسات را حس کنند؟

شدت نگاه، لحن صدا و تغییر حالت صورت علائمی هستند که می توانند حالت روحی ما را نشان دهند و به ما کمک کنند که با افراد تعامل کنیم.

به گفته این محققان، اگر روباتها و رایانه ها نیز موفق شوند این علائم را درک کنند می توانند گام بلندی را برای ارائه یک زندگی بهتر به انسانها بردارند.

در این راستا، پیتر رابینسون و تیم تحقیقاتی اش یک سر روباتیک به نام چارلز را ساختند که به یک "جی. پی. اس" در داخل یک دستگاه شبیه ساز مجهز بود. در فیلمی که از تعامل احساسی میان رابینسون و چارلز تهیه شده است این دانشمند کمبریج به راحتی با روبات در هدایت خودرو و پیدا کردن مسیر ارتباط برقرار می کند.

رابینسون در این خصوص اظهار داشت: "روشی که از طریق آن من و چارلز می توانیم باهم ارتباط برقرار کنیم به ما نشان می دهد که افراد در آینده چگونه با روباتها تعامل خواهند کرد. ما در حال ساخت رایانه های هوشمند احساساتی هستیم که می توانند ذهن من را بخوانند و بفهمند من چطور احساس می کنم. رایانه ها واقعا برای درک اینکه چه کسی درحال تایپ کردن و یا درحال حرف زدن است خوب هستند، اما آنها نیاز دارند بفهمند که فقط کافی نیست بدانند من چه می گویم بلکه باید درک کنند که من چگونه حرف خود را می گویم."
 

Similar threads

بالا