• تاریخ انتشار : // - 12:05
  • تعداد بازدید : 58
  • زمان مطالعه : 2 دقیقه
تولید پاسخ در سیستم گفتگوی گفتاری همدالنه با استفاده ازویژگیهای صوتی و متنی

جلسه دفاع از پایان نامه کارشناسی ارشد- مهندسی کامپیوتر گرایش مهندسی نرم افزار-زلفا شفرئی

سیستمهای گفتگودرقالبهای متنی و صوتی، نقش پر رنگی در زندگی روزمره ما دارند و در بسیاری از وظایف از جمله دستیار شخصی هوشمند، خدمات مشتری، مشاوره و غیره، مورد استفاده قرارمیگیرند. به عبارت دیگر این سیستمها نوعی رابط کاربری هستند و با انسانها تعامل دارند. بنابراینمواردی چون تقویت درک از کاربر و پاسخگویی متناسب با آن میتواند به بهبود رابط کاربری منجرشود و در نتیجه رضایتمندی کاربران را افزایش دهد. توانایی درک احساسات دیگران و ارائه پاسخ متناسب با آنها، در انسانها بهعنوان همدلی شناخته میشود.به همین دلیل، افزودن همدلی به سیستمهای گفتگو به یکی از موضوعات مهم پژوهشهای اخیر جهت بهبود این سیستمها تبدیل شده است. در بسیاری از پژوهشها، تنها از وجه متن گفتگوجهتافزودن همدلی به سیستمهای گفتگو استفاده شده است.این در حالی ست که در سیستم گفتگوی گفتاری، گفتگو در قالب صوت انجام میشود و صوت حاوی اطالعات زیادی مانند لحن، بلندی صدا، شدت، مکث، لرزش صدا و زیر و بمی است. این اطالعات میتواند نشانگر سطح استرس، احساسات، عواطف، جنسیت و سن کاربر باشد و تنها بخشی از آن چیزی است که میتوان از صوت استنتاج کرد.بر اساس پژوهشهای روانشناسی، صوت میتواند در برانگیختن همدلی نقش موثری ایفا کند. عالوه بر این، پژوهشهای بسیاری نشان دادهاند که ترکیب اطالعات صوتی و متنی توانسته است عملکرد مدلهای تشخیص عاطفه را بهبود بخشد.با وجود این موارد، تعداد بسیار کمی از پژوهشها به استفاده از صوت برای ایجاد پاسخهای همدالنه پرداختهاند. اغلب این پژوهشها تنها اطالعات محدودی از صوت را به صورت متنی استخراج کرده وسپس همراه با تاریخچهی گفتگو به مدلهای زبانی بزرگ ارائه دادهاند که این روش منجر به نادیده گرفتن بسیاری از اطالعات مهم و موثر موجود دیگر درصوت میشود. در این راستا، این پژوهش روشی جهت تولید پاسخهای همدالنه با بهرهگیریازترکیب وجوه صوت و متن ارائه میدهد. در گام اول این پژوهش، به دلیل عدم وجود مجموعهدادهی گفتگوهای همدالنه دو وجهی (متن و صوت) برای آموزش یک سیستم تولید پاسخ انتهابهانتها، مجموعهدادهای متناسب با نیازهای پژوهش با استفاده از خط لوله طراحیشده در این پژوهش،و اعمال آن بر روی چهار مجموعهدادهی گفتگوی چند وجهی تهیه شده است که این مجموعهداده با نامBiMEmpDialoguesشناخته میشود. در ادامه یک مدل تولید پاسخ همدالنه دو وجهی طراحی شده است که از دریچهی متحرک جهت ادغام وجوه صوت و متن بهره میبرد. این مدل مبتنی بردانش خارجی و نمونه بوده و از سه طبقهبند تشخیص وجود سازوکارهای ارتباطی همدلی در پاسخ، در هنگام آموزش استفاده شده است تا مدل را به سمت تولید پاسخ ایدهآل همدالنه هدایت کند.طبق ارزیابیهای انجامشده، نسخهی متنی مدل پیشنهادی دارای عملکرد خوبی نسبت به پژوهشهای اخیر بوده و پاسخهای تولیدشده توسط مدل، دارای امتیاز حضور همدلی باالتری میباشد. همچنین مدل پیشنهادیاز منظرمعیارهایی چونROUGEوBLEUو نیمی از ابعاد  کیفیت معیارFEDعملکرد بهتری نسبت به نسخه متنی خود نشان داده است.

کلمات کلیدی
مدیر سیستم
خبرنگار :

مدیر سیستم

نظرات

0 نظر برای این مطلب وجود دارد

نظر دهید

آخرین بروزرسانی: 1403/10/30 12:05
تنظیمات قالب