توسط محققان دانشگاهی صورت گرفت

طراحی سامانه ای برای كمك به افرادی كه مشكل ناشنوایی و اختلال تكلم دارند

طراحی سامانه ای برای كمك به افرادی كه مشكل ناشنوایی و اختلال تكلم دارند

به گزارش دكتر ایزی محققان دانشكده مهندسی پزشكی دانشگاه صنعتی امیركبیر موفق به طراحی سامانه ای برای بكارگیری اطلاعات تصویری در بازشناسی خودكار گفتار صوتی-تصویری شدند.


به گزارش دكتر ایزی به نقل از ایسنا، فاطمه وخشیته، دكترای مهندسی پزشكی - گرایش بیوالكتریك از دانشگاه صنعتی امیركبیر درباره طرح خود در خصوص «طراحی سامانه طراحی بازشناسی خودكار گفتار» اظهار نمود: به‎كارگیری منابع اطلاعاتی مختلف نقش مهمی در سامانه‎های بازشناسی گفتار دارد، به‎طوری كه عملكرد مطلوب تر سامانه‎ها می‎تواند در نتیجه استفاده صحیح از اطلاعات كمكی مناسب و با روش‎های دقیق شود.

وی با بیان این كه این پروژه به راهنمایی دكتر فرشاد الماس گنج و مشاوره دكتر احمد نیك آبادی انجام شده است، اضافه كرد: این مورد ریشه در طبیعت ادراك در انسان دارد؛ چونكه در مغز انسان و همچون در فرآیندهای تولید و ادراك گفتار، به‎طور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت می‎پذیرد.

وی با اشاره به تحقیقات خود در زمینه بازشناسی خودكار، اظهار داشت: هدف این تحقیق به‎كارگیری اطلاعات تصویری در چارچوب اطلاعات كمكی و عرضه سامانه بازشناسی خودكار گفتار صوتی-تصویری است، تا ضمن برآورده ‎شدن طبیعت چندگونه‎ای ادراك در انسان، از خاصیت مقاوم ‎ بودن اطلاعات تصویری در مقابل نویز صوتی هم استفاده گردد.

به قول این محقق، در بازشناسی گفتار صوتی-تصویری، هر یك از روش‎های‎ استخراج ویژگی، مدل‎سازی، تلفیق گونه‎های مختلف صوتی و تصویری و نهایتاً بازشناسی‎ دوگونه‎ای گفتار نقش بسزایی دارند. منظور از یك گونه، یك منبع اطلاعاتی است و ویژگی‎های مستخرج در شرایط عرضه یك منبع اطلاعاتی، ویژگی‎های تك‎گونه‎ای نامیده می‎شوند.

وی با اشاره به اینكه منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگی‎های مستخرج در شرایط فراهم‎شدن همزمان دو منبع اطلاعاتی، ویژگی‎های دوگونه‎ای نامیده می‎شوند، بیان كرد: بر این اساس در این رساله ابتدا خصوصیت ‏های مناسب صوتی و تصویری جستجو و استخراج می‎شوند.

وخشیته بیان كرد: در مورد شاخه ‎تصویری، از روش های كلاسیك و مبتنی بر شبكه‎های عصبی عمیق استفاده می‎شود و در ادامه یك روش استخراج خصوصیت تركیبی پیشنهاد می‎شود كه از این میان ویژگی‎های تصویری هیبریدی كه در یك فرایند پیش‎پردازشی پیچیده استخراج می شوند، به‎عنوان ویژگی‎های منتخب تصویری درنظر گرفته خواهند شد.

وی در مورد روند كار با این سامانه افزود: شاخه صوتی، ویژگی‎های كپسترال فركانس حوزه مل بعد از انجام مقایسه‎ها به‎عنوان ویژگی‎های منتخب صوتی لحاظ می شوند؛ در ادامه، تلفیق كارآمد ویژگی‎های منتخب تك‎گونه‎ای دنبال می‎شود، به‎گونه‎ای كه باعث هم‎افزایی دو منبع اطلاعاتی و همینطور كاهش نویز زمینه موجود در گفتار صوتی شود.

محقق طرح با اشاره به اینكه در این خصوص دو رویكرد تلفیق خصوصیت پیشنهاد می ‏شود، اشاره كرد: در رویكرد اول، از معیار آنتروپی جهت سنجش میزان رسایی (چگونگی بازنمایی اطلاعات) ویژگی‎های حاصل از منابع صوتی و تصویری استفاده می‎شود و تلفیق اطلاعات در سطح متوسط با انتخاب لایه صوتی با آنتروپی بیشینه و لایه تصویری با آنتروپی كمینه صورت می‏ پذیرد. در رویكرد دوم، از شبكه‎های كدگذار خودكار عمیق استفاده می‎شود و تلفیق اطلاعات در لایه گلوگاه شبكه صورت می‎پذیرد. در این رویكرد یك ساختار دوگونه‎ای پیشنهاد می‎شود كه طی چهار مرحله توسعه می یابد و تكمیل می‎شود.

وی ادامه داد: در آخرین مرحله از توسعه، با در نظر گرفتن تابع مناسب نگاشت‎دهنده ویژگی‏ های گلوگاهی نویزی به تمیز و قراردادن لایه برچسب‎ها در كنار گلوگاه شبكه، ساختاری به‎دست می‎آید كه نسبت به سایر ساختارها از كارآمدی بالاتری برخوردار می باشد.

محقق طرح با اشاره به نتیجه تحقیقات خود اظهار داشت: خروجی رویكردها به‏ طور كلی موفقیت عملكرد آن‎ها را نشان می‎دهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.

وی افزود: در شرایط نویزی با عرضه اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدیِ مبتنی بر شبكه باور عمیق و مدل مخفی ماركوف، نرخ خطای واجی ۱۸.۵ درصد را نشان داده است كه در این شرایط، با تلفیق ویژگی‎ها بر مبنای معیار آنتروپی، نرخ خطای واجی به ۱۰.۹ درصد كاسته می شود كه این مقدار با تلفیق ویژگی‎ها توسط شبكه كدگذار خودكار عمیق دوگونه‎ای برابر با ۱۰.۳ درصد می‎شود.

وی ادامه داد: از این سامانه می توان برای افرادی كه مشكل ناشنوایی دارند، بهره برد.

وخشیته با اشاره به كاربرد این سامانه اظهار داشت: «كمك به افرادی كه اختلال تكلم دارند، به نحوی كه از اطلاعات تصویری آنها كمك گرفته و اختلال بوجود آمده در سیگنال گفتار این افراد جبران شود» كه این كاربرد در بهبود انتقال پیام در سیگنال گفتار گویندگان است؛ این یكی از كاربردهای سامانه به حساب می آید.

وی افزود: «در محیط های شلوغ كه اطلاعات صوتی گویندگان مخدوش یا نامفهوم است، از اطلاعات تصویری این افراد كمك گرفته می شود و پیغام صوتی منتقل می شود» همچون كاربردهای این سامانه است. این كاربرد در بهبود انتقال پیام برای شنوندگان است.

وخشیته اضافه كرد: اینها نمونه كاربردهای رایجی هستند كه در آنها از اطلاعات تصویری در بازشناسی خودكار گفتار استفاده می شود، اما توجیه بكارگیری شبكه های عصبی عمیق در این راستا ارتقای دقت بازشناسی گفتار تصویری (لبخوانی) و گفتار صوتی معمولی و همینطور در شرایطی است كه از اطلاعات صوتی و تصویری به صورت همزمان استفاده می شود، است.



1398/03/01
18:06:28
4404
5.0 از ۵
تگهای خبر: پزشك , دانشگاه
این مطلب را می پسندید؟
(1)
(0)
X

تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
لطفا شما هم نظر دهید
= ۲ بعلاوه ۱

لینک دوستان دكتر ایزی

دکتر ایزی Drez.ir

تگهای دكتر ایزی

drez.ir - حقوق مادی و معنوی سایت دكتر ایزی محفوظ است

Dr EZ دكتر ایزی

پاسخ به سوالات پزشکی