دوره 31، شماره 259: هفته اول دی ماه 1392:1787-1796

بهبود وضوح گفتار در نویز با استفاده از الگوریتم ماسک باینری ایده‌آل

نادر ناصری, سعید کرمانی

چکیده


مقدمه: کاربرد ماسک باینری ایده‌آل برای پردازش سیگنال گفتاری، بهبود قابل ملاحظه‌ای در وضوح گفتار هم در افراد با شنوایی طبیعی و هم افراد مبتلا به کم شنوایی نشان داده است. این ماسک به بخش‌های زمان- فرکانس سیگنال نویزی اعمال می‌گردد و بخش‌هایی از سیگنال پایین‌تر از سطح آستانه‌ی SNR (Signal-to-noise ratio) حذف می‌گردد و سایر بخش‌ها را عبور می‌دهد.

روش‌ها: در این مطالعه عوامل مؤثر بر روی الگوریتم ماسک باینری ایده‌آل مورد مطالعه و بررسی قرار گرفتند. تأثیر سطح آستانه SNR، سطح SNR ورودی، نوع ماسک کننده و تخمینگر نویز، بررسی و ارزیابی شد. تخمینگرهای جدیدی شامل وزنی Euclidean و COSH معرفی شدند. این تخمینگرها مبتنی بر درک سیستم شنوایی و ماسک شنیداری می‌باشند.

یافته‌ها: عملکرد بالای ماسک باینری در ناحیه‌ی 15-5 دسی‌بل مشاهده ‌شد. یافته‌ها می‌تواند برای پیشرفت طراحی سمعک و پروتز کاشت حلزون مفید باشد.

نتیجه‌گیری: یافته‌های ما مؤید مطالعات پیشین در زمینه‌ی وضوح گفتار قابل توجه است؛ حتی زمانی که SNR، ۱۰- دسی‌بل باشد. ارزیابی عملکرد این الگوریتم نشان داد که تخمینگرهای جدید در مقایسه با تخمینگر Wiener می‌توانند حذف نویز بهتری داشته باشند.


واژگان کلیدی


به‌سازی گفتار؛ ماسک زمان- فرکانس؛ وضوح گفتار

تمام متن:

PDF

مراجع


Bregman AS. Auditory Scene Analysis: Hearing in Complex Environments. In: McAdams S, Bigand E, Editors. Thinking in Sound: The Cognitive Psychology of Human Audition. Oxford, UK: Oxford University Press; 1993. p. 10-36.

Wang D, Brown GJ. Computational Auditory Scene Analysis: Principles, Algorithms, and Applications. New Jersey, NJ: Wiley; 2006.

Wang D. On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis. Speech Separation by Humans and Machines 2005; 181-97.

Brungart DS, Chang PS, Simpson BD, Wang D. Isolating the energetic component of speech-on-speech masking with ideal time-frequency segregation. J Acoust Soc Am 2006; 120(6): 4007-18.

Cao S, Li L, Wu X. Improvement of intelligibility of ideal binary-masked noisy speech by adding background noise. J Acoust Soc Am 2011; 129(4): 2227-36.

Anzalone MC, Calandruccio L, Doherty KA, Carney LH. Determination of the potential benefit of time-frequency gain manipulation. Ear Hear 2006; 27(5): 480-92.

Wang D, Kjems U, Pedersen MS, Boldt JB, Lunner T. Speech intelligibility in background noise with ideal binary time-frequency masking. J Acoust Soc Am 2009; 125(4): 2336-47.

Li N, Loizou PC. Factors influencing intelligibility of ideal binary-masked speech: Implications for noise reduction. J Acoust Soc Am 2008; 123(3): 1673-82.

Hartmann W, Fosler-Lussier E. Investigations into the incorporation of the Ideal Binary Mask in ASR. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP); 2011 May 22-27 May; Prague, Czech Republic; 2011.

De Souza Siqueira Versiani T, Rodrigues GF, de Souza ACS, de Matos Moreira J, Yehia HC. Binary spectral masking for speech recognition systems. Proceedings of the 35th International Conference on Telecommunications and Signal Processing (TSP); 2012 Jul 3-4; Prague, Czech Republic; 2012.

Ahmadi M, Gross VL, Sinex DG. Perceptual learning for speech in noise after application of binary time-frequency masks. J Acoust Soc Am 2013; 133(3): 1687-92.

Roman N, Woodruff J. Intelligibility of reverberant noisy speech with ideal binary masking. J Acoust Soc Am 2011; 130(4): 2153-61.

Rothauser EH, Chapman WD, Guttman N, Hecker MH., Nordby KS, Silbiger HR, et al. IEEE recommended practice for speech quality measurements. IEEE Transactions on Audio and Electroacoustics 1969; 17(3): 225-46.

Hu Y, Loizou PC. Subjective comparison and evaluation of speech enhancement algorithms. Speech communication 2007; 49(7): 588-601.

Ephraim Y, Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator. Acoustics, Speech and Signal Processing, IEEE Transactions on 1984; 32(6): 1109-21.

Wolfe PJ, Godsill SJ. Towards a perceptually optimal spectral amplitude estimator for audio signal enhancement. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing; 2000 Jun 5-9; Istanbul, Turkey; 2000.

Lotter T, Vary P. Speech enhancement by map spectral amplitude estimation using a super-Gaussian speech model. EURASIP Journal on Applied Signal Processing 2005; 2005: 1110-26.

Plourde E, Champagne B. Auditory-Based Spectral Amplitude Estimators for Speech Enhancement. Audio, Speech, and Language Processing, IEEE Transactions on 2008; 16(8): 1614-23.

Rix AW, Beerends JG, Hollier MP, Hekstra AP. Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing; 2001 May 7-11; Salt Lake City, UT; 2001.
Creative Commons Attribution-NonCommercial 4.0

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 Unported License which allows users to read, copy, distribute and make derivative works for non-commercial purposes from the material, as long as the author of the original work is cited properly.