Кухарічева К. А. Підвищення робастності систем автоматичного розпізнавання мови до дії завад

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0823U101107

Здобувач

Спеціальність

  • 171 - Електроніка

Спеціалізована вчена рада

ДФ 26.002.32; ID 2011

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Анотація

Робота складається зі вступу, чотирьох розділів, списку використаних джерел із 106 найменувань та 5 додатків, 55 рисунків та 33 таблиці. Загальний обсяг складає 148 сторінок. Актуальність роботи полягає у попиті на створення системи автоматичного розпізнавання мовлення (АРМ), що є стійкими до дії завад та є відносно простими у налаштуванні. Одним зі способів підвищення робастності систем АРМ є саме налаштування систем АРМ, що робить їх більш стійкими до дії спотворень; цей напрям не є достатньо вивченим через різноманітність завад, а також через надзвичайно високу складність алгоритмів навчання та розпізнавання, що використовуються. Зрештою, висока складність та вартість існуючих систем систем АРМ робить актуальною розробку надійних систем систем АРМ, стійких до дії завад різної природи та відносно простих у налагодженні. Метою дисертаційної роботи є розробка нових та вдосконалення відомих методів навчання систем АРМ, а також методів оцінювання якості та розбірливості мовленнєвих сигналів, що забезпечують підвищення точності систем АРМ без суттєвого ускладнення процедури налаштування таких систем. Об’єктом дослідження є процес навчання систем АРМ із врахуванням об’єму та характеру апріорної інформації про параметри шумової або ревербераційної завади. Предметом дослідження є вплив об’єму та характеру апріорної інформації про параметри шумової або ревербераційної завади на точність АРМ. Завдання дослідження: 1. Виконати аналітичний огляд сучасних методів АРМ, звернувши при цьому першочергову увагу на причини порушення робастності систем АРМ до дії шуму та реверберації, а також на перспективні шляхи відновлення такої робастності. 2. Встановити зв’язок між об’єктивними мірами розбірливості та якості мовленнєвих сигналів, спотворених реверберацією, а також виявити таку об’єктивну міру якості, яку можна було б використовувати як міру розбірливості в навчальних приміщеннях різного розміру. 3. Встановити зв’зок між розбірливістю мовлення, спотвореного реверберацією, та такими параметрами ревербераційної завади як час реверберації та щільність ранніх відбить звуку. 4. Дослідити потенційні можливості використання коефіцієнта ексцесу в якості міри ступеня кліпування мовленнєвого сигналу, а також в якості маркера наявності такого кліпування, що сприймається людською слуховою системою. 5. Отримати кількісні оцінки ступеню підвищення точності розпізнавання мовлення, спотвореного шумом різної природи та інтенсивності, шляхом навчання системи АРМ на сигналах, спотворених шумом, із врахуванням об’єму та характеру апріорної інформації про шумову заваду. 6. Встановити принципову можливість підвищення робастності систем АРМ до дії реверберації шляхом навчання системи АРМ на сигналах, спотворених реверберацією, із врахуванням об’єму та характеру апріорної інформації про ревербераційну заваду. Наукова новизна отриманих результатів: 1. Вперше для реальних мовленнєвих сигналів отримано кількісні оцінки ступеню підвищення точності розпізнавання мовлення, спотвореного шумом різної природи та інтенсивності, шляхом навчання системи автоматичного розпізнавання на спотворених шумом сигналах. 2. Вперше для реальних мовленнєвих сигналів отримано кількісні оцінки ступеню підвищення точності розпізнавання мовлення, спотвореного реверберацією, шляхом навчання системи автоматичного розпізнавання на спотворених реверберацією сигналах. 3. Вдосконалено метод оцінювання розбірливості мовлення непрямим методом, із використанням міри якості сигналів у вигляді барківського спектрального спотворення. 4. Уточнено висновки щодо залежності розбірливості мовлення від щільності відбить звуку та часу реверберації, із використанням імовірнісних моделей імпульсних характеристик приміщень. 5. Вдосконалено спосіб виявлення ефекту кліпування мовленнєвих сигналів та об’єктивного оцінювання якості мовленнєвих сигналів, спотворених кліпуванням, що базується на використанні коефіцієнта ексцесу як міри спотворення сигналів. Апробація результатів дисертації. Матеріали дисертаційних досліджень обговорювалися на 4х міжнародних конференціях. Публікації. За результатами досліджень опубліковано 9 наукових публікацій (з них 3 статті в наукових фахових виданнях України, 1 стаття в періодичному науковому виданні інших держав, 1 стаття в періодичному науковому виданні, що входить до Scopus, Q3), 1 патент на корисну модель, 4 тези доповідей у збірниках матеріалів конференціїй. Зв’язок роботи з науковими планами, програмами, темами. Викладені у дисертації нові теоретичні та практичні результати досліджень знайшли застосування у освітньому процесі кафедри акустичних та мультимедійних електронних систем за спеціальністю 171 Електроніка, в освітній програмі “Акустичні електронні системи та технології обробки акустичної інформації” Національного технічного університету України “Київський політехнічний інститут імені Ігоря Сікорського”.

Публікації

Prodeus A., Didkovska M., Kukharicheva K, Motorniuk D. Two Simplified Models Of Early Sound Reflections In a Room // Electronics and Control Systems. 2020. Vol. 3, (65). P.79-87. ISSN: 1990-5548. DOI: 10.18372/1990-5548.65.14991

Prodeus A., Kotvytskyi I., Didkovska M., Kukharicheva K. Kurtosis and Normalized Variance as Measures of Speech Signals Clipping Value // Electronics and Control Systems, 2019. Vol. 4 (62). P.24-32. ISSN: 1990-5548. DOI: 10.18372/1990-5548.62.14378

Prodeus A., Kukharicheva K. Accuracy of Automatic Speech Recognition System Trained on Noised Speech // Electronics and Control Systems. 2016. Vol. 3 (49). P. 11-16. ISSN: 1990-5548. DOI: 10.18372/1990-5548.49.11230

Prodeus A., Didkovska M., Kukharicheva K. Impact of University Classroom Size on the Relationship Between Speech Quality and Intelligibility // International Journal of Computing. 2022. Vol. 21 (3). P. 342-352. ISSN: 2312-5381 DOI: 10.47839/ijc.21.3.2690

Файли

Схожі дисертації