Шарій Т. В. Інформаційна технологія обробки мовних даних на основі нечітких когнітивних моделей

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0411U002755

Здобувач

Спеціальність

  • 05.13.06 - Інформаційні технології

16-05-2011

Спеціалізована вчена рада

K 11.051.08

Анотація

Дисертаційна робота присвячена вирішенню актуальної наукової задачі підвищення якості автоматичного розпізнавання слів у мовному сигналі. У роботі проаналізовано стан проблеми побудови автоматичних систем розпізнавання мови. У зв'язку з недостатньою ефективністю статистичного підходу, запропоновано альтернативну схему обробки мовних сигналів, що базується на багаторівневому врахуванні всієї акустичної інформації про сигнал. Розроблено й експериментально обґрунтовано метод автоматичної сегментації мовного сигнала, що враховує, поряд зі швидкістю зміни MFCC-кепстра, ступінь кепстральної гладкості ділянки сигнала. Запропоновано підхід до зважування мовних сегментів на основі просодичних параметрів сигнала й урахування ваг на етапі постобробки. Запропоновано модель звукового образу фонеми на основі перетворення Карунена-Лоева. Розроблено нечітку когнітивну модель FCAS постобробки мовних сигналів, що містить сітку елементарних фонетичних процесорів ознакового, фонемного та словесного рівней. На основі вихідних значень процесорів приймається рішення щодо розпізнаного слова. Експериментально встановлено, що запропоновані моделі й методи дозволяють зменшити кількість помилок розпізнавання слів. Розроблено інформаційну технологію та програмний комплекс CogniSPEECH розпізнавання мовних команд і пошуку ключових слів у файлах. Досліджено характеристики системи, показано можливість її застосування у програмах голосового набору телефонних номерів, мовного керування роботом і пошуку слів у мовних файлах.

Файли

Схожі дисертації