Лан Ч. . Методології та програмні засоби класифікації природомовних текстових документів

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0412U002876

Здобувач

Спеціальність

  • 05.13.05 - Комп'ютерні системи та компоненти

11-06-2012

Спеціалізована вчена рада

Д 26.002.02

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського" Інститут енергозбереження та енергоменеджменту

Анотація

Дисертаційна робота присвячена вирішенню задачі автоматичної ідентифікації мови і класифікації текстових природомовних документів. Запропоновано метод автоматичної ідентифікації мови з використанням статистик N-грам, проведено порівняльний аналіз різних способів класифікації текстових документів з метою вибору оптимальних за точністю і повнотою, запропонована класифікація природомовних текстових документів з використанням розробленого методу статистик N-грам, запропоновано метод автоматичного створення багатотемної класифікації текстових документів в реальному часі, створено програмний модуль для ідентифікації мови та класифікації багатотемних текстових документів. Запропонований спосіб класифікації текстів і документів дозволив підвищити точність і швидкість класифікації, розробити відповідні програмні засоби для використання в системах автоматичної обробки текстів в багатомовних інформаційних системах.

Файли

Схожі дисертації