Насіров Е. М. Паралелізація невід’ємної факторизації розріджених лінгвістичних матриць та тензорів надвеликої розмірності

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0421U102388

Здобувач

Спеціальність

  • 01.05.01 - Теоретичні основи інформатики та кібернетики

13-05-2021

Спеціалізована вчена рада

Д 26.001.09

Київський національний університет імені Тараса Шевченка

Анотація

В роботі запропоновані паралельні методи невід’ємної факторизації надвеликих розріджених матриць та тензорів - популярний метод в комп'ютерній лінгвістиці. Проблема невід’ємної факторизації розріджених матриць постала в процесі розробки системи визначення міри семантичної близькості-зв’язності за технологією Латентного Семантичного Аналізу. Існуючі паралельні моделі для невід’ємної факторизації матриць та тензорів не задовольняють потреби розмірності матриці та тензору або вимагають занадто великих обчислювальних ресурсів. Запропоновано дві методи паралелізації алгоритму факторизації матриць: локальна алгоритм з використанням жорсткого диску та GPU і розподілена модель з використанням мережі вузлів та використання GPU. Ітеративні правила оновлення були розділені на кроки для досягнення мінімальної кількості обчислень таким чином, щоб знизити кількість операцій надлишкового копіювання пам'яті та мережевих операцій передачі даних. Були співставленні три моделі розподілу алгоритму факторизації матриць. Використання пам'яті і об’єми передачі даних необхідні для роботи алгоритму факторизації були проаналізовані та оптимізовані. Описані локальна модель з використанням GPU та розподілена модель були реалізовані, випробувані та порівнянні в розумінні об'ємів читання та запису на жорсткий диск та передачі по мережі вузлів. Також проаналізовано та порівняно час необхідний для виконання ітерації. В роботі запропоновано блочно-діагональний підхід до факторизації невід'ємних розріджених лінгвістичних матриць, які можуть бути приведені до блочно-діагональної форми. Цей підхід може прискорити факторизацію, потребує менше мережевих операцій та пам'яті для ітерацій і зберігання результатів. Основною ідеєю алгоритму приведення лінгвістичного тензору до блочно-діагонального виду є групування слів однієї тематичної групи разом по всіх осях у відповідних інтервалах для підгонки всіх ненульових значень лінгвістичного тензору на перетині всередину блоку, що складається в даний момент. Вся суть методу полягає у переході від необхідності факторизувати надвеликий розріджений лінгвістичний тензор до невід’ємної факторизації набору лінгвістичних тензорів значно зменшеного розміру. Вказано, що не кожна матриця або тензор можуть бути зведені до блочно-діагональної форми використовуючи перестановки рядків та стовпчиків в матрицях та шарів в тензорах. У випадку лінгвістичних матриць та тензорів допускається розщеплення векторів семантико-синтаксичної валентності слів на складові вектори їх окремих значень. Запропоновано використання особливостей природньої мови присутніх в лінгвістичних матрицях та тензорах для зведення до блочно-діагональної форми, а саме, виділення тематичних діагональних блоків матриць. Запропоновано використання латентного розподілу Діріхле для приведення матриць і тензорів до блочно-діагональної формі для паралелізація обчислень та прискорення невід’ємної факторизації лінгвістичних матриць і тензорів надвеликої розмірності. Запропонований метод, так само, дозволяє доповнення моделі природної мови новими даними без необхідності виконувати невід’ємну факторизацію всього надвеликого тензора заново з самого початку.

Файли

Схожі дисертації