Робота присвячена вирішенню наукової задачі вдосконалення теоретичних (методів) та практичних (програмних засобів) основ тестування програмних систем автоматичної кластеризації природномовних текстових даних.
У дисертаційній роботі отримано низку нових наукових результатів, зокрема, уперше розроблено метод метаморфічного тестування програмних систем автоматичної кластеризації природномовних текстових даних MEETC, який, на відміну від існуючих методів, є застосовним до програмних реалізацій будь-яких детермінованих методів кластеризації текстів без вхідного параметру кількості кластерів та забезпечує ефективність мутаційного тестування за показником оцінки мутації у 81-100%.
Уперше розроблено метод метаморфічного тестування програмних систем автоматичної кластеризації природномовних текстових даних MEETC-k, який, на відміну від існуючих методів, є застосовним до програмних реалізацій будь-яких детермінованих методів кластеризації текстів з вхідним параметром кількості кластерів та забезпечує ефективність мутаційного тестування за показником оцінки мутації у 86-100%.
Уперше запропоновано узагальнену архітектуру програмного забезпечення для метаморфічного тестування на основі використання моделі безсерверних обчислень, що дозволяє спростити процес розроблення програмних засобів для метаморфічного тестування та досягти прискорення виконання тестування програмних систем кластеризації текстів у 34-50%, в порівнянні з існуючими архітектурами.
Уперше розроблено архітектурний шаблон проєктування програмного забезпечення «Metamorphic Testing-as-a-Service», характерною рисою якого є декомпозиція метаморфічного зв’язку на окремі складові та кодогенерація тіл метаморфічних зв’язків і безсерверних функцій. Використання запропонованого шаблону дозволяє зменшити дублювання і зв’язність програмного коду при розробленні програмних засобів для безсерверного метаморфічного тестування та покращує стандартні метрики якості коду: кількість рядків виконуваного коду та зв’язність класів в цілому, цикломатичну складність та індекс підтримуваності для окремих компонент.
Уперше розроблено сімейство методів генерування корпусів текстових даних CorDeGen, характерною рисою яких є детермінованість та легкість апріорного опису структури отримуваного корпусу та які, на відміну від існуючих методів генерування корпусів, приймають на вхід мінімально можливу кількість параметрів, таким чином спрощуючи опис, зберігання та відтворення результатів: 1. базовий метод CorDeGen – на відміну від інших методів сімейства, забезпечує найвищу швидкість генерування корпусів за рахунок використання більш складного апріорного опису структури отримуваного корпусу, що викликано видаленням частини генерованих термів методами попереднього оброблення природномовних текстових даних; 2. метод CorDeGen+ – на відміну від інших методів сімейства, уникає видалення частини генерованих термів з корпусу, завдяки чому полегшується апріорний опис структури отримуваного корпусу; 3. метод SemCorDeGen – на відміну від інших методів сімейства, генерує корпуси текстів, які можливо використовувати разом з методами оброблення природномовних текстових даних на основі застосування семантичних моделей за рахунок розширення кількості вхідних параметрів.
Практичне значення одержаних результатів полягає у спрощенні процесу розроблення програмних засобів для метаморфічного тестування в цілому (за рахунок використання узагальненої безсерверної архітектури та шаблону проєктування «MTaaS») та, зокрема, для тестування програмних систем автоматичної кластеризації природномовних текстових даних (за рахунок використання сімейства методів генерування корпусів текстів CorDeGen). Крім того, сімейство методів CorDeGen також може використовуватись на практиці в наукових дослідженнях для підвищення їх відтворюваності.
Розроблені програмні засоби опубліковано у відкритому доступі, для їх частини створено та опубліковано загальнодоступні NuGet пакети, які можуть під’єднуватись та використовуватись сторонніми розробниками.