Ця дисертація присвячена поглибленому дослідженню розробки та впровадження алгоритмів самонавчання, що являються частиною технік неконтрольованого навчання, які функціонують без потреби в маркованих даних. Ці алгоритми особливо вправні у попередньому навчанні моделей неконтрольованим способом, а отримані моделі показують результативність, порівнянну з їх контрольованими аналогами у широкому спектрі застосувань. Цей метод особливо корисний, оскільки він має на меті зменшити залежність від обширного маркування даних, характерного для парадигм глибокого навчання, тим самим підвищуючи ефективність і практичне застосування в різних сценаріях реального світу. Важливість алгоритмів самонавчання особливо підкреслена в області аналізу медичних зображень. У цій спеціалізованій області вимоги до анотування даних є не лише трудомісткими, але й потребують високої точності через критичну природу використовуваних даних. Складність отримання точних анотацій посилюється через дефіцит спеціалістів, здатних їх забезпечити, що в свою чергу підкреслює трансформуючий потенціал підходів самонавчання в цій сфері.
У цій дисертації представлено новітню методологію самонавчання, що використовує Mixup Feature як мету реконструкції у межах pretext task. Це pretext task засноване на укладенні візуальних представлень через прогнозування Mixup Feature із маскованого зображення, використовуючи ці карти особливостей для вилучення високорівневої семантичної інформації. Дисертація детально розглядає роль Mixup Feature як прогностичної цілі у структурах самонавчання. Це дослідження включало детальну калібровку гіперпараметра λ, що є важливою для функціонування Mixup Feature. Ці налаштування дозволили створити комбіновані карти особливостей, що охоплюють карти детекції країв Sobel, гістограми орієнтованих градієнтів (HOG) та карти локальних бінарних шаблонів (LBP), забезпечуючи багатогранне представлення візуальних даних.
Розроблено модель denoising self-distillation Masked Autoencoder для самонавчання. Ця модель поєднує елементи з мереж Siamese Networks та Masked Autoencoders, втілюючи трьохчастинну архітектуру, що включає student network у формі маскованого автокодера, проміжний regressor та teacher network. Основним проксі-завданням цієї моделі є відновлення вхідних зображень, які були штучно спотворені випадковими плямами гауссівського шуму. Для забезпечення всебічного навчання модель застосовує механізм подвійної функції втрати. Одна функція налаштована на зміцнення глобального контекстуального розуміння зображення, що дозволяє моделі осягнути загальну структуру та конфігурацію сцени. Одночасно друга функція націлена на удосконалення сприйняття складних локальних деталей, гарантуючи, що тонкі візуальні нюанси не втрачаються під час дешумізації та реконструкції. Завдяки цьому інноваційний підхід, модель прагне досягнути делікатного балансу між макроскопічним сприйняттям візуальних сцен та детальною реконструкцією локалізованих деталей, балансу, який відіграє вирішальну роль для складних завдань аналізу зображень в рамках систем самонавчання.
У цьому дослідженні було проведено детальний аналіз двох інноваційних алгоритмів самонавчання на таких референсних наборах даних, як Cifar-10, Cifar-100 і STL-10, з порівнянням їх з передовими методами моделювання маскованих зображень. Змішані карти характеристик HOG-Sobel, застосовані в Mixup, перевершили інші найсучасніші методи на Cifar-10 та STL-10, демонструючи середнє зростання ефективності на 0.4% після full fine-tuning. Додатково, глибокий маскований автоенкодер (DMAE) виявився ефективнішим на 0.1% від стандартного маскованого автоенкодера (MAE) на STL-10, акцентуючи на потенціалі DMAE у покращенні точності моделі. Дослідження також виявило, що метод Mixup Feature був ефективнішим, ніж традиційні стратегії на основі контрастного навчання, забезпечуючи коротші часи навчання і відмову від потреби у стандартному збільшенні даних, тим самим спрощуючи процес навчання. Ці висновки підкреслюють потенціал цих алгоритмів самонавчання для ширших застосувань у складних наборах даних.
Застосування цих алгоритмів самонавчання було розширене за допомогою попереднього навчання на спеціально підготовлених наборах медичних зображень, що призвело до їх ефективного використання у наступних задачах. Це дослідження демонструє, що самонавчання перевищує безпосередні методи навчання, показуючи понад 5% зростання точності після повного детального налаштування на двох наборах даних. Крім того, воно розглядає проблему незбалансованості даних у медичному зображенні, досліджуючи стійкість самонавчених моделей до незбалансованих наборів даних, підкреслюючи їх значення як у навчанні моделей, так і в екстракції ознак.