Scoping adversarial attack for improving its quality

Khabarlak, K. S.; Koriashkina, L. S.

Предмет дослідження - змагальні атаки, види, причини виникнення, а також алгоритми атак. Представлений швидкий спрощений і більш ефективний (порівняно з існуючими аналогами) алгоритм атаки на модель логістичної регресії. Актуальність роботи пояснюється малою дослідженістю критичної уразливості нейронних мереж - так званих змагальних прикладів, які дозволяють зламувати механізм передбачення і отримувати довільний результат, роблячи системи безпеки, засновані на нейронних мережах, малоефективними. Мета роботи - розробка алгоритмів різних типів атаки на навчену одношарову нейронну мережу з урахуванням результатів попереднього аналізу параметрів самої мережі, а також оцінка втрат якості зображень, що були піддані модифікації, порівняння результатів проведення атак за допомогою розроблених алгоритмів і змагальних атак подібного роду. На основі результатів аналізу матриць ваг навченої нейронної мережі сформульована ідея побудови алгоритмів атаки на нейронну мережу, виділяючи для атаки певні області на зображенні з урахуванням різниці вагових матриць цільового і вихідного класів. Представлений швидкий і досить ефективний алгоритм атаки, який здатний використовувати для атаки як все зображення повністю, так і окремі його регіони, що робить алгоритм більш гнучким. Використовуючи метрику структурної схожості зображень SSIM, проведений аналіз алгоритму і його модифікацій, а також порівняння його з попередніми методами, які використовують для атаки звичайний градієнт. Побудовано спрощені алгоритми націленої і ненаціленої атак на одношарову нейронну мережу, яка застосовується для класифікації рукописних цифр з набору даних MNIST. Дана візуальна і змістовна інтерпретація налаштованих ваг мережі як "важливостей" точок зображення для розпізнавання його як представника того чи іншого класу. На основі порівняння структурної схожості зображень алгоритмом SSIM був проведений аналіз втрат якості зображень для задач націленої і ненаціленої атак наведеними спрощеними алгоритмами на всій тестової вибірці. Подібний аналіз дозволив визначити класи, що найбільш піддаються атакам, а також зображення, для яких клас, передбачений нейронною мережею, може бути змінений непомітно для людини. Змагальні приклади, побудовані за допомогою розробленого алгоритму, перенесені на мережу з 5-ю шарами невідомої архітектури. У ряді випадків зображення для класів, які було складно атакувати для вихідної мережі, вдалося перенести з більшим успіхом, ніж ті, для зміни класу яких було досить мінімальних змін. Висновки: побудовані на основі ідеї обмеження області атаки змагальні приклади, а також система (методика) аналізу вхідних даних легко узагальнюється і на інші задачі розпізнавання, що робить представлену методику придатною для аналізу ряду практичних задач. Отже, представлений ще один підхід до аналізу безпеки нейронних мереж (зокрема, логістичної регресії) проти атак на вхідні дані.


	Наукова періодика України		Радіоелектроніка, інформатика, управління