ДОСЛІДЖЕННЯ ВПЛИВУ МЕТОДІВ ВІДБОРУ ОЗНАК НА ЕФЕКТИВНІСТЬ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ КІБЕРАТАК

Автор(и)

  • О. В. Залужний Військовий інститут телекомунікацій та інформатизації імені Героїв Крут https://orcid.org/0000-0002-8722-4087

DOI:

https://doi.org/10.58254/viti.8.2025.06.79

Ключові слова:

кібербезпека, виявлення кібератак, методи машинного навчання, методи відбору ознак, зменшення розмірності, кореляційний метод відбору ознак, статистичні методи відбору ознак, генетичний алгоритм, рекурсивного вилучення ознак

Анотація

Об’єми даних, що використовуються для навчання моделей машинного навчання систем кіберзахисту, часто
вимірюються в гігабайтах та містять десятки ознак, які можуть приймати сотні тисяч значень, окрім того, дані
постійно оновлюються та поповнюються в процесі функціонування систем. Збільшення об’єму даних призводить до
виникнення певних проблем, серед яких збільшення часу на навчання та тестування моделі, прокляття вимірності,
малі вибірки, зашумлені або надмірні ознаки, а також упереджені дані. Відбір ознак (Feature Selection) є
фундаментальним для розв’язання таких проблем.
Метою статті є дослідження впливу методів відбору ознак на якість класифікації кібератак моделями
машинного навчання для визначення найбільш ефективних підходів до формування набору ознак.
У статті наведено короткий опис та проведено дослідження ефективності використання відомих методів
відбору ознак таких як: кореляційний метод, метод на основі статистичного критерію χ², статистичний метод
ANOVA, метод на основі розрахунку взаємної інформації, метод ReliefF, метод на основі генетичного алгоритму та
метод рекурсивного відбору ознак.
Оцінка ефективності методів відбору ознак здійснювалась в поєднанні з різними методами машинного
навчання за такими критеріями, як повнота, точність, точність класифікації та параметром F2-scor. Окрім того,
в статті наведені графіки залежності кількості пропущених атак і хибних спрацювань від кількості ознак для
кожного із досліджуваних методів.
Експериментальні дослідження проведено з використанням інструментів Python та бібліотеки scikit-learn.
Вони показали, що застосування методів відбору ознак покращує показники якості роботи моделей машинного
навчання та зменшити час на їх навчання. Ефективність кожного із методів залежить від об’єму даних, який
потрібно опрацювати, методів машинного навчання з якими використовуються ті чи інші методи відбору ознак,
часових та обчислювальних обмежень. Використання алгоритму з χ², методів ANOVA та Mutual Information Filter в
моделі, що побудована на основі випадкового лісу, дозволяє отримати кращі результати ніж генетичний алгоритм
та рекурсивне вилучення ознак. Проте, останні у поєднанні з методом k найближчих сусідів є найефективнішими з
усіх досліджуваних комбінацій методів відбору ознак та методів машинного навчання за кількістю детектованих
атак та хибних спрацювань.

Cover_8_2025

##submission.downloads##

Опубліковано

2025-12-03

Схожі статті

<< < 2 3 4 5 6 7 8 9 10 11 > >> 

Ви також можете розпочати розширений пошук схожих статей для цієї статті.