Realistyczne generowanie ruchu sieciowego stało się kluczowe dla rozwoju i testowania metod cyberbezpieczeństwa i bezpieczeństwa sieci [1]. Istniejące generatory ruchu sieciowego stanowią podstawę do symulacji różnych scenariuszy. Potrzebny jest jednak realistyczny ruch sieciowy, zwłaszcza w warunkach rzeczywistych. Modele uczenia maszynowego (ML), takie jak GAN[1][2] i RNN, zostały ostatnio z powodzeniem wykorzystane do generowania ruchu sieciowego. Również modele LLM mogą oferować inne i bardziej realistyczne podejście i mogą być innowacyjną metodą generowania ruchu sieciowego. W niedawnym badaniu [3] wykorzystano nowatorską strukturę do generowania wiarygodnych danych syntetycznych dla metod ML opartych na GPT-3 Open AI.
Jak wspomniano w sekcji dotyczącej przyszłych prac w moim najnowszym (złożonym 30 października 2024 r., opublikowanym 23 listopada 2024 r.) badaniu [4], w którym przedstawiono odszyfrowany zestaw danych ruchu sieciowego Zigbee IoT, zestaw danych typu open source można znaleźć w [5], i przeanalizowano charakterystykę ruchu sieciowego, planuję kontynuować prace nad opracowaniem generatora ruchu sieciowego. W tym badaniu staram się rozwiązać problem tworzenia realistycznego ruchu sieciowego dla różnych scenariuszy, prezentując nowe podejście wykorzystujące LLM. Zamiast używać surowych zbiorów danych jako danych wejściowych, proponuję wykorzystanie opisów tych zbiorów danych w języku naturalnym, charakterystycznych cech i wykresów wyodrębnionych dla ruchu sieciowego w celu kierowania generowaniem realistycznego ruchu sieciowego. W ten sposób metoda ta umożliwi również generowanie realistycznego ruchu w scenariuszach, w których dostęp do rzeczywistych danych jest ograniczony lub nie istnieje, zwiększając elastyczność i rozszerzając możliwości zastosowania narzędzi do generowania ruchu. Uzyskany realistyczny zestaw danych zostanie wykorzystany do obliczenia sukcesu i strat treningowych przy użyciu wewnętrznych i zewnętrznych wskaźników. Zadania w ramach badania będą następujące: (1) Wyodrębnienie metadanych opisowych bieżącego ruchu (zbioru danych), w tym cech takich jak rozmiary pakietów, protokoły, zachowania przepływu i informacje o czasie. Ponadto wyodrębnienie i wykreślenie wyżej wymienionych cech dla każdego urządzenia używanego w sieci Zigbee (w sumie jest 15 urządzeń). (2) Opracowanie skryptu Python do automatycznej konwersji informacji na dobrze sformułowane opisy w języku naturalnym. Opisy te będą stanowić dane wejściowe dla LLM (np. GPT-4). Należy również zdefiniować dane wyjściowe (.json) LLM. (3) Wykorzystanie API LLM z Open AI (GPT-4.0) do generowania ruchu sieciowego Zigbee. (4) Konwersja danych .json do plików .pcap, które są pakietami sieciowymi. (Pakiety te można tworzyć i zapisywać za pomocą biblioteki takiej jak Scapy w Pythonie). (5) Porównanie wygenerowanego ruchu z ruchem w świecie rzeczywistym (nasz zbiór danych) w celu oceny realizmu i dokładności oraz zmierzenie jego wydajności za pomocą wskaźników do pomiaru realizmu.
Przypisy:
[1] Cheng, A. (2019, October). PAC-GAN: Packet generation of network traffic using generative adversarial networks. In 2019 IEEE 10th Annual Information Technology, Electronics and Mobile Communication Conference (IEMCON) (pp. 0728-0734). IEEE
[2] Ring, M., Schlör, D., Landes, D., & Hotho, A. (2019). Flow-based network traffic generation using generative adversarial networks. Computers & Security, 82, 156-172.
[3] Kholgh, D. K., & Kostakos, P. (2023). PAC-GPT: A novel approach to generating synthetic network traffic with GPT-3. IEEE Access.
[4] Keleşoğlu, N., & Sobczak, Ł. (2024). ZigBeeNet: Decrypted Zigbee IoT Network Traffic Dataset in Smart Home Environment. Applied Sciences, 14(23), 10844.
[5] KELEŞOĞLU, N., & Sobczak, Ł. (2024). ZigBeeNet dataset [Data set]. Zenodo. https://doi.org/10.5281/zenodo.13957307