Адаптивна гібридна система виявлення SMS-спаму з самонавчанням за фідбеком користувача

Ігор Лях; Андрій Михайлович  Чорній; Оксана Лутак; Мар’ян Ценкнер

Журнал: Том 30, № 3, 2025

Сторінки: 121 – 132

DOI: https://doi.org/10.62660/bcstu/3.2025.121

925 Переглядів

Адаптивна гібридна система виявлення SMS-спаму з самонавчанням за фідбеком користувача

Ігор Лях, Андрій Михайлович Чорній, Оксана Лутак, Мар’ян Ценкнер

Отримано 28.03.2025

Доопрацьовано 01.08.2025

Прийнято 15.09.2025

Анотація

У статті представлено комплексний підхід до виявлення SMS-спаму на основі гібридної архітектури, яка поєднує локальні алгоритми обробки повідомлень із високопродуктивними хмарними моделями глибокого навчання. Такий підхід дозволяє досягти балансу між точністю та конфіденційністю обробки вхідних повідомлень. Метою дослідження було створення інтелектуальної гібридної системи виявлення SMS-спаму, яка забезпечувала б високу точність класифікації, підтримку актуальності знань, персоналізацію для користувачів та здатність адаптуватися до нових шаблонів атак. Для досягнення мети дослідження було застосовано комплексний аналітичний підхід, що поєднував детальний огляд наукової літератури з питань виявлення спаму в SMS-повідомленнях, включаючи машинне навчання, нейронні мережі та гібридні методи, з емпіричним аналізом. Для реалізації класичних моделей машинного навчання (Naïve Bayes, Logistic Regression, Random Forest) використовувалися стандартні бібліотеки машинного навчання, а для глибокого навчання – фреймворки, що підтримують рекурентні нейронні мережі, зокрема Long Short-Term Memory та трансформерні архітектури. Тестування системи на відкритому датасеті SMS Spam Collection з використанням метрик Accuracy (до 0,98), F1-score (до 0,95) та ROC-AUC (до 0,98). Додатково було реалізовано механізм динамічного оновлення знань через зворотний зв’язок користувача та запропоновано вагову систему оцінки достовірності фідбеку. У ході дослідження було розроблено багаторівневу систему, що виконувала початкову класифікацію на пристрої користувача з можливістю делегування обробки хмарному модулю у випадках невизначеності. У порівнянні з базовими підходами, гібридна архітектура продемонструвала покращення точності класифікації, зниження кількості хибнопозитивних і хибнонегативних спрацьовувань, а також підвищену адаптивність до змін у структурі spam-повідомлень. Агрегація підозрілих повідомлень у хмарі забезпечувала ефективне донавчання моделей у випадках концептуального зсуву. Практична цінність результатів полягає в можливості інтеграції розробленої системи для мобільних платформ, а також у корпоративні засоби інформаційної безпеки з метою фільтрації SMS-контенту та захисту кінцевих користувачів від соціальної інженерії

Ключові слова

обробка природної мови; довга короткочасна пам’ять; архітектура спаму; повідомлення; метрика

Використані джерела

Abid, M.A., Ullah, S., Siddique, M.A., Siddique, M.A., Mushtaq, M.F., Alijedaani, W., & Rustam, F. (2022). Spam SMS filtering based on text features and supervised machine learning techniques. Multimedia Tools and Applications, 81, 39853-39871. doi: 10.1007/s11042-022-12991-0 .
Ahmadi, M., Khajavi, M., Varmaghani, A., Ala, A., Danesh, K., & Javaheri, D. (2025). Leveraging large language models for cybersecurity: Enhancing SMS spam detection with robust and context-aware text classification. ArXiv. doi: 10.48550/arXiv.2502.11014 .
Al Maruf, A., Al Numan, A., Haque, M.M., Jidney, T.T., & Aung, Z. (2023). Ensemble approach to classify spam SMS from Bengali text. In M. Singh, V. Tyagi, P. Gupta, J. Flusser & T. Ören (Eds.), Advances in computing and data sciences. ICACDS 2023 (pp. 440-453). Cham: Springer. doi: 10.1007/978-3-031-37940-6_36 .
Almeida, T. & Hidalgo, J. (2011). SMS spam collection. UCI Machine Learning Repository. doi: 10.24432/C5CC84.
Al-Zebari, A., Barwary, M., Omar, N., Zebari, N.A., & Zebari, D.A. (2025). Deep learning hybrid approach for accurate SMS spam identification. Journal of Information Systems Engineering and Management, 10(10s). doi: 10.52783/jisem v10i10s.1426 .
Baaqeel, H., & Zagrouba, R. (2020). Hybrid SMS spam filtering system using machine learning techniques. In 2020 21^st international Arab conference on information technology (ACIT) (pp. 1-8). Giza: IEEE. doi: 10.1109/ ACIT50332.2020.9300071 .
Bäckman, D. (2019). Evaluation of machine learning algorithms for SMS spam filtering. (Bachelor’s thesis, Umeå University, Umeå, Switzerland).
Boyko, N., & Kovalchuk, R. (2023). Data update algorithms in the machine learning system. Computer Systems and Information Technologies, 1, 6-13. doi: 10.31891/csit-2023-1-1 .
Gadde, S., Lakshmanarao, A., & Satyanarayana, S. (2021). SMS spam detection using machine learning and deep learning techniques. In 2021 7^thinternational conference on advanced computing and communication systems (ICACCS) (pp. 358-362). Coimbatore: IEEE. doi: 10.1109/ICACCS51430.2021.9441783 .
Gomaa, W.H. (2020). The impact of deep learning techniques on SMS spam filtering. International Journal of Advanced Computer Science and Applications, 11(1), 544-549. doi: 10.14569/IJACSA.2020.0110167 .
Honeycutt, D.R., Nourani, M., & Ragan, E.D. (2020). Soliciting human-in-the-loop user feedback for interactive machine learning reduces user trust and impressions of model accuracy. Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, 8(1), 63-72. doi: 10.1609/hcomp.v8i1.7464.
Hossain, S.M.M., Sumon, J.A., Sen, A., Alam, M.I., Kamal, K.M.A., Alqahtani, H., & Sarker, I.H. (2022). Spam filtering of mobile SMS using CNN-LSTM based deep learning model. In Hybrid intelligent systems (pp. 106-116). Cham: Springer. doi: 10.1007/978-3-030-96305-7_10.
Kalyani, V.V., Rama Sundari, M.V., Neelima, S., Satya Prasad, P.S., PattabhıRama Mohan, P., & Lakshmanarao, A. (2024). SMS spam detection using NLP and deep learning recurrent neural network variants. In 2024 international conference on cognitive robotics and intelligent systems (ICC – ROBINS) (pp. 92-96). Coimbatore: IEEE. doi: 10.1109/ICC-ROBINS60238.2024.10533895.
Li, Y., Zhang, R., Rong, W., & Mi, X. (2024). SpamDam: Towards privacy-preserving and adversary-resistant SMS spam detection. ArXiv. doi: 10.48550/arXiv.2404.09481.
Mohammed, C.N., & Ahmed, A.M. (2024). A semantic-based model with a hybrid feature engineering process for accurate spam detection. Journal of Electrical Systems and Information Technology, 11, article number 26. doi: 10.1186/s43067-024-00151-3.
Molina-Coronado, B., Mori, U., Mendiburu, A., & Miguel-Alonso, J. (2023). Efficient concept drift handling for batch Android malware detection models. ArXiv. doi: 10.48550/arXiv.2309.09807.
Oyeyemi, D.A., & Ojo, A.K. (2024). SMS spam detection and classification to combat abuse in telephone networks using natural language processing. Journal of Advances in Mathematics and Computer Science, 38(10), 144-156. doi: 10.9734/jamcs/2023/v38i101832 .
Prashob, J., & Yerima, S.Y. (2022). A comparative study of word embedding techniques for SMS spam detection. In 14^th IEEE international conference on computational intelligence and communication networks (CICN 2022) (pp. 149-155). Al-Khobar: IEEE. doi: 10.1109/CICN56167.2022.10008245.
Rojas-Galeano, S. (2021). Using BERT encoding to tackle the Mad-lib attack in SMS spam detection. ArXiv. doi: 10.48550/arXiv.2107.06400.
Salman, M., Ikram, M., & Kaafar, M.A. (2024). Investigating evasive techniques in SMS spam filtering: A comparative analysis of machine learning models. IEEE Access, 12, 24306-24324. doi: 10.1109/ACCESS.2024.3364671.
Vats, S., Shastri, S., & Mehta, S. (2024). Federated learning for SMS spam detection: A privacy-focused approach. 2024 15^th international conference on computing communication and networking technologies (ICCCNT) (pp. 1-5). Kamand: IEEE. doi: 10.1109/ICCCNT61001.2024.10724879.

ЦИТУВАТИ

Liakh, I., Chorniy, A., Lutak, О., & Tsenkner, M. (2025). Adaptive hybrid SMS spam detection system with user feedback-based self-learning. Bulletin of Cherkasy State Technological University, 30(3), 121-132. https://doi.org/10.62660/bcstu/3.2025.121

[1] Abid, M.A., Ullah, S., Siddique, M.A., Siddique, M.A., Mushtaq, M.F., Alijedaani, W., & Rustam, F. (2022). Spam SMS filtering based on text features and supervised machine learning techniques. Multimedia Tools and Applications, 81, 39853-39871. doi: 10.1007/s11042-022-12991-0 .

[2] Ahmadi, M., Khajavi, M., Varmaghani, A., Ala, A., Danesh, K., & Javaheri, D. (2025). Leveraging large language models for cybersecurity: Enhancing SMS spam detection with robust and context-aware text classification. ArXiv. doi: 10.48550/arXiv.2502.11014 .

[3] Al Maruf, A., Al Numan, A., Haque, M.M., Jidney, T.T., & Aung, Z. (2023). Ensemble approach to classify spam SMS from Bengali text. In M. Singh, V. Tyagi, P. Gupta, J. Flusser & T. Ören (Eds.), Advances in computing and data sciences. ICACDS 2023 (pp. 440-453). Cham: Springer. doi: 10.1007/978-3-031-37940-6_36 .

[4] Almeida, T. & Hidalgo, J. (2011). SMS spam collection. UCI Machine Learning Repository. doi: 10.24432/C5CC84.

[5] Al-Zebari, A., Barwary, M., Omar, N., Zebari, N.A., & Zebari, D.A. (2025). Deep learning hybrid approach for accurate SMS spam identification. Journal of Information Systems Engineering and Management, 10(10s). doi: 10.52783/jisem v10i10s.1426 .

[6] Baaqeel, H., & Zagrouba, R. (2020). Hybrid SMS spam filtering system using machine learning techniques. In 2020 21^st international Arab conference on information technology (ACIT) (pp. 1-8). Giza: IEEE. doi: 10.1109/ ACIT50332.2020.9300071 .

[7] Bäckman, D. (2019). Evaluation of machine learning algorithms for SMS spam filtering. (Bachelor’s thesis, Umeå University, Umeå, Switzerland).

[8] Boyko, N., & Kovalchuk, R. (2023). Data update algorithms in the machine learning system. Computer Systems and Information Technologies, 1, 6-13. doi: 10.31891/csit-2023-1-1 .

[9] Gadde, S., Lakshmanarao, A., & Satyanarayana, S. (2021). SMS spam detection using machine learning and deep learning techniques. In 2021 7^thinternational conference on advanced computing and communication systems (ICACCS) (pp. 358-362). Coimbatore: IEEE. doi: 10.1109/ICACCS51430.2021.9441783 .

[10] Gomaa, W.H. (2020). The impact of deep learning techniques on SMS spam filtering. International Journal of Advanced Computer Science and Applications, 11(1), 544-549. doi: 10.14569/IJACSA.2020.0110167 .

[11] Honeycutt, D.R., Nourani, M., & Ragan, E.D. (2020). Soliciting human-in-the-loop user feedback for interactive machine learning reduces user trust and impressions of model accuracy. Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, 8(1), 63-72. doi: 10.1609/hcomp.v8i1.7464.

[12] Hossain, S.M.M., Sumon, J.A., Sen, A., Alam, M.I., Kamal, K.M.A., Alqahtani, H., & Sarker, I.H. (2022). Spam filtering of mobile SMS using CNN-LSTM based deep learning model. In Hybrid intelligent systems (pp. 106-116). Cham: Springer. doi: 10.1007/978-3-030-96305-7_10.

[13] Kalyani, V.V., Rama Sundari, M.V., Neelima, S., Satya Prasad, P.S., PattabhıRama Mohan, P., & Lakshmanarao, A. (2024). SMS spam detection using NLP and deep learning recurrent neural network variants. In 2024 international conference on cognitive robotics and intelligent systems (ICC – ROBINS) (pp. 92-96). Coimbatore: IEEE. doi: 10.1109/ICC-ROBINS60238.2024.10533895.

[14] Li, Y., Zhang, R., Rong, W., & Mi, X. (2024). SpamDam: Towards privacy-preserving and adversary-resistant SMS spam detection. ArXiv. doi: 10.48550/arXiv.2404.09481.

[15] Mohammed, C.N., & Ahmed, A.M. (2024). A semantic-based model with a hybrid feature engineering process for accurate spam detection. Journal of Electrical Systems and Information Technology, 11, article number 26. doi: 10.1186/s43067-024-00151-3.

[16] Molina-Coronado, B., Mori, U., Mendiburu, A., & Miguel-Alonso, J. (2023). Efficient concept drift handling for batch Android malware detection models. ArXiv. doi: 10.48550/arXiv.2309.09807.

[17] Oyeyemi, D.A., & Ojo, A.K. (2024). SMS spam detection and classification to combat abuse in telephone networks using natural language processing. Journal of Advances in Mathematics and Computer Science, 38(10), 144-156. doi: 10.9734/jamcs/2023/v38i101832 .

[18] Prashob, J., & Yerima, S.Y. (2022). A comparative study of word embedding techniques for SMS spam detection. In 14^th IEEE international conference on computational intelligence and communication networks (CICN 2022) (pp. 149-155). Al-Khobar: IEEE. doi: 10.1109/CICN56167.2022.10008245.

[19] Rojas-Galeano, S. (2021). Using BERT encoding to tackle the Mad-lib attack in SMS spam detection. ArXiv. doi: 10.48550/arXiv.2107.06400.

[20] Salman, M., Ikram, M., & Kaafar, M.A. (2024). Investigating evasive techniques in SMS spam filtering: A comparative analysis of machine learning models. IEEE Access, 12, 24306-24324. doi: 10.1109/ACCESS.2024.3364671.

[21] Vats, S., Shastri, S., & Mehta, S. (2024). Federated learning for SMS spam detection: A privacy-focused approach. 2024 15^th international conference on computing communication and networking technologies (ICCCNT) (pp. 1-5). Kamand: IEEE. doi: 10.1109/ICCCNT61001.2024.10724879.