Adaptive Honeypot Systems via RAG: Enhancing Threat Intelligence with Generative AI
Öz
Honeypots have long been invaluable resources for intrusion detection and cyber threat intelligence, yet they suffer from an intractable trade-off: low-interaction systems are too artificial, and high-interaction systems pose operational risks and scalability challenges. This paper introduces a new honeypot architecture that uses Retrieval-Augmented Generation (RAG) with the Llama 3.1 8B model to overcome this fidelity–risk dilemma. Instead of running live commands, our system uses a curated database of sanitized command–output pairs for historic Linux commands. When an attacker issues a command, the highest-relevant historic output is recalled and contextualized via Large Language Model (LLM), and the response is empirically informed and dynamically flexible. This architecture maintains realistic interactions without allowing compromise. We built an extensible pipeline spanning data acquisition, preprocessing, retrieval, and response generation, complemented with logging for threat intelligence purposes. Evaluation was performed on six hundred canonical Linux commands using BLEU and ROUGE metrics. Analysis indicates that the RAG-enhanced variant is an order-of-magnitude improvement beyond vanilla LLM setup, with BLEU and ROUGE-L scores rising from 0.04 and 0.24, respectively, to 0.47 and 0.72, respectively. Beyond quantitative fidelity, qualitative analysis indicates that RAG strongly diminishes hallucinations, secures session consistency, and enhances attacker engagement. Extended and more coherent adversary sessions give the defender richer behavioral context with less compromise detection risk. This proposed system illustrates that generative AI, when tied to empirical basis, can achieve high-fidelity deception without operational exposure. Findings demonstrate not only the technical possibility of RAG-based honeypots but also their promise for use in scalable, adaptive, and safe deception resources for both research infrastructures and operational uses.
Anahtar Kelimeler
Large language models, threat intelligence, adaptive honeypot systems
RAG ile Uyarlanabilir Honeypot Sistemleri: Üretken Yapay Zeka ile Tehdit İstihbaratının Güçlendirilmesi
Öz
Honeypot’lar uzun süredir saldırı tespiti ve siber tehdit istihbaratı için vazgeçilmez kaynaklar olmuştur, ancak çözülmesi güç bir ikilemden muzdariptirler: düşük etkileşimli sistemler fazla yapay kalırken, yüksek etkileşimli sistemler operasyonel riskler ve ölçeklenebilirlik sorunları doğurmaktadır. Bu makale, bu gerçekçilik–risk ikilemini aşmak için Llama 3.1 8B modeliyle birlikte Retrieval-Augmented Generation (RAG) kullanan yeni bir honeypot mimarisi sunmaktadır. Sistem, canlı komutları çalıştırmak yerine, Linux komutlarına ait temizlenmiş komut–çıktı çiftlerinden oluşan bir veritabanı kullanmaktadır. Bir saldırgan komut girdiğinde, en yüksek derecede alakalı geçmiş çıktı geri çağrılır, büyük dil modeli tarafından bağlama oturtulur, busayede yanıt hem deneysel olarak temellendirilmiş hem de dinamik olarak esnek olmaktadır. Bu mimari, sistemin ele geçirilmesine izin vermeden gerçekçi etkileşimleri sürdürebilmektedir. Veri edinimi, ön işleme, retrieval ve yanıt üretimini kapsayan, tehdit istihbaratı amaçlı loglama ile desteklenen genişletilebilir bir pipeline geliştirilmiştir. Değerlendirme, BLEU ve ROUGE metrikleri kullanılarak altı yüz temel Linux komutu üzerinde gerçekleştirilmiştir. Analiz, RAG ile güçlendirilmiş varyantın, vanilla LLM kurulumunun çok ötesinde, büyüklük mertebesinde bir iyileşme sağladığını göstermektedir, BLEU ve ROUGE-L skorları sırasıyla 0,04 ve 0,24’ten 0,47 ve 0,72’ye yükselmiştir. Nicel gerçekçiliğin ötesinde, nitel analiz RAG’in halüsinasyonları büyük ölçüde azalttığını, oturum tutarlılığını güvence altına aldığını ve saldırgan etkileşimini artırdığını göstermektedir. Daha uzun ve daha tutarlı adversary oturumları, savunmacıya daha az tespit riskiyle daha zengin davranışsal bağlam sunmaktadır. Önerilen bu sistem, üretken yapay zekanın, deneysel temele dayandırıldığında, operasyonel riske maruz kalmadan yüksek doğruluklu aldatma sağlayabileceğini ortaya koymaktadır. Bulgular, RAG tabanlı honeypotların teknik olarak mümkün olduğunu, aynı zamanda araştırma altyapıları ve operasyonel kullanımlar için ölçeklenebilir, uyarlanabilir ve güvenli aldatma kaynakları olarak umut vadettiğini göstermektedir.
Anahtar Kelimeler
Büyük dil modelleri, tehdit istihbaratı, uyarlanabilir honeypot sistemleri