Use of subword tokenization for domain generation algorithm classification

Cybersecurity

Table 6 A summary of the performance of the proposed integrated schemes RF + SW-CNN (random forest with SW-CNN) and RF + SW-LSTM (random forest with SW-LSTM)

	Average precision	Average F1	Average recall
Proposed RF + SW-CNN
Overall	0.7893	0.7812	0.7895
Improvement over RF (Saeed et al. 2021)	7.86%	7.92%	7.93%
Improvement over SW-CNN	4.00%	6.59%	5.52%
Improvement over CNN-BiLSTM (Cucchiarelli et al. 2021)	3.90%	4.46%	3.92%
Random-looking DGAs	0.7487	0.7377	0.7472
Improvement over RF (Saeed et al. 2021)	0.44%	0.23%	0.43%
Improvement over SW-CNN	6.06%	9.65%	7.81%
Improvement over CNN-BiLSTM (Cucchiarelli et al. 2021)	4.15%	5.00%	4.23%
Word-looking DGAs	0.9300	0.9327	0.9391
Improvement over RF (Saeed et al. 2021)	37.13%	36.76%	35.51%
Improvement over SW-CNN	− 0.59%	− 0.40%	0%
Improvement over CNN-BiLSTM (Cucchiarelli et al. 2021)	3.58%	3.52%	3.70%
Proposed RF + SW-LSTM
Overall	0.7904	0.7833	0.7907
Improvement over RF (Saeed et al. 2021)	8.01%	8.21%	8.05%
Improvement over SW-LSTM	4.44%	6.71%	5.60%
Improvement over CNN-BiLSTM (Cucchiarelli et al. 2021)	4.04%	4.74%	4.08%
Random-looking DGAs	0.7487	0.7382	0.7467
Improvement over RF (Saeed et al. 2021)	0.44%	0.30%	0.36%
Improvement over SW-LSTM	6.49%	9.67%	7.89%
Improvement over CNN-BiLSTM (Cucchiarelli et al. 2021)	4.15%	5.07%	4.16%
Word-looking DGAs	0.9409	0.9409	0.9409
Improvement over RF (Saeed et al. 2021)	38.73%	37.96%	35.77%
Improvement over SW-LSTM	− 0.68%	− 0.29%	0%
Improvement over CNN-BiLSTM (Cucchiarelli et al. 2021)	4.79%	4.43%	3.90%

A comparison was made with random forest (RF), SW-CNN, SW-LSTM, and CNN-BiLSTM (Cucchiarelli et al. 2021)