NICT Darknet Data Set 2019

English Page (英語)

tags: Darknet Data Set NICT

新バージョンのデータセットを公開しました (NICT Darknet Dataset 2022)

本データセットはホスト単位に統計処理を行ったデータであったため,使い道が限定的でした.NICT Darknet Dataset 2022はホスト単位の統計処理を行わず,ハッシュ化処理のみ行ったパケット単位のデータであるため,より汎用的に活用することができると考えられます.

データセット概要

参考文献

[1] C. Han, J. Shimamura, T. Takahashi, D. Inoue, M. Kawakita, J. Takeuchi, and K. Nakao. Real-Time Detection of Malware Activities by Analyzing Darknet Traffic Using Graphical Lasso. IEEE International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom): Security Track, 2019.


利用方法


ダークネットPCAPデータ収集

Sensor ID #Observed IP Address #Alerts Sensor ID #Observed IP Address #Alerts
A 29,182 (/17) 122 E 8,188 (/19) 198
B 14,593 (/18) 199 F 16,384 (/18) 115
C 4,098 (/20) 146 G 2,044 (/21) 118
D 4,096 (/20) 460 H 2,045 (/21) 276

NICTにおいて本ダークネット統計データを作成した手順

前処理

統計データ処理

  1. 前処理後の1ヶ月のPCAPデータを10分ごとのPCAPデータに分ける.

    • 1日計144個のPCAPデータ * 31日分 * 8つのダークネットセンサ = 計35,712個のPCAPデータ
  2. 1つの10分間のPCAPデータをさらに50秒ごとに分けて,かつ、送信元ホストごとに分けてパケット数を数える. 以下の図は理解のための1つのダークネット統計データの例である.

    • 1つのデータのサイズは 「12個の単位時間サンプル数 * 送信元ホスト数」 の2次元データとなり,要素はパケット数を表す
    • 送信元ホストのIPアドレスは隠す.
    • 1列目にはUNIX timestampを入れる.
      10分間のダークネット統計データ
  3. 全てのPCAPデータに上記の2番を適用し,CSV形式で保存する.

    • 1日計144個のCSVデータ * 31日分 * 8つのダークネットセンサ = 計35,712個のCSVデータ

まとめデータ(data.json)


解析結果データ


留意点

  1. ダークネットトラフィックデータは一時的なデータ抜けがあるため,ダークネット統計データに含むCSVデータの数は,統計データ処理に記載した35,712個よりも少ない.
  2. 論文[1]で使ったダークネット統計データと今回公開すダークネット統計データは前処理で異なる部分があり,同一ではない.
  3. ダークネット統計データは観測点と時間の2次元のデータであり,ダークネットトラフィックの宛先TCPポート情報は含まない.解析結果データは,論文[1]で採用した方法により,宛先TCPポート番号も用いて作成している.

担当者

国立研究開発法人情報通信研究機構サイバーセキュリティ研究所サイバーセキュリティ研究室

問い合わせ窓口

本データセットの利用に関する問い合わせ窓口は,以下のとおりとします.


Last updated on Aug 15, 2022
© NICT, Japan.
韓 燦洙