機械学習・量子機械学習

NICTクローラ

クローラは、インターネット上のWebページを自動収集するプログラムです。与えられたURLで示されるWebページをダウンロードすると、そのWebページに張られたリンクからURLを抽出し、リンク先のWebページをダウンロードします。これを繰り返すことで、リンクを辿りながら自動でWebページを収集する仕組みです。
NICTクローラは、東京大学の田浦健次郎先生がPythonで開発されたexCrawlerの一部をNICTがPerlへ移植したモジュールを利用しています。なお、オリジナルのexCrawlerは、「NICTCrawler_1.1.tar.gz」を解凍したフォルダ内の「NICT-Crawler/original」に同梱しています。
NICTクローラのインストール方法および使い方は、マニュアル「NICTCrawler-Manual_1.0.pdf」をご参照ください。

【変更履歴】
・2023/03/06 修正版(NICTCrawler_1.1.tar.gz)公開 ※マニュアルに変更はありません。
ファイル名 データ数 サイズ バージョン サンプル ダウンロード
NICTCrawler-Manual_1.0.pdf 0 726 KB 1.0
NICTCrawler_1.1.tar.gz 0 192 KB 1.1