機械学習・量子機械学習
NICTクローラ
クローラは、インターネット上のWebページを自動収集するプログラムです。与えられたURLで示されるWebページをダウンロードすると、そのWebページに張られたリンクからURLを抽出し、リンク先のWebページをダウンロードします。これを繰り返すことで、リンクを辿りながら自動でWebページを収集する仕組みです。
NICTクローラは、東京大学の田浦健次郎先生がPythonで開発されたexCrawlerの一部をNICTがPerlへ移植したモジュールを利用しています。なお、オリジナルのexCrawlerは、「NICTCrawler_1.1.tar.gz」を解凍したフォルダ内の「NICT-Crawler/original」に同梱しています。
NICTクローラのインストール方法および使い方は、マニュアル「NICTCrawler-Manual_1.0.pdf」をご参照ください。
【変更履歴】
・2023/03/06 修正版(NICTCrawler_1.1.tar.gz)公開 ※マニュアルに変更はありません。
NICTクローラは、東京大学の田浦健次郎先生がPythonで開発されたexCrawlerの一部をNICTがPerlへ移植したモジュールを利用しています。なお、オリジナルのexCrawlerは、「NICTCrawler_1.1.tar.gz」を解凍したフォルダ内の「NICT-Crawler/original」に同梱しています。
NICTクローラのインストール方法および使い方は、マニュアル「NICTCrawler-Manual_1.0.pdf」をご参照ください。
【変更履歴】
・2023/03/06 修正版(NICTCrawler_1.1.tar.gz)公開 ※マニュアルに変更はありません。
ファイル名 | データ数 | サイズ | バージョン | サンプル | ダウンロード |
---|---|---|---|---|---|
NICTCrawler-Manual_1.0.pdf | 0 | 726 KB | 1.0 | ||
NICTCrawler_1.1.tar.gz | 0 | 192 KB | 1.1 |