オープンソースのWebクローラー「Webstemmer」
Windows上でPython製のオープンソースWebクローラー「Webstemmer」を試してみます。
参考にしたのはWebStemmerのサイトとこちらのブログ。
まずはWebStemmerをダウンロードして解凍します。
WebStemmerのサイトからwebstemmer-dist-0.7.1.tar.gzをダウンロードして解凍します。
とりあえずD:\TOOLS\webstemmer-dist-0.7.1に解凍してみました。
コマンドプロンプトを立ち上げてD:\TOOLS\webstemmer-dist-0.7.1に移動し、setup.py installでインストールします。
webstemmerディレクトリに移動し、
python textcrawler.py -o 出力ファイル名(日時.zip形式で保存されます) -m階層 -c 文字コード URL
でURL指定したサイトからクローリングしてページを収集します。
収集されました。
python analyze.py 収集したzip > 出力ファイル
で解析します。
解析結果でました。中身は・・・・後で確認してみます。
よし、
python extract.py -c 文字コード 解析結果ファイル 収集したzip > タイトル本文出力ファイル
実行
抽出結果は、、、、、「!UNMATCHED:」だらけだった。。。
何か間違えてる。
<追記>
自分のブログや某マトメサイト等はうまくいきました。