釣りとバイクと自転車とキャンプと開発と。

趣味の釣り・キャンプ・バイク・自転車と、仕事のプログラミング系の記事を書きます。

オープンソースのWebクローラー「Webstemmer」

Windows上でPython製のオープンソースWebクローラーWebstemmer」を試してみます。

参考にしたのはWebStemmerのサイトとこちらのブログ。


まずはWebStemmerをダウンロードして解凍します。

WebStemmerのサイトからwebstemmer-dist-0.7.1.tar.gzをダウンロードして解凍します。
f:id:junyax:20130709160137j:plain

とりあえずD:\TOOLS\webstemmer-dist-0.7.1に解凍してみました。
f:id:junyax:20130709160123j:plain

コマンドプロンプトを立ち上げてD:\TOOLS\webstemmer-dist-0.7.1に移動し、setup.py installでインストールします。
f:id:junyax:20130709160356j:plain

webstemmerディレクトリに移動し、
python textcrawler.py -o 出力ファイル名(日時.zip形式で保存されます) -m階層 -c 文字コード URL
でURL指定したサイトからクローリングしてページを収集します。
f:id:junyax:20130709160654j:plain

収集されました。
f:id:junyax:20130709160745j:plain


python analyze.py 収集したzip > 出力ファイル
で解析します。
f:id:junyax:20130709160900j:plain

解析結果でました。中身は・・・・後で確認してみます。
f:id:junyax:20130709160936j:plain


よし、
python extract.py -c 文字コード 解析結果ファイル 収集したzip > タイトル本文出力ファイル
実行
f:id:junyax:20130709161057j:plain


抽出結果は、、、、、「!UNMATCHED:」だらけだった。。。
何か間違えてる。

<追記>
自分のブログや某マトメサイト等はうまくいきました。