@ITで紹介されていたWebスクレイピングツールキットのscRUBYtをUbuntu 6.10 Edgyにインストールしてみました。
scRUBYtはrubyで書かれたWebスクレイピングのためのツールキットです。Webスクレイピングとは既存のWebページをプログラムでいじったりデータを取り出したりすることです。同様なものにscrAPI(ruby)や BeautifulSoup(python)などがあるようです。昔html parserなどを使って自前でWebからデータを取り出したりしていたのですが、これらを使うとかなーり簡単に出来るようで目からうろこです。
とりあえず今日はUbuntu Edgyにインストール。途中エラーが出たのでメモ。
1. Ubuntuから依存パッケージのインストール2. gemのインストール
3. 本体と関連ファイルのインストール
sudo gem install hpricot (mechanizeの依存関係で入るかも。選択肢ではver0.5を選択)
sudo gem install scrubyt
mechanizeのインストール時にhoe, rake, rubyforge, hpricot が入りますがrakeはaptにもあるのでどちらでもいいかもしれません。( ちなみにaptのものが0.7.1でgemで入るのは0.7.2)
以上でインストール完了。
関連リンク:
- scRUBYt
- scrAPI
- @ITの進化する“Webスクレイピング”技術の世界
- 川o・-・)<2nd lifeさんのscrAPIの紹介記事
- Greenbeer DiaryさんのhpricotとWWW::Mechanizeの説明