ここ最近、Web上のクローリング、スクレイピングということをよく聞くと思います。
クローリングとは、水泳のクロールから来ている言葉で「Web上を巡回する」 という意味です。
それに対して、スクレイピングとは、元の意味は、「こする」、「削り取る」という意味ですが、「余分な情報を削って必要な情報を取得する」というような意味です。
通常、クローリングとスクレイピングはセットで使われることが多く、「クローリングしてスクレイピングする」とは、「Web上を巡回して、必要な情報を取得する」というような内容となります。
気をつけなければいけないのは、スクレイピングする場合、対象のWebサイトの利用規約に違反しないようにしなければなりません。
データを提供しているようなサイトで取得ようのAPIがある場合にはなるべくそのAPIを
使用して行った方がいいということになると思います。
次に、クローリング、スクレイピングを行う場合に参考にした、役に立つと思った書籍ですが、以下のようになります。
【おすすめ①】
Python2年生 Python2年生 スクレイピングのしくみ 体験してわかる!会話でまなべる!
非常に丁寧に、挫折しないようにわかりやすく書いてあるので、まずは最後まで一通り通して習得したいという人にはいいのではないかと思います。
絶対に挫折したくない人、まずは短期間で一通り、一冊終わらせたい人にはいいのではないかと思います。
このシリーズは その名の通り「Python1年生」 から続いているので、はじめからやりたい人は、「Python1年生」からはじめて「Python2年生」へという流れがいいのではないかと思います。
【おすすめ②】
Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド
こちらも比較的基本的なことから収集したデータのデータ解析あたりのことまで含めてわかりやすく書かれていると思います。おすすめ①では物足りないという人は、この本からということでもいいのではないかと思います。
そうでなければ、おすすめ①のあとにもの足りない部分をこれで補っていくという流れでもいいのではないかと思います。
【おすすめ③】
かなり高度な内容まで載っている本なので、他の本を読んだ後でスクレイピングを極めたいような場合などに読むにはいい本だと思います。
難易度は高めなので挫折しないように気をつけましょう。
【おすすめ④】
最後に、これは、PythonとExcel、メール、Webサイト絡みにてRPA化をしようとした時にまとめて載っていそうだということで1冊買って手元に置いているのがこの本になります。
1粒で3度おいしいくらいかと思って買った本です。
それ以外では、seleniumでの内容になりますが、自分がはじめに情報があまりない中でよく見ていたサイトの1つは以下のサイトになります。
seleniumを使用してスクレイピングする場合、seleniumAPIを利用目的から一通り逆引きで探せるサイトになります。
また、PythonにてSeleniumを活用してスクレイピング、RPA化などを行っていく場合に必要となりそうな内容の記事を一覧として以下にまとめましたのでよかったらご参照ください。
関連記事:
【クローリング、スクレイピング】クローリング、スクレイピングとは、Web上のデータ取得、操作での参考書籍、サイト - Django Girls and Boys 備忘録
【Python】Excel読み書き用外部ライブラリopenpyxlのインストール手順 - Django Girls and Boys 備忘録
【Python】openpyxlを使用してのExcelファイルの読み込み方法(具体的な読み込み方法記載例) - Django Girls and Boys 備忘録
【Python】openpyxlを使用してのExcelファイルの読み書き方法(具体的な読み書き方法記載例) - Django Girls and Boys 備忘録
【Python Excelファイルの読み書き】PythonのダウンロードからExcelファイルの読み書きまで必要なものを一通り記載 - Django Girls and Boys 備忘録
【PythonによるExcelファイルの読み書き】PythonのダウンロードからExcelファイルの読み書きまでの一通りすべての方法 - Django Girls and Boys 備忘録
【TOEIC試験 おすすめ参考書、書籍】(勉強法) - Django Girls and Boys 備忘録