いよいよスクレイピング。
Chromeブラウザの右上から、
をクリックする。
画面右半分に現れたウィンドウの左上をクリックして、
ほしい部分をクリックすれば、
右半分のウィンドウに、該当部分が表示される!
あとは、クラス属性(class=“srl”)を次のコードに入れ、
さらに表の線とかはいらないので、
とテキスト部分だけ抜き出せば、こんな感じ。
さらに、改行マークや空白で区切り、
変数haikulistに入れると、
こんな感じにまとまった(*コードは次回)
ここまではテキストどおり。
でも、その先はどうなる?
一茶俳句データベースには、
ぜんぶで22,120句収録されている。
しかし、今やったのは
1ページ分の20 句だけだ。
ぜんぶで1,106ページもある。
おんなじことを1,106回もやるのか❗️(やったらダメだけど)
呆然とMacBook Airの画面を見ていたら、
for文回せばいいじゃん
と、後ろからNさんが声をかけてくれた。
多分、
見てわかるくらい肩を落としていたのだろう(どんだけ〜?)
ありがたい。
でも、どうやって?
Nさんをじっと見つめていたので、
その思いが伝わったのだろう。
何にも言わないのに、Slackに、
自分が書いたコードを送ってくれた。
ありがたい。
気を取り直して、スクレイピング再開!
やり方は、
の引数urlを、for文使って変えていけばいいのだ。
まずはページをめくって、
URLのどの部分が変わっていくのかをチェックする。
多分どこかの数字が変わっていくから、それを、
{ }
にして、変数url に代入する。
次に、
で、繰り返し処理を1106回すればいいのだが、
ここでまたつまづいた。
1ページに俳句が20こあるので、
urlの数字部分が
1つずつ増えずに20 ずつ変化していくのだ。
いったいどうすればいいんだ!?
また、肩を落としてみるか。(つづく)
コメント
[…] b . スクレイピングに取り掛かる c . スクレイピングに必要なWeb技術とは d .スクレイピングでエラー e .スクレイピングのfor文でエラー f. […]