いよいよスクレイピング。

○の中のとこにカーソルを当てるとプルダウンでメニューが出てくる
Chromeブラウザの右上から、
をクリックする。

HTMLコードがずらり。F12押しても出てくる。
画面右半分に現れたウィンドウの左上をクリックして、
ほしい部分をクリックすれば、

ほしいのはお前だ!(もちろん、○のなかの俳句です)
右半分のウィンドウに、該当部分が表示される!

まずは、class_nameを読み取る。ここではsrl。
あとは、クラス属性(class=“srl”)を次のコードに入れ、
さらに表の線とかはいらないので、
とテキスト部分だけ抜き出せば、こんな感じ。

\n は改行マーク 空白部分も探す。(ちょっとスクショ小さかった)
さらに、改行マークや空白で区切り、
変数haikulistに入れると、
こんな感じにまとまった(*コードは次回)

上と比較するときれいにまとまった!
ここまではテキストどおり。

でも、その先はどうなる?
一茶俳句データベースには、
ぜんぶで22,120句収録されている。
しかし、今やったのは
1ページ分の20 句だけだ。
ぜんぶで1,106ページもある。

おんなじことを1,106回もやるのか❗️(やったらダメだけど)
呆然とMacBook Airの画面を見ていたら、
for文回せばいいじゃん
と、後ろからNさんが声をかけてくれた。
多分、
見てわかるくらい肩を落としていたのだろう(どんだけ〜?)
ありがたい。

でも、どうやって?
Nさんをじっと見つめていたので、
その思いが伝わったのだろう。

まだまだ続く(みんな何千行ものコード書いてる!)
何にも言わないのに、Slackに、
自分が書いたコードを送ってくれた。
ありがたい。
気を取り直して、スクレイピング再開!
やり方は、
の引数urlを、for文使って変えていけばいいのだ。
まずはページをめくって、
URLのどの部分が変わっていくのかをチェックする。
多分どこかの数字が変わっていくから、それを、
{ }
にして、変数url に代入する。
次に、
で、繰り返し処理を1106回すればいいのだが、
ここでまたつまづいた。
1ページに俳句が20こあるので、
urlの数字部分が
1つずつ増えずに20 ずつ変化していくのだ。

いったいどうすればいいんだ!?
また、肩を落としてみるか。(つづく)

可愛くないぞ!
コメント
[…] b . スクレイピングに取り掛かる c . スクレイピングに必要なWeb技術とは d .スクレイピングでエラー e .スクレイピングのfor文でエラー f. […]