いよいよスクレイピング。
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/04/スクリーンショット-2020-04-08-9.23.39.png?resize=452%2C284&ssl=1)
○の中のとこにカーソルを当てるとプルダウンでメニューが出てくる
Chromeブラウザの右上から、
をクリックする。
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/04/スクリーンショット-2020-04-08-9.33.22.png?resize=431%2C500&ssl=1)
HTMLコードがずらり。F12押しても出てくる。
画面右半分に現れたウィンドウの左上をクリックして、
ほしい部分をクリックすれば、
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/04/スクリーンショット-2020-04-08-9.37.52.png?resize=500%2C210&ssl=1)
ほしいのはお前だ!(もちろん、○のなかの俳句です)
右半分のウィンドウに、該当部分が表示される!
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/04/スクリーンショット-2020-04-08-9.39.09.png?resize=500%2C391&ssl=1)
まずは、class_nameを読み取る。ここではsrl。
あとは、クラス属性(class=“srl”)を次のコードに入れ、
さらに表の線とかはいらないので、
とテキスト部分だけ抜き出せば、こんな感じ。
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/04/スクリーンショット-2020-04-08-9.46.06.png?resize=500%2C110&ssl=1)
\n は改行マーク 空白部分も探す。(ちょっとスクショ小さかった)
さらに、改行マークや空白で区切り、
変数haikulistに入れると、
こんな感じにまとまった(*コードは次回)
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/04/スクリーンショット-2020-04-08-10.15.26.png?resize=500%2C230&ssl=1)
上と比較するときれいにまとまった!
ここまではテキストどおり。
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2019/01/question_head_boy-2.png?w=1256)
でも、その先はどうなる?
一茶俳句データベースには、
ぜんぶで22,120句収録されている。
しかし、今やったのは
1ページ分の20 句だけだ。
ぜんぶで1,106ページもある。
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/01/computer_keyboard_yatsuatari_businessman.png?w=1256&ssl=1)
おんなじことを1,106回もやるのか❗️(やったらダメだけど)
呆然とMacBook Airの画面を見ていたら、
for文回せばいいじゃん
と、後ろからNさんが声をかけてくれた。
多分、
見てわかるくらい肩を落としていたのだろう(どんだけ〜?)
ありがたい。
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2018/12/nouka_man3_question-2.png?w=1256)
でも、どうやって?
Nさんをじっと見つめていたので、
その思いが伝わったのだろう。
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/04/スクリーンショット-2020-04-08-11.11.28.png?resize=500%2C232&ssl=1)
まだまだ続く(みんな何千行ものコード書いてる!)
何にも言わないのに、Slackに、
自分が書いたコードを送ってくれた。
ありがたい。
気を取り直して、スクレイピング再開!
やり方は、
の引数urlを、for文使って変えていけばいいのだ。
まずはページをめくって、
URLのどの部分が変わっていくのかをチェックする。
多分どこかの数字が変わっていくから、それを、
{ }
にして、変数url に代入する。
次に、
で、繰り返し処理を1106回すればいいのだが、
ここでまたつまづいた。
1ページに俳句が20こあるので、
urlの数字部分が
1つずつ増えずに20 ずつ変化していくのだ。
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2019/01/necchusyou_face_boy3.png?w=1256)
いったいどうすればいいんだ!?
また、肩を落としてみるか。(つづく)
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/04/854A59B6-CA78-416C-B0A0-0A96944EB829.png?resize=366%2C500&ssl=1)
可愛くないぞ!
コメント
[…] b . スクレイピングに取り掛かる c . スクレイピングに必要なWeb技術とは d .スクレイピングでエラー e .スクレイピングのfor文でエラー f. […]