スクレイピング再開!(でもすぐつまづいた)ーWebアプリ制作日記その5

AIアプリ制作
負けない!

いよいよスクレイピング

○の中のとこにカーソルを当てるとプルダウンでメニューが出てくる

Chromeブラウザの右上から、

その他のツール(L) > デベロッパーツール(D)

をクリックする。

HTMLコードがずらり。F12押しても出てくる。

画面右半分に現れたウィンドウの左上をクリックして、
ほしい部分をクリックすれば、

ほしいのはお前だ!(もちろん、○のなかの俳句です)

右半分のウィンドウに、該当部分が表示される!

まずは、class_nameを読み取る。ここではsrl。

あとは、クラス属性(class=“srl”)を次のコードに入れ、

title_elm = browser.find_element_by_class_name(“srl”)

さらに表の線とかはいらないので、

title_elm.text

とテキスト部分だけ抜き出せば、こんな感じ。

\n は改行マーク 空白部分も探す。(ちょっとスクショ小さかった)

さらに、改行マークや空白で区切り、
変数haikulistに入れると、
こんな感じにまとまった(*コードは次回)

上と比較するときれいにまとまった!

ここまではテキストどおり。

でも、その先はどうなる?

一茶俳句データベースには、
ぜんぶで22,120句収録されている。

しかし、今やったのは
1ページ分の20 句だけだ。
ぜんぶで1,106ページもある。

おんなじことを1,106回もやるのか❗️(やったらダメだけど)

呆然とMacBook Airの画面を見ていたら、

for文回せばいいじゃん

と、後ろからNさんが声をかけてくれた。
多分、
見てわかるくらい肩を落としていたのだろう(どんだけ〜?)

ありがたい。

でも、どうやって?

Nさんをじっと見つめていたので、
その思いが伝わったのだろう。

まだまだ続く(みんな何千行ものコード書いてる!)

何にも言わないのに、Slackに、
自分が書いたコードを送ってくれた。

ありがたい。

気を取り直して、スクレイピング再開!
やり方は、

browser.get(url)

引数urlを、for文使って変えていけばいいのだ。

まずはページをめくって、
URLのどの部分が変わっていくのかをチェックする。

多分どこかの数字が変わっていくから、それを、
{ }
にして、変数url に代入する。

次に、

for 変数 in range( )

で、繰り返し処理を1106回すればいいのだが、
ここでまたつまづいた。

1ページに俳句が20こあるので、
urlの数字部分が
1つずつ増えずに20 ずつ変化していくのだ。

いったいどうすればいいんだ!?

また、肩を落としてみるか。(つづく)

可愛くないぞ!

Follow me!

コメント

  1. […] b . スクレイピングに取り掛かる c . スクレイピングに必要なWeb技術とは d .スクレイピングでエラー e .スクレイピングのfor文でエラー f. […]