キカガク・ＡＩスクールの復習その６ー機械学習の基礎の「キ」

キカガクＡＩスクール

エビシューマイ・チリby悪魔のレシピ。冷凍食品使用。でもいける！

2020.10.25

機械学習において最も重要なライブラリ、
scikit-learn(サイキット・ラーン)の、
Toy datasetsを使い、
機械学習の一連の流れをつかんでいく。

公式サイトより。７種類ある。

たいていのテキスト本は、
ここから始まる。
わたしが買ったものを、２、３紹介したい。

図が多くていちばんかんたんそうなのが、
 『見て試してわかる機械学習アルゴリズムの仕組み機械学習図鑑』

いい紙を使っているので、少しお高い（値段が）

オールカラーで、たくさんの機械学習の手法を網羅している。
眺めているだけでも楽しく、興味のありそうなものをサクッと試すのにはよい。

いろんな具体例が詰め込まれ実践的なのが、
『すぐに使える！業務で実践できる！PythonによるＡＩ・機械学習・深層学習アプリのつくり方』

2020/10/24現在、amazonでは品切れ状態

過去10年間の気象データの解析、顔にモザイクをかけるなどおもしろそうだが、
Pythonプログラマーでないと、いきなり試すのは難しそうだ。

変わり種の一冊が、
『Raspberry Pi(ラズベリー・パイ)ではじめる機械学習』

電子工作っぽい感じがいい

通称、ラズパイとは、
2012年にイギリスで開発された名刺サイズのコンピュータで、
わたしも昨年買って組み立てた（そのブログは、こちら）

終わってみればなんてことのない作業。

メリットとして、
① Linux系OSが動作する、②Pythonと相性がいい、③公式のカメラモジュールが存在する
が挙げられ、試してみる価値は高そうだ。

で、今回、復習のサブテキストとして使うのは、
オライリーの『Pythonではじめる機械学習』

間違いない！一冊。

アイリス(あやめ)のクラス分類で、
機械学習の一連の流れを学んでいく。

１．データセットの準備（＊１）
scikit-learnのToy datasetsから、任意のデータセットを読み込む。

２．訓練データとテストデータに分ける
train_test_splitメソッドで切り分け、モデルが汎化できているか検証する。

３．モデルの宣言
sckit-learnのアルゴリズムをインポートし、インスタンス化する。

４．モデルの訓練(学習)
fitメソッドに訓練データを与え、最適なパラメータを求める。

５．モデルの検証（＊２）
scoreメソッドでテストデータの精度(正解率)を算出し、汎化されているか調べる。

そして、このあと、
精度向上のためのチューニング、
につづいていく。

＊１　本書では、最初にすべきことはデータをよく観察することだと述べている。その一例として、散布図等で各データの相関関係を見て、マルチコ発生の有無などを確認することが挙げられる。データ処理関連には統計学の知識が必要だ。

＊２　評価の指標は、正解率だけではない。混合行列の理解が必要。

Follow me!

関連

PAGE TOP