機械学習において最も重要なライブラリ、
scikit-learn(サイキット・ラーン)の、
Toy datasetsを使い、
機械学習の一連の流れをつかんでいく。
たいていのテキスト本は、
ここから始まる。
わたしが買ったものを、2、3紹介したい。
図が多くていちばんかんたんそうなのが、
『見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑』
オールカラーで、たくさんの機械学習の手法を網羅している。
眺めているだけでも楽しく、興味のありそうなものをサクッと試すのにはよい。
いろんな具体例が詰め込まれ実践的なのが、
『すぐに使える!業務で実践できる!PythonによるAI・機械学習・深層学習アプリのつくり方』
過去10年間の気象データの解析、顔にモザイクをかけるなどおもしろそうだが、
Pythonプログラマーでないと、いきなり試すのは難しそうだ。
変わり種の一冊が、
『Raspberry Pi(ラズベリー・パイ)ではじめる機械学習』
通称、ラズパイとは、
2012年にイギリスで開発された名刺サイズのコンピュータで、
わたしも昨年買って組み立てた(そのブログは、こちら)
メリットとして、
① Linux系OSが動作する、②Pythonと相性がいい、③公式のカメラモジュールが存在する
が挙げられ、試してみる価値は高そうだ。
で、今回、復習のサブテキストとして使うのは、
オライリーの『Pythonではじめる機械学習』
アイリス(あやめ)のクラス分類で、
機械学習の一連の流れを学んでいく。
1.データセットの準備(*1)
scikit-learnのToy datasetsから、任意のデータセットを読み込む。
scikit-learnのToy datasetsから、任意のデータセットを読み込む。
2.訓練データとテストデータに分ける
train_test_splitメソッドで切り分け、モデルが汎化できているか検証する。
train_test_splitメソッドで切り分け、モデルが汎化できているか検証する。
3.モデルの宣言
sckit-learnのアルゴリズムをインポートし、インスタンス化する。
sckit-learnのアルゴリズムをインポートし、インスタンス化する。
4.モデルの訓練(学習)
fitメソッドに訓練データを与え、最適なパラメータを求める。
fitメソッドに訓練データを与え、最適なパラメータを求める。
5.モデルの検証(*2)
scoreメソッドでテストデータの精度(正解率)を算出し、汎化されているか調べる。
scoreメソッドでテストデータの精度(正解率)を算出し、汎化されているか調べる。
そして、このあと、
精度向上のためのチューニング、
につづいていく。
精度向上のためのチューニング、
につづいていく。