機械学習とはなにか・やっぱりデータサイエンティスト？ーafter キカガク長期コースでAIを復習_1

１．機械学習とはなにか（定義）

トム・M・ミッチェルは

「(機械学習とは）コンピュータプログラムが、ある種のタスクTと評価尺度Pにおいて、経験Eから学習するとは、タスクTにおけるその性能をPによって評価した際に、経験Eによってそれが改善されている場合である」

と、定義している。

おすすめ本リストには一切載っていない（笑）

の解説を読むと、

「機械学習とは、経験Eの蓄積によってあるタスクTを解いたときのパフォーマンスPが向上する手法」

とまとめ、

具体的には、

タスクTとは、解きたい問題。回帰分析、時系列分析、判別分析(分類)、自動操作(強化学習)、特定パターンの発見(レコメンド機能)、クラスタリング分析、最適化分析(カーナビ)など。

評価尺度（パフォーマンス）Pとは、モデルの精度で、回帰分析の場合「平均二乗誤差」がよく使われる。

経験Eとは、データのこと。データの量は多ければ多いほどよい。

として、具体例を挙げて説明しているので、
ようやくふに落ちた。

２．せっかく目指すなら「データサイエンティスト」！？

ひとが学習するには多くの経験を積むことが必要だが、
機械(コンピュータ)が学習するには、大量のデータが必要だ。

なので、
機械学習の精度はデータが鍵を握ることになる。

キカガク長期コースの最初の日にも、

データの特性を考えることは、機械学習を実装していく上で非常に重要です。
「身の回りの現象を定量評価するにはどうするのか？」といった観点で、物事を見る習慣をつけてください。

との話があり、

例えばそれは、

「画像はどのような数値で表現されるのだろうか？」

という視点を持つことだという。

さらに、

「機械学習のモデル制作のうち、８〜９割はデータの前処理だ」

そうだ(これは実習で実感した！）

データの前処理とは、

要約統計量(標準偏差や平均値など)の確認、データの分布の理解、欠損値の補完・削除

に加え、

ダミー変数作成などの特徴量の設計（＊）

をいう。

＊　収集したデータをそのまま使っても良い精度が出ないことが多く、自分で考えて新たなデータに加工すること。

そうすると、

機械学習・AIを使いこなすとは、データ処理に長けていること

と同義となる。
データのスペシャリスト「データサイエンティスト」が人気なのもそういうわけなのだ。

しかし、
データサイエンティストに求められる能力は幅広い（資料は、こちら）

こんなたくさん無理でしょ！

そして、キカガク初日の講義の最後に、

「これからみなさんが一番よく使うことになるライブラリは、データ処理を簡易にするための『pandas』です」

との話があったので、

4,180円！　分厚い！

を購入した。

データサイエンティストはムリだけど、
なにごとも、コツコツやるのがいちばんじゃ。

Follow me!