機械学習とはなにか・やっぱりデータサイエンティスト?ーafter キカガク長期コースでAIを復習_1

AI学習ダイアリー
いつもの散歩道。最近はこんな写メばっか。

1.機械学習とはなにか(定義)

トム・M・ミッチェル

「(機械学習とは)コンピュータプログラムが、ある種のタスクT評価尺度Pにおいて、経験Eから学習するとは、タスクTにおけるその性能をPによって評価した際に、経験Eによってそれが改善されている場合である」

と、定義している。

これだけ読んでもよくわからないが、
『フリーライブラリで学ぶ機械学習入門』

おすすめ本リストには一切載っていない(笑)

の解説を読むと、

「機械学習とは、経験Eの蓄積によってあるタスクTを解いたときのパフォーマンスPが向上する手法」

とまとめ、

具体的には、

タスクTとは、解きたい問題。回帰分析、時系列分析、判別分析(分類)、自動操作(強化学習)、特定パターンの発見(レコメンド機能)、クラスタリング分析、最適化分析(カーナビ)など。
評価尺度(パフォーマンス)Pとは、モデルの精度で、回帰分析の場合「平均二乗誤差」がよく使われる。
経験Eとは、データのこと。データの量は多ければ多いほどよい。

として、具体例を挙げて説明しているので、
ようやくふに落ちた。

2.せっかく目指すなら「データサイエンティスト」!?

ひとが学習するには多くの経験を積むことが必要だが、
機械(コンピュータ)が学習するには、大量のデータが必要だ。

なので、
機械学習の精度はデータが鍵を握ることになる。

キカガク長期コースの最初の日にも、

データの特性を考えることは、機械学習を実装していく上で非常に重要です。
「身の回りの現象を定量評価するにはどうするのか?」といった観点で、物事を見る習慣をつけてください。

との話があり、

例えばそれは、

「画像はどのような数値で表現されるのだろうか?」

という視点を持つことだという。

さらに、

「機械学習のモデル制作のうち、8〜9割はデータの前処理だ」

そうだ(これは実習で実感した!)

データの前処理とは、

要約統計量(標準偏差や平均値など)の確認、データの分布の理解、欠損値の補完・削除

に加え、

ダミー変数作成などの特徴量の設計(*)

をいう。

 収集したデータをそのまま使っても良い精度が出ないことが多く、自分で考えて新たなデータに加工すること。

そうすると、

機械学習・AIを使いこなすとは、データ処理に長けていること

と同義となる。
データのスペシャリスト「データサイエンティスト」が人気なのもそういうわけなのだ。

しかし、
データサイエンティストに求められる能力は幅広い(資料は、こちら

©️データサイエンティスト協会

こんなたくさん無理でしょ!

そして、キカガク初日の講義の最後に、

「これからみなさんが一番よく使うことになるライブラリは、データ処理を簡易にするための『pandas』です」

との話があったので、

ささやかな抵抗で、
『Pythonによるデータ分析入門〜Numpy,pandasを使ったデータ処理』

4,180円! 分厚い!

を購入した。

データサイエンティストはムリだけど、
なにごとも、コツコツやるのがいちばんじゃ。

Follow me!