1.機械学習とはなにか(定義)
トム・M・ミッチェルは
「(機械学習とは)コンピュータプログラムが、ある種のタスクTと評価尺度Pにおいて、経験Eから学習するとは、タスクTにおけるその性能をPによって評価した際に、経験Eによってそれが改善されている場合である」
と、定義している。
これだけ読んでもよくわからないが、
『フリーライブラリで学ぶ機械学習入門』
の解説を読むと、
「機械学習とは、経験Eの蓄積によってあるタスクTを解いたときのパフォーマンスPが向上する手法」
とまとめ、
具体的には、
として、具体例を挙げて説明しているので、
ようやくふに落ちた。
2.せっかく目指すなら「データサイエンティスト」!?
ひとが学習するには多くの経験を積むことが必要だが、
機械(コンピュータ)が学習するには、大量のデータが必要だ。
なので、
機械学習の精度はデータが鍵を握ることになる。
キカガク長期コースの最初の日にも、
データの特性を考えることは、機械学習を実装していく上で非常に重要です。
「身の回りの現象を定量評価するにはどうするのか?」といった観点で、物事を見る習慣をつけてください。
との話があり、
例えばそれは、
という視点を持つことだという。
さらに、
「機械学習のモデル制作のうち、8〜9割はデータの前処理だ」
そうだ(これは実習で実感した!)
データの前処理とは、
に加え、
をいう。
* 収集したデータをそのまま使っても良い精度が出ないことが多く、自分で考えて新たなデータに加工すること。
そうすると、
と同義となる。
データのスペシャリスト「データサイエンティスト」が人気なのもそういうわけなのだ。
しかし、
データサイエンティストに求められる能力は幅広い(資料は、こちら)
こんなたくさん無理でしょ!
そして、キカガク初日の講義の最後に、
「これからみなさんが一番よく使うことになるライブラリは、データ処理を簡易にするための『pandas』です」
との話があったので、
ささやかな抵抗で、
『Pythonによるデータ分析入門〜Numpy,pandasを使ったデータ処理』
を購入した。
データサイエンティストはムリだけど、
なにごとも、コツコツやるのがいちばんじゃ。