1.機械学習とはなにか(定義)
トム・M・ミッチェルは
「(機械学習とは)コンピュータプログラムが、ある種のタスクTと評価尺度Pにおいて、経験Eから学習するとは、タスクTにおけるその性能をPによって評価した際に、経験Eによってそれが改善されている場合である」
と、定義している。
これだけ読んでもよくわからないが、
『フリーライブラリで学ぶ機械学習入門』
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/05/73EC1999-C71F-4EFD-9941-98CFEBF08C20.jpeg?resize=386%2C500&ssl=1)
おすすめ本リストには一切載っていない(笑)
の解説を読むと、
「機械学習とは、経験Eの蓄積によってあるタスクTを解いたときのパフォーマンスPが向上する手法」
とまとめ、
具体的には、
として、具体例を挙げて説明しているので、
ようやくふに落ちた。
2.せっかく目指すなら「データサイエンティスト」!?
ひとが学習するには多くの経験を積むことが必要だが、
機械(コンピュータ)が学習するには、大量のデータが必要だ。
なので、
機械学習の精度はデータが鍵を握ることになる。
キカガク長期コースの最初の日にも、
データの特性を考えることは、機械学習を実装していく上で非常に重要です。
「身の回りの現象を定量評価するにはどうするのか?」といった観点で、物事を見る習慣をつけてください。
との話があり、
例えばそれは、
という視点を持つことだという。
さらに、
「機械学習のモデル制作のうち、8〜9割はデータの前処理だ」
そうだ(これは実習で実感した!)
データの前処理とは、
に加え、
をいう。
* 収集したデータをそのまま使っても良い精度が出ないことが多く、自分で考えて新たなデータに加工すること。
そうすると、
と同義となる。
データのスペシャリスト「データサイエンティスト」が人気なのもそういうわけなのだ。
しかし、
データサイエンティストに求められる能力は幅広い(資料は、こちら)
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/05/スクリーンショット-2020-05-31-17.28.53.png?resize=500%2C260&ssl=1)
©️データサイエンティスト協会
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2019/01/necchusyou_face_boy3.png?w=1256)
こんなたくさん無理でしょ!
そして、キカガク初日の講義の最後に、
「これからみなさんが一番よく使うことになるライブラリは、データ処理を簡易にするための『pandas』です」
との話があったので、
ささやかな抵抗で、
『Pythonによるデータ分析入門〜Numpy,pandasを使ったデータ処理』
![](https://i0.wp.com/uncle-kanazawa.com/wp-content/uploads/2020/05/68EA3A3A-5816-4C9B-8952-ECFBD75F4DD5-368x500.jpeg?resize=368%2C500&ssl=1)
4,180円! 分厚い!
を購入した。
データサイエンティストはムリだけど、
なにごとも、コツコツやるのがいちばんじゃ。