ある程度(といって、もう1年以上になるけれど)機械学習に取り組んでいると、
そもそもなんでこんなこと勉強してるんだっけ?
と立ち位置を見失いそうになる。
だいたい『機械学習』っていう名前じたい、おかしくない?
ふつう、機械というと、工場にあるごつい機械を想像してしまう。
そんな機械が勝手に学習してかしこくなるってこと、ある?
そんなへ理屈が浮かんでくる。
今回はそこらへんを整理したい。
まず、
機械というのはコンピューターのこと。
そして、
機械(コンピューター)が「学習」するというのは、
訓練データからモデルのパラメータを適切に調整することだ。
「機械学習はデータが命です」(本書p84)
というように、
なにはなくともデータがいちばん大切なのだ。
だから、
AIを勉強するより、
データサイエンティストをめざすほうが、ニーズあるんじゃない?
と、つい浮気しそうになる。
(こんな本『東京大学のデータサイエンティスト育成講座』まで買っちゃいました)
つい先日も(2020/2/26)、
というニュースを目にした。
ビッグデータ時代のいま、
このような「データの前処理」にも大きなニーズがあるのだ。
で、そんな大事なデータを使って
解きたい問題を数値で扱えるようにしたものがモデルで、
そのモデルが持つ調整用の数値がパラメータだ。
そして、
「データに合うパラメータ(特徴量という)を探す」
という部分までも自動化したのが、
深層学習(ディープラーニング)なのだ。
じゃあ、コンピューターが自動でやるから人の手はいらないよね?
と思っていたのだが、実はそうではない。
たしかに、
パラメータの数を増やすことで、
ディープラーニングはものすごい性能の機械学習になった。
しかし、
ひとつひとつには明確な役割がないパラメータの数が莫大になったので、
いろんな問題(例えば、過学習など)が出てきたのだ。
この章(第6章 学習に関するテクニック)では、
その問題を解決するためのさまざまなくふうが紹介されている。
実務上、この章の知識がいちばん役に立つ。
(うーむ。内容までたどりつけなかった。)
(つづく)