そもそも「機械学習」ってなんやねん?ーゼロから作るDeep Learning読書ノート6

AI学習ダイアリー
なんで?って思っている犬(たぶん)

ある程度(といって、もう1年以上になるけれど)機械学習に取り組んでいると、

そもそもなんでこんなこと勉強してるんだっけ?

と立ち位置を見失いそうになる。

人工知能>機械学習>ディープラーニング、という関係

だいたい『機械学習』っていう名前じたい、おかしくない?

ふつう、機械というと、工場にあるごつい機械を想像してしまう。
そんな機械が勝手に学習してかしこくなるってこと、ある?

そんなへ理屈が浮かんでくる。
今回はそこらへんを整理したい。

まず、
機械というのはコンピューターのこと。
そして、
機械(コンピューター)が「学習」するというのは、
訓練データからモデルのパラメータを適切に調整することだ。

機械学習はデータが命です(本書p84)

というように、
なにはなくともデータがいちばん大切なのだ。

本書っていうのは、これ。

だから、

AIを勉強するより、
データサイエンティストをめざすほうが、ニーズあるんじゃない?

と、つい浮気しそうになる。

いつか読む日が来るまでダンボールの中で眠っててね。

(こんな本『東京大学のデータサイエンティスト育成講座』まで買っちゃいました)

つい先日も(2020/2/26)、

「青森県では高齢者の方々がAI日本語アノテーション業務を始める」

というニュースを目にした。

ビッグデータ時代のいま、
このような「データの前処理」にも大きなニーズがあるのだ。

で、そんな大事なデータを使って
解きたい問題を数値で扱えるようにしたものがモデルで、
そのモデルが持つ調整用の数値がパラメータだ。

そして、
「データに合うパラメータ(特徴量という)を探す」
という部分までも自動化したのが、
深層学習(ディープラーニング)なのだ。

じゃあ、コンピューターが自動でやるから人の手はいらないよね?

と思っていたのだが、実はそうではない。

たしかに、
パラメータの数を増やすことで、
ディープラーニングはものすごい性能の機械学習になった。
しかし、
ひとつひとつには明確な役割がないパラメータの数が莫大になったので、
いろんな問題(例えば、過学習など)が出てきたのだ。

この章(第6章 学習に関するテクニック)では、
その問題を解決するためのさまざまなくふうが紹介されている。

実務上、この章の知識がいちばん役に立つ。
(うーむ。内容までたどりつけなかった。)

(つづく)

Follow me!