1.そもそも「強化学習」ってなんだっけ?
機械学習は、
2.教師なし学習
3.強化学習
の3つに分類される。
なぜいまさらこんな話をするかというと、
先日(2020年8月1日、土曜日)、
あるセミナーで、
「深層強化学習」がテーマの講義を聴いたからだ(*1)。
「深層強化学習」とは、
「強化学習」にディープラーニングの手法を用いたものだが、
そもそも「強化学習」ってなんだっけ?(←そこから?)
【参考】機械学習の分類図
(出典『エンジニアなら知っておきたいAIのキホン』)
2.ちょっと懐かしい話を手短かに
で、本棚を見たら、
『つくりながら学ぶ! 深層強化学習ーPytorchによる実践プログラミング』
という本があった。
買った覚えはない。
で、amazonの注文履歴を調べたら、
2018年11月22日に注文していた。
ああ、そうだった!
ちょうどその2週間前に、
あるセミナーでAIに興味を持ったのだ(そのブログは、こちら)。
そのとき覚えた単語「Pytorch」が、
タイトルに含まれていたのだ。
(もちろんPytorchがなにかも知らなかった。)
いまならわかるが、
AIを勉強しようとして、
いきなり「強化学習」はない。
当然、
その本は開くことのないまま、
本棚でずっと眠り続けることになる。
3.「深層強化学習」ってすごいらしい
で、せっかくなので、
先ほどの本をパラパラめくっていたら、
囲碁の名人を負かしたという、
DeepMind社(Google子会社)の、
アルファ碁(AlphaGo)の話が出ていて、
知ってる、知ってる!
と、さらに読み進めたら、
その進化形の、
アルファ碁ゼロ(AlphaGo Zero)は、
人間の棋譜データを用いた「教師あり学習」をいっさい使わず、
「深層強化学習」のみで囲碁の戦略を学習し、
アルファ碁(AlphaGo)に全戦全勝するレベルになった。
それは、
「強化学習」が脳の学習メカニズムに似ているからだ、
という(*2)。
ということで、
囲碁だけではなく将棋AIにも使われている(藤井棋聖も⁉︎)
「(深層)強化学習」ってなに?
というもとの話に戻る。
4.とりあえずのまとめ
「強化学習」のことを思いださせてくれた、
Shane Gu氏の「深層強化学習の汎用に向けて」は、
「深層強化学習」の手法をロボットへ応用して「汎用型AI」を制作しようという最先端の研究だ。
(この前、汎用型AIについて考えた。そのブログは、こちら)
AI・機械学習の勉強をしていると、
これって単に計算しているだけでは?
と不安になることがある。
どこが、人工知能やねん!
と。
セミナーを視聴して、
「深層強化学習」がいちばんAIらしいのかも
と思った。