藤井棋聖も使ってる？ー知能にいちばん近いＡＩ「深層強化学習」ってなんだ？

めざせ！AI スペシャリスト

今日のお昼は生のバジルやブラックオリーブ、バルサミコ酢など使ったイタリアンサラダ

2020.08.08

１．そもそも「強化学習」ってなんだっけ？

機械学習は、

１．教師あり学習
２．教師なし学習
３．強化学習

の３つに分類される。

なぜいまさらこんな話をするかというと、
先日(2020年８月１日、土曜日)、
あるセミナーで、
「深層強化学習」がテーマの講義を聴いたからだ(＊１)。

13時〜18時過ぎまで、いろんな講義があった。

「深層強化学習」とは、
「強化学習」にディープラーニングの手法を用いたものだが、

そもそも「強化学習」ってなんだっけ？（←そこから？）

【参考】機械学習の分類図

次のブレークスルーが期待される強化学習！

(出典『エンジニアなら知っておきたいＡＩのキホン』)

エンジニア向けという通り、解説が詳しい。

２．ちょっと懐かしい話を手短かに

で、本棚を見たら、
『つくりながら学ぶ！　深層強化学習ーPytorchによる実践プログラミング』
という本があった。

こういう買っただけのＡＩ本が山ほどある(泣)

買った覚えはない。
で、amazonの注文履歴を調べたら、
2018年11月22日に注文していた。

ああ、そうだった！
ちょうどその２週間前に、
あるセミナーでＡＩに興味を持ったのだ(そのブログは、こちら)。

そのとき覚えた単語「Pytorch」が、
タイトルに含まれていたのだ。
(もちろんPytorchがなにかも知らなかった。)

いまならわかるが、
ＡＩを勉強しようとして、
いきなり「強化学習」はない。

当然、
その本は開くことのないまま、
本棚でずっと眠り続けることになる。

３．「深層強化学習」ってすごいらしい

で、せっかくなので、
先ほどの本をパラパラめくっていたら、
囲碁の名人を負かしたという、
DeepMind社(Google子会社)の、
アルファ碁(AlphaGo)の話が出ていて、

知ってる、知ってる！

と、さらに読み進めたら、

その進化形の、
アルファ碁ゼロ(AlphaGo Zero)は、
人間の棋譜データを用いた「教師あり学習」をいっさい使わず、
「深層強化学習」のみで囲碁の戦略を学習し、
アルファ碁(AlphaGo)に全戦全勝するレベルになった。
それは、
「強化学習」が脳の学習メカニズムに似ているからだ、

という（＊２）。

ということで、

囲碁だけではなく将棋ＡＩにも使われている(藤井棋聖も⁉︎）
「(深層)強化学習」ってなに？

というもとの話に戻る。

４．とりあえずのまとめ

「強化学習」のことを思いださせてくれた、
Shane Gu氏の「深層強化学習の汎用に向けて」は、
「深層強化学習」の手法をロボットへ応用して「汎用型ＡＩ」を制作しようという最先端の研究だ。
(この前、汎用型ＡＩについて考えた。そのブログは、こちら)

ＡＩ・機械学習の勉強をしていると、

これって単に計算しているだけでは？

と不安になることがある。

どこが、人工知能やねん！

と。

セミナーを視聴して、

「深層強化学習」がいちばんＡＩらしいのかも

と思った。

＊１　セミナーは、
「Deep Learning Lab」(＊＊)と、CDLE(＊＊＊)共催の、
「DEEP LEARNING DIGITAL CONFERENCE」(YouTubeでのオンライン開催)の
基調講演、Google Brain研究員Shane Gu氏による「深層強化学習の汎用に向けて」。
＊＊マイクロソフトとPFNの協業から生まれたコミュニティ
＊＊＊日本ディープラーニング協会主催ディープラーニングＧ・Ｅ検定合格者の会

＊２　さらに、2017年12月、その進化形・アルファゼロ(AlphaZero)が登場し、
24時間以内にチェス、囲碁、将棋の世界チャンピオンプログラムであるStockfish、elmo、3日間学習させたAlphaGo Zeroを破るレベルに達した(出典-Wikipedia)

Follow me!