1.ディープラーニングのブラックボックス問題とは
「ディープラーニングが出した答えが、どんなふうに考えて出してきたのか分からない」
ことをいう。
ディープラーニングは、
深いネットワーク構造(ディープニューラルネットワーク)を用いて、
学習により特徴表現を獲得するため、
ディープラーニングの判断根拠を解釈するのは非常に困難だ。
しかし、実用にあたっては、
難しいでは済ませられない大問題なのだ。
2.画像認識(Computer Vision)分野での解決方法
2020年8月19日に行われた、
第4回CDLE勉強会では、

5月から今回で4回目。毎回視聴している。
その解決方法のひとつとして、
という手法が紹介された。
(ソースコードは、GitHubで公開)

写メです(リンクではありません)
具体的には、
というモデルだ。
えっ、でも、それってGrad-CAM(次項参照)となにが違うの?
3.Grad-CAMとアテンションマップの違いとは?
たしかに、いまでも、
画像のどこを見てAIが判断したかをヒートマップしたもの(Grad-CAM)がある。

こんなのです。

どうなんですか、先生?
「Grad-CAMは、出力したあとのもの。アテンションマップはAIが答えを出す前にそれを出力し、畳み込みした特徴マップにかけあわせて答えを出すモデルです。」
うーむ、そうなのか(←完全には理解できていない。)
つぎ、行ってみよう〜。

こういう仕組みだそうです。©️藤吉 弘亘
4.AIと人の協調で高精度をめざす!
このモデルは、さらに、
専門家の知見によるネットワークの手動調整で、
より高精度で説明性の高いアテンションマップが出力可能だという。
具体的には、
分類に失敗した難しいサンプルに、
熟練工の知見を使用してアノテーション(*)をやり直すのだ。
*画像データに正解データを付与すること
なんで、AIに人手を加えるのか?
そもそも、
ディープニューラルネットワークには、
パラメーター数が数千万から1億を超えるものもあり、
手動で調整するのは不可能である。
そこで、
視覚的インターフェイスを介して人が直感的に修正することで、
ネットワークを最適化するフレームワークを定型化しようというのだ。
(これもソースコードは、GitHubで公開されている)

写メです(ソースコードではありません)
なるほど。
このアテンションマップを特徴マップに乗算すれば、
そりゃ精度は上がるわな。
ようやく、話が見えた。
5.おまけ
で、ここでまた、質問の声が。
「分類に失敗したサンプルを正しく修正すれば、今度は、いままで正しく答えていたものがまちがってしまうのではないか?」
うわぁ〜。
聞きたいけどいまさら聞けない系、来たぁ〜!
「修正する際は、正しく答えていたものが正しいままの答えを出せるよう、同時にファイン・チューニングします。」
なるほど〜!
質問者の勇気に拍手👏
と、話はここで終わる。
セミナーはここまでが前段で、
メインテーマはこれからだが、
もうお腹いっぱいなので・・・。