脱ブラックボックス!〜AIの説明責任とは?ーCDLE第4回勉強会より

めざせ!AI スペシャリスト
YouTubeでの勉強会の模様 ©️藤吉 弘亘

1.ディープラーニングのブラックボックス問題とは

「ディープラーニングが出した答えが、どんなふうに考えて出してきたのか分からない」

ことをいう。

ディープラーニングは、
深いネットワーク構造(ディープニューラルネットワーク)を用いて、
学習により特徴表現を獲得するため、
ディープラーニングの判断根拠を解釈するのは非常に困難だ。

しかし、実用にあたっては、
難しいでは済ませられない大問題なのだ。

2.画像認識(Computer Vision)分野での解決方法

2020年8月19日に行われた、
第4回CDLE勉強会では、

5月から今回で4回目。毎回視聴している。

その解決方法のひとつとして、

入力に対する着眼点(アテンション)をモデルに組み込む、

という手法が紹介された。
(ソースコードは、GitHubで公開)

写メです(リンクではありません)

具体的には、

該当クラスに分類した際の注目領域をハイライトするアテンションマップを、特徴マップに乗算して、最終的な推論結果を出す

というモデルだ。

えっ、でも、それってGrad-CAM(次項参照)となにが違うの?

3.Grad-CAMとアテンションマップの違いとは?

たしかに、いまでも、
画像のどこを見てAIが判断したかをヒートマップしたもの(Grad-CAM)がある。

こんなのです。

どうなんですか、先生?

「Grad-CAMは、出力したあとのもの。アテンションマップはAIが答えを出す前にそれを出力し、畳み込みした特徴マップにかけあわせて答えを出すモデルです。」

うーむ、そうなのか(←完全には理解できていない。)

つぎ、行ってみよう〜。

こういう仕組みだそうです。©️藤吉 弘亘

4.AIと人の協調で高精度をめざす!

このモデルは、さらに、
専門家の知見によるネットワークの手動調整で、
より高精度で説明性の高いアテンションマップが出力可能だという。

具体的には、
分類に失敗した難しいサンプルに、
熟練工の知見を使用してアノテーション(*)をやり直すのだ。
画像データに正解データを付与すること

なんで、AIに人手を加えるのか?

そもそも、
ディープニューラルネットワークには、
パラメーター数が数千万から1億を超えるものもあり、
手動で調整するのは不可能である。

そこで、
視覚的インターフェイスを介して人が直感的に修正することで、
ネットワークを最適化するフレームワークを定型化しようというのだ。
(これもソースコードは、GitHubで公開されている)

写メです(ソースコードではありません)

なるほど。
このアテンションマップを特徴マップに乗算すれば、
そりゃ精度は上がるわな。

ようやく、話が見えた。

5.おまけ

で、ここでまた、質問の声が。

「分類に失敗したサンプルを正しく修正すれば、今度は、いままで正しく答えていたものがまちがってしまうのではないか?」

うわぁ〜。
聞きたいけどいまさら聞けない系、来たぁ〜!

「修正する際は、正しく答えていたものが正しいままの答えを出せるよう、同時にファイン・チューニングします。」

なるほど〜!
質問者の勇気に拍手👏

と、話はここで終わる。

セミナーはここまでが前段で、
メインテーマはこれからだが、
もうお腹いっぱいなので・・・。

本稿は、
日本ディープラーニング協会有識者会員の中部大学工学部ロボット理工学科藤吉弘亘教授による論文解説講義の受講記です。
この論文は「第23回画像の認識・理解シンポジウム」で最優秀賞を受賞しました。
論文名: Spatial Temporal Attention Graphによる関節の重要度と関係性を考慮した動作認識
著者: 白木 克俊、平川 翼、山下 隆義、藤吉 弘亘

Follow me!