人工知能がすっかり身近になり、例えばスマホではグーグルレンズが使えます。撮った写真が猫であればスマホが猫と認識し、よく似た猫の写真を表示します。写真に文字が映っていたら書かれている文字を読み取り翻訳までしてくれます。音声認識でスマホ操作も可能で、人工知能が当たり前のものとして生活に浸透しています。
人間の脳神経の研究
1回目の人口知能ブームが起きた頃にパーセプトロン(人間の脳神経回路を真似た学習モデル)の研究が行われていました。私たちがモノを認識する時、視神経のいろいろな層でいろいろな情報処理が行われています。例えば枠だけを認識する層、黒色だけに反応する層などがあります。いくつもの層を通していくことでモノを認識します。これを何とかコンピュータで真似られないか研究が行われましたが、制約がありました。
制約とは2つの集合が、一本の直線でそれぞれの集合に分離できる(難しい言葉で線形分離可能といいます)問題にしか応用できなかったことです。2回目の人工知能ブームではパーセプトロンを複数組み合わせたニューラルネットワーク(神経細胞【ニューロン】とそのつながりを人工的に構築したもの)が考え出されますが、人工知能ブームの終焉とともに研究に予算がつきにくくなり”冬の時代”を迎えます。ニューラルネットワークは時代遅れの技術になっていきます。
めけずに研究を続ける
めげずに研究を続けた一人がヒントンです。ケンブリッジ大学の学生の頃からニューラルネットワークの研究を続けて”冬の時代”を2度も経験しながらも研究し続けました。パーセプトロンでは線形分離可能な問題にしか対処できませんでしたが、誤差逆伝播法(バックプロパゲーション法)が考え出されます。
人間の神経では次から次へと情報伝達する時に重みなどが変えられながら情報を伝達します。この重みなどの変更を手で行っていたのが、誤差逆伝播法などによってコンピュータが最適な形になるように勝手にやってくれるようになりました。
ディープラーニング(深層学習)誕生
この技術を使い、画像データを大量に入力し猫か犬というラベル(教師データ)をつけることで猫か犬かを判別できるディープラーニングができあがりました。
2012年、ILSVRC画像認識のコンペが行われます。人口知能の画像認識コンペで猫や犬の写真を人工知能に見せて猫を認識し、なるべく犬と間違えないことを競うコンテストです。ヒルトンが2人のトロント大学院生とともにニューラルネットワークを発展させたディープラーニングをひっさげて参加します。他のチームは従来からあるパターン認識などで挑戦しましたがベストなもので27%のエラー率でした。
ところがヒルトンらのトロント大学チームは15.3%のエラー率となり10%以上の差をつけて圧勝。これでディープラーニングが注目を集め、他のチームも取組みはじめ翌年からディープラーニングばかりになります。時代遅れといわれたニューラルネットワークが、コンピュータの画像認識機能を飛躍的に向上させた瞬間です。その後、トロント大学チーム3人はグーグルに引き抜かれ、グーグルの人工知能研究プロジェクトである「Google Brain」に加わります。ここからアルファ碁が生まれグーグルレンズなどの誕生につながっていきます。