〒186-0002
東京都国立市東2-21-3

TEL : 042-843-0268

製品進化とマネジメント風景 第80話 画像認識技術の進化と利用のマネジメント

画像認識のビジネスへの応用としては、車やドローンなどの移動体、医療用装置、工場での材料、部材、部品の検査、製品出荷時の外観検査、運送業における物流ロボット用、窓口での来客対応や見学案内など、様々な用途が考えられます。

画像認識の歴史は古いですが、2012年より前の主流は専門家が固有の法則を適用して画像認識をする「手作業」によるものでした。当然、国や個々人によって異なるため、他者からは分かりにくい方法でした。

どのような認識技術も、一般化してくると専門家ごとに異なる固有の方法ではなく、誰でも同じ結果が出てくる標準化された方法が好まれるようになります。画像認識についても同様の道を辿るでしょう。

ただ、ここで注意が必要なのは、ビジネスでは大抵、固有の方法を使っている時の方が利益率は高く、標準化された方法を使うようになると価値が下がって利益率が低下するものです。これは重要な法則であり、おそらく今後も変わらないでしょう。

いずれ数十層、数百層の多層ニューラルネットワーク(以後、NN)が標準となる日が来るのでしょうが、まだ、時間がかかりそうです。ビジネスは、常に時間差を使ってするものですから、これから当分の間は多様な選択肢がありそうです。

多層ニューラルネットワークが有名になったのは、2012年のILSVRC (Imaged Net Large Scale Visual Recognition Competition)において、カナダ・トロント大学のHinton教授が、畳み込みの多層NNを採用して画像認識の精度を大きく高めてからです。それ以来、AIといえば深層機械学習(以後、DL)となってしまった感があります。

しかし、ILSVRCに適したAIがそのままビジネスに使えるとは思えません。なぜなら、ILSVRCの問題は、120万枚の画像を学習して1000種に分類することであり、一般の人間が日常生活で行うタイプの問題だからです。

具体的には犬と猫を見分ける、あるいは車と飛行機を見分けるといった話であり、非専門的な問題です。このAIは、人間に喩えると、小学生、中学生に相当します。それはそれで重要でしょうが、ビジネスに使える範囲は限定されるでしょう。

ビジネスでの適用範囲を広めるために求められるのは専門性です。例えば、同じ車であっても、車種を見分け、年式を見分け、装備オプションを見分け、塗装やタイヤの経年劣化を見分け、整備後の部品付け忘れを見分けることなどです。ILSVRCと比べ、一段も二段も細かい問題を扱う場合が殆どなのです。

仮にこの細かい問題に対応させようとすると、各専門分野で大量の学習題材を準備する必要が生じます。不可能ではないでしょうが大変です。人の経験と機械学習を組み合わせる方がずっとコストパフォーマンスが良い、あるいは投資回収が早いでしょう。

なぜなら、特定の職場で働いていた人間は、AI的な見方をすれば学習済のDLソフトウェアに相当するからです。よって、識別するための特徴量やパラメータの設定を人間が選び、その後に少数のサンプルで学習して最適化する方が、早く現場の即戦力にできるのではないでしょうか。

実際のビジネス・ソリューションとしては多様な対応策があると考えますが、IoTが発達して大量の学習データを手間なく入手し、しかもそれをAIに学習させるインターフェースが整うと、次第に固有の方法から標準化されたDLに移ってくるでしょう。

よって、ここではそういう日が来ることを見越し、主流となりつつあるNNベースAIの進化を概観していきます。成功の鍵となったのが、人間や動物の視覚認識メカニズムを真似したことであったため、まずはそこから話を始めます。

人間を含む脊椎動物では、眼は画像センサ機能に加えて一部の情報処理を行い、神経細胞がアナログ信号をデジタル信号に変換して、脳の視覚野にその信号を伝達します。

眼の視細胞は、桿体細胞と錐体細胞から構成されており、前者は光の明暗をアナログ電気信号に変換します。錐体細胞は赤錐体、青錐体と緑錐体から構成され、色を識別します。なお、人間は3色型色覚ですが、犬猫は2色(モノクロ)、鳥は4色です。

この違いは必要性によって進化したようです。哺乳類はもともと夜型だったので2色型が主流だったと言われています。しかし、捕食者(恐竜など)が減って昼間も行動できるようになり、3色型に進化したようです。

視細胞の後方には水平細胞、双極細胞、アマクリン細胞、神経節細胞が来ます。水平細胞は周辺部の画像情報を双極細胞に送ります。双極細胞は同心円状に情報処理をします。

双極細胞の情報処理は、例えば中心が白く明るく、外側が黒い闇で、その間が連続的に変化する画像情報が来た時、明暗を強調して画像をくっきりさせる処理をしているということです。ですから、我々の脳が見ている画像は、実は、現実と少し異なっているということです。

色についても同じ処理がされます。赤と緑をくっきりさせる、青と黄色をくっきりさせる情報処理が行われています。

双極細胞の後ろにくるアマクリン細胞は水平細胞と類似の働きをし、その後ろにくる神経節細胞も双極細胞と同様の働きをします。つまり、人の眼では、単に光や画像をセンシングするだけでなく、2タイプの画像処理が交互に来ているということです。

神経節細胞からは脳の視覚野に向けて情報が送られますが、アナログ信号のまま送信すると減衰してノイズが乗りやすくなるため、アナログからデジタル情報に変換して送信します。

脳の視覚野では4段階で情報が伝達されます。それらは1次視覚野(V1)に入り、 2次視覚野(V2), 4次視覚野を通って IT野(視覚側頭葉皮質)に到達します。V1には単純型細胞と複雑型細胞の2種類の細胞があります。

単純細胞は特定の線分に反応する方位選択性を持ちます。一方の複雑型細胞は、線の位置や方向が変わっても同じものと見なす情報処理をします。位相不変性という難しい呼び方をされていますが、対象物が平行移動あるいは回転していても同じモノとみなす処理であり、画像認識では非常に重要な特性です。

幼児はモノを回転して眺めるのが好きですが、これはこの位相不変性の訓練をしていると考えられます。穴掘りフクロウの子供の成長する様子を撮影した動画を見ましたが、子供のフクロウは同じモノを、顔をわざわざ左右に傾けてずっと見続けていました。やはり位相不変性の訓練をしていたのだと推定しています。

なお、単純型細胞で強調された線分と相反する線分情報を察知した場合、単純型細胞の強調を緩和する交差方位抑制性という特性も持っています。これは、単純型細胞の早とちりを防ぐ機構といえます。

V2以降はまだ良く分かっていないらしいのですが、V1と同じ2つの型が交互に配置されていると考えられています。つまり、眼の部分だけでなく、脳の部分でも、2つの型の情報処理が交互に繰り返されて、画像を分析しているということです。

ここからは、本題の畳み込みニューラルネットワーク(CNN)に入っていきます。CNNは人の眼・脳の情報処理を真似て、2つの型の処理を繰り返していきます。第1は畳み込み演算と呼ばれるもので、V1の単純型細胞の機能を相当し、第2はプーリングあるいはサブサンプリング演算と呼ばれ、複雑型細胞の機能を担当します。

単純型細胞では特定の方向の線に反応する機能であり、人工的に実現するのは簡単です。一方、複雑型細胞の仕事、つまり、その線が平行にずれたり、回転したりしても同じものであると認識する機能は結構難しく、工夫が必要です。プログラミングで上手い下手の差、あるいは、学習量の大小の差が出やすい所と言えるでしょう。

上記の構造は初期のCNNであるネオコグニトロンで初めて採用されました。ここでの学習方法は、大脳における初期の学習方法を再現しており、add if silentというロジックで実施されます。

このロジックを説明するために、旅行に行く際の忘れ物防止リストに喩えて説明します。初期のリストに基づいて旅行に行った所、足りないものがあって困りました。そこで帰宅後、新たなものをこのリストに追加しました。Add if silentというのはこういう方法であり、教師なし学習とも呼ばれます。確かに間違いを犯しながら学んでいく人間的な方法ですね。

一方、最近の主流は、入力と正解とパラメータを用意し、入力から正解を導くためのパラメータの重みを調整していく方法になってきました。誤差逆伝播法と呼ばれています。この方法は学習によって賢くなりますが、こじつけの結果を回答する場合があるため、運用では注意が必要です。

このようにCNNは人や動物の眼や視覚野の情報処理方法をモデル化して組み込むことにより成功を収めることができました。その原型を教えてくれた自然のすごさを感じます。

IoTの時代が進行中ですが、その進化の方向が生物の進化と同じように進んでおり興味を引きます。どういうことかと言うと、脊椎のないタコのような動物では、眼は純粋にセンシング機能だけで、情報処理はすべて脳で行っています。

これに対して人を含む脊椎動物では、すでに述べたように、眼にはセンシング機能だけでなく情報処理の機能も一部担当しています。

仮に眼をセンサ、神経をネットワーク、脳をクラウドコンピュータに見立てると、それはタコのような無脊椎動物を表します。そこから進化した脊椎動物では、眼に情報処理の一部が加わりました。つまり、エッジコンピュータが付いたと解釈できます。

そう考えると、クラウドからエッジ+クラウドというIoTの流れはまさに生物の進化プロセスを後追いしているということです。今後の科学技術の進化は、当分、生物のメカニズムの模倣の方向に進むのだろうと予想されます。

科学技術の進歩はともかくとして、ビジネスとして成立させることを重視するならば、なんでも深層機械学習をするのではなく、すでに学習済の人間の力と機械学習を組み合わせた方法こそが、当分の間、最も生産性の高い方法ではないでしょうか。貴社はどのようにお考えですか?