〒186-0002
東京都国立市東2-21-3

TEL : 042-843-0268

製品進化とマネジメント風景 第115話 マルチモーダルAIの進化と活用マネジメント(その1)

AIの進化が、次第に人間に固有のスキルと思われていた領域にまで入り込んできました。その1つがマルチモーダルな認識能力です。日本語でいえば『多角的に物を視る能力』とでも訳すのでしょうか。専業AI(あるいはシングルモードAI)は、確かに処理速度は人間の数万倍以上も速いのでしょうが、視野が非常に狭いため、普通の人間が犯さないような単純なミスを犯します。 

そのため、AIが出力した結果を妄信して動いてしまうと、一定の確率で顧客の信頼を失うことになる可能性が大です。その確率はそれほど高くはないと思います。しかし、顧客の信頼を獲得するのには長い時間がかかりますが、失うのは一瞬です。よって、AIの単純ミスが致命傷でなければ笑って誤魔化せるかもしれませんが、致命傷ならば、確率は小さくても決して許容されないでしょう。

では、致命的なミスをなくすために、AIが出力した結果をひとつずつ人間がチェックすれば良いのでしょうか? その作業を実際に実行したら膨大な作業となり、AIを使う前よりも生産性が落ちてしまうことになります。どうすれば良いのでしょうか? ヒントは人間ならば誰でもやっている活動をAIでも実行できるのかどうかです。 

米国の刑事ドラマで長期間続いたものの1つに「クリミナルマインド」があります。このドラマでは、犯人の絞り込みに、必ず『クロス検索』の手法が適用されます。人間であればこの手法は必ず思い付くことです。そして、人間が扱える数まで候補を絞り込んでから、人間による仮説設定と詳細な検証を通して、事件を解決するのです。 

このクロス検索は、適切なキーワードを入力する所がポイントですが、そのレベルならばAIにも可能でしょう。クロス検索は候補を絞り込むことを目的としていますが、同時に候補の妥当性を検証している作業とも言えます。そういう意味では、いわゆる『裏取り作業』をしているとも言えるでしょう。 

最近では生産性を向上するという名目の下、ISO9000などの品質保証システムでも、妥当性検証を試験実証ではなく、数値解析やシミュレーションで実施する場合が増えてきています。 しかし、「シミュレーション結果だけで品質保証をして良いのか?」という議論が必ず残るため、例えば、1つのシミュレーション方法だけでなく、『別法による妥当性検証』というプロセスが用いられます。 

これも前述の裏取りと同じであり、要するに、1つの物事を多角的に視ることによって間違いを防ごうという考え方です。人間が当たり前のように実施している事ですが、少なくとも過去のコンピュータにとってはハードルの高い作業でした。しかし、今では状況が変わりつつあります。 

先に、なぜ、コンピュータにとってハードルが高かったのかという点を考えて見ましょう。人間は、日々、当たり前のように目と耳の両方を使って物事の判断をしていますが、これはマルチモーダルな行為です。目は画像と言語を含む記号を捉え、耳は音と話された言語を捉えます。どちらか片方の情報では曖昧な状況において正しい判断をできませんが、両方の情報を組み合わせることにより、判断の精度を大きく高めることができます。

これをAIに当てはめると、どういう事になるでしょうか? AIで画像処理が得意な方法と言えば、畳み込みニューラルネットワーク(以降はCNN)であり、これに対して自然言語処理の場合はCNNではなく、回帰型ニューラルネットワーク(RNN)が有効であることが知られています。 

CNNおよびRNNという異なる方法でマルチモーダル的に学習させるのは、不可能ではないものの、アルゴリズムが異なるため、反応条件を別々に設定しなければならないなど、どうしても複雑で面倒な話になることは容易に予想できます。 

人間の脳は極めて複雑ですが、画像と音を、ニューロン・シナプスという同じ構造/アルゴリズムで処理しています。コンピュータが人間のように耳目からの情報を統合処理するには、異なるアルゴリズムを使って行うよりも、同一のアルゴリズムで行った方が、信頼性を高めるのが易しいだろうと予想できます。 

そういう状況の中で出てきたのが『トランスフォーマ』でした。これはCNN,RNNの次に出てきた第3の深層学習アルゴリズムと言えるでしょう。この方法を用いると、画像情報と音情報を同じように処理できるので、両者の情報を統合しやすいのです。 

もう1つの大きな特徴は、CNNやRNNなどの従来の機械学習では必ず過学習という現象が起こりますが、トランスフォーマではこれが起こりにくいと言われています。その理由は次回コラムで述べますが、この点は人間に非常に似ています。 

トランスフォーマはエンコーダ・デコーダモデルを使っています。エンコーダは、入力された現実世界の情報を圧縮し、より小さな特徴空間に圧縮します。情報を圧縮するということは、分かり易く表現すれば、篩にかけて情報とノイズに分離しノイズを捨て去るということです。デコーダはこの逆で、小さな特徴空間の情報に基づいて、現実世界を再現します。 

別の見方をすると、エンコーダは物事の特徴を抽出するのが得意ですが、新しい物を創造するのは苦手です。一方、デコーダは、特徴空間の中身をいじくり回すことにより、これまで見たこともない画像や音声を創出することができます。これを『創造性だ』と呼ぶ人もいます。この特性が生成AIとして注目を浴びるようになりました。 

トランスフォーマはエンコーダとデコーダの両方を組み合わせたモデルなので、特徴を抽出し、抽出したものを操作することにより、入力した生の情報とは異なる、似て非なる情報を出力することが可能です。それゆえ、同じ意味の異なる言い回しができ、また、風景をモネ風の表現にする、あるいは漫画風に表現することも出来るのです。 

エンコーダとデコーダの内部構造は少し異なるのですが似ています。シンプルな方はエンコーダなので、以降では、トランスフォーマのエンコーダの中身を大雑把に説明します。 エンコーダは大きく3つの部分から構成されます。エンベッド層、位置エンコード層、そしてエンコーディング層です。

自然言語の場合、エンベッド層では、単語を特徴空間に埋め込むためにベクトル表現に変えます。「今日は良い天気だ。」という文があれば、これを『今日』、『は』、『良い』、『天気』、『だ』、『。』に分けて、それぞれを唯一のベクトルとして数学的に表現します。画像であれば、人、建物、植物、道路、空などを同じ様に唯一のベクトルとして表現すれば良いのです。 

位置エンコード層は場所の特徴を表します。自然言語であれば、単語の順番や個々の単語の位置関係であり、画像であれば、個々の事物の画像の位置関係を数学的に表現します。 

エンコーディング層は『注意機構』を用いて、入力された情報の意味を抽出します。自然言語でも画像でも、そこに表現されている物事の意味や情景を抽出することを役割としています。そして、ここで使われる『注意機構』こそ、一大発明であり、これによって画像も音も文字言語も話された言語も、人間並みにその意味を正しく把握できるようになりました。 

本来ならば、ここから『注意機構』について述べたいのですが、そうすると本コラムが非常に長くなってしまいます。Web上の文章はあまり長いと興味を削ぐことになってしまうので、不満を持つ方もおられるでしょうが次回にまわしたいと思います。 

CNNやRNNを用いた深層学習では過学習という現象が起き、学習をさせ過ぎると却って正解率が落ちますが、トランスフォーマでは過学習が起きにくいと言われています。その理由はこの注意機構の中に埋め込まれているのですが、それ故、AIモデルの大規模化がどんどん進行しているのです。 

さて、マルチモーダルAIの話をしてきましたが、もしあなたがこの種のAIを実用化するならば、それを何に使いたいですか? 製品事業であれば、開発機のトラブル要因を特定する、経営であれば予想以上の好業績あるいは悪業績の要因を理解するのに使えるかもしれません。要するに、複数の要因が関わる問題について、行き過ぎた単純化を避けつつ、人間にも理解できる程度の形で要因を絞り込む作業には役立ちそうです。 

では、要因を絞り込んだ後、問題を解決する活動でも役に立つのでしょうか? 問題となる要因を絞り込む所までは上手くできたとしても、そこから問題を解決し、最終的な目標を達成するには、通常、紆余曲折があって道のりは長いものです。そのような複雑な解決策を見つけるのにマルチモーダルAIは役に立つでしょうか? 

解決策を構成するフローチャートを人間が定めた後、各プロセスとして最適な方法を見つけるという話ならば、できそうな感じがします。また、フローチャートを作成する所についても、過去の事例を学習して何らかの答えを出すことは出来る可能性はありそうです。しかし、現実問題は千差万別であり、過去の事例と異なるケースが多いはずです。大きなデータベースで学習されたマルチモーダルAIであっても、千差万別の問題に答えるのは、まだまだ出来るようには思えません。

一方、人間は、千差万別な現れ方をする問題に対して、最適とは言えなくても上手く対応してきました。人間は、どのようなアプローチを取って、千差万別の問題に対処してきたのでしょうか? 一例として、『TRIZ』が挙げられます。 

これは、ロシアの特許審査官が、膨大の特許を調べ、特許で記載されている解決方法を抽象化した結果、20世紀半ばまでに起こった殆どの問題に対して、40の方法を組み合わせて解決できることを見出しました。これをTRIZという方法に昇華したわけです。千差万別が40まで減ったわけです。私自身も使ったことがありますが、発想が行き詰った時にはかなり役に立つ方法でした。 

TRIZは1960年くらいまでに出された特許をデータとして学習し、抽象化した方法なので、それ以降に出てきた問題、例えばIT分野やバイオ分野には弱いでしょう。しかし、同じアプローチで整理すれば、千差万別に見える課題を大きく減らせるはずであり、いずれTRIZの後継版が出るのではないかと思っています。

ここで重要な事は、TRIZという方法が存在するということは、「人間は膨大なデータを学習し、その裏にある法則を抽出できる」能力があることを示しています。大量のデータから相関関係を見出すだけならばAIも出来るでしょう。しかし、人間はもう1つ階段を登り、これを抽象化する能力を持っています。抽象化のすごい所は、これにより、1つの具体的な問題で得た解決方法を、他の様々な問題に応用できるようになるという所です。 

よって、重要な質問は、「はたしてマルチモーダルAIは、様々な分野におけるTRIZを自ら作り出すことができるか?」ということになるでしょう。人間が思い付けたことなので、まったく不可能ではないようにも思いますが、今のマルチモーダルAIは、まだクロス検索に近いレベルであり、抽象化思考までは到達していないようです。 

人間はこの種の様々な情報を統合的に考えることを連合野という脳で行っているそうですが、そのメカニズムはまだ分かっていません。ただ、このメカニズムが解明されてモデル化できるようになると、AIも抽象思考ができるようになるかもしれません。画像認識AIのコアプロセスであるCNNは、人間の目の画像認識メカニズムをモデル化して組み込む事で飛躍的に能力が向上しましたので、同様の事が起こっても不思議はないと考えています。

もし、AIが、人間と同じような抽象化思考を出来るようになったならば、その時こそ、人類に本当の危機が迫っているのかもしれません。 そういう意味で、人間の脳の思考メカニズムに関する研究の状況は常にモニターしておかないといけないですね。