製品進化とマネジメント風景第116話マルチモーダルAIの進化と活用マネジメント（その２）

2024.08.18 コラム

前回のコラムでは、AIの進化が次第に人間に固有のスキルと思われていた領域に入りつつあり、その１つのエビデンスとしてマルチモーダル化があるという話をしました。

マルチモーダル化が急速に進行したのは、トランスフォーマという2010年代半ばに発明された深層学習プロセスに依る所が大きいと言えます。深層学習プロセスと言えば、画像ではCNN（畳み込みニューラルネット）、言語ではRNN（回帰型ニューラルネット）がそれまでの標準法でしたが、トランスフォーマはこれらに次ぐ第3の標準法としての地位を獲得しつつあります。

その最大の特徴は、画像も言語も同じ方法で同じように扱うことができる点です。その結果、マルチモーダル化が容易になったのです。このトランスフォーマのマルチモーダル能力を特徴づけるプロセスとして注意機構があり、今回のコラムではここに焦点を当てたいと思います。

なお、今のトランスフォーマは、マルチモーダル化を実現しやすくしましたが、まだ、クロス検索の域までで止まっており、与えられたデータに基づいた予測をする所までです。そこから先にある、データの裏にある抽象的な法則性（あるいは仮説）を抽出する所まではまだ到達していません。よって、今の所、その領域は人間が優位性を保てる場所だということです。

トランスフォーマの特徴としてもう１つ挙げられることは、従来の深層機械学習法と異なり、過学習が起こりにくいことです。過学習とは、学習に用いたデータに適応しすぎて、類似の別データで検証すると正解率が下がってしまうという現象です。これは厄介な問題です。

従来の科学技術分野における数値計算に喩えて考えると、計算の残差が一度は下がるものの、どこからかまた上がり始め、計算が収束しないことを意味します。もし、あなたが構造や流体の数値計算をしていて、そういう結果を得たならば、おそらく得られた結果に疑義を感じるでしょう。深層学習でも同じなのです。どこで計算を止めたかによって生成されるAIモデルが変わり、再現性に疑義が生じるのです。

過学習を避けられるという特性は、上記の文脈で述べると計算が収束することを意味します。これはAIモデルの再現性を担保する上で、非常に重要な特性になると考えられます。再現性が増せば確実に信頼性が増し、ビジネスに適用するリスクが低下します。その結果、その用途はどんどん広がっていくでしょう。このコラムでは、なぜ、トランスフォーマでは過学習が起こりにくいのかについても考察していきます。

さて、ここからはトランスフォーマを特徴づける『注意機構』についての話です。この注意機構は、文章や画像からそこに示されている事の意味を把握するために使われる興味深い仕掛けです。

我々人間が文章を読み、あるいは画像を見て、そこから意味を汲み取る時、同じ単語や画像であっても、その文脈や配置によって意味する所が変わるので、様々な視点から吟味をし、最終的に「この文章（あるいは画像）は、こういう事が言いたかったのだな」という結論を出すと思います。この注意機構でも、人間が行うのと同様のプロセスが実施されます。

様々な視点からたくさんの注意をする必要があるので、このプロセスはマルチヘッド・アテンションと呼ばれていますが、そのプロセスは大きく２つに分類されます。１つは、文章や画像という自分自身に注意を向けるプロセスでありセルフ・アテンションと呼ばれます。もう１つは、自分以外の外部データに注意を向けるプロセスでありクロス・アテンションと呼ばれます。

言語の場合、セルフ・アテンションでは、１つの文章に書かれている単語と単語の間にある関係性の強弱を分析します。これに対して、クロス・アテンションでは、外部のデータベースを使い、単語の意味する所を絞り込みます。言語のケースであれば、様々な辞書をアクセスしていると考えると分かりやすいでしょう。

例えば、" Time flies like an arrow."と"Fruit flies like a banana."という２つの文章があるとします。我々は、文章を読むだけで、１つ目の文章におけるfliesは「飛ぶ」という意味の動詞であり、２つ目の文章のfliesは「ハエ」という名詞であることに気付きます。

言語系の注意機構では、主語・述語の関係性、単語の品詞の分析、単語の意味、時間的な状況、空間的な状況といった複数の視点から分析を行い、最終的に文章の意味を把握します。様々な視点から分析するのでマルチヘッド・アテンションなのです。

ここまでの説明から、注意機構は様々な視点で分析するということは分かっていただけたと思いますが疑問は残ります。それは、前述したfliesが「飛ぶ」なのか「ハエ」なのかを、具体的にどうやって見分けたのでしょうか？　

見分けた仕掛けをひと言で述べるならば、それは、ある種の計算をしてその数値が最大になったら、それを正解とするアルゴリズムが仕込まれていると考えれば良いでしょう。どういう計算かと言えば、その計算では、Query(Q),Key(K)およびValue(V)という３つのパラメータを使った計算をします。Qは様々な視点から分析する際の１つ１つの質問に相当します。

例えば、前述のケースであれば、「この文章におけるfliesのはどれが最も適切か？」という質問です。Kは国語辞典（英英辞典や日日辞典）のようなモノを思い浮かべると良いでしょう。辞書には、１つの単語に対してたくさんの意味や品詞が記載されています。その１つ１つの属性は数値ベクトル化されていて、対象の文章とQとKを使ってある種の内積計算をしてVを算出し、Vが最大になった時、文脈上、ある１つの意味だと特定するのです。

こうして複数の視点で分析を行っていくので、複雑な文章の中に現れる"it"や「それ」と言った人称代名詞についても、その意味する所を正しく把握できるようになるのです。

以上の話から、言語であれ、画像であれ、その意味する所を正しく推論するには、正解を導くための多数の質問Qを準備し、同時に参照すべき大きな辞書Kを用意すれば、過学習を回避して正解率を高められることが分かるでしょう。

質問Qは人間の理解を助けるものでなければならず、数が多くなければ人間が指示するのが簡単です。個人的にはこのやり方がシンプルで分かりやすいと考えています。しかし、頭の良い人は、これを自動的に見つけ出すアルゴリズムも発明したようです。

一方、辞書Kについては、言語であれば既に世の中にたくさんの辞書があるので、それをデジタル化すればそのまま使えそうです。また、画像についても様々な図鑑が存在しているので、やはりこれらをデジタル化すれば使えます。

問題となるのは辞書や図鑑のサイズです。手軽に、短時間に学習を行おうとすれば辞書や図鑑のサイズを小さくする必要があります。しかし、その場合、アルゴリズムは、サイズの小さい辞書や図鑑を参照し、その中でVが最大のものを正解だと推論します。ピッタリはまる単語や図がなくても、答えを出してくるので、トンチンカンの推論をしてしまう場合が一定の確率で必ず生じます。

このトンチンカン推論を避けるには、参照する辞書や図鑑のサイズをひたすら大きくすれば良いのですが、その場合、計算量や記憶容量が膨大となり、１つのAIモデルを学習するだけでも膨大な計算量と電力が必要となります。例えば、数千万円とか数億円というレベルです。この額をポンと投資ができるかどうかが、ビジネス的に重要なファクタになると言えます。

最大規模のモデルが最も信頼できるので、誰もがその最大規模モデルを使いたいと思うようになります。結果として、ネットビジネスでは良く言われる話ですが、勝者総取りになる可能性が高いように思われます。

日本はこの分野に関してかなり遅れてしまいました。米国と中国はとにかくモデルの大規模化を追い掛けています。勝者総取りの論理だと、トランスフォーマを適用した汎用AIは高い確率でこの両国の寡占状態になるでしょう。

対抗する手段がまったく無いのかと言うとそうでもありません。１つの対抗方法は、分野を絞り、そこの専門化を進めることです。これは昔ながらのアプローチですが、AI分野でも有効だと考えます。ただし、こちらも結局の所、大規模なものが優位になるので、１つの専門分野に対して寡占が進むことになると思われます。

このような話をすると、「ならば先行者が有利だ。どんどん行くしかない！」と考えたくなります。確かに先行者は有利なのですが、先行者ならではのリスクもあります。

最も注意すべきリスクは、対象の専門領域のAIが人間の安全性に及ぼす場合です。一例は、移動する製品の制御ロジックにＡＩを組み込んだ場合などです。安全面で致命的なミスを起こすと、それは大きな悪評となり、ビジネスにとって致命傷になりえるからです。

結果として、先行者の後ろにいた２番手、３番手の企業が先行者の失敗から学習し、先行者を追い抜いてしまうことになるでしょう。実際、ＩＴ業界では、1番手よりも２番手、３番手が成功するという経験則があります。よって、スピードは非常に重要なのですが、致命的なミスを犯さないための慎重さも同時に求められるのです。

AIは人間の思考時間の数万倍のスピードで物事を判断し、実行していくため、動き出したら止めることはできません。ですから、本格的に可動させる前に、系統的にリスクを取り除く活動をする必要があるのです。

つい最近、ある企業の機能性表示食品が健康に悪影響を与えたとする報道がありました。それを受け、官庁やマスコミが色々と調査を進め、実態が少しずつ明らかになってきました。私自身もある会社の機能性表示食品を常用していましたが、一旦、停止しました。

この話は人間が起こした話であり、組織的な責任はもちろんのこと、個人的な責任の所在も明らかになりつつあります。しかし、もしAIがこの種の問題を起こした場合、誰の責任になるのでしょうか？　

日本の刑事事件では、最終的に組織内のある個人の責任になります。責任が曖昧だと、企業間、企業内あるいは官民の関係した個人間で醜い責任の擦り付け合いが始まってしまう可能性があります。

責任の擦り付け合いというのは人間の活動の中で、最も醜いものの１つであり、それは確実にビジネスの評判に悪影響を及ぼします。そうならないようにするには、責任の所在を明らかにする仕組みが必要です。

これは法務の話ではなく、製品開発・生産・サービスを実行する際のプロセスに埋め込まないと意味がありません。ＡＩを製品に組込んでいる貴社は、ＡＩが刑事事件に絡む問題を起こした時、どの部門のどの個人に責任があるのかを明らかにするビジネスプロセスを構築していますか？