〒186-0002
東京都国立市東2-21-3

TEL : 042-843-0268

製品進化とマネジメント風景 第122話 データサイエンス力を高めるマネジメント

Harvard Business Reviewでは、データサイエンスは21世紀における最もセクシーな職業と言われているそうです。「その役割は?」と言えば、データに隠されている実用的な洞察を得ることとされています。ここだけを読むと、「20世紀を生きてきた我々だってやってきたことではないか?」と言いたくなりますね。 

ただし、洞察を得るために必要な内容は20世紀とは少し異なっています。IBMは、それらは、専門知識、数学と統計、プログラミング、高度な分析、人工知能、機械学習だとしています。 

この中で21世紀になってからクローズアップされたのは『人工知能』と『機械学習』なので、この2つのスキルは新しく学習する必要がありそうです。それ以外については20世紀と大差ありません。

ただし、プログラミングのスキルは強化する必要があると認識しています。なぜなら、20世紀の科学技術系教育(いわゆる理系教育)を受けた人達の中で、プログラミングを職業の補助ツールとして適切に使いこなせる人の比率が信じられないほど小さいからです。

さて、データサイエンスで必要なスキルを個人的に挙げてみると、科学というよりも技術指向なので、表面上はIBMの定義とは少し異なります。『人工知能』、『機械学習』、『プログラミング』は必須だとして、それ以外は『統計』と『専門性と専門性の間のトレードオフ関係を見つける分析力』です。結局、IBMの主張と大差ないものになってしまいました。

『統計』と言えば、おそらくフィッシャーやネイマン、ピアソンそしてベイズの名前が出てくると思います。フィッシャー、ネイマン、ピアソンは頻度主義統計と呼ばれる20世紀の人達であり、ベイズ統計と区別されます。ベイズは18世紀の人ですが、20世紀半ばに再発見され、ベイズ統計という言葉が創られ、データサイエンスの世界では主役級です。 

統計学は数学のように進化しながら確固たる基礎を築いていても不思議はないのですが、数学的な基礎が意外と曖昧であり、数学とは対極をなすものと見なされています。実践的、実際的でエンジニアリングに似ていますが、基礎が曖昧なので学問的な論争がずっと続いています。 

データサイエンスは、『科学』という厳密性を重んじる名称を持っていますが、実際はエンジニアリングのように理論と経験を混ぜ合わせて使いこなし、厳密性よりも実態を適切に表現する実用性が重視される専門性だと認識しています。その際に最も役に立つのが『統計』であり、これを使いこなして『因果関係』と『バラツキ』を評価するのです。

『統計』は曖昧であるという話をしましたが、なぜ、そう感じるのでしょうか? おそらく、母数集団が大きすぎて全データを評価できないため、その一部である標本データから母集団の状態を推定しようとする所にあると言ってよいでしょう。要するに、標本が本当に母集団の特性を表わしているかどうかに不確かさがあるということです。この不確かさを証明するのは非常に難しいですね。

ただし、自然に存在する事象の多くは正規分布などの特定の分布を取るという経験則があるので、この経験則が当てはまる具体例については、統計による推定は実際的に有用です。 

ところで、今日においても、頻度主義とベイズ統計のどちらが良いかと言う議論は続いています。「確率は〇%だ」と明言したい人はベイズ統計の方を好むでしょう。しかし、ベイズ統計では事前確率という恣意性を感じさせる概念を使うため、主観主義とも呼ばれ、客観性を重視する科学と相いれない部分があります。他方、頻度主義では信頼区間とかP値という便利ではあるのですが、時に大きな誤解を生み出す概念が出てきます。 

信頼区間95%という使い方をよくしますが、これが分かりにくい。95%信頼区間とは、同じプロセスで信頼区間推定を行った結果のうち、95%の場合において真の母数を含むということであり、特定の区間が真の母数を含む確率が95%だと主張することはできない、とされます。 

実に分かりにくいのですが、多くの事象が正規分布を取るので、95%というのは、平均を中心として±2標準誤差の領域に相当します。データが非常にたくさんあって、95%がこの領域にはいるならば、実用的には95%相当だと言って良いでしょう。 

現実問題では、たくさんのデータを取得するにはお金が掛かるので、何とかしてデータ数を減らしながら、でも出来るだけ正しい評価をしたいというニーズが顕在化します。航空産業では、米国で標準化された方法が世界標準になっています(例えば文献1)。材料強度ではA値やB値というのを用います。A値は壊れると致命的な部品材料に適用され、B値は致命的でない部品材料に適用されます。 

例えばA値は、データを取得した時に、それらのデータの99%が前述の信頼区間95%の領域に入る時の値を言います。材料強度では下限値を重視するので、平均-k*標準誤差の値を決めます。このkは、取得したデータ数(N数)によって変化します。例えば、N=2の場合にはk=37.094、一方でN=30ならばk=3.064です。N数によって、材料強度の下限値の評価がものすごく変化することが分かると思います。 

B値は、データを取得した時に、それらのデータの90%が信頼区間95%の領域に入る時の値を言います。N=2の場合、k=20.581,N=30の場合、k=1.778となり、A値よりは大分緩くなります。もちろん、標準誤差を適切に設定する必要がありますが、その上で、このA値、B値という考え方を適用すると、信頼性の高い設計をできます。 

一方、統計的検定を行う際のP値についても、通常はP=0.05や0.01が検定の有意性判定に使われてきました。しかし、21世紀になって、科学論文においてP=0.05で検定した発表内容を他者が再現できないという問題が多発し、「再現性の危機」が叫ばれるようになりました。 

ベイズ統計ではP値に相当するパラメータとして尤度比を使います。よく使われる場面は刑事裁判であり、その場合、尤度比として、「容疑者が痕跡を残したと仮定してDNAが一致する確率」を、「容疑者以外の誰かが痕跡を残したと仮定してDNAが一致する確率」で除した数値を使います。文献2によると、尤度比が1~10だと証拠として弱いとされ、1000以上だと強いとされます。ちなみにP=0.05で検定した場合に有意だと判定された事を、尤度比で表すと2~3になるという報告もあり、そうであれば確かに有意性に疑いが起こり、事象が再現しないという事が起こりそうですね。 

統計における曖昧さというか、扱いにくさの話はここまでとして、次は『因果関係』の話に進みたいと思います。 

よくある勘違いは、「相関関係があれば因果関係もある」という早合点です。機械学習の発達により、大量のデータがあれば必ず何らかの相関関係を見つけることができる時代になりました。成果を焦る人たちの中には、相関関係を見つけると、因果関係があると考え、将来の予測だけでなく、事象の制御にも使おうとします。予測については因果関係がなくても当たる場合はあるでしょうが、制御は因果関係を掴んでいなければできません。 

では、因果関係があるというのはどういう事でしょうか? 文献2は、下記の3つ証拠が揃った時、因果関係があると判断できると述べています。3つとは、直接的証拠、機械論的証拠および並列的証拠です。ただ、この言葉だけ見ても、何を言っているのがよく分かりませんよね。よって、補足します。 

直接的証拠というのは、因果のパラメータをある方向に変化させると、時間的にすぐ、空間的にも近傍においてその効果が大きく現れて確認できることです。同時に、因果のパラメータを元に戻すと、その効果が急速になくなることを確認できることです。 

直接的証拠は、一種の相関関係の強さとも受け取れるので、これだけでは因果関係があるとは言い切れません。そこで2番目の機械論的証拠が来ます。これは、因果のパラメータと実際に起きる効果の間に、理に適ったメカニズムがあるということです。製造業であれば、物理的、化学的な連鎖関係を説明できることを意味します。 

3番目の並列的証拠はいくつかの要素を含みますが、最も重要なのは『再現性』です。中でも最も強力な再現性は、それを発見したと主張する人ではなく、別の人や機関が、因果のパラメータとその効果について検証試験を行った結果、発見者とほぼ同じ結果が出てくることです。これは非常に説得力のある証拠です。

実は、当社が提案している製品開発法でも、製品やサービスあるいはその基礎にある技術や設備の成熟度レベルについて、上記とほとんど同じ考え方を採用しています。ただし、1つだけ例外を認めています。 

それは、理屈は不明だが、こういう条件を全部揃えると必ず再現性のある結果が得られる場合です。つまり、前述の機械論的証拠よりも、並列的証拠の中の『再現性』の方を重視しているということです。「理屈が分からないので科学的ではない」と指摘されることがありますが、それには次のように返答しています。 

「科学的に解明されると、世界中の誰もがそれを使えるようになり、差別化に使えない。むしろ、理屈は分からないのだが、ある前提条件を揃えると、一定の誤差範囲内で再現する現象を発見すれば、それは『ノウハウ』となり差別化の種にできる」 

上記のように考えると、AIを使ってビッグデータ解析を行って出てきた結果の何パーセントかには、この種のノウハウのタネが隠されている可能性があります。ただし、『藁の中の針を見つける』くらい難しそうです。見つけるためのアルゴリズムは人間が考え出してAIに与える必要があるでしょう。 

最後にバラツキの話をします。製造業や技術開発では、品質上、必ずバラツキを抑制したいと考えるものです。それも、コスト上昇をさせずに。しかし、バラツキの中には、制御できるものと制御できないものがあります。 

因果関係が分かっていると、それをバラツキの制御に使える場合があります。一方で、純粋なバラツキ、統計的なバラツキは制御できません。これに関して、文献2に興味深い話が書かれていたので紹介します。正しいデータであっても鵜呑みにしてはいけないという教訓を含んでいます。 

2011年9月にBBCは、「大腸がんによる死亡率 英国内で3倍もの差」という見出しの記事を掲載したそうです。3倍の差というと大きいように思えますが、実は、この差は統計的な誤差範囲内の差であり、実質的に同等だったという話です。 

詳しく述べましょう。人口が10万人程度の2つの都市において、大腸がんによる死亡率が片方は9人なのに、別の都市では27人だったというデータがあり、BBCはこれを大きな差だと認識して見出しにしてしまったのです。 

全てのデータをプロットすると、都市の人口が増えるにつれ、死亡率が10万人あたり約17人程度に収束していくことが見て取れます。つまり、母数集団の特性が同じ(この場合は大腸がんの死亡率)であっても、標本のサイズによって、数倍レベルのバラツキが生じるのだが、BBCはこれに気付かずに意味のある差だと認識してしまったということです。(あるいは、気付いてはいたのだが、読み手の注意を引くために、意図して誇張した表現を使ったのかもしれません) 

標本サイズが小さいことに起因したバラツキは、標本数(N数)を増やすしかありません。ただ、N数を増やすと費用が増えるので嫌がられます。よくあるケースを挙げると、新技術開発の場面において、初回の試験データが画期的な数字だったとします。担当者もその上司も、この数字を見て新技術の開発に成功したと早合点してしまいがちですが、2回、3回と試験をしていくと、あるいは量産段階に入って出荷運転をすると、まったく画期的でない数字になっていることに気付くということが一定の頻度で起こっています。 

データサイエンスが注目される時代になったので、これまでは誰も気付かなかった沢山の仮説が生み出させると思います。しかし、仮説は仮説であり、統計的な観点で慎重に吟味してから判断しないと大きな誤りを犯す可能性があります。注意しましょう。 

文献1: Composite Materials Handbook, Department of Defense, USA 

文献2: 統計学の極意、デイヴィッド・シュピーゲルハルター