〒186-0002
東京都国立市東2-21-3

TEL : 042-843-0268

製品進化とマネジメント風景 第84話 プライバシー技術の進化と個人情報・企業情報の保護マネジメント

データは21世紀のオイルだという人たちがいます。株価による企業価値で評価すると確かにそのとおりかもしれません。実際はというと、まだ、途上の感があります。なぜなら、多くのデータには個人情報が含まれており、その取扱いが世界中で厳しくなりつつあるからです。

現在、個人情報を利用してデータエコノミーがプラスに働いている分野として、少なくとも以下の2つを挙げることができるでしょう。

1つ目は個人のインターネット検索情報を参考にして商品を売るウェブサイトであり、2つ目は個人の属性情報(年齢、性別、住所、病歴等)を参考にして、個人に何らかの最適ソリューションを提供するサービスです。

まず、既に行われている、あるいは、行われつつある事例を紹介しましょう。

もし、あなたが映画のサブスクリプション会社を運営しているならば、ユーザーごとに表示する広告を変えることが有効です。例えば、過去にアクション映画を多く見た人にはアクション場面を切り取った広告を見せ、恋愛映画を多く見た人にはラブシーンを切り取った場面の広告を表示するなどです。

人の好みは少なくとも数年間は変わらないので、一定の広告効果を期待できます。これは1つ目の例です。

次の例では、あなたは病院を経営しています。患者にベストな治療をしたいと考えて、そのための手段として、患者のDNAを分析し、そのDNAにマッチした医療サービスを提供しようとしています。これは2つ目の例です。

今後、この手の医療サービスが増えていくと思いますが、大前提として、DNAと疾病の間の相関分析を行う必要があり、精度を高めるには大量のデータ収集が必要です。有用なサービスではありますが、万が一、DNAという個人情報が大量に漏洩したら大変な事になりそうですね。

「規制を厳しくすると技術の進歩やその事業化が遅れる」という話をよく耳にします。しかし、個人情報については悪用されると個人に致命的な影響が及ぶことがあります。

反論もあるでしょうが、自分が大きな被害にあった場合を想像してみれば、技術の進歩が遅れたとしても、適切な情報管理が出来ない企業活動は規制すべきだと思うのではないでしょうか。

個人情報が漏洩するきっかけとなりやすいのがウェブサイトのログインIDとパスワードです。そこに個人情報が登録されている場合が多いからです。最近は多要素認証を使うサイトが増えましたが、大半のサイトはIDとパスワードによるログインです。

ここで実際にあった怖い例を1つ。ある企業が文字入力の予測変換アルゴリズムを改良するために、ユーザーがキーボード入力した文字列をすべて送信するように設定した所、その中にあるサイトのIDとパスワードが多数含まれていたそうです。

幸いにも、それに気付いたのが善意のある社員だったので問題化しませんでしたが、悪意のある社員だったら、その情報を使って個人情報を収集しそれらを闇サイトで売買していたかもしれません。そうなると、ユーザーはもちろん被害を受けますが、リスク低減策が不十分だった企業も同時に法的責任を問われることになったでしょう。

私はこの話を知った瞬間、自衛のため、漢字変換等のアルゴリズム改善に協力する活動を中止し、ブラウザ上にパスワードを保存するのも止めました。そして、出来る限り、多要素認証に切り替えました。利便性よりもセキュリティを重視しているからです。

企業は、個人や顧客企業の活動データ、製品運用データ等を収集・分析することにより、収益を高められる場合が多々ありますが、そのデータを危険に晒さないようにすることが大前提です。

そのために情報セキュリティを高めるのは当然ですが、今の時代に100%のセキュリティを保証するのは難しいでしょう。では次善の策は何か? それは、仮にデータを盗まれても被害を最小化する工夫を施すことだと考えらます。

では、それには何が必要でしょうか? それはプライバシー技術だと考えられます。 ここでのプライバシーは個人情報のことですが、私人としての個人だけでなく、公人としての個人の情報も含みます。

法律でプライバシー保護の対象としているのは、特定、連絡、直接被害に関わる情報です。特定とは、ある個人であると特定できること。連絡とはその個人に電話や郵便や電子メールで連絡できること。直接被害とは、その個人に身体的、精神的、金銭的な被害を与えることを意味します。 

ではプライバシー技術とは何でしょうか? まだ、合意形成の途上ですが、プライバシー技術は以下の4つの機能を含む技術と考えられています。差分プライバシー、統合分析、秘密計算およびゼロ知識証明の4つです。

差分プライバシーとは、個々のデータが匿名化されていても特定されてしまう場合があるため、データ解析に影響を与えないように、工夫されたノイズを各個人のデータに付加して個人情報を守る技術です。つまり、元のデータを意図的に変更するということです。

Apple社はブラウザの入力から得た情報を蓄積して事業に活用していますが、入手したデータは差分プライバシー技術により加工され、仮に情報漏洩が起こったとしても、個人を特定できないように処理されているそうです。

生データを加工する行為は改ざんと呼ばれるので、「差分プライバシー技術はデータの改ざんだ」という人がいるかもしれません。しかし、プライバシーを守るための意図的なデータ加工は改ざんにはならないと認められつつあります。従来からの悪い改ざんと区別する必要があります。

次の統合分析は連合学習とも呼ばれています。従来は、データ解析をするならば、データを一か所にまとめて解析を行うのが効率的であり一般的でした。しかし、一か所にデータを集めると、全データをまとめて盗まれるリスクも高まります。

そこで、あちこちにデータが分散した状態で、それらのデータを使って統合的な解析ができることを意味しています。ディープラーニングには大量のデータが必要ですが、分散されたデータをつなぎ合わせて学習できるようにするこの技術は、その普及には必須と考えられています。 

次は秘密計算です。これは2つ以上の組織が互いの情報を秘密にしたままで、目的の計算処理を行い、ほしい結果だけを得られる計算方法です。秘密にしているので安心だと思いがちですが、1つ注意が必要です。

秘密計算でプライバシーは守られていたとしても、出てきた結果から個人を特定できてしまう場合があるためです。よって、秘密計算だけではプライバシー保護を出来ないと考えられています。前述の差分プライバシー技術とセットで使う必要があるということです。

秘密計算は、歴史的には秘匿回路、秘密分散、完全準同型暗号、準同型暗号という順番で実用化されてきました。どの技術も、秘密を明かさずに目的のデータ解析を実施し、結果を得ることができます。統計処理によって平均値と分散を知る、あるいは、入力したデータ間の相関性を知るなどが典型的な例です。 

秘匿回路というのは、目的のデータ解析を実行する論理回路をつくり、2つの組織が入力情報を秘匿しながら回路に入力し、結果だけを共有するという方法です。論理回路そのものは秘匿されていませんが、2つの組織の個々のデータに対する結果は出力されず、全データに対する結果だけが出てくる方法であり秘密を保護できます。

秘密分散は、秘密にしたいデータをある種の処理で複数に分割し、あたかもランダムなデータに変換します。しかし、これらのデータのうちの一定数が集まると復元が実行され、意味のあるデータに戻すことが出来る技術です。

データ解析は分割されたランダムに見えるデータのまま行いますが、最後に結果を集めて復元すると、意味のある結果が出てくるという仕掛けです。 

完全準同型暗号は、暗号のまま、任意の数学的処理をできる技術です。現状では処理に時間が掛かりすぎるため、暗号のまま足し算と掛け算だけを実行できる準同型暗号が実用ツールとして注目されています。ただ、どちらの場合も暗号鍵を安全に保管する必要があります。

世界におけるこれらの実験状況ですが、米国では2011年に医療統計に対して秘密分散計算の実験が開始されました。2013年にはDNAと疾病の相関解析も始まりました。2015年には、米露の人工衛星所有者が、互いに衛星軌道を明かさずに衝突の可能性の計算に適用されました。 

ゼロ知識証明は、ある知識を持っていることを、その知識に関する何の情報も使用せずに証明する手法のことです。魔法のように聞こえますが、現実世界でも良く行われています。例えば、どんな服装の人でも運転免許証、マイナンバーカード、社員証など(もちろん本物)を見せれば本物だと信じますよね。

この方法を用いると、例えば、パスワード自体は明かさずに、自分がパスワードを知っているという事実を証明することが可能です。一例は電子署名です。信頼された機関から発行された電子証明書を持っていれば、本人であることを信じてもらえます。

あるいは、信頼された機関から購入あるいは配布されたスマートフォンや暗号生成カードを持っているということが本人証明に使われる場合もあります。最近、増えてきましたね。プライバシー技術の文脈で考えると、お互いに身元がしっかり確認されていると嘘は付けないという原理を応用したものだと言えるでしょう。

さて、技術はどんどん進んでいきますが、法律上の解釈はどうなっているのでしょうか? 日本の個人情報保護法の解釈について、専門家の議論を整理してみましょう。 

個人情報にかかわる代表的なリスクは、特定、連結、連絡、属性推定、直接被害の5つと考えられていますが、前述したように、日本の個人情報保護法では、明確な配慮が必要なリスクは特定、連絡、直接被害の3つとされています。 

企業活動で起こりうる現実的な問題は個人情報の漏洩です。例えば、個人情報が、そのまま読んで認識可能な平文情報として漏洩した時には監督官庁への報告が義務付けられています。一方、データが暗号化など加工された状態で外部に流出した場合には報告義務は免除されます。 

前述の秘密計算の1つである秘密分散は、国際標準化された方法であり、安全性が確認されたものと考えて良いでしょう。一方、準同型暗号は国内の個人情報保護委員会ではまだ認められていません。 

秘密計算について、現行制度では解析のための第三者提供にあたって本人同意が必要とされています。しかし、世界的には、本人同意を不要とする方向に向かいつつあるようです。欧州の一部の国(IT先進国のエストニアです)では、すでに、秘密計算は個人情報の利用に当たらないとする事例も報告されています。

日本は保守的な風土なのでこの手の議論に対して動きが鈍いですが、一旦動き出すと変わり身が速い所もあります。欧州、米国が本格的に舵を切れば追随すると考えるのが自然です。今はその準備期間にあると考えられ、今のうちからプライバシー技術を適用したサービスを準備するかしないかで、その後の事業の盛衰に影響が及ぶケースも出てくるでしょう。 

政府機関、地方自治体、保険会社、銀行、健康保険組合、病院、鉄道会社、BtoC企業は大量の個人情報を持っています。個人的な見解ですが、個人情報が事業で最も役に立つのは保険会社ではないかと思います。

保険は、不幸な状況に陥ってしまった人を助ける仕組みであり、社会的にも必要な事業と言えます。しかし、事業である以上、赤字にはできません。個人情報を活用してリスクの見積り精度が上がれば、黒字を維持しつつ、偶発的な被害を受けた人たちを救済できるので、その社会的な意義は大きいと考えられます。

一方で、個人情報が洩れると社会的な信用を失い、また、賠償問題なども起こりえるため、個人情報を保持せずに、知りたいことだけを知ることができるのが理想です。ゼロ知識証明はそれを可能にできる技術と言われており、よって、保険に限らず、多くのビジネスと相性が良い技術だと言えるでしょう。

現時点では、ゼロ知識証明は単純な命題には使えるものの、複雑な命題にどこまで適用できるのかよく分かっていませんが、合法性が担保され、どんな複雑な命題にでも対応でき、使いやすいゼロ知識証明のツールが出てくればヒットしそうですね。