ISPでの個人情報収集の是非

総務省がISPレベルでの情報収集・広告配信を容認したというニュースが話題になっているが、どうも批判のポイントがずれているような気がする。

“web(画面)上の契約約款なんてみんな読まずに同意する”ことを前提にしちゃったら、「個人情報の収集・利用のオプトイン同意」ってどう取ればいいの?

企業法務マンサバイバルさんのこの記事が非常に分かりやすい整理になっている:

DPI(ディープ・パケット・インスペクション)による個人情報収集・利用の基本的な法的論点について網羅的に検討・言及され、同意がなければ違法であることも断言されています。

まず当然ながら個人情報収集に同意が必要であるということが確認されている。

作業部会に参加した一人は「総務省の事務方は積極的だったが、参加者の間では慎重論がかなり強かった。ただ、『利用者の合意があれば良いのでは』という意見に反対する法的根拠が見つからなかった」と話している。

では合意がある場合はどうか。朝日新聞の記事の最後には、総務省としては合意がある場合でも認めない法的根拠がないという話が紹介されている。総務省は行政府なのだから、例えこの個別案件について認めないことが望ましいとしても、根拠がなければ認めるというのは妥当だろう。法律のバックアップなしに勝手に規制を作り出してしまうのでは困る

web(画面)上の契約約款だとどうせ読まないから同意したとは認めないが、紙の契約書だったらちゃんと読むだろうからOKっていうのはもうやめませんか。

この指摘はもっともだ。当事者が同意した契約を尊重するのは円滑な経済行動に必須の条件だ。ウェブ上ならダメ、紙ならオーケーというような曖昧な規定は必要のない不確実性を与える。

しかし、ISPレベルでの情報収集に大きな問題があるのは事実だ。きちんと法的根拠を準備するという前提ではDPIを規制する理由が多々ある。まず、現実問題としてISPの契約約款を全部読んで理解するというのは社会的費用が大きすぎる。契約に際しての費用を減らすために契約内容をある程度標準化するべきだ。

また、ISPの契約が世帯単位であることを考えれば、利用者と合意がとれたと考えるのも難しい。もし多くの消費者にとってメリットがないのであればDPIはオプトインないし専用プランとするのが妥当だろう。契約の自由を大きく妨げるものではないし、DPIのメリットを享受できない消費者は標準的プランを利用すればいいだけだ。

DPIのないプランの提供を義務付けることも検討すべきだ。自由契約は当事者が得をするという意味で望ましいが、それが最適であるとは限らない。地方などでISPの競争がほとんど存在しない場合、ISPがDPIを実質的に押し付けることができる。独占・寡占状態に関しては競争政策で対応するのが筋だろうが、インフラ産業≒自然独占であるため競争を促すよりも規制で対応すべき状況も多い。

DPIの導入を検討している大手プロバイダー、NECビッグローブの飯塚久夫社長は「個人の特定につながらないよう、集めた情報はいつまでも保存せず、一定期間が過ぎたら捨てる。(プライバシーの侵害目的だと)誤解されたら全部アウト。業界で自主規制が必要だ」と話す。

消費者がプライバシーを重視すればISPが自主規制するインセンティブを持つが、自主規制ではそれが実際にエンフォースされているかの確認をするのが難しいので行政が関与する余地はある

その延長線上には、DPI自体を規制することも含まれる。DPIを歓迎するユーザーが少なければそれを利用するISPもなくなるわけで包括的に規制することも正当化できる。規制の是非についてはアンケートなどを通じて調べることもできるし、とりあえず諸外国の反応を見てから考えてもいい。

一方、新潟大の鈴木正朝教授(情報法)は「DPIは平たく言えば盗聴器。大手の業者には総務省の目が届いても、無数にある小規模業者の監視は難しい。利用者が他人に知られたくない情報が勝手に読み取られ、転売されるかもしれない。業者がうそをつくことを前提にした制度設計が必要だ」と話す。

小規模事業者の監視が難しいというのはその通りだ。流出した情報は取り戻せないし、補償を行う原資もないだろう。

また、逆に大手業者については総務省の目が届くというのは恐ろしいことだ。アメリカでAT&Tが盗聴に協力したのはそれほど昔のことではない。個人の詳細なアクセス情報が大企業に集まるということは政府による干渉を容易にする。個人的にはこちらの方が商用利用よりも大きな脅威のように思われる。

総務省の対応は仕方ないだろうが、早急な対応が望まれる。

Openbook

ソーシャルネットワークねたが続きますが、Openbookというのは新世代のオープン型ネットワークではなく、Facebookのパロディだ:

Openbook – Connect and share whether you want to or not

OpenbookはFacebookで全世界に公開されているステータスを検索できるサイトだ。上のスクリーンショットでは「おはよう」を検索してみた(ちなみにRecent Searchesにある日本語は私が入力したものではない)。日本人以外にもなかなか人気の単語であることが分かる。Facebookにしては本人の顔写真が少ないのも特徴だ(日本語が好きな外国人を想像すればわかるが)。

このサイトの目的は別にこうやって遊ぶためではなく、Facebookにおけるプライバシーを啓蒙することだ。「Facebookの使い方」に書いたように、Facebookにはかなり細かいプライバシー設定機能がある。きちんと利用すればかなり思い通りのアクセスコントロールが可能だ。しかし、デフォルトでのプライバシー設定は徐々に甘くなっており、設定を変更しないと相当な情報が世界中に検索可能な形で公開されるので気を付けたい。

レピュテーションとプライバシー

実名・匿名の問題は、名前を売ってレピュテーションを上げることとプライバシーとの兼ね合いだ。実名利用が一般的なアメリカではどのようなバランスがとられているのだろう。

How people monitor their identity and search for others online

  • 57%のネットユーザーが、自分に関する情報を検索してモニターしている
  • 46%が、ソーシャルネットワークにプロフィールを持っている
  • 46%は昔の知り合いを、38%が友達について検索している

どの数字も上昇傾向にあり、ネット上で他人の情報を集めると同時に自分もまたその対象となっていることを認識されている様が見て取れる。

  • 18-29歳の44%はネットに公開する情報を制限している
  • 71%はソーシャルネットワークでのプライバシー設定を変更している

若い世代の話かと思えばそうでもない。18-29歳のの28%はFacebook, MySpace, LinkedInなどのソーシャルネットワークを全く信用しておらず、これは他の世代よりも高い数字だ。プライバシーは若者にも重視されており、情報をオンラインにすると同時にその管理に力を入れている。

  • 31%のネットユーザーは同僚や専門家、競争相手を検索している
  • 16%はデートの相手や交際相手を検索している

このような状況で、自分の情報がどうオンラインで流れているかに慎重になるのは自然なことだろう。ECサイトがSEOに労力を割くのと変わらない。

  • 27%の仕事を持っているユーザーは職場でオンラインでの活動についてルールがあると述べている
  • 12%は業務の一環としてオンライン上で自分を売り出す(market)する必要があると述べている(男性は15%、女性は7%)

さらにオンラインでのあり方が仕事にも繋がり始めている。多くの人は情報を限定的に公開し、その流れを自分でコントロールできるようなプラットフォームを求めているともいえ、Facebookが最大のソーシャルネットワークになったことも頷ける。

データ匿名化の落とし穴

前のポストを書いたときに、一体どこからデータを集めたのかが気になった。公開されていれば適当にスパイダーでも書けば集められるが、そんなに情報が公開されているのだろうか。ちょっと検索してみたら、面白いエントリーが出てきた:

Why Pete Warden Should Not Release Profile Data on 215 Million Facebook Users

先に紹介したエントリーを書いたPete Wardenを批判する記事だ。

[…] he exploited a flaw in Facebook’s architecture to access public profiles without needing to be signed in to a Facebook account, effectively avoiding being bound by Facebook’s Terms of Service preventing such automated harvesting of data. As a result, he amassed a database of names, fan pages, and lists of friends for 215 million public Facebook accounts.

ログインせずにFacebookの公開プロフィールにアクセスできる欠陥を利用して2.15億ものアカウントの名前・ファンページ・友達リストを収集したという。ログインしないことによって自動的にデータを収集することを禁じるFacebookの規約(Terms of Service)を回避したということだ。

二つの論点が提起されている:

First […] just because these Facebook users made their profiles publicly available does not mean they are fair game for scraping for research purposes.

一つ目は、公開プロフィールの意味付けだ。この情報は検索エンジンに収集されるし、Facebook内で検索すれば見ることができる。しかし、規約により自動収集は禁じられており、ユーザーもそういう目的に使われていることを想定しているわけではない。

Second, Warden’s release of this dataset — even with the best of intentions — poses a serious privacy threat to the subjects in the dataset, their friends, and perhaps unknown others.

データが収集されても、それが悪用されるのでなければ気にする人は少ないだろう。これはアメリカ人のプライバシーに対する一般的な態度だ。しかし、Pete Wardenはデータを研究目的で公開する予定であり、それを悪用する方法がある。

What is most dangerous is its potential use to help re-identify other datasets, ones that might contain much more sensitive or potentially damaging data.

そこで指摘されているのは、このデータが他の匿名化されたデータセットで個人を特定するのに利用できるのではないかということだ。この懸念は過去にNetflixが行っているコンテストで指摘されている。

Breaking the Netflix Prize dataset

In October last year, Netflix released over 100 million movie ratings made by 500,000 subscribers to their online DVD rental service. The company then offered a prize of $1million to anyone who could better the company’s system of DVD recommendation by 10 per cent or more.

DVDレンタル(及びストリーミング)を行うNetflixはユーザーにリコメンデーションシステムを改善するアイデアをコンテストを通じて募集し、そのために50万人のユーザーのデータを匿名化した上で公開した。

turns out that an individual’s set of ratings and the dates on which they were made are pretty unique, particularly if the ratings involve films outside the most popular 100 movies. So it’s straightforward to find a match by comparing the anonymized data against publicly available ratings on the Internet Movie Database (IMDb).

しかし、How To Break Anonymity of the Netflix Prize Datasetという研究はその匿名データからユーザーを特定する方法を明らかにした。ユーザーがつけたレーティングはユーザーごとに特徴的であり、それをネットで公開されているレビュー(IMDb)のレーティングと比べることで匿名化されているNetflixユーザーとIMDbのユーザーとを結びつけることができるという。

Netflixのレビューを非公開前提で書いた場合、この方法によってそれがIMDb上の個人のものと特定されてしまう。IMDbで実名を使用していた場合には現実の人物にまでたどり着く。(公開されていない)政治色・宗教色の強い映画に対するレビューから政治的・宗教的立場まで特定可能であり、これがプライバシーの観点から非常に重要な問題だということが分かる。

Warden’s rich dataset of 210 million Facebook users, complete with their names, locations, and social graphs, is just the ammunition needed to fuel a new wave of re-identification of presumed anonymous datasets. It is impossible to predict who might use Warden’s dataset and to what ends, but this threat is real.

Facebookの話に戻ると、個人名・所在地・興味・友達リストというデータが公開されれば、それらの情報(と関連する情報)を含む他の匿名データから個人を再特定する人・集団が出てくるだろう。今後、人間関係を含むデータが増えるのは確実でそういったデータを悪用されるおそれがある。日本で同じような事例があれば、遥かに大きな社会問題になるのは確実だ。