データ匿名化の落とし穴

前のポストを書いたときに、一体どこからデータを集めたのかが気になった。公開されていれば適当にスパイダーでも書けば集められるが、そんなに情報が公開されているのだろうか。ちょっと検索してみたら、面白いエントリーが出てきた:

Why Pete Warden Should Not Release Profile Data on 215 Million Facebook Users

先に紹介したエントリーを書いたPete Wardenを批判する記事だ。

[…] he exploited a flaw in Facebook’s architecture to access public profiles without needing to be signed in to a Facebook account, effectively avoiding being bound by Facebook’s Terms of Service preventing such automated harvesting of data. As a result, he amassed a database of names, fan pages, and lists of friends for 215 million public Facebook accounts.

ログインせずにFacebookの公開プロフィールにアクセスできる欠陥を利用して2.15億ものアカウントの名前・ファンページ・友達リストを収集したという。ログインしないことによって自動的にデータを収集することを禁じるFacebookの規約(Terms of Service)を回避したということだ。

二つの論点が提起されている:

First […] just because these Facebook users made their profiles publicly available does not mean they are fair game for scraping for research purposes.

一つ目は、公開プロフィールの意味付けだ。この情報は検索エンジンに収集されるし、Facebook内で検索すれば見ることができる。しかし、規約により自動収集は禁じられており、ユーザーもそういう目的に使われていることを想定しているわけではない。

Second, Warden’s release of this dataset — even with the best of intentions — poses a serious privacy threat to the subjects in the dataset, their friends, and perhaps unknown others.

データが収集されても、それが悪用されるのでなければ気にする人は少ないだろう。これはアメリカ人のプライバシーに対する一般的な態度だ。しかし、Pete Wardenはデータを研究目的で公開する予定であり、それを悪用する方法がある。

What is most dangerous is its potential use to help re-identify other datasets, ones that might contain much more sensitive or potentially damaging data.

そこで指摘されているのは、このデータが他の匿名化されたデータセットで個人を特定するのに利用できるのではないかということだ。この懸念は過去にNetflixが行っているコンテストで指摘されている。

Breaking the Netflix Prize dataset

In October last year, Netflix released over 100 million movie ratings made by 500,000 subscribers to their online DVD rental service. The company then offered a prize of $1million to anyone who could better the company’s system of DVD recommendation by 10 per cent or more.

DVDレンタル(及びストリーミング)を行うNetflixはユーザーにリコメンデーションシステムを改善するアイデアをコンテストを通じて募集し、そのために50万人のユーザーのデータを匿名化した上で公開した。

turns out that an individual’s set of ratings and the dates on which they were made are pretty unique, particularly if the ratings involve films outside the most popular 100 movies. So it’s straightforward to find a match by comparing the anonymized data against publicly available ratings on the Internet Movie Database (IMDb).

しかし、How To Break Anonymity of the Netflix Prize Datasetという研究はその匿名データからユーザーを特定する方法を明らかにした。ユーザーがつけたレーティングはユーザーごとに特徴的であり、それをネットで公開されているレビュー(IMDb)のレーティングと比べることで匿名化されているNetflixユーザーとIMDbのユーザーとを結びつけることができるという。

Netflixのレビューを非公開前提で書いた場合、この方法によってそれがIMDb上の個人のものと特定されてしまう。IMDbで実名を使用していた場合には現実の人物にまでたどり着く。(公開されていない)政治色・宗教色の強い映画に対するレビューから政治的・宗教的立場まで特定可能であり、これがプライバシーの観点から非常に重要な問題だということが分かる。

Warden’s rich dataset of 210 million Facebook users, complete with their names, locations, and social graphs, is just the ammunition needed to fuel a new wave of re-identification of presumed anonymous datasets. It is impossible to predict who might use Warden’s dataset and to what ends, but this threat is real.

Facebookの話に戻ると、個人名・所在地・興味・友達リストというデータが公開されれば、それらの情報(と関連する情報)を含む他の匿名データから個人を再特定する人・集団が出てくるだろう。今後、人間関係を含むデータが増えるのは確実でそういったデータを悪用されるおそれがある。日本で同じような事例があれば、遥かに大きな社会問題になるのは確実だ。

データ匿名化の落とし穴” への4件のコメント

  1. データの匿名性確保は難しいですね。結局どこまで開放するかは、公共の利益との兼ね合いで程度問題になってしまうので、法律的にスパッと片付けるのは無理そうです。

    日本はデータ開放が公共の利益になるという考え方自体がほとんどないですけど。

    • >結局どこまで開放するかは、公共の利益との兼ね合いで程度問題になってしまうので、法律的にスパッと片付けるのは無理そうです。

      個別事例によりますね。今回の件は個人がそれを行っている点が問題かもしれません。受け手も研究に使いたいので歓迎していますが、データに含まれる個人が全く意思決定プロセスに入っていないのはどうなんだという話があります。

      >日本はデータ開放が公共の利益になるという考え方自体がほとんどないですけど。

      まさに匿名性以前ですが、こういう問題があるとわかれば反対は一層強くなりそうです。官庁には結構データがあるんですけどね。。

  2. 日本政府が集計済みデータをなかなか公表しなかったり紙でしか公表しなかったりするのは情報を外に流したくないという動機があると思いますが、個票データについては国民がプライバシー保護に敏感すぎるという理由の方が大きい感じがします。センサス局並みに公表してしまったら、調査自体が難しくなりそうです。法律的には統計法とのからみもあるのだと思います。

    • 紙で公表されたものを人を雇って打ち込ませるなんてあほな話は聞きます。

      個票データは日本では絶望的ですね。プライバシーへの意識がまるっきり違いますから。

      ただ同時に政府がデータを囲い込んでいる側面はあります。プライバシーが問題なら政府が相手でも同じはずなんですが。。。

コメントは受け付けていません。