Posts Tagged ‘CS’

データ匿名化の落とし穴

February 16th, 2010

前のポストを書いたときに、一体どこからデータを集めたのかが気になった。公開されていれば適当にスパイダーでも書けば集められるが、そんなに情報が公開されているのだろうか。ちょっと検索してみたら、面白いエントリーが出てきた:

Why Pete Warden Should Not Release Profile Data on 215 Million Facebook Users

先に紹介したエントリーを書いたPete Wardenを批判する記事だ。

[...] he exploited a flaw in Facebook’s architecture to access public profiles without needing to be signed in to a Facebook account, effectively avoiding being bound by Facebook’s Terms of Service preventing such automated harvesting of data. As a result, he amassed a database of names, fan pages, and lists of friends for 215 million public Facebook accounts.

ログインせずにFacebookの公開プロフィールにアクセスできる欠陥を利用して2.15億ものアカウントの名前・ファンページ・友達リストを収集したという。ログインしないことによって自動的にデータを収集することを禁じるFacebookの規約(Terms of Service)を回避したということだ。

二つの論点が提起されている:

First [...] just because these Facebook users made their profiles publicly available does not mean they are fair game for scraping for research purposes.

一つ目は、公開プロフィールの意味付けだ。この情報は検索エンジンに収集されるし、Facebook内で検索すれば見ることができる。しかし、規約により自動収集は禁じられており、ユーザーもそういう目的に使われていることを想定しているわけではない。

Second, Warden’s release of this dataset — even with the best of intentions — poses a serious privacy threat to the subjects in the dataset, their friends, and perhaps unknown others.

データが収集されても、それが悪用されるのでなければ気にする人は少ないだろう。これはアメリカ人のプライバシーに対する一般的な態度だ。しかし、Pete Wardenはデータを研究目的で公開する予定であり、それを悪用する方法がある。

What is most dangerous is its potential use to help re-identify other datasets, ones that might contain much more sensitive or potentially damaging data.

そこで指摘されているのは、このデータが他の匿名化されたデータセットで個人を特定するのに利用できるのではないかということだ。この懸念は過去にNetflixが行っているコンテストで指摘されている。

Breaking the Netflix Prize dataset

In October last year, Netflix released over 100 million movie ratings made by 500,000 subscribers to their online DVD rental service. The company then offered a prize of $1million to anyone who could better the company’s system of DVD recommendation by 10 per cent or more.

DVDレンタル(及びストリーミング)を行うNetflixはユーザーにリコメンデーションシステムを改善するアイデアをコンテストを通じて募集し、そのために50万人のユーザーのデータを匿名化した上で公開した。

turns out that an individual’s set of ratings and the dates on which they were made are pretty unique, particularly if the ratings involve films outside the most popular 100 movies. So it’s straightforward to find a match by comparing the anonymized data against publicly available ratings on the Internet Movie Database (IMDb).

しかし、How To Break Anonymity of the Netflix Prize Datasetという研究はその匿名データからユーザーを特定する方法を明らかにした。ユーザーがつけたレーティングはユーザーごとに特徴的であり、それをネットで公開されているレビュー(IMDb)のレーティングと比べることで匿名化されているNetflixユーザーとIMDbのユーザーとを結びつけることができるという。

Netflixのレビューを非公開前提で書いた場合、この方法によってそれがIMDb上の個人のものと特定されてしまう。IMDbで実名を使用していた場合には現実の人物にまでたどり着く。(公開されていない)政治色・宗教色の強い映画に対するレビューから政治的・宗教的立場まで特定可能であり、これがプライバシーの観点から非常に重要な問題だということが分かる。

Warden’s rich dataset of 210 million Facebook users, complete with their names, locations, and social graphs, is just the ammunition needed to fuel a new wave of re-identification of presumed anonymous datasets. It is impossible to predict who might use Warden’s dataset and to what ends, but this threat is real.

Facebookの話に戻ると、個人名・所在地・興味・友達リストというデータが公開されれば、それらの情報(と関連する情報)を含む他の匿名データから個人を再特定する人・集団が出てくるだろう。今後、人間関係を含むデータが増えるのは確実でそういったデータを悪用されるおそれがある。日本で同じような事例があれば、遥かに大きな社会問題になるのは確実だ。

ナッシュ均衡は本当に見つかるのか

November 10th, 2009

ゲーム理論とコンピュータサイエンスとの関わりについて:

What computer science can teach economics

ゲーム理論はビジネススクールでも教えられる程、現代社会では重要な分野となっている。しかし、ゲーム理論の課題の一つに、均衡が存在するとしてそれを本当に経済主体がそれを発見できるのかという問題がある。これに対しMITのConstantinos Daskalakisによる研究が紹介されている(BerkeleyでのPh.D. Dissertationだ)。

ナッシュ均衡自体については説明は必要ないだろう。非協力ゲームのおいて、他のプレーヤーの戦略を所与としたときにどのプレーヤーも自分の戦略を変更することで利得を増やすことができないような戦略の組である。

In soccer, a penalty kick gives the offensive player a shot on goal with only the goalie defending. The goalie has so little reaction time that she has to guess which half of the goal to protect just as the ball is struck; the shooter tries to go the opposite way. In the game-theory version, the goalie always wins if both players pick the same half of the goal, and the shooter wins if they pick different halves. So each player has two strategies — go left or go right — and there are two outcomes — kicker wins or goalie wins.

It’s probably obvious that the best strategy for both players is to randomly go left or right with equal probability; that way, both will win about half the time. And indeed, that pair of strategies is what’s called the “Nash equilibrium” for the game.

記事中ではサッカーのペナルティーキックが上げられている。キッカーとキーパーは右と左の二つの選択肢しか持っていない。キーパーはキッカーの動きを見てから行動する暇がないのでこれは実質的に二人の行動は同時に起きていると考えられる。この時、最適な戦略は右と左を同じ確率で選択することだ。相手がそういしているならこちらが確率を変えても結果は同じだ。これがペナルティーキックというゲームのナッシュ均衡になっている。

Of course, most games are more complicated than the penalty-kick game, and their Nash equilibria are more difficult to calculate. But the reason the Nash equilibrium is associated with Nash’s name  — and not the names of other mathematicians who, over the preceding century, had described Nash equilibria for particular games — is that Nash was the first to prove that every game must have a Nash equilibrium.

大抵のゲームはペナルティーキックよりも複雑であり、ナッシュ均衡もまた計算が困難だ。ジョン・ナッシュが素晴らしいのは、均衡概念を定義した点ではなく、どんなゲームもナッシュ均衡を持つことを証明四タテんである。

Many economists assume that, while the Nash equilibrium for a particular market may be hard to find, once found, it will accurately describe the market’s behavior.

そしてエコノミストの多くはナッシュ均衡を実際に見つけるのが困難であっても、一度見つかれば市場の行動を性格に記述すると仮定している。

Daskalakis, working with Christos Papadimitriou of the University of California, Berkeley, and the University of Liverpool’s Paul Goldberg, has shown that for some games, the Nash equilibrium is so hard to calculate that all the computers in the world couldn’t find it in the lifetime of the universe.

紹介されている論文は、このようなエコノミストの仮定に疑問を投げかけるものだ。それによれば、いくつかのゲームにおいて(存在することは証明されている)ナッシュ均衡を見つけるのは極めて困難で、全世界のコンピュータを世界が終わるまで使いつづけても見つからないという。

The argument has some empirical support. Approximations of the Nash equilibrium for two-player poker have been calculated, and professional poker players tend to adhere to it — particularly if they’ve read any of the many books or articles on game theory’s implications for poker. The Nash equilibrium for three-player poker, however, is intractably hard to calculate, and professional poker players don’t seem to have found it.

このことは実証面でも支持されている。二人ポーカーのナッシュ均衡は計算されているし、実際のプレーヤーの行動もそれに近い。しかし三人ポーカーのナッシュ均衡は計算が困難でプロプレーヤーもそれを発見しているようには思われない。

Daskalakis’s thesis showed that the Nash equilibrium belongs to a set of problems that is well studied in computer science: those whose solutions may be hard to find but are always relatively easy to verify.

DaskalakisはこれをコンピュータサイエンスにおけるP/NP問題として捉える。ナッシュ均衡の計算は、解を得るのが難しいが確認するのは簡単なNP問題の一種だと証明した。

これに対し彼は三つの方向性を提示している:

One is to say, We know that there exist games that are hard, but maybe most of them are not hard.”

一つは、計算が簡単なナッシュ均衡の集合を確定すること、

The second route, Daskalakis says, is to find mathematical models other than Nash equilibria to characterize markets — models that describe transition states on the way to equilibrium, for example, or other types of equilibria that aren’t so hard to calculate.

二つ目はナッシュ均衡とは異なる概念を用いること、

Finally, he says, it may be that where the Nash equilibrium is hard to calculate, some approximation of it — where the players’ strategies are almost the best responses to their opponents’ strategies — might not be.

三つ目は近似的な解を見つけることだ。

応用分野であればそもそも解の計算が非常に困難なモデルを避けるのが普通だから三つ目の対策にあたるだろうか。