ウェブでの匿名性

ウェブでの匿名性なんてそもそも存在しないというお話:

IT / ウェブの匿名性はもはや名ばかり ─ 瞬時に明かされるあなたの身元

消費者の名前は得られないが、このデータを住宅保有者や世帯収入、結婚歴、好みのレストランなどの記録と相互参照させる。その後、統計分析を施し、個々のウェブ・サーファーのし好について推測を始める。

企業が消費者のアクセスを追跡し、外部のデータと照合することで嗜好を推定する。外部のデータを使うことがアマゾンなどとは違うという。消費者の名前は得られない、とあるが十分なデータがあれば個人名まで遡れることもできると考えるべきだろう。

個人の嗜好が分かれば人によって異なる価格を提示することで売り手は収益を増やすことができるため、こういったサービスを提供する企業が次々に出てくるのは明らかだ。

このことから二つの問題が生じる

  1. 差別を禁止する規制の有名無実化
  2. プライバシー保護のエンフォースメントの困難化

まず、差別との関係だ。異なる価格を提示する価格差別は一般的に禁止されていない。価格差別が消費者や社会全体にとって必ずしも悪いことではないからだ(むしろプラスであるケースが多い)。

金融サービス業界では、公平な融資に関する法律により人種、肌の色、宗教、出身国、性別、公的支援の受け取りや婚姻暦に基づく差別が禁じられている。

但し、例外として人種などの差別を禁止する法律はある。雇用においても人種による差別は違法だ。しかし、他の情報から最適な価格を設定した結果としてほぼ人種毎に差が生じたとしてもそれを罰することはできないだろう。

もう一つはプライバシー保護のエンフォースメントだ。大抵の企業は情報を集めるときに(特別な理由がなければ)自社でしかデータを利用しないと謳っている。しかし、現実にはこのように多くのデータが参照される。データの出所(とそれを知っていて利用したこと)を立証するのは困難なので実質的にプライバシーを守ることは難しくなる。外部(海外)の企業が分析の結果だけを提供するようなスキームならもはや取り締まりようがないように思える。

個人レベルでは匿名性はないものとして行動する他ないだろうが、政策的な対応も必要だろう。

定年後の労働

定年に関する面白いグラフがあったのでご紹介。

OECD: Factblog: Keep on working …

上のグラフは国別の実際の平均引退年齢(青)と引退してからの平均年数(薄茶)表している。日本や韓国の労働年数の長さが目立つ。特に韓国の引退してからの年数は非常に短い。

下のグラフは引退してからの年数をより詳しく説明している。バーの長さが引退してからの年数、薄い部分はそのうち法的な定年より前の部分を表している。例えば最も引退年数が長いフランスはは法的な定年後がほとんど。これは定年が低いためだろう。逆にオーストラリアでは法的な定年より前に引退する人が多いようだ。日本はどうかというか引退してからの年数も短く、かつ定年より前に引退生活に入るというのは珍しいことが分かる。

元データはOECD Society at a Glanceでオンラインで入手できる。上のグラフはtableauに保存されたもので、サイト上では国別の数字などより詳細な情報も見ることができるようになっている。

忍者になろう

面白い労働市場のトレンド(ht @eurodollari

LinkedIn Observes The Rise of Professional Ninjas!

ビジネス向けのSNSであるLinkedInが新しいタイトルの指数関数的な伸びをブログで指摘している。それはNinjaというタイトルだ。

Other ninjas come from the social media, computing and design sectors. Professionals in customer service, advertising and finance have their share of ninjas too

ソーシャルメディア・コンピューティング・デザインなどに多いタイトルだがカスタマーサービスや広告、ファイナンスにも見られるそうだ。クリエイティブなイメージを出したいプロフェッショナルに受けているのだろう。似たようなタイトルとしては本来は伝道者を意味するEvangelistや導師を意味するguruなんかがある。

但し、guruのほうが新鮮味が薄れているようで最近は人気が落ちている模様だ。次はどんなタイトルが流行るのだろうか。

大規模なSNSは今まで存在しなかったデータをコントロールしており、その一部をこのようにブログなどで発表している。特にデーティングサイトであるOkCupidのブログはよく注目を集まている(出会い系最適メッセージ)。各社はこの膨大なデータを活用するために専門家を雇っており、統計屋さんの需要はさらに上がっていくだろう。

データ匿名化の落とし穴

前のポストを書いたときに、一体どこからデータを集めたのかが気になった。公開されていれば適当にスパイダーでも書けば集められるが、そんなに情報が公開されているのだろうか。ちょっと検索してみたら、面白いエントリーが出てきた:

Why Pete Warden Should Not Release Profile Data on 215 Million Facebook Users

先に紹介したエントリーを書いたPete Wardenを批判する記事だ。

[…] he exploited a flaw in Facebook’s architecture to access public profiles without needing to be signed in to a Facebook account, effectively avoiding being bound by Facebook’s Terms of Service preventing such automated harvesting of data. As a result, he amassed a database of names, fan pages, and lists of friends for 215 million public Facebook accounts.

ログインせずにFacebookの公開プロフィールにアクセスできる欠陥を利用して2.15億ものアカウントの名前・ファンページ・友達リストを収集したという。ログインしないことによって自動的にデータを収集することを禁じるFacebookの規約(Terms of Service)を回避したということだ。

二つの論点が提起されている:

First […] just because these Facebook users made their profiles publicly available does not mean they are fair game for scraping for research purposes.

一つ目は、公開プロフィールの意味付けだ。この情報は検索エンジンに収集されるし、Facebook内で検索すれば見ることができる。しかし、規約により自動収集は禁じられており、ユーザーもそういう目的に使われていることを想定しているわけではない。

Second, Warden’s release of this dataset — even with the best of intentions — poses a serious privacy threat to the subjects in the dataset, their friends, and perhaps unknown others.

データが収集されても、それが悪用されるのでなければ気にする人は少ないだろう。これはアメリカ人のプライバシーに対する一般的な態度だ。しかし、Pete Wardenはデータを研究目的で公開する予定であり、それを悪用する方法がある。

What is most dangerous is its potential use to help re-identify other datasets, ones that might contain much more sensitive or potentially damaging data.

そこで指摘されているのは、このデータが他の匿名化されたデータセットで個人を特定するのに利用できるのではないかということだ。この懸念は過去にNetflixが行っているコンテストで指摘されている。

Breaking the Netflix Prize dataset

In October last year, Netflix released over 100 million movie ratings made by 500,000 subscribers to their online DVD rental service. The company then offered a prize of $1million to anyone who could better the company’s system of DVD recommendation by 10 per cent or more.

DVDレンタル(及びストリーミング)を行うNetflixはユーザーにリコメンデーションシステムを改善するアイデアをコンテストを通じて募集し、そのために50万人のユーザーのデータを匿名化した上で公開した。

turns out that an individual’s set of ratings and the dates on which they were made are pretty unique, particularly if the ratings involve films outside the most popular 100 movies. So it’s straightforward to find a match by comparing the anonymized data against publicly available ratings on the Internet Movie Database (IMDb).

しかし、How To Break Anonymity of the Netflix Prize Datasetという研究はその匿名データからユーザーを特定する方法を明らかにした。ユーザーがつけたレーティングはユーザーごとに特徴的であり、それをネットで公開されているレビュー(IMDb)のレーティングと比べることで匿名化されているNetflixユーザーとIMDbのユーザーとを結びつけることができるという。

Netflixのレビューを非公開前提で書いた場合、この方法によってそれがIMDb上の個人のものと特定されてしまう。IMDbで実名を使用していた場合には現実の人物にまでたどり着く。(公開されていない)政治色・宗教色の強い映画に対するレビューから政治的・宗教的立場まで特定可能であり、これがプライバシーの観点から非常に重要な問題だということが分かる。

Warden’s rich dataset of 210 million Facebook users, complete with their names, locations, and social graphs, is just the ammunition needed to fuel a new wave of re-identification of presumed anonymous datasets. It is impossible to predict who might use Warden’s dataset and to what ends, but this threat is real.

Facebookの話に戻ると、個人名・所在地・興味・友達リストというデータが公開されれば、それらの情報(と関連する情報)を含む他の匿名データから個人を再特定する人・集団が出てくるだろう。今後、人間関係を含むデータが増えるのは確実でそういったデータを悪用されるおそれがある。日本で同じような事例があれば、遥かに大きな社会問題になるのは確実だ。

Facebookで地図を色分け

Facebookのデータを使って、アメリカを七つに分けてみたというエントリー:

PeteSearch: How to split up the US

My latest visualization shows the information by location, with connections drawn between places that share friends.

点はユーザーが存在する都市で、線はfriend関係を指しているようだ。州レベルや国レベルのバージョンも用意されている。friendが出来るのはその場所に学校・仕事などで住んだことがある場合がほとんどなので、人々がどう地域間を移動しているかを間接的に表している。さらに、クラスター毎にどのような人やグループが人気なのかも分かる。

ニューヨークからミネソタにかけてはあまり移動がないようでStayathomiaと名付けている。この地域はGodの人気がなくビールやスポーツが人気だそうだ。

Dixieはアトランタを中心とした地域で同じく閉鎖的。南にフロリダだけは別枠で東海岸の都市と強いコネクションがある。これはフロリダに移住する人が多いからだろう(Facebookには中年以上のユーザーも多いし、子供もいれば反映される)。この地域はGodがファンページのトップにくる宗教色の強い地域だ。

Greater Texasは名前通りTexasのDallasを中心としたクラスター。どの都市もDallasと強いコネクションがある。やはりGodが人気。ルイジアナのAlexandriaではAhmed、Mohamedが二番目、三番目に多かったり、テキサスのLaredoではJuan, Jose, Calros, Louisが最も多かったり、地域色が出ていて面白い。

Mormoniaはモルモンとの関連があると思われる地域で、外部とのコネクションが少ない。

Nomadic Westは中西部のだだっ広い地域で、コネクションが遠距離に渡っているのが特徴。外に出て行くほかないということだろうか。Starbucksが人気(?)だそうだ。

Socalistanはカリフォルニアをカバーする。公立大学のシステムからいって州内での(特に若い世代)の移動は盛んなので人口の多いカリフォルニアがクラスターになるのは理解出来る。Socalというのは南カリフォルニアのことでLAが中心であることを示している。ちなみにサンフランシスコではオバマが最も人気のある人物だそうだ。

最後はPacificaでこれはシアトル近辺のクラスターだが、特筆すべき情報は公開されていない。

この分割は数学的アルゴリズムで得られたものではなく、目視で色分けした程度のもののようだが、コメント欄などから察するにアメリカ人の感覚には近いようだ(逆にその感覚によって色分けが影響されている面があるのだろう)。