Posts Tagged ‘Facebook’

データ匿名化の落とし穴

February 16th, 2010

前のポストを書いたときに、一体どこからデータを集めたのかが気になった。公開されていれば適当にスパイダーでも書けば集められるが、そんなに情報が公開されているのだろうか。ちょっと検索してみたら、面白いエントリーが出てきた:

Why Pete Warden Should Not Release Profile Data on 215 Million Facebook Users

先に紹介したエントリーを書いたPete Wardenを批判する記事だ。

[...] he exploited a flaw in Facebook’s architecture to access public profiles without needing to be signed in to a Facebook account, effectively avoiding being bound by Facebook’s Terms of Service preventing such automated harvesting of data. As a result, he amassed a database of names, fan pages, and lists of friends for 215 million public Facebook accounts.

ログインせずにFacebookの公開プロフィールにアクセスできる欠陥を利用して2.15億ものアカウントの名前・ファンページ・友達リストを収集したという。ログインしないことによって自動的にデータを収集することを禁じるFacebookの規約(Terms of Service)を回避したということだ。

二つの論点が提起されている:

First [...] just because these Facebook users made their profiles publicly available does not mean they are fair game for scraping for research purposes.

一つ目は、公開プロフィールの意味付けだ。この情報は検索エンジンに収集されるし、Facebook内で検索すれば見ることができる。しかし、規約により自動収集は禁じられており、ユーザーもそういう目的に使われていることを想定しているわけではない。

Second, Warden’s release of this dataset — even with the best of intentions — poses a serious privacy threat to the subjects in the dataset, their friends, and perhaps unknown others.

データが収集されても、それが悪用されるのでなければ気にする人は少ないだろう。これはアメリカ人のプライバシーに対する一般的な態度だ。しかし、Pete Wardenはデータを研究目的で公開する予定であり、それを悪用する方法がある。

What is most dangerous is its potential use to help re-identify other datasets, ones that might contain much more sensitive or potentially damaging data.

そこで指摘されているのは、このデータが他の匿名化されたデータセットで個人を特定するのに利用できるのではないかということだ。この懸念は過去にNetflixが行っているコンテストで指摘されている。

Breaking the Netflix Prize dataset

In October last year, Netflix released over 100 million movie ratings made by 500,000 subscribers to their online DVD rental service. The company then offered a prize of $1million to anyone who could better the company’s system of DVD recommendation by 10 per cent or more.

DVDレンタル(及びストリーミング)を行うNetflixはユーザーにリコメンデーションシステムを改善するアイデアをコンテストを通じて募集し、そのために50万人のユーザーのデータを匿名化した上で公開した。

turns out that an individual’s set of ratings and the dates on which they were made are pretty unique, particularly if the ratings involve films outside the most popular 100 movies. So it’s straightforward to find a match by comparing the anonymized data against publicly available ratings on the Internet Movie Database (IMDb).

しかし、How To Break Anonymity of the Netflix Prize Datasetという研究はその匿名データからユーザーを特定する方法を明らかにした。ユーザーがつけたレーティングはユーザーごとに特徴的であり、それをネットで公開されているレビュー(IMDb)のレーティングと比べることで匿名化されているNetflixユーザーとIMDbのユーザーとを結びつけることができるという。

Netflixのレビューを非公開前提で書いた場合、この方法によってそれがIMDb上の個人のものと特定されてしまう。IMDbで実名を使用していた場合には現実の人物にまでたどり着く。(公開されていない)政治色・宗教色の強い映画に対するレビューから政治的・宗教的立場まで特定可能であり、これがプライバシーの観点から非常に重要な問題だということが分かる。

Warden’s rich dataset of 210 million Facebook users, complete with their names, locations, and social graphs, is just the ammunition needed to fuel a new wave of re-identification of presumed anonymous datasets. It is impossible to predict who might use Warden’s dataset and to what ends, but this threat is real.

Facebookの話に戻ると、個人名・所在地・興味・友達リストというデータが公開されれば、それらの情報(と関連する情報)を含む他の匿名データから個人を再特定する人・集団が出てくるだろう。今後、人間関係を含むデータが増えるのは確実でそういったデータを悪用されるおそれがある。日本で同じような事例があれば、遥かに大きな社会問題になるのは確実だ。

Facebookで地図を色分け

February 16th, 2010

Facebookのデータを使って、アメリカを七つに分けてみたというエントリー:

PeteSearch: How to split up the US

My latest visualization shows the information by location, with connections drawn between places that share friends.

点はユーザーが存在する都市で、線はfriend関係を指しているようだ。州レベルや国レベルのバージョンも用意されている。friendが出来るのはその場所に学校・仕事などで住んだことがある場合がほとんどなので、人々がどう地域間を移動しているかを間接的に表している。さらに、クラスター毎にどのような人やグループが人気なのかも分かる。

ニューヨークからミネソタにかけてはあまり移動がないようでStayathomiaと名付けている。この地域はGodの人気がなくビールやスポーツが人気だそうだ。

Dixieはアトランタを中心とした地域で同じく閉鎖的。南にフロリダだけは別枠で東海岸の都市と強いコネクションがある。これはフロリダに移住する人が多いからだろう(Facebookには中年以上のユーザーも多いし、子供もいれば反映される)。この地域はGodがファンページのトップにくる宗教色の強い地域だ。

Greater Texasは名前通りTexasのDallasを中心としたクラスター。どの都市もDallasと強いコネクションがある。やはりGodが人気。ルイジアナのAlexandriaではAhmed、Mohamedが二番目、三番目に多かったり、テキサスのLaredoではJuan, Jose, Calros, Louisが最も多かったり、地域色が出ていて面白い。

Mormoniaはモルモンとの関連があると思われる地域で、外部とのコネクションが少ない。

Nomadic Westは中西部のだだっ広い地域で、コネクションが遠距離に渡っているのが特徴。外に出て行くほかないということだろうか。Starbucksが人気(?)だそうだ。

Socalistanはカリフォルニアをカバーする。公立大学のシステムからいって州内での(特に若い世代)の移動は盛んなので人口の多いカリフォルニアがクラスターになるのは理解出来る。Socalというのは南カリフォルニアのことでLAが中心であることを示している。ちなみにサンフランシスコではオバマが最も人気のある人物だそうだ。

最後はPacificaでこれはシアトル近辺のクラスターだが、特筆すべき情報は公開されていない。

この分割は数学的アルゴリズムで得られたものではなく、目視で色分けした程度のもののようだが、コメント欄などから察するにアメリカ人の感覚には近いようだ(逆にその感覚によって色分けが影響されている面があるのだろう)。

Twitterでは「つぶやく」な

January 19th, 2010

注意:Twitterの仕組みに関する記事なので利用したことのない人には分かりにくいかもしれません。とても良くできた仕組みなので、ぜひ利用されることをお勧めします。よろしければフォローください

最近、「Twitterを「つぶやき」と翻訳した罪」なんて記事を読んだ。記事中には次のように「つぶやき」という訳の問題が指摘されている:

「140文字限定」、「つぶやき」、「フォロワーにのみ伝える」。こうしたキーワードだけで判断すると、いかにも閉じた空間の自己満足的なツールにしか見えない。

これは確かに残念なことだ。何故ならTwitterがFacebookやMixiのようなSNSと異なる点がまさにその開放性にあるからだ。Twitterも元々はFacebookにおけるステータス更新をSMSで行う仕組みだった(参考:Wikipedia)。Twitterのオフィシャルサイトでの質問が”What are You Doing?”だったことがそれを象徴している。

ではTwitterがFacebookのステータス更新やMixiの日記と違うのは何か。それはTwitterの仕組みの根底にある一方向性だ。従来のSNSでは友達になるためには相手の承認が必要だ。昔の友達を発見したり、最近会った人を見つけたりするのには役立つが、あくまで既存の人間関係を補完するものに過ぎない。見ず知らずの人間が友達リストにたくさんいる人は少ないだろう。それはまさに「友達」リストなのだ。

逆にTwitterにおける「フォロワー」は一方向的な概念だ。相互にフォローすれば「友達」と変わらない状況になるが、最初は常に一方通行で始まる。例え現実に友達同士だったとしてもどちらかがフォローを始めるのには変わりない。この一方的にフォローし始めるのがデフォルトという仕組みがTwitterの革新的なところだ

まず私が誰かをフォローし始める場合を考えよう。これはFacebookやMixiではまずうまくいかないがTwitterではごく自然なことだ(だからTwitterがSNSと何が違うかを知りたければまず一方的にいろんな人をフォローしてみよう)。この状態ではフォローした相手のTweetが自分のタイムライン(TL)に表示されるだけでブログをブックマークしたりRSSで購読しているのと大差ない。しかし、ここから相手に@でメッセージを送ったり、Retweetで相手のTweetにコメントすることが可能だ。意味のあるコメントをすれば相手がフォローし返すこともあり、何の関係もなかった人間と「友達」になることができる。相手は決まっているのでこれは「つぶやき」でも「フォロワーにのみ伝える」でもない。しかしこの特性を生かすためには、できるだけ有益なコメントをする必要がある

逆に自分が誰かほかの人にフォローされるのはどんな場合か。それは自分のTweetに価値がある場合だ。現実の友達であれば朝何を食べたかにだって興味があるかもしれない。しかし、既に有名人でもなければ見ず知らずの人間があなたのごく普通の日常に興味を持っていることはない。他人にフォローしてもらうためには、なるべく有益な情報や興味深い議論を提供する必要がある。しかも、Twitterは多くのネット上のシステム同様にストリーム型のコンテンツであり、紙媒体とは異なりぱっとみて取捨選択するには一工夫(リスト・フィルター・ボットなど)が必要だ。ストリームの価値を上げるにはノイズ比を下げる必要があり、それは大した意味のない「つぶやき」をしないことを意味する

これらの特徴はブログにもそのまま当てはまり、Twitterがミニブログ(microblogging)に区分されるのも頷ける。旧来のブログと異なるのは、情報の送り手・受け手という関係が固定的でないこととリアルタイムであることだ。ブログでもコメント欄などを通じて読者と交流することは可能だが、相手もブログを持っていない限りやりとりは限定的だし、常に非同期な形でしかない。Twitterはその交流を自然な形で拡げることができるという点で、ブログを書いている人にとってコメント欄を代替する必要不可欠なチャンネルになりつつある(TopsyのようなTwitterのアグリゲーターが役に立つ)。

先ほど、MixiやFacebookについて「既存の人間関係を補完するもの」と述べた。これは別の見方をすれば非常に不自然なシステムだ。現実の人間関係は常に新しい可能性へと開かれている。その意味でTwitterは「既存の人間関係の在り方をネット上で再現するもの」と言えるかもしれない

ちなみに、相互にフォローしあっている、つまり「友達」状態の場合には@でやりとりすることで、両者をフォローしている人以外のTLにはTweetが表示されなくなる。これにより、そのやりとりに関係ない人に対しての自分のストリームの価値を下げないで済むし、既存の友達との間のインスタント・メッセンジャーとしての役割も果たせる。

読む量は増えている

December 30th, 2009

YouTube・ビデオゲーム・iPod・携帯など読書離れが危惧されているが、我々が読む文章は増えている:

Study: Rumors of Written-Word Death Greatly Exaggerated | Epicenter | Wired.com

“Reading, which was in decline due to the growth of television, tripled from 1980 to 2008, because it is the overwhelmingly preferred way to receive words on the Internet,”

文章を読むことによる情報収集はテレビの影響で減退していたが、この三十年近くの間に三倍にもなったという。これは文章がインターネットで最も利用されている情報伝達手段であるためだ。

これは少し考えれば何も不思議ではない。インターネットは情報伝達、特に文字情報の伝達、のコストを劇的に下げた。コストが下がれば消費が増えるのは当たり前だ(Kindleのベストセラーの多くは無料だ)。音声や映像の配信費用も下がったが、それは文字情報の衰退を意味しない。文字と音声・映像は限られた情報伝達をシェアしているわけではないからだ。どちらも安くなり、どちらもより多く消費されるようになったということだろう。だからこそ我々はネットをやりすぎて仕事が進まないなんていう状況に陥るのだ。

ネットが情報伝達を担うことに抵抗する既存メディアは、三桁ジーンズを批判するデザイナーのようなものだ(注)。新しいプレーヤーは市場全体を拡大させていく。既存のプレーヤーがやるべきことはそれをパイの奪い合いと捉えることではなく、広がる市場での自分のプレゼンスを築き、さらには市場の拡大をさらに進めることだ

技術進歩に異を唱えても先は見えている。たとえその意見が「正しく」とも、市場の大きな流れを変えることはできない。その「正しさ」さえも変えられていくのだ。

追記

(注)新しいポストを書くほどでもないのでここで件の記事へのコメントを一つ。「川久保さんは、安さを求めた結果、若い人たちの創造性が失われていくのも心配だというのだ」とあるが、安い衣服は組み合わせたり加工したりして創造を促す側面がある。これは音楽のリミックスにも通じる。ただし、音楽の場合と異なり政治・法律を利用して利得を拡大しようとしているのではないのでそういう考えで仕事をすることには何の異論もないし、それで成功されていることは素晴らしいことだ。

日本のウェブが残念なのは当然

December 1st, 2009

Twitterがメインの記事だが、もっと広い文脈に該当する:

Twitterとはなんだったのか——「コンテンツ」としての日本Twitterユーザー(後編) – コンテンツ編 – マぜンタとシアん

この記事は「日本のTwitterは残念だったのか?」という問いから始まりました。この「残念」という言い回しは、梅田望夫さんの岡田有花記者によるインタビュー記事のタイトル、「日本のwebは残念」から取ったものです。そこで、まず、「なぜこの記事で、日本のwebは『残念』と呼ばれているのか」について確認しておきましょう。

この日本のウェブが残念だというのは面白い。

クラスタ」の感触は、いうなれば「マイミク」のイメージに近いのでしょう。話題が通じる内部での安心感と閉鎖性、これはイラン大統領選でのTwitterのイメージとは正反対です。「日本のTwitter」もまた、mixi的なもの、ひいては日本文化的なものから袂を分つことができずにいるのです。

さしあたって「日本のTwitterは残念なのか」という命題には、首肯せずにはいられないでしょう。

最近日本語のウェブサイトを見始めたのでこの感覚はよく分かる。しかし、何故残念なのかという問いへの答えが何なのか示されていないように思う(元記事はその後日本のTwitterにおける出来事とコンテントについて解説している)。

ウェブの「クラスタ」感、内部での安心感と閉鎖性といった日本文化的なものを見ると「日本のTwitterが残念である」ということが分かるというが、これは前に「アメリカは実名志向か」で取り上げた「日本人は匿名志向・外国では実名志向」を疑うと同様あまり意味のある考えではない。あることが日本と海外と違う理由を文化の差に求めるのは非生産的だxyとでzが違うのはxyとが違うからだというようなものだ)。

では実際、日本のウェブが残念なのは何故か?これは「アメリカは実名志向か」で指摘した何故アメリカでは実名の使用が多く、日本では匿名が多いのかという理由と全く同じだろう。その時はLinkedInが実名である理由を次のように説明した:

何故LinkedInは実名なのか。それは単に実名でなければ何の意味もないからだ。就職活動に偽名を使うわけないし、偽名の知り合いとコネクションを持 ちたい人もいない。日本ではどうか。そもそもLinkedInのような組織がない。労働市場が硬直的で転職自体が悪いシグナルを送ってしまう。

実名の使用は労働市場が流動的か硬直的かに大きく影響される。流動的な市場においては社内で有名な○○さんになるメリットがない。どうせ一つの会社にいるのはいいとこ3,4年という社会では、社内でコネを作ってもあまり意味がない。逆に重要なのは社外に向けて自分のブランドを売り出すことだ。業界のいろんな場所に名前を売ることだ。フリーランスが多いこともこれに拍車をかける。

しかし、実名を所々で使用するだけでは大したメリットもない。名刺をただ配っているようなものだ。それだけではあまり意味がない。だって知らない人の名刺なんて読まないだろう。では誰の名刺ならローデックスに入れておこうかと思うか。それは重要そうな人だ。名刺を配ることに意味があるためにはそこにある名前に意味がなければならない

これはウェブ上で言えば、自分が重要であることを示すことであり、その一番簡単な方法が他人にはできない有益な活動をすることだ。例えば、オープンソースのソフトウェア開発に参加することは誰にでもできるわけではないので、プログラミングの能力を示すいいシグナルになる。ブログを書くこともそうだろう。

はてなについて、

はてな界隈」での論争に漂う内輪感、閉鎖性はしばしば批判の的となっています。流行りの言葉を使えば「ブログ論壇(笑)」になり果ててしまっている「はてな界隈」を揶揄する言葉が「はてな村」です。

その閉鎖性が問題となっているが、そのようなことはアメリカではほとんど問題にならないことも簡単に説明できる。論争に貢献する人間は自分のプロモーションとしてそうしている場合が多数なため、オーディエンスを限定しようという考えがないからだ。ジャーナリストが内輪にしか受けない記事を書くことはないだろう。

逆に、梅田さんがよいインターネットとしている

ウェブ進化論の中では「総表現社会」という言葉を使っている。高校の50人クラスに2人や3人、ものすごく優れた人がいるよね。そういう人がWebを通じて表に出てくれば、知がいろんなところで共有できるよね、というところまでは書いている。

もまた理想郷ではない。アメリカでは多くの人々が自己を表現しているのは確かだ。しかし、それは別にお花畑のような世界ではなく、単なる自分の市場価値を高めるための仕事だ。

とはいえこういうことをする人がウェブ上にたくさんいるかどうかがウェブが「残念」になるかならないかという点で極めて重要であることは言うまでもないだろう。梅田さんの「日本のwebは残念」で言えば、

今の日本のネット空間では、そういう人が出てくるインセンティブがあまりないわけさ、多くの場合。「アルファブロガー」的なものも、最初のうちにぽーんと 飛び出した人からそんなに変わってないじゃないですか。それが100倍、1000倍になり、すごく厚みをもって、という進展の仕方と違う訳じゃない。

こういった活動が「アルファブロガー」を作る。そしてここでいう「インセンティブ」とは自己表現のそれではなく労働市場の価値を高めるという経済的インセンティブにすぎない

Twitterはいい例だ。アメリカのブロガーであればTwitterを使う最大の理由は読者とのコネクションだ。これはデパートがお客様アンケートを配るのと同じことでカスタマーサポートの一種だ。多くの著名職業ブロガーが人を雇ってTwitterを更新していることを考えればその同質性は明らかではないだろうか。

この解釈は、何故日本のTwitterが「クラスタ」化するのかをも説明する。アメリカでは自分を売り込むためにTwitterを利用していて、別に他人の声を聞いてどうこうしようと思っているわけではない参加者が多いのだ。そういった環境ではほとんどの人に興味のない情報がどんどんTwitterに流され一部の人が散発的に反応する

最後にmixiに関する次の箇所について:

SNS」は「mixi」という、既存の人間関係を効率的に管理するだけのシステムに置き代わりました。

mixiが既存の人間関係を効率的に管理するシステムのいうのは間違いだ。多くの参加者が匿名のmixiは驚くほど非効率なSNSだ。