https://leaderpharma.co.uk/

ソーシャルメディアを使った予想

Tweetの量・質を利用して将来予測ができるのではないかというストーリー。

Twitter predicts the future?

元ネタと鳴っているのはHP LabsのPredicting the Future With Social Mediaというペーパー(8枚と短いしテクニカルな部分も殆どないので読んでみてもいいかもしれない)。

Using the tweets referring to movies prior to their release, can we accurately predict the box-office revenue generated by the movie in its opening weekend?

テーマは映画が公開される前のTweetの数を使って一週間目のボックスオフィス売上を予測できるかというものだ。

上のグラフがその結果だ。縦軸が実際の売上、横軸が(線形関係から)予測された売上だ。軸の縮尺が違うので45°線にはなっていないが、予測値と実測値が近いのが分かる。青い線は売上について仮想の賭けをするHollywood Stock Exchange (HSX)での取引から推定したもので、ペーパーではTwitterを使った予測がHSXを用いた予測より正確であった主張されている。Tweetの内容がネガティブかポジティブかを分析に加えるとさらに正確になるとのことだ。アウトオブサンプルでどうなるのかなども気になるが、ソーシャルメディアが持つマーケティングへの影響力の大きさは疑いようがない。

忍者になろう

面白い労働市場のトレンド(ht @eurodollari

LinkedIn Observes The Rise of Professional Ninjas!

ビジネス向けのSNSであるLinkedInが新しいタイトルの指数関数的な伸びをブログで指摘している。それはNinjaというタイトルだ。

Other ninjas come from the social media, computing and design sectors. Professionals in customer service, advertising and finance have their share of ninjas too

ソーシャルメディア・コンピューティング・デザインなどに多いタイトルだがカスタマーサービスや広告、ファイナンスにも見られるそうだ。クリエイティブなイメージを出したいプロフェッショナルに受けているのだろう。似たようなタイトルとしては本来は伝道者を意味するEvangelistや導師を意味するguruなんかがある。

但し、guruのほうが新鮮味が薄れているようで最近は人気が落ちている模様だ。次はどんなタイトルが流行るのだろうか。

大規模なSNSは今まで存在しなかったデータをコントロールしており、その一部をこのようにブログなどで発表している。特にデーティングサイトであるOkCupidのブログはよく注目を集まている(出会い系最適メッセージ)。各社はこの膨大なデータを活用するために専門家を雇っており、統計屋さんの需要はさらに上がっていくだろう。

将来売ります

自分の将来所得を担保に投資を募る実業家の話題が盛り上がっている。

Entrepreneurs offer their life’s future earnings for an investment

Kjerstin Erickson, a 26-year-old Stanford graduate who founded a non-profit called FORGE that rebuilds community services in Sub-Saharan African refugee camps, is offering 6 percent of her life’s income for $600,000.

NPOの創設者が自分の所得の6%の見返りに$600,000の投資を募集しているそうだ。6%で$600,000ということは、所得のリスクも割り引いた現在割引価値(≠生涯所得)が$10,000,000必要なわけで、普通に考えたら割に合わない。

それだけでなく、持分への投資ということで、株式会社などが持つガバナンス上の問題点を共有している:

  1. 94%は本人という社長兼大株主が所有しているわけで、少数株主たる投資家との間に利害対立がある
  2. 公開会社のような上場審査や法定監査があるわけではなく、所得の6%といっても所得の数字自体信頼できない
  3. そもそも意思決定に加わるわけではない

その結果次のような問題が考えられる:

  1. 所得の限界効用が落ちるので働く気が失せる
  2. なるべく所得に現れない便益を優先する、例えばお金にはならないが楽な仕事しかやらない

このような懸念に対して、

The transparency afforded by social networking is making it easier for investors to vet people’s reputations and hold them accountable.

ソーシャルネットワーキングによって透明性が増しているから何とかなるのではと述べられているが、会社法を考えれば分かるようにそんな簡単な話ではないだろう。

ただこの個別事例が成功するかと言われればおそらく成功すると思われる。このような議論を呼ぶ募集を行うことは本人やそのプロジェクト(そしておそらく投資する側)にとって大きなPRになるからだ。これを弾みに成功していけば割に合う投資になる可能性はそれなりにあるだろう。

また、この取引を投資ではなく寄付の一種だと考えることもできる。将来所得と引換に融資を受ければその個人は金銭的な報酬を優先するインセンティブを失うが、これはNPOが自ら利益を配分しないことと似ている。もともとNPOは属人的な正確が強いので、組織ではなく個人に投資するという考えもありうるだろう。

データ匿名化の落とし穴

前のポストを書いたときに、一体どこからデータを集めたのかが気になった。公開されていれば適当にスパイダーでも書けば集められるが、そんなに情報が公開されているのだろうか。ちょっと検索してみたら、面白いエントリーが出てきた:

Why Pete Warden Should Not Release Profile Data on 215 Million Facebook Users

先に紹介したエントリーを書いたPete Wardenを批判する記事だ。

[…] he exploited a flaw in Facebook’s architecture to access public profiles without needing to be signed in to a Facebook account, effectively avoiding being bound by Facebook’s Terms of Service preventing such automated harvesting of data. As a result, he amassed a database of names, fan pages, and lists of friends for 215 million public Facebook accounts.

ログインせずにFacebookの公開プロフィールにアクセスできる欠陥を利用して2.15億ものアカウントの名前・ファンページ・友達リストを収集したという。ログインしないことによって自動的にデータを収集することを禁じるFacebookの規約(Terms of Service)を回避したということだ。

二つの論点が提起されている:

First […] just because these Facebook users made their profiles publicly available does not mean they are fair game for scraping for research purposes.

一つ目は、公開プロフィールの意味付けだ。この情報は検索エンジンに収集されるし、Facebook内で検索すれば見ることができる。しかし、規約により自動収集は禁じられており、ユーザーもそういう目的に使われていることを想定しているわけではない。

Second, Warden’s release of this dataset — even with the best of intentions — poses a serious privacy threat to the subjects in the dataset, their friends, and perhaps unknown others.

データが収集されても、それが悪用されるのでなければ気にする人は少ないだろう。これはアメリカ人のプライバシーに対する一般的な態度だ。しかし、Pete Wardenはデータを研究目的で公開する予定であり、それを悪用する方法がある。

What is most dangerous is its potential use to help re-identify other datasets, ones that might contain much more sensitive or potentially damaging data.

そこで指摘されているのは、このデータが他の匿名化されたデータセットで個人を特定するのに利用できるのではないかということだ。この懸念は過去にNetflixが行っているコンテストで指摘されている。

Breaking the Netflix Prize dataset

In October last year, Netflix released over 100 million movie ratings made by 500,000 subscribers to their online DVD rental service. The company then offered a prize of $1million to anyone who could better the company’s system of DVD recommendation by 10 per cent or more.

DVDレンタル(及びストリーミング)を行うNetflixはユーザーにリコメンデーションシステムを改善するアイデアをコンテストを通じて募集し、そのために50万人のユーザーのデータを匿名化した上で公開した。

turns out that an individual’s set of ratings and the dates on which they were made are pretty unique, particularly if the ratings involve films outside the most popular 100 movies. So it’s straightforward to find a match by comparing the anonymized data against publicly available ratings on the Internet Movie Database (IMDb).

しかし、How To Break Anonymity of the Netflix Prize Datasetという研究はその匿名データからユーザーを特定する方法を明らかにした。ユーザーがつけたレーティングはユーザーごとに特徴的であり、それをネットで公開されているレビュー(IMDb)のレーティングと比べることで匿名化されているNetflixユーザーとIMDbのユーザーとを結びつけることができるという。

Netflixのレビューを非公開前提で書いた場合、この方法によってそれがIMDb上の個人のものと特定されてしまう。IMDbで実名を使用していた場合には現実の人物にまでたどり着く。(公開されていない)政治色・宗教色の強い映画に対するレビューから政治的・宗教的立場まで特定可能であり、これがプライバシーの観点から非常に重要な問題だということが分かる。

Warden’s rich dataset of 210 million Facebook users, complete with their names, locations, and social graphs, is just the ammunition needed to fuel a new wave of re-identification of presumed anonymous datasets. It is impossible to predict who might use Warden’s dataset and to what ends, but this threat is real.

Facebookの話に戻ると、個人名・所在地・興味・友達リストというデータが公開されれば、それらの情報(と関連する情報)を含む他の匿名データから個人を再特定する人・集団が出てくるだろう。今後、人間関係を含むデータが増えるのは確実でそういったデータを悪用されるおそれがある。日本で同じような事例があれば、遥かに大きな社会問題になるのは確実だ。

Facebookで地図を色分け

Facebookのデータを使って、アメリカを七つに分けてみたというエントリー:

PeteSearch: How to split up the US

My latest visualization shows the information by location, with connections drawn between places that share friends.

点はユーザーが存在する都市で、線はfriend関係を指しているようだ。州レベルや国レベルのバージョンも用意されている。friendが出来るのはその場所に学校・仕事などで住んだことがある場合がほとんどなので、人々がどう地域間を移動しているかを間接的に表している。さらに、クラスター毎にどのような人やグループが人気なのかも分かる。

ニューヨークからミネソタにかけてはあまり移動がないようでStayathomiaと名付けている。この地域はGodの人気がなくビールやスポーツが人気だそうだ。

Dixieはアトランタを中心とした地域で同じく閉鎖的。南にフロリダだけは別枠で東海岸の都市と強いコネクションがある。これはフロリダに移住する人が多いからだろう(Facebookには中年以上のユーザーも多いし、子供もいれば反映される)。この地域はGodがファンページのトップにくる宗教色の強い地域だ。

Greater Texasは名前通りTexasのDallasを中心としたクラスター。どの都市もDallasと強いコネクションがある。やはりGodが人気。ルイジアナのAlexandriaではAhmed、Mohamedが二番目、三番目に多かったり、テキサスのLaredoではJuan, Jose, Calros, Louisが最も多かったり、地域色が出ていて面白い。

Mormoniaはモルモンとの関連があると思われる地域で、外部とのコネクションが少ない。

Nomadic Westは中西部のだだっ広い地域で、コネクションが遠距離に渡っているのが特徴。外に出て行くほかないということだろうか。Starbucksが人気(?)だそうだ。

Socalistanはカリフォルニアをカバーする。公立大学のシステムからいって州内での(特に若い世代)の移動は盛んなので人口の多いカリフォルニアがクラスターになるのは理解出来る。Socalというのは南カリフォルニアのことでLAが中心であることを示している。ちなみにサンフランシスコではオバマが最も人気のある人物だそうだ。

最後はPacificaでこれはシアトル近辺のクラスターだが、特筆すべき情報は公開されていない。

この分割は数学的アルゴリズムで得られたものではなく、目視で色分けした程度のもののようだが、コメント欄などから察するにアメリカ人の感覚には近いようだ(逆にその感覚によって色分けが影響されている面があるのだろう)。