motorsavederby.co.uk

ジャーナリストに必要なスキル

ジャーナリストに必要なものは何なのか考えさせられる記事があった。

When public records are less than public: How governments try to use copyright to limit access to data

そもそもジャーナリストという職業が何を意味するのかよく分かっていない。是非ジャーナリストの方と話てみたいと思うが、ここではとりあえずWikipediaのエントリーを見てみる。

A journalist collects and disseminates information about current events, people, trends, and issues.

最近の事柄に関して情報を集めて広める人をジャーナリストというらしい。この定義によれば以下のような能力がジャーナリストには必要であるように思われる:

  • 需要のある情報を見極める
  • 必要な情報を収集する
  • 収集した情報を流通に適した形に加工する

こう考えるとITがジャーナリズムを変えるのは当然だろう。単に流通コストが下がったことで情報を売るのが難しくなったというだけでなく、ジャーナリストの仕事の全ての段階においてITが大きな影響を与えるはずだ。

需要のある情報を見極める能力や集めた情報をうまく流通させる能力はウェブ以前と以後では比べ物にならない。Googleのようにユーザーの行動を把握したり、Facebookのようにソーシャルネットワークを利用して興味を探ったりできる。個人レベルであっても、各種のソーシャルメディアを効果的に利用することでまわりの人、特に自分の観客が何を求めているのかを効果的に把握できる。今まで出来なかったことが出来るようになったゆえに必要となった能力だろう。

必要な情報の収集方法も変わった。調査報道だと例えば政府や企業の不正を暴くという機能がある。以前なら記者クラブに行くとか熱心に取材・聞き込みをすればよかったかもしれない。しかしこれからはそれでは足りない。

Will Columbia-Trained, Code-Savvy Journalists Bridge the Media/Tech Divide?

But even fluency in broadly defined “multimedia skills” isn’t enough, with coding becoming as crucial to the news business as knowing how to use a computer was a couple of generations ago.<

例えば、このWiredの記事はコロンビア大学がジャーナリズムとコンピューターサイエンスのジョイントプログラムを提供していることに際し、ジャーナリストは単にマルチメディアに強いだけではなく、プログラミングのスキルも必要だと指摘している。

これは政府が情報をデジタルデータとして公開する潮流を考えれば当然の流れだろう。情報がない時代にはそれをひたすら探すのが重要だが、逆に情報が溢れている時代には必要な情報をそこから探り当てることのほうが重要だ。そして莫大な情報をさばくにはコードを書くしかない。これには統計情報を、例えばRなどで、処理することも含まれる。

情報が少ないのか多いのか、それが情報を集めて広める職業に大きな影響を与えるのはごく自然なことだ

When public records are less than public: How governments try to use copyright to limit access to data

さらに今回の記事では、そのコーディング能力すら十分とは言えないという。

That’s all well and good, but having all those programmer journalists looking for access to public data brings to the forefront questions about who owns public records and who has the right to put limits on their use.

何故なら、政府が情報公開の流れに逆らおうとするためだ。情報処理能力があっても情報がなければ意味のある情報を得ることはできない。再び情報の少なさが問題となっているわけだ。

しかし、同じ情報の少なさでも対策は以前とは異なる。今回、情報が少ないのは政府が情報公開の規則を何らかの方法でねじ曲げてそれを拒んでいるためだ。

While Section 105 of the Copyright Act makes works of the federal government ineligible for copyright protection, this provision does not apply to state and local governments.

アメリカの様子が描かれている。著作権法は連邦政府の文章に保護を与えていないが、地方政府には適用されない。

In New York, for instance, state and local agencies may comply with their obligations under the state Freedom of Information Law while maintaining their copyright, and the public records law “does not prohibit a state agency from placing restrictions on how a record, if it were copyrighted, could be subsequently distributed.”

そこを利用して州政府が情報公開を拒むための法律を作っている。

Of course, even when a government entity claims copyright over public data, that protection is at best thin. In general, datasets are protectable as compilations, meaning only the original selection, coordination, or arrangement of facts is protected.

しかし、行政の情報というのはデータベースに該当することが多く、少なくともアメリカでは、実施的な保護はない。

In the case where a third party provides the government with information under a contract, the government agency may not be free to let you do anything you want with it.

そうすると行政は情報=データベースの作成を第三者に依頼する。それによって作成された情報の製作者が行政機関ではなくなるからだ。

記事中で明示されてはいないが、ここで必要な能力はリーガルなものだろう。行政が処理すべき情報の公開を法律・契約を使って阻んでいる以上、それを突破するには情報を収集する側の知識がかかせない

ITによってジャーナリズムが出来ることの範囲は大きく広がり、その結果としてジャーナリストに必要な能力も増えた。これ自体はよいことだが、ITは同時に紙媒体の収益性を奪い、単なる情報から利益を上げるのを難しくした。プログラムが書けて法律も分かるジャーナリストをこの業界がサポートできるかという話だ。

ITと情報公開の流れが可能にした、莫大な情報をコードを駆使して処理し得られた情報を低(限界)費用で配布するというモデルがビジネスとして成り立つのだろうか。

データ匿名化の落とし穴

前のポストを書いたときに、一体どこからデータを集めたのかが気になった。公開されていれば適当にスパイダーでも書けば集められるが、そんなに情報が公開されているのだろうか。ちょっと検索してみたら、面白いエントリーが出てきた:

Why Pete Warden Should Not Release Profile Data on 215 Million Facebook Users

先に紹介したエントリーを書いたPete Wardenを批判する記事だ。

[…] he exploited a flaw in Facebook’s architecture to access public profiles without needing to be signed in to a Facebook account, effectively avoiding being bound by Facebook’s Terms of Service preventing such automated harvesting of data. As a result, he amassed a database of names, fan pages, and lists of friends for 215 million public Facebook accounts.

ログインせずにFacebookの公開プロフィールにアクセスできる欠陥を利用して2.15億ものアカウントの名前・ファンページ・友達リストを収集したという。ログインしないことによって自動的にデータを収集することを禁じるFacebookの規約(Terms of Service)を回避したということだ。

二つの論点が提起されている:

First […] just because these Facebook users made their profiles publicly available does not mean they are fair game for scraping for research purposes.

一つ目は、公開プロフィールの意味付けだ。この情報は検索エンジンに収集されるし、Facebook内で検索すれば見ることができる。しかし、規約により自動収集は禁じられており、ユーザーもそういう目的に使われていることを想定しているわけではない。

Second, Warden’s release of this dataset — even with the best of intentions — poses a serious privacy threat to the subjects in the dataset, their friends, and perhaps unknown others.

データが収集されても、それが悪用されるのでなければ気にする人は少ないだろう。これはアメリカ人のプライバシーに対する一般的な態度だ。しかし、Pete Wardenはデータを研究目的で公開する予定であり、それを悪用する方法がある。

What is most dangerous is its potential use to help re-identify other datasets, ones that might contain much more sensitive or potentially damaging data.

そこで指摘されているのは、このデータが他の匿名化されたデータセットで個人を特定するのに利用できるのではないかということだ。この懸念は過去にNetflixが行っているコンテストで指摘されている。

Breaking the Netflix Prize dataset

In October last year, Netflix released over 100 million movie ratings made by 500,000 subscribers to their online DVD rental service. The company then offered a prize of $1million to anyone who could better the company’s system of DVD recommendation by 10 per cent or more.

DVDレンタル(及びストリーミング)を行うNetflixはユーザーにリコメンデーションシステムを改善するアイデアをコンテストを通じて募集し、そのために50万人のユーザーのデータを匿名化した上で公開した。

turns out that an individual’s set of ratings and the dates on which they were made are pretty unique, particularly if the ratings involve films outside the most popular 100 movies. So it’s straightforward to find a match by comparing the anonymized data against publicly available ratings on the Internet Movie Database (IMDb).

しかし、How To Break Anonymity of the Netflix Prize Datasetという研究はその匿名データからユーザーを特定する方法を明らかにした。ユーザーがつけたレーティングはユーザーごとに特徴的であり、それをネットで公開されているレビュー(IMDb)のレーティングと比べることで匿名化されているNetflixユーザーとIMDbのユーザーとを結びつけることができるという。

Netflixのレビューを非公開前提で書いた場合、この方法によってそれがIMDb上の個人のものと特定されてしまう。IMDbで実名を使用していた場合には現実の人物にまでたどり着く。(公開されていない)政治色・宗教色の強い映画に対するレビューから政治的・宗教的立場まで特定可能であり、これがプライバシーの観点から非常に重要な問題だということが分かる。

Warden’s rich dataset of 210 million Facebook users, complete with their names, locations, and social graphs, is just the ammunition needed to fuel a new wave of re-identification of presumed anonymous datasets. It is impossible to predict who might use Warden’s dataset and to what ends, but this threat is real.

Facebookの話に戻ると、個人名・所在地・興味・友達リストというデータが公開されれば、それらの情報(と関連する情報)を含む他の匿名データから個人を再特定する人・集団が出てくるだろう。今後、人間関係を含むデータが増えるのは確実でそういったデータを悪用されるおそれがある。日本で同じような事例があれば、遥かに大きな社会問題になるのは確実だ。

Facebookで地図を色分け

Facebookのデータを使って、アメリカを七つに分けてみたというエントリー:

PeteSearch: How to split up the US

My latest visualization shows the information by location, with connections drawn between places that share friends.

点はユーザーが存在する都市で、線はfriend関係を指しているようだ。州レベルや国レベルのバージョンも用意されている。friendが出来るのはその場所に学校・仕事などで住んだことがある場合がほとんどなので、人々がどう地域間を移動しているかを間接的に表している。さらに、クラスター毎にどのような人やグループが人気なのかも分かる。

ニューヨークからミネソタにかけてはあまり移動がないようでStayathomiaと名付けている。この地域はGodの人気がなくビールやスポーツが人気だそうだ。

Dixieはアトランタを中心とした地域で同じく閉鎖的。南にフロリダだけは別枠で東海岸の都市と強いコネクションがある。これはフロリダに移住する人が多いからだろう(Facebookには中年以上のユーザーも多いし、子供もいれば反映される)。この地域はGodがファンページのトップにくる宗教色の強い地域だ。

Greater Texasは名前通りTexasのDallasを中心としたクラスター。どの都市もDallasと強いコネクションがある。やはりGodが人気。ルイジアナのAlexandriaではAhmed、Mohamedが二番目、三番目に多かったり、テキサスのLaredoではJuan, Jose, Calros, Louisが最も多かったり、地域色が出ていて面白い。

Mormoniaはモルモンとの関連があると思われる地域で、外部とのコネクションが少ない。

Nomadic Westは中西部のだだっ広い地域で、コネクションが遠距離に渡っているのが特徴。外に出て行くほかないということだろうか。Starbucksが人気(?)だそうだ。

Socalistanはカリフォルニアをカバーする。公立大学のシステムからいって州内での(特に若い世代)の移動は盛んなので人口の多いカリフォルニアがクラスターになるのは理解出来る。Socalというのは南カリフォルニアのことでLAが中心であることを示している。ちなみにサンフランシスコではオバマが最も人気のある人物だそうだ。

最後はPacificaでこれはシアトル近辺のクラスターだが、特筆すべき情報は公開されていない。

この分割は数学的アルゴリズムで得られたものではなく、目視で色分けした程度のもののようだが、コメント欄などから察するにアメリカ人の感覚には近いようだ(逆にその感覚によって色分けが影響されている面があるのだろう)。

Twitterでは「つぶやく」な

注意:Twitterの仕組みに関する記事なので利用したことのない人には分かりにくいかもしれません。とても良くできた仕組みなので、ぜひ利用されることをお勧めします。よろしければフォローください

最近、「Twitterを「つぶやき」と翻訳した罪」なんて記事を読んだ。記事中には次のように「つぶやき」という訳の問題が指摘されている:

「140文字限定」、「つぶやき」、「フォロワーにのみ伝える」。こうしたキーワードだけで判断すると、いかにも閉じた空間の自己満足的なツールにしか見えない。

これは確かに残念なことだ。何故ならTwitterがFacebookやMixiのようなSNSと異なる点がまさにその開放性にあるからだ。Twitterも元々はFacebookにおけるステータス更新をSMSで行う仕組みだった(参考:Wikipedia)。Twitterのオフィシャルサイトでの質問が”What are You Doing?”だったことがそれを象徴している。

ではTwitterがFacebookのステータス更新やMixiの日記と違うのは何か。それはTwitterの仕組みの根底にある一方向性だ。従来のSNSでは友達になるためには相手の承認が必要だ。昔の友達を発見したり、最近会った人を見つけたりするのには役立つが、あくまで既存の人間関係を補完するものに過ぎない。見ず知らずの人間が友達リストにたくさんいる人は少ないだろう。それはまさに「友達」リストなのだ。

逆にTwitterにおける「フォロワー」は一方向的な概念だ。相互にフォローすれば「友達」と変わらない状況になるが、最初は常に一方通行で始まる。例え現実に友達同士だったとしてもどちらかがフォローを始めるのには変わりない。この一方的にフォローし始めるのがデフォルトという仕組みがTwitterの革新的なところだ

まず私が誰かをフォローし始める場合を考えよう。これはFacebookやMixiではまずうまくいかないがTwitterではごく自然なことだ(だからTwitterがSNSと何が違うかを知りたければまず一方的にいろんな人をフォローしてみよう)。この状態ではフォローした相手のTweetが自分のタイムライン(TL)に表示されるだけでブログをブックマークしたりRSSで購読しているのと大差ない。しかし、ここから相手に@でメッセージを送ったり、Retweetで相手のTweetにコメントすることが可能だ。意味のあるコメントをすれば相手がフォローし返すこともあり、何の関係もなかった人間と「友達」になることができる。相手は決まっているのでこれは「つぶやき」でも「フォロワーにのみ伝える」でもない。しかしこの特性を生かすためには、できるだけ有益なコメントをする必要がある

逆に自分が誰かほかの人にフォローされるのはどんな場合か。それは自分のTweetに価値がある場合だ。現実の友達であれば朝何を食べたかにだって興味があるかもしれない。しかし、既に有名人でもなければ見ず知らずの人間があなたのごく普通の日常に興味を持っていることはない。他人にフォローしてもらうためには、なるべく有益な情報や興味深い議論を提供する必要がある。しかも、Twitterは多くのネット上のシステム同様にストリーム型のコンテンツであり、紙媒体とは異なりぱっとみて取捨選択するには一工夫(リスト・フィルター・ボットなど)が必要だ。ストリームの価値を上げるにはノイズ比を下げる必要があり、それは大した意味のない「つぶやき」をしないことを意味する

これらの特徴はブログにもそのまま当てはまり、Twitterがミニブログ(microblogging)に区分されるのも頷ける。旧来のブログと異なるのは、情報の送り手・受け手という関係が固定的でないこととリアルタイムであることだ。ブログでもコメント欄などを通じて読者と交流することは可能だが、相手もブログを持っていない限りやりとりは限定的だし、常に非同期な形でしかない。Twitterはその交流を自然な形で拡げることができるという点で、ブログを書いている人にとってコメント欄を代替する必要不可欠なチャンネルになりつつある(TopsyのようなTwitterのアグリゲーターが役に立つ)。

先ほど、MixiやFacebookについて「既存の人間関係を補完するもの」と述べた。これは別の見方をすれば非常に不自然なシステムだ。現実の人間関係は常に新しい可能性へと開かれている。その意味でTwitterは「既存の人間関係の在り方をネット上で再現するもの」と言えるかもしれない

ちなみに、相互にフォローしあっている、つまり「友達」状態の場合には@でやりとりすることで、両者をフォローしている人以外のTLにはTweetが表示されなくなる。これにより、そのやりとりに関係ない人に対しての自分のストリームの価値を下げないで済むし、既存の友達との間のインスタント・メッセンジャーとしての役割も果たせる。

読む量は増えている

YouTube・ビデオゲーム・iPod・携帯など読書離れが危惧されているが、我々が読む文章は増えている:

Study: Rumors of Written-Word Death Greatly Exaggerated | Epicenter | Wired.com

“Reading, which was in decline due to the growth of television, tripled from 1980 to 2008, because it is the overwhelmingly preferred way to receive words on the Internet,”

文章を読むことによる情報収集はテレビの影響で減退していたが、この三十年近くの間に三倍にもなったという。これは文章がインターネットで最も利用されている情報伝達手段であるためだ。

これは少し考えれば何も不思議ではない。インターネットは情報伝達、特に文字情報の伝達、のコストを劇的に下げた。コストが下がれば消費が増えるのは当たり前だ(Kindleのベストセラーの多くは無料だ)。音声や映像の配信費用も下がったが、それは文字情報の衰退を意味しない。文字と音声・映像は限られた情報伝達をシェアしているわけではないからだ。どちらも安くなり、どちらもより多く消費されるようになったということだろう。だからこそ我々はネットをやりすぎて仕事が進まないなんていう状況に陥るのだ。

ネットが情報伝達を担うことに抵抗する既存メディアは、三桁ジーンズを批判するデザイナーのようなものだ(注)。新しいプレーヤーは市場全体を拡大させていく。既存のプレーヤーがやるべきことはそれをパイの奪い合いと捉えることではなく、広がる市場での自分のプレゼンスを築き、さらには市場の拡大をさらに進めることだ

技術進歩に異を唱えても先は見えている。たとえその意見が「正しく」とも、市場の大きな流れを変えることはできない。その「正しさ」さえも変えられていくのだ。

追記

(注)新しいポストを書くほどでもないのでここで件の記事へのコメントを一つ。「川久保さんは、安さを求めた結果、若い人たちの創造性が失われていくのも心配だというのだ」とあるが、安い衣服は組み合わせたり加工したりして創造を促す側面がある。これは音楽のリミックスにも通じる。ただし、音楽の場合と異なり政治・法律を利用して利得を拡大しようとしているのではないのでそういう考えで仕事をすることには何の異論もないし、それで成功されていることは素晴らしいことだ。