hirax.net::Keywords::「演歌」のブログ



1999-12-04[n年前へ]

WEBの世界の「力の法則」 

「ReadMe!JAPAN」と「日記猿人」に見るWEBアクセス数分布

 以前、

の中で書いたように、「Webの成長のダイナミクスとトポロジは,物理学の世界のPower(累乗)Lawとして知られている法則に従っている」という面白い話が世の中にはある。これは、「ごく少数のWEBサイトへのアクセス、あるいはリンクが他を圧倒する程の割合を示す。」ということである。「インターネットのほとんどのアクセスというものは、ごく少数の特定のサイトへのものである。」ということだ。宇多田ヒカルの売り上げが演歌の総売上をはるかに超えるという話とよく似ている。実社会でもそういうことは実に多い。

 どうも、マイナー趣味である私には、Power(累乗) Lawというのはいま一つ面白くない話ではあるが、

といった所を眺めていくと、どうやら事実であるようだ。ここらへんのWEBはとても読んでいて面白い。そのせいか、似たようなことで遊んでみたくなった。そこで、今回はその"PowerLaw"、すなわち、「力の法則」について考えてみたい。ところで、本来ここでの意味は"Power"=「累乗の法則」となるが、ここでは「力の法則」としておく。

 まずは、考えるためのデータを採取してることにした。欲しいデータは色々なWEBサイトへのアクセス数である。もちろん、自分のWEBサイトへのアクセスではないのだから、何らかの公開データを探さなければならない。

 そこで、ReadMe!Japan(http://readmej.com/)と日記猿人(http://wafu.netgate.net/ne/)という二つのランキングシステムを用いてみた。ReadMe!Japanは日本語の「読み物」を主体としたWEBランキングである。また、日記猿人は名前の通り「日記」をターゲットとしたWEBランキングである。

 一見、同じように見えるReadMe!Japanと日記猿人のランキングであるが、かなり違ったシステムである。以下に、Readme!Japanと日記猿人のランキングシステムを示してみる。

  • Readme!Japan 登録したWEBページに、一日の間にアクセスしたIPアドレスの数。
  • 日記猿人 「投票」ボタンを押した人(ブラウザー)の数、一日の間に一人の人(ブラウザー)が同一の日記に対して複数回の投票は行うことが出来ない。
 したがって、Readme!Japanに対して、日記猿人は「投票ボタンを押す」という作業が余計に必要となる。単純に「読まれた数=得票」ではないのである。読者に「投票ボタンを押そう」という気持ちを生じさせることが必要とされるのである。
一方、Readme!JapanはIPアドレスベースであるから、同一のProxyなどを経由したアクセスの場合、何人からアクセスがあろうと1pointである。しかし、読者に「投票ボタンを押す」というような作業は要求されない。

それでは、日記猿人とReadMe!JAPANの得票ランキングの例を示してみる。横軸はランク(順位)であり、縦軸が得票数である。ここでは縦軸・横軸共に線形軸を用いている。

日記猿人とReadMe!JAPANの得票ランキングの例 (線形軸)

 なお、 Readme!Japanは11/30日のものであり、日記猿人は(ほぼ)11月分の得票数分である。
このグラフを眺めてみると、日記猿人とReadMe!JAPAN共によく似ている。なるほど、少しランクが下がっただけで、急激に得票数が少なくなっている。もう、縦軸で言うならば下に張りついてしまっている。「ごく少数のWEBサイトへのアクセス、あるいはリンクが他を圧倒する程の割合を示す。」という「WEBの世界の力(累乗)の法則」は日記猿人とReadMe!JAPANでも当てはまるようである。

 さて、ここまでランクに対して得票数が変化するとなると、グラフの軸は線形軸でなくて対数軸の方が良いだろう。そこで、グラフの軸を対数軸に変えたものを以下に示す。

日記猿人とReadMe!JAPANの得票ランキングの例 (対数軸)

 こうすると、日記猿人とReadMe!JAPANのどちらも、

  • 上位のランク(例えば、1位から1000位程度まで)では傾きがほぼ1である。すなわち、ランクが一桁下がると、アクセス数も一桁下がる。
というようなことがわかる。まさに、「力(累乗)の法則」である。確かに"Power"である。

 また、ReadMe!JAPANでは、ランクが極めて大きい所では得票数が0に近い。おそらく、その影響と考えられるが、ランクと得票数の関係が直線でなくなっている。

 それと同じことは日記猿人でも言えるだろう、ただし、「ランクとポイントの関係が直線でなくなる」のがReadMe!JAPANよりも早いような気がする。しかし、それは誤差かもしれない。参加数もかなり異なっているので、誤差の可能性が高いと思われる。

 さて、これまでは日記猿人とReadMe!JAPANのランキングの数字を直接用いてきたわけである。しかし、得票数の全く違うものをそのまま比較してもしょうがない。ある程度条件をそろえた上で比較をすべきであろう。そこで、縦軸を正規化して比較をしてみることにした。得票数の合計が1であるような単位に変換してみるのである。

 ここで、横軸はランクのLog_10を用いている。本来、ランク(順位)も何らかの正規化の変換をすべきであろうが、今回はやり忘れた。きっと、頭が疲れているせいである。

 また、グラフを見ればわかると思うが、それぞれについて近似曲線を計算している。

日記猿人とReadMe!JAPANの得票ランキングの例
(得票数の合計が1であるような単位に変換したもの)

 次に、ここで得られた「ランクとポイントの関係」を示す近似関数

  • ReadMe!JAPAN  y = -0.001x^5 + 0.0119x^4 - 0.0534x^3 + 0.1186x^2 - 0.1355x+ 0.0683
  • 日記猿人 y = -0.0005x^5 + 0.0054x^4 - 0.0222x^3 + 0.0472x^2 - 0.0589x+ 0.0391
を重ねて示してみる。
ReadMe!JAPANと日記猿人の「ランクとポイントの関係」近似関数の比較

R eadMe!JAPANでも日記猿人でも横軸が2以上(すなわち100位以下)の場所などでは、ほとんどポイントはゼロみたいなものである。すなわち、100位より下のWEBのアクセス(本WEBへのアクセスも含めて)は誤差みたいなものなのだ。何しろ、一位(トップ)のポイントが0.07とか0.04とかなのだ。それは「一位のWEBサイトへのアクセスが全部のサイトへのアクセスの1割弱を占める」ということなのである。20位までのサイトへのアクセスを合計すると全アクセスの50%以上を占めてしまう。これが、恐るべきWEBの世界の"PowerLaw"、すなわち、「力(累乗)の法則」である。

 ところで、日記猿人では上位サイト(すなわち、横軸で0に近いところ)での関係式の傾きがReadMe!JAPANよりも小さい。すなわち、上位サイトの得票数が拮抗している。これは一体何故だろうか?
私はこの理由を、

  • 日記猿人の読者が割と似ている趣味を持っている
  • 日記猿人の参加WEBサイトが似たような内容を持っている
ということではないか、と考えている。

 日記猿人の参加WEBサイトが似ており、読者同士が割と似ている趣味を持っていれば(私も含めて)、得票数というのは当然横並びになるだろう。上位サイトにはほとんどの人が見に行き、そしてほとんどの人が「投票」ボタンを押せば、上位サイトはみな同じような得票数を示すことになる、と思うのである。
 それは、違う傾向を示すReadMe!JAPANの中でも、読者層も作者も似ている「Fast&First」と「今日の必ずトクする一言」はとても近い得票数を示している、ということがその根拠の一つである。

 それに対して、ReadMe!JAPANが比較的広いジャンルの「読み物」が集まっているのでそういう現象が見られないのだろう、と考えるのである。しかも、実際には「読み物」ですらないものも集まっているので、なおさらジャンルとしてはバラけている。だから、「WEBの世界の力(累乗)の法則」を素直に反映していると考えるのである。

 私としては、ごく一部のWEBサイトへの集中が生じるのはツマラナイと感じてしまうのであり、「WEBの世界の力(累乗)の法則」はキライである。だからといって、趣味が似た人ばかりというのもツマラナイように思う。うーん、どういうのがツマラナクナイのだろうか?
それはきっと、「色々な趣味の人が色々なWEBへアクセスする」というのが私の好みだ。実現は難しいのだろうけど...いや、そんなことはないか。

2002-11-13[n年前へ]

Hello Goodbye 

LIMG http://www.zakzak.co.jp/geino/n-2002_11/g2002111203.html l /image/gifts/driving.jpg 東京ドーム。ポールマッカートニー。右翼席の本当に一番後ろ。いや、とても良い席だったと思う。長めは最高だし、後ろは誰もいるわけじゃないし。ビールを飲みながら、一緒に歌ってみたりしみじみ聴いてみたり、こんなのも良いかもね。なんだか、どこかの温泉で誰だか知らない演歌歌手が歌を歌っているのを眺めているような感じにちょっと似てる。懐メロ大会、なのかもしれないけど、それだって最高だ。きっとこれが最後だしね。

 ビートルズのコピーをしていた中学の頃がほんの少し前のような、ずっと昔のような、と思い出してみたりしたけれど、きっと周りもそんな人たちばかりなんだろな。途中で、周りで席を立って(二階席の後ろの聴衆はみんな座ってるからね)戻ってくる人たちも多い。「みんなビール飲んでるし、年取ってるからトイレが近いのだろーなー」と単に自分を当てはめて想像してみるのだった。

 それにしても、年を感じさせない演奏だったなぁ。あと、音響が割に良かったのにもビックリだ。

2004-02-04[n年前へ]

リンク可視化ツール Synamation 

 リクルート・Tech総研が提供する「エンジニアのために役立つ&便利な厳選サイトのリンク集を2次元で表現する、ちょっと変わったリンク可視化ツール」というSynamation シナメーション(Java実行環境が必要&ポップアップウィンドー使用)。

Synamation 「何であんな奴らが紅白にいるんだ」「あんな奴らと一緒の舞台で歌を歌いたくはない」と大物演歌歌手に公然と言われた「テツ&トモ」。これを見て、それを思い出したという借力さんの言葉がまた実に的確。「エンジニアのために役立つ厳選サイト」の中に入ったhirax.netと借力、それはまさに紅白に紛れ込んでしまった色物芸人。

 「結城浩」という大きな円が、不幸にも「オッパイ星人」hirax.netのご近所さんになってしまい、逆方向に逃げ出そうとするならば、なんとそこには-おっぱい大戦争-の「借力」が待ちかまえている、という恐ろしさ。



■Powered by yagm.net