Twitterで話題のサイトがわかるTwib。 現状のクローラーは日本語が含まれているツイート内のURLを収集しています。 取りこぼしはあるもののチューニングしてそこそこの精度が出てきました。 で、統計を今とっているのですが、面白いので報告。
日本語、及び有効なURLが含まれているツイートは秒間平均10件。 そしてその半分がデータベースに登録されていない新しいURLです。 ですので秒間5件のURLが追加されています。
これを単純に計算すると、一日に432,000のサイトが新しくつぶやかれています。
そもそものデータベースに入っているURLが少ないという現状ありますが、 まぁそういう件数です。 Twitterは非常にサンプルとしては大きなものになっているなぁという印象ですね。