クローリング進んでます。939639サーバ中936468サーバ未完了orz
おー!連合先にwordpressさんも居る
awk -F\\t '!/^#/{print $2}' ~/local/src/ap-stat/apstat-20230703.tsv | sort | uniq -c | sort -nr
2484 *
499 mastodon
85 pleroma
28 misskey
27 friendica
25 akkoma
11 gotosocial
9 peertube
6 hometown
4 writefreely
4 wordpress
4 pixelfed
4 calckey
2 gnusocial
1 wxwClub
1 twista
1 pub-relay
1 plume
1 microblogpub
1 meisskey
1 hubzilla
1 bookwyrm
1 birdsitelive
ほむほむ(*は何かのエラーでnodeinfoをもらえなかったもの)
Remaining 7010075/7018940…桁増えてるし…
Remaining 15893016/15904146…クロールするたびサーバ増えるね!(どうしよう…
Remaining 16570026/16581506。クローラのメモリ利用量は90%弱。進捗率0.07%。どうしようかねえ…
Remaining 16651126/16662631。24時間過ぎました。今回の収集はそろそろ止めますね。
収集した情報(未チェックサーバのリスト)の書き出しに分単位で時間がかかっております。辿る世代数を制限するべきかなあ。
ぎゃー。activitypub-trollにやられていました。ブロックリストを用意しておくべきだった…
いくつかのドメインを排除して再開。
Remaining 49710/61213
これならなんとかなるかも…
Remaining 51617/63896
進捗しんちょく…って分子も分母も増えとるw
Remaining 51060/65018 79%
タイムアウトを厳しくしました。さくさくやってこ…
Remaining 129063/156366 83%
んぎゃー増えてる
Remaining 126000/155937 81%
もうちょい整理した
今まで教えてもらった分
$ awk -F\\t '!/^#/{print $2}' ~/local/src/ap-stat/apstat-20230705.tsv | sort | uniq -c | sort -nr | head
15687 *
9340 mastodon
1020 pleroma
697 misskey
503 akkoma
382 peertube
350 gotosocial
320 calckey
283 friendica
282 wordpress
これまでmonthly active user数(MAU)を教えてくれたActivityPubサーバのうち半分弱がMAUが1以下、80%が10人以下、95%弱が100人以下のようです。言うほど大きいサーバだけに偏ってはいない気がするな。
Remaining 118071/155968 76%
残り80%未満になってた!!
crawl-activitypub.rb:149:in `queue': undefined method `split' for nil:NilClass (NoMethodError)
domain = domain.chomp.split("@").last.split("/").first.downcase
きゃー
peersのリストに空文字列を含めてくださるw
Remaining 30886/69704 44%
ついでにブロックするドメインを増やしたらすんごい進捗が発生 :tada:
Remaining 8994/69855 13%
がんばえがんばえ!!
getaddrinfo: No address associated with hostnameとかNo route to hostとかいろんな死に方があるなあ…
Remaining 5952/69858 9%
よーっしよーっし。世界に存在している/していたActivityPubサーバは70000弱くらいなんだね。このうちnodeinfo v2を得られなかったのは40000強 (60%)くらい。けっこうな割合で今も生きてる。
*.herokuapp.comとか*.sakura.ne.jpとかで動いていたサーバもいくつかあるんだねえ
.onionさんは、うーん、まいっか
Remaining 1/69877 0% checking mastodon...
Writing data...done
おわったー!!
というわけで、ActivityPubサーバの大きさ分布の調査が1段落しました。Twitterからの流入の多かった時期の測定ということになります。Monthly active user分布が来月までにどう変化するのか楽しみ。
https://gist.github.com/zunda/f566e2bb85ca0616d351139363274ec5 でmastodon.zunda.ninjaを起点として連合しているサーバについて順に情報を収集しました。合計69877サーバの/.well-known/nodeinfoにGETリクエストを送ってnodeinfo v2.0のマッピングを受け取り、そこへのGETに返事をくれたのは24133サーバ(1/3くらい)、MAUを教えてくれたのは18371サーバ(1/4くらい)でした。
グラフは、MAUが1以上だったサーバ(合計16444)の数を小さい順に数えたものです。MAUが2人までのサーバがだいたい半分、10人までのサーバが80%強、100人までのサーバが95%くらいを占めてるようです。
Twitterからの流入が一段落したころに調査して、大きさ分布の変化をみてみたいところです。わくわく。