$ ruby -e 'x="寿限無、寿限無 五劫の擦り切れ 海砂利水魚の 水行末 雲来末 風来末 食う寝る処に住む処 藪ら柑子の藪柑子 パイポ パイポ パイポのシューリンガン シュー リンガンのグーリンダイ グーリンダイのポンポコピーのポンポコナーの 長久命の長助";puts x.size, x.encode("UTF-32").bytes.size'
117
472
1文字のバイト数はUTF-32が一番多いと思っていいんだっけ
らしい
$ ruby -e '
x="寿限無、寿限無 五劫の擦り切れ 海砂利水魚の 水行末 雲来末 風来末 食う寝る処に>住む処 藪ら柑子の藪柑子 パイポ パイポ パイポのシューリンガン シュー リンガンの
グーリンダイ グーリンダイのポンポコピーのポンポコナーの 長久命の長助"
p Encoding.list.map{|e|
begin
[x.encode(e).bytes.size, e.to_s]
rescue
[0, e.to_s]
end
}.sort[-1]'
[484, "UTF-32"]
さっきとバイト数が違うのはどこかに改行が入ったからかな