読者です 読者をやめる 読者になる 読者になる

紺屋高尾

ぬしの女房はんに、わちき、なりたいんざます。来年三月十五日、年季(ねん)が明けるんざます。そのときは眉毛落として歯に鉄漿(かね)染めて、ぬしの傍に参りんすよって、お内儀(かみ)さんにしてくんなますか?

RubyでUnicode コードポイント(&#x英数字;)を文字に戻してやる

UTF-8のテキストデータなどをSJISで保存してしまうと、文字によっては&#x英数字;のように文字化けしてしまう。
糝とか。

これを糝のような文字に戻してやる。

最初からSJISで保存するなって?
俺がやったわけじゃ(ry
入稿データが(ry

utf8 = File.open('utf8.txt', 'w')
File.open('moji.txt').each do |row|
  while (row =~ /&#(x\w+);/)
    row.gsub!("&##{$1};", ["0#{$1}".hex].pack("U*"))
  end 
  utf8.puts row 
end