_ [comp] audacious + –enable-chardet + taglib

yazさんから丁寧な解説付き返事をいただく。ありがたや。まとめると、

  • chardet を有効にして問題が起こるのは taglib の仕様のせい。
  • それを解消するためのパッチが taglib-1.4_wchar.diff
  • taglib-1.4_wchar.diff を taglib に取り込んでもらえれば、chardet を常に有効にしても問題ない。

手元では taglib-1.4_wchar.diff を当てた taglib を使用中なので問題は起きなかったようだ。 なお、taglib の仕様の問題について解説していただいたのをまとめると、

  • taglib の API では UTF-8 か latin-1 を指定してタグ文字列を得る。
  • taglib は内部表現に UCS-2BE (Universal Character Set coded in 2 octets Big Endian) を使っている。
  • UTF-8 が指定されたら内部で UCS-2BE → UTF-8 の変換を行う、latin-1 が指定されたら単に UCS-2BE の下位バイトだけを返す。
  • chardet ではタグ文字列を得るのに latin-1 を指定する。もしタグ文字列が UCS や UTF-8 の場合、UCS-2BE の上位バイトも使う可能性があるので、文字情報が損われる。
  • taglib-1.4_wchar.diff は latin-1 を指定されたときに上位バイトをチェックし、上位バイトに 0 以外の値があれば文字列を UTF-8 に変換して返すようにする。taglib はタグ文字列に Unicode 系の文字が使われているときのみ UCS-2BE の上位バイトを使うので、この変換は必ず有意な UTF-8 文字列を生成する。

ということだそうだ。 audacious libtag != bmpx libtag? というのも見つけた。