MHonArc の日本語化 for v2.6.x

どの方法を使うか決める

現在、MHonArc で日本語を扱う場合には、概ね次の 3 つのうちのいずれかになると思います。

iso-2022-jp を用いる (v2.6.0 より前の default)
Unicode character entity references (*1) を用いる (現在の default)
UTF-8 を用いる

(*1) Unicode character entity references:
&#xHHHH; のような形式。例えば「あいう」(Unicode でそれぞれ U+3042, U+3044, U+3046) は あいう と変換される。
実際の変換の例を参照していただくと分かりやすいでしょう。

それぞれの特徴を簡単にまとめておきます。

iso-2022-jp を用いる方法 (v2.6.0 より前の default)

従来のヴァージョンや他の日本語を扱うツール (Namazu 等を含む) との親和性が良い
日本語を扱えるブラウザーならまず間違い無く読める
きちんと表示させるためにはそれなりに設定が必要
(必要であれば、[序論] なぜ化けるのか? もご参照下さい)

Unicode character entity references を用いる方法 (現在の default)

日本語以外 (韓国語など) が同時に混在するようなメッセージについても問題なく処理できる
設定はラク (というより、ほとんどなにもしなくてよい)
既存のソフトウェアの一部が使えない可能性がある
通常のエディターやファイルビューアーではまともに読めない
⇒ 通常は生成された HTML ファイルを直に見る必要はほとんどないので無視できる問題かもしれません。
また、生成される HTML ファイルでは ASCII しか使われていないので、そういう意味では「通常の」エディターやファイルビューアーで読めるとも言えます。
通常のエディターやファイルビューアーではまともに読めない
ファイルサイズが多少大きくなる
対応してないブラウザーがあるかも

UTF-8 を用いる

Unicode character entity references よりは対応しているツールは多い (たぶん)
Perl 5.6 以降 (?) が必要
対応してないブラウザーがあるかも (最近のはほとんど対応していると思います)

従って、

想定する読み手が使用していると思われるブラウザー
⇒ 古いブラウザーを排除して問題ないのであればどの方法でも問題ないでしょう。古いブラウザーを排除できない (したくない) のであれば、おそらく ISO-2022-JP を用いるのが無難でしょう。
連携する予定のソフトウェアー
⇒ Namazu などを使うのであれば、それがどの方法に対応しているかを調べ、その方法を選びましょう

などから、どの方法を使うか決定して下さい。

例えば、もしあなたが、

初めて MHonArc を使う
古いブラウザーを排除しても問題ない
Namazu などの他のソフトウェアとの連携を考えない

の条件を全て満すのであれば、どの方法を使ってもさほど差はないでしょう。

なお、Namazu については、nkf 2.04 以上を使うことで UTF-8 の場合でも正しくインデックスを作成することはできますが、検索の際に用いられる namazu.cgi が Unicode を正しく解釈しないため、 Namazu との連携を考えるのであれば、(現時点では) iso-2022-jp が事実上唯一の選択肢になります。

全文検索システムを構築したい場合、Namazu 以外に Hyper Estraier も考慮すると良いと思います。 Hyper Estraier を使う場合は、 iso-2022-jp, Unicode character entity references, UTF-8 のいずれでも問題ありません (のはずです)。

(参考までに: 個人的なおすすめは、特に全文検索システムも構築したい場合は UTF-8 (+ Hyper Estraier) です。)

さて、どの方法にしますか?

index に戻る

Last modified: Sat Jun 11 07:40:44 JST 2011