MHonArc の日本語化 for v2.6.x
どの方法を使うか決める
現在、MHonArc で日本語を扱う場合には、
概ね次の 3 つのうちのいずれかになると思います。
- iso-2022-jp を用いる (v2.6.0 より前の default)
- Unicode character entity references (*1) を用いる (現在の default)
- UTF-8 を用いる
(*1) Unicode character entity references:
&#xHHHH; のような形式。
例えば「あいう」(Unicode でそれぞれ U+3042, U+3044, U+3046) は
あいう と変換される。
実際の変換の例
を参照していただくと分かりやすいでしょう。
それぞれの特徴を簡単にまとめておきます。
- iso-2022-jp を用いる方法 (v2.6.0 より前の default)
-
- 従来のヴァージョンや他の日本語を扱うツール (Namazu 等を含む)
との親和性が良い
- 日本語を扱えるブラウザーならまず間違い無く読める
- きちんと表示させるためにはそれなりに設定が必要
(必要であれば、[序論] なぜ化けるのか?
もご参照下さい)
- Unicode character entity references を用いる方法 (現在の default)
-
- 日本語以外 (韓国語など)
が同時に混在するようなメッセージについても問題なく処理できる
- 設定はラク (というより、ほとんどなにもしなくてよい)
- 既存のソフトウェアの一部が使えない可能性がある
- 通常のエディターやファイルビューアーではまともに読めない
⇒ 通常は生成された HTML ファイルを直に見る必要はほとんどないので
無視できる問題かもしれません。
また、生成される HTML ファイルでは ASCII
しか使われていないので、そういう意味では
「通常の」エディターやファイルビューアーで読めるとも言えます。
- 通常のエディターやファイルビューアーではまともに読めない
- ファイルサイズが多少大きくなる
- 対応してないブラウザーがあるかも
- UTF-8 を用いる
-
- Unicode character entity references よりは対応しているツールは多い
(たぶん)
- Perl 5.6 以降 (?) が必要
- 対応してないブラウザーがあるかも
(最近のはほとんど対応していると思います)
従って、
- 想定する読み手が使用していると思われるブラウザー
⇒ 古いブラウザーを排除して問題ないのであればどの方法でも問題ないでしょう。
古いブラウザーを排除できない (したくない) のであれば、おそらく ISO-2022-JP
を用いるのが無難でしょう。
- 連携する予定のソフトウェアー
⇒ Namazu などを使うのであれば、それがどの方法に対応しているかを調べ、
その方法を選びましょう
などから、どの方法を使うか決定して下さい。
例えば、もしあなたが、
- 初めて MHonArc を使う
- 古いブラウザーを排除しても問題ない
- Namazu などの他のソフトウェアとの連携を考えない
の条件を全て満すのであれば、どの方法を使ってもさほど差はないでしょう。
なお、Namazu については、nkf 2.04 以上を使うことで
UTF-8 の場合でも正しくインデックスを作成することはできますが、
検索の際に用いられる namazu.cgi が Unicode を正しく解釈しないため、
Namazu との連携を考えるのであれば、(現時点では) iso-2022-jp
が事実上唯一の選択肢になります。
全文検索システムを構築したい場合、Namazu 以外に Hyper Estraier
も考慮すると良いと思います。
Hyper Estraier を使う場合は、
iso-2022-jp, Unicode character entity references, UTF-8 のいずれでも
問題ありません (のはずです)。
(参考までに:
個人的なおすすめは、特に全文検索システムも構築したい場合は UTF-8
(+ Hyper Estraier) です。)
さて、どの方法にしますか?
Last modified: Sat Jun 11 07:40:44 JST 2011