MHonArc の日本語化 for v2.6.x

どの方法を使うか決める

現在、MHonArc で日本語を扱う場合には、 概ね次の 3 つのうちのいずれかになると思います。

(*1) Unicode character entity references:
&#xHHHH; のような形式。 例えば「あいう」(Unicode でそれぞれ U+3042, U+3044, U+3046) は あいう と変換される。
実際の変換の例 を参照していただくと分かりやすいでしょう。


それぞれの特徴を簡単にまとめておきます。

iso-2022-jp を用いる方法 (v2.6.0 より前の default)

Unicode character entity references を用いる方法 (現在の default)

UTF-8 を用いる

従って、

などから、どの方法を使うか決定して下さい。

例えば、もしあなたが、

の条件を全て満すのであれば、どの方法を使ってもさほど差はないでしょう。

なお、Namazu については、nkf 2.04 以上を使うことで UTF-8 の場合でも正しくインデックスを作成することはできますが、 検索の際に用いられる namazu.cgi が Unicode を正しく解釈しないため、 Namazu との連携を考えるのであれば、(現時点では) iso-2022-jp が事実上唯一の選択肢になります。

全文検索システムを構築したい場合、Namazu 以外に Hyper Estraier も考慮すると良いと思います。 Hyper Estraier を使う場合は、 iso-2022-jp, Unicode character entity references, UTF-8 のいずれでも 問題ありません (のはずです)。

(参考までに: 個人的なおすすめは、特に全文検索システムも構築したい場合は UTF-8 (+ Hyper Estraier) です。)


さて、どの方法にしますか?


Last modified: Sat Jun 11 07:40:44 JST 2011