応用編2:簡繁変換を強化

Xinには簡体字から繁体字への変換を行うための用語集が添付されていますが、この用語集は単漢字の変換しかできないため、例えば「头发,发霉」を変換すると「頭發,發黴」となってしまいます(正解は「頭髮,發黴」)。この問題を克服するには、「头发」を「頭髮」に変換できるように単語データを追加する必要があります。データを集め、入力するのは大変な作業ですが、幸いなことに中国語版のWikipediaで簡繁変換用のデータが公開されています。
関連:Wikipediaの简繁词表
今回は、上のページで公開されているデータをベースに、台湾と大陸で異なるコンピュータ関連の単語などを追加し、Xin用の用語集データを作成します。
★電脳関連の単語抜粋

簡体 繁体 簡体 繁体
硬件 硬體 软件 軟體
网络 網路 打印机 印表機
鼠标 滑鼠 博客 部落格

データのインポート
Wikipediaのデータと電脳関連単語をまとめたテキストファイルはこちら(zip圧縮)です。なお、本データのライセンスはWikipediaのデータと同じGFDLとします。

  1. このファイルをダウンロードして解凍します。s2t_additional.txtがデータファイルになります。
  2. 一括置換メニューから「用語集の編集」を実行し、サイドバーを表示します。
  3. 用語集に「簡繁.dat」を選択し、インポートボタンをクリックして「s2t_additional.txt」を指定します。処理の進捗はステータスバーに表示されます。

皇后在后面吃面条」の一括置換を実行して「皇后在後面吃麵條」と変換されたら成功です。Wikipediaの繁簡轉換には他にも多くのデータが登録されていますので、必要に応じて追加していくと面白いと思います。繁体字から簡体字への変換を強化することも同様の手順で実現できます。