応用編3:中日変換の強化

Xinには、中国の漢字(簡体字)を日本語の漢字に変換するための用語集が同梱されています。一括置換コマンドバーの「中日」ボタンに対応づけられている用語集ですので、適当な簡体字テキストを貼り付けて、このボタンを押すとどういう処理を行うのか分かると思います。


図:中日変換の処理結果(Ghost)

一見正しく処理されているようにも見えますが、初期状態の中日用語集は単漢字の処理にしか対応していませんので、「头发」と「发光」は「頭発」と「発光」*1に変換されてしまいます。上の図では「发」が正しく処理されていないだけですが、「复、干、后」といった漢字でも同様の問題が生じます。今回はこの問題を解決するため、状況に応じて「发」を「発」か「髪」に変換できるように用語集の拡充を行います。

データの追加

头发 頭髪
毛发 毛髪
洗发 洗髪
发型 髪型

「髪」に関連するデータをはじめとして、「复、干、后」を正しく処理できるようにデータを作成します。サンプルのテキストデータはこちらのファイルをダウンロードしてください。圧縮ファイルの中身はUTF-8のテキストファイルです。上掲のデータと同様、簡体字と日本の漢字のデータがタブ区切りで登録されています。ダウンロードし、ファイルを解凍したら次の手順で中日用語集にデータを追加します。

  1. 一括置換メニューから「用語集の編集」を実行し、サイドバーを表示します。
  2. 用語集に「中日.dat」を選択します。
  3. インポートボタンをクリックして「c2j.txt」を指定します。処理の進捗はステータスバーに表示されます。

登録できたら「江苏周岁男童头发发光父母欲申报吉尼斯」を変換してみましょう。「江蘇周歳男童頭髪発光父母欲申報吉尼斯」と変換されれば成功です。
なお、「c2j.txt」には次のようなデータも登録されています。

车辆 車両
辅助 補助
计划 計画
杂志 雑誌
关系 関係
劳动 労働
附属 付属
排烟 排煙
蒸汽 蒸気

たとえば「计划」を変換して「計劃」となるのは、漢字の変換であればこれでも良いかもしれませんが、変換結果を翻訳作業に利用する場合は「計画」となって欲しいため、こうしたデータも追加しました。不要だと思われる場合は削除してください。次の項では、翻訳作業で省力化を実現するためにさらにデータの登録を行います。

翻訳用のデータを追加する

簡体字から日本語の漢字への変換が正しくできれば、固有名詞(人名、地名、組織名)を翻訳する際に漢字を調べる手間が省けて便利ですが、それ以外の部分はこれまでと同様に翻訳作業を行う必要があります。毎回同じ訳語になることが分かっているなら、その部分も変換してしまった方が作業は楽です。以下のデータをご覧ください。

世界贸易组织 世界貿易機関
发改委 発展改革委員会
高效液相色谱仪 高速液体クロマトグラフ
二氯甲烷 ジクロロメタン
资产负债表 貸借対照表
出资比例 出資比率
奥地利 オーストリア
加拿大 カナダ
上年 前年
毫安 ミリアンペア
公里 キロメートル

上のように「組織名」「略称」「専門用語」「地名」「単位」など単語と訳語が一対一で対応するデータを登録しておけば、毎回キーボードから入力する手間が省けますし、ケアレスミスの防止になります。「发改委」を毎回「発展改革委員会」と入力し直すのはちょっと面倒ですよね。作者が普段利用している翻訳用の用語集から一部抜粋したものを用意しましたので、次の手順で翻訳用の用語集を作成してみましょう。

  1. こちらのファイルをダウンロードして解凍する。
  2. 一括置換メニューから「用語集の編集」を実行し、サイドバーを表示します。
  3. 用語集に「中日.dat」を選択します。
  4. インポートボタンをクリックして「trans.txt」を指定します。処理の進捗はステータスバーに表示されます。

※「中日.dat」を上書きしてしまうと他の用途に利用できなくなりますので、「中日.dat」をコピーして「翻訳.dat」などにリネームし、その「翻訳.dat」にデータをインポートすることをおすすめします。コマンドバーへの用語集の登録については、こちらをご覧ください。


図:「翻訳.dat」を使ってGhostを行ったところ

  • 中日変換用のデータと翻訳用のデータを追加したサンプルファイル「翻訳.dat」は、こちらからダウンロードすることができます。コマンドバーへの用語集の登録については、こちらをご覧ください。
  • なお、本ページで公開している中日変換や翻訳用の追加データのライセンスはGFDLとします。これらのデータはXinの動作確認を目的としたものであり、データの正確さについては保証いたしません。

*1:正しくは「頭髪」と「発光」