一括置換メニュー

一括置換を実行


現在選択している用語集を使用し、表示されているテキストに対して一括置換を実行します。なお、ツールバーの「convert」ボタンをマウスオーバーすると現在選択中の用語集がステータスバーに表示されます。
上の画像のピンイン変換のように置換後の文字列の前後にスペースを挿入して出力する場合などは、オプションから置換の設定設定を行います。インストール時に同梱されている各用語集については、こちらをご覧下さい。
ショートカットキー:Alt-M

置換コマンドバーを表示

コマンドバーは、真ん中付近のセパレータをはさんで左側が一括置換用のボタン群、右側が一括置換に関係する編集や新規作成などのボタン群です。左側の一括置換用のボタン群は、それぞれ用語集と関係付けられていて、押下すると対応する用語集を使った一括置換が実行されます。右側に並ぶのは「前処理」「編集」「新規作成」の3つのボタンです。それぞれ「正規表現による前処理」、「用語集の編集」、「用語集の新規作成」に対応しています。
ショートカットキー:Ctrl-M

Ghostを実行

対訳形式の一括置換であるGhostを実行します。詳細はこちらのGhostの説明をご覧下さい。
ショートカットキー:Ctrl-Enter

Vacuumを実行

Vacuumは、対訳形式のテキストから原文または訳文を削除し、必要であれば対訳データベースへのデータ登録とGhost用の用語集へのデータ登録を行います。詳細はこちらのVacuumの説明をご覧下さい。

カーソル行以降にGhostを再実行

編集中のファイルから埋め込みデータ(次項参照)を抽出した上で、カーソル行以降のテキストに対してGhostを再度実行します。いったんGhostを実行した後に用語集の編集を行った際などにご利用下さい。
なお、Ghostは選択範囲のみを対象として実行することもできますので、1行ずつGhostを実行すれば常に最新の用語集を適用することができます。

埋め込みデータを抽出

現在のテキストから((原文|訳語))形式で埋め込まれた用語集登録用のデータを抽出し、Ghost用の用語集に登録します。
Vacuumの実行時に行われる埋め込みデータの抽出・登録処理と同様の処理を行います。現在表示されているテキストから((原文|訳語))の形式で記述された部分を探し出し、原文と訳語のペアを現在選択されている用語集に登録します。

注:バージョン1.01からコマンドghost用に選択された用語集に原文と訳語のペアを登録するかたちに変更となりました。なお、Vacuumでは行頭に「#」がある原文の行からのみ原文と訳語のペアを抽出しますが、「埋め込みデータを抽出」コマンドでは全ての行を対象に抽出処理が行われます。

用語集の設定

用語集の設定は、オプションダイアログの置換タブにて行います。

用語集の新規作成


一括置換用の用語集を新たに作成します。実行すると新規作成用のダイアログが表示されます。

  • まず、上部の[...]ボタンを押して、用語集の元となるソースファイルを選択します。
  • 次に作成した用語集の保存先を[...]ボタンを押して指定します。
  • 最後にダイアログの下部で重複する単語があった場合の処理方式を選択します。
    • 「登録しない」は重複する単語を見つけても無視します。
    • 「マージする」は登録済みのデータと重複するデータを整理・統合した上で登録を行います。
    • 「上書きする」は登録済みのデータを新しいデータで上書きします。
  • 「OK」を押すと登録処理が実行されます。終了すると、新規作成した用語集がシステムに登録されますが、コマンドバーのボタンや置換のオプションの設定は終わっていませんので、「オプション」ダイアログ→「置換」タブでコマンドバーに表示するボタンの画像やテキストの設定、置換オプションなどを設定してください。

用語集の編集


用語集のデータはサイドバーで編集します。

  • 用語集選択:編集する用語集を選択します。
  • データのインポート:TSVファイルからデータをインポートするためのボタンです。インポート処理についてはこちらを参照下さい。
  • データのエクスポート:用語集のデータをTSVファイルにエクスポートするためのボタンです。エクスポート処理についてはこちらを参照下さい。
  • 置換前の単語と置換後の単語:適宜入力し、登録ボタンを押すと用語集に反映されます。
  • 登録:入力したデータを用語集に登録します。
  • 検索:置換前の単語に文字列が入力された状態で「検索」ボタンを押すと現在の用語集を検索します。対応するデータが登録されていれば、「置換後の単語」にそのデータが表示されます。
  • 削除:「置換前の単語」に対応するデータを用語集から削除したい場合はこのボタンを押します。
登録時のオプション(重複データの処理)

ここで選択したオプションは登録時やファイルからのデータインポート処理に反映されます。

  • 重複データは登録しない:重複データは無視され、登録されません。
  • 既存データとマージする:新しいデータと既存データをマージした上で登録処理を行います。各データ間は「|」で区切られます。
    ※1つの単語に対して複数のデータを登録したい場合は、各データ間に「|」を挿入して下さい。マージ処理の際、Xinの内部では「|」に従ってデータを区切り、適切に処理します。
  • 既存データを上書きする:既存データを新しいデータで置き換えます。



既存の用語集から新しい用語集を作成

既存の用語集のデータを引き継ぐと同時に、必要に応じてデータをインポートして新しい用語集を作成します。
この機能を実行するとファイルを選択するためのダイアログが表示されます。

  1. 最上部の欄では、新しい用語集のもととなる既存の用語集を選択します。
  2. 2番目の欄には、新たにインポートするデータが保存されているテキストファイルを指定します。インポートするテキストファイルの書式については次項を参照下さい。この欄はオプションですので未入力でも問題ありません。
  3. 3番目の欄には、新しい用語集の保存先を指定します。通常はインストールフォルダの「terms」フォルダ内に保存します。
  4. 重複データがあった場合の処理方法を選択した上で、「OK」を押すと用語集が作成されます。
  5. 最後に、オプション設定用のダイアログの「置換」タブで新しく作成した用語集の設定を行って下さい。

この機能は、たとえば同梱されている用語集「中日.dat」*1をもとにして、分野ごとに用語集を作りたい場合に利用すると便利です。

ファイルからデータをインポート


現在選択されている用語集にデータをインポートします。実行するとファイル選択ダイアログが表示されますので、置換前の文字列と置換後の文字列が登録されたタブ区切りのソースファイルを指定します。ソースファイルに問題がなければ、データのインポートが行われて次回以降の一括置換で利用できるようになります。なお、インポートするファイルのデータは所定の書式に従う必要があります。こちらをご参照ください。

関連:応用編2:簡繁変換を強化 応用編3:中日変換の強化では、変換機能の強化を行うためにファイルからのインポートを行っています。ご参照下さい。

ファイルにデータをエクスポート

現在選択されている用語集のデータをテキストファイルにエクスポートします。保存先を選択するためのダイアログが表示されますので、適宜ファイル名などを入力すれば、エクスポート処理が実行されます。出力データの文字コードUTF-8です。「置換前の文字列」と「置換後の文字列」をタブで区切るかたちで出力します。

用語集のソースファイルの書式

テキストファイルのエンコードUTF-8とします。テキストファイルの各行には、置換前の文字列と置換後の文字列をタブ記号で区切って記述します。

置換前 〈tab〉 置換後
置換前 〈tab〉 置換後
置換前 〈tab〉 置換後|置換後|置換後
〜以下同じ〜

※置換後の文字列を複数登録したい場合は、上記のように「|」を使って区切っておくと、後から編集やデータの追加をする際に正しく処理することができます。

用語集の切り替え

※バージョン1.10にて廃止

ファイルから一括置換


ファイルから一括置換を行うためのサイドバーが表示されます。表示されているテキストではなく、ファイルを指定して直接一括置換を実行しますので、高速に処理できる上、メモリ消費を低減することができます。メガバイトクラスの巨大なテキストファイルの一括置換を行う場合は、この「ファイルから一括置換」の利用をおすすめします。

処理対象ファイル

処理対象のテキストファイルを指定します。

前処理用ファイル

正規表現による前処理を行うためのパターンファイルを指定します。パターンファイルはUTF-8のタブ区切りファイルにのみ対応しています。
関連:正規表現による前処理

一括置換ファイル

一括置換を行うための用語集ファイルを指定します。

処理オプション

「前処理を行う」や「一括置換を行う」をオフにすると画面上部のエントリボックスに入力できなくなります。「前処理を行う」と「一括置換を行う」の両方がオンになっている場合は、前処理を行った上で指定された用語集を使った一括置換を行います。
「処理結果を表示する」をオンにしていると、処理結果が対訳エディタに表示されます。

出力オプション

「スペースで区切る」および「1文字以上はタグで強調」の2つのオプションは一括置換用コマンドバーの「設定」から設定する出力オプションと連動しています。各用語集に対応する出力形式を指定します。「一括置換を行う」がオフになっている場合、つまり一括置換を行わない場合は設定する必要はありません。


正規表現による前処理

一括置換の実行に先立って、予備的な置換処理を行いたい時に使う機能です。Xinの一括置換やGhostは正規表現に対応していませんが、この「前処理」では正規表現を利用した置換処理を行うことができます。
「前処理」では、こちらで説明しているのと同じ書式のテキストファイルを利用します。「検索パターン」と「置換パターン」をタブで区切り、テキストファイルに登録し、そのファイルを指定して置換処理を実行します。エンコードUTF-8としてください。

処理の流れ
  1. 一括置換用コマンドバーの「前処理」ボタンを押す。
  2. ファイル選択ダイアログが表示されます。
  3. 正規表現のパターンが登録されたファイルを指定します。
  4. ファイルの先頭から順にパターンを読み込み、「検索パターン」を「置換パターン」に置き換えます。
関連

ファイルから一括置換の実例である応用編1:中英辞書を作成では、正規表現による前処理を利用して中国語-英語辞書を作成しています。ご参照下さい。

注:前処理用のパターンファイルには、処理対象のテキストに適用したい順にパターンを登録してください。一括置換用の用語集と異なり、前処理ではパターンファイルを頭から読み込み、処理対象のテキストに順に適用しますのでパターンの登録順によっては期待通りの結果にならない場合があります。

同梱の用語集について

インストール時、「terms」フォルダには合計6つの用語集ファイルが収められています。また、初回起動時には同フォルダに「xin.dat」が生成されます。以下、各ファイルについて説明します。

xin.dat
動作確認用のファイルです。このファイルを利用した一括置換に関しては、Xinを利用した翻訳作業をご参照下さい。
簡繁.dat
簡体字繁体字に変換する用語集です。こちらの応用編もあわせてご覧ください。
繁簡.dat
繁体字簡体字に変換する用語集です。
Pinconv.dat
簡体字を簡易ピンインに変換する用語集です。
インストール時の設定では処理結果が見にくいので、一括置換メニューの用語集の設定を実行し、サイドバーの「置換のオプション」でスペースで区切る」をチェックしてください。
声調.dat
「Pinconv.dat」で変換した簡易ピンイン(例:pin1yin1)を声調記号つきのピンイン(例:pīnyīn)に変換する用語集です。
中日.dat
簡体字を日本の漢字に変換する用語集です。日本語側に対応する漢字がない場合は、簡易ピンインに変換します。こちらの応用編3:中日変換の強化もあわせてご覧ください。
日中.dat
日本の漢字を簡体字に変換する用語集です。

注:上記用語集ファイルは、Xinの動作を確認するために同梱しているものであり、内容の正確性については問題が残っている可能性があります。特に簡体字←→繁体字の変換用語集は十分な検証を行っていません。ご了承ください。

*1:簡体字を日本の漢字に変換するための用語集です。