応用編4:英和辞書の作成

ユーザー辞書に英和辞書を組み込んでみましょう。手順は応用編1:中英辞書を作成とほとんど同じですが、文字コードや前処理の正規表現が一部異なります。
まずGENE95 Dictionaryから「gene95.lzh」をダウンロードします。ダウンロードした圧縮ファイルを解凍すると「GENE.TXT」ができます。これが辞書の本体です。GENE95は約57000語が収録された英和辞書データで、ファイルの文字コードシフトJIS*1、データのフォーマットはPDICテキスト形式となっています。PDICテキスト形式は、見出し語と訳語を1行毎に交互に記述した辞書フォーマットです。

PDICテキスト形式

見出し語
訳語 / 用例

今回は、この「GENE.TXT」からユーザー辞書を作成します。
ファイルメニューから「エンコードの設定とリロード」を実行してコマンドバーを出したら、エンコードに「shiftjis」を指定してGENE.TXTを「Open」します。ファイルサイズが2.57MBありますので、開くのに多少時間がかかるかもしれません。

ファイルが開けたら、今度はコマンドバーのエンコードを「utf-8」に変更して「Save」します。これでGENE.TXTのエンコードUTF-8に変更されました。
次に正規表現のパターンファイルを作成します。PDICテキスト形式をタブ区切りファイルに変換するためのパターンは以下の通りです*2

([^\n]+)\n([^\n]+)\n	\1\t\2\n
 / 	<//>


上のパターンをテキストファイルに保存します。名前は任意ですが「Gene-Pattern.txt」とでもしておきます。
以上で準備作業が完了しましたので、実際の変換作業に入ります。

  1. 一括置換メニューから「ファイルから一括置換」を実行し、サイドバーを表示します。
  2. 処理対象ファイルに「GENE.TXT」を選択します。
  3. オプションの「前処理を行う」をチェックし、前処理用ファイルに「Gene-Pattern.txt」を選択します。
  4. オプションの「一括置換を行う」のチェックを外し、「出力結果を表示する」をチェックします。
  5. 「実行」ボタンを押します。
  6. 処理が始まります。ファイルの保存先を指定するダイアログが表示されたら「Gene-Dict.txt」など適宜ファイル名を入力して下さい。
  7. 処理が完了したら、新しいタブに「Gene-Dict.txt」の内容が表示されます。
  8. 先頭行に「英語〈tab〉日本語〈改行〉」を追加し、上書き保存します。これでPDICテキスト形式からTSVへの変換が完了しました。
  9. 設定メニューの「ユーザー辞書の設定」から「ユーザー辞書の新規作成」を実行します。
  10. 画面の指示に従ってソースファイルに「Gene-Dict.txt」を選択し、新規辞書ファイル名を「Gene95.dic」とします。保存先も指定します。
  11. 右の画像のように検索できれば成功です。


*1:JISかもしれませんが確認できませんでした

*2:かなりの力業ですが(汗)