応用編4:英和辞書の作成
ユーザー辞書に英和辞書を組み込んでみましょう。手順は応用編1:中英辞書を作成とほとんど同じですが、文字コードや前処理の正規表現が一部異なります。
まずGENE95 Dictionaryから「gene95.lzh」をダウンロードします。ダウンロードした圧縮ファイルを解凍すると「GENE.TXT」ができます。これが辞書の本体です。GENE95は約57000語が収録された英和辞書データで、ファイルの文字コードはシフトJIS*1、データのフォーマットはPDICテキスト形式となっています。PDICテキスト形式は、見出し語と訳語を1行毎に交互に記述した辞書フォーマットです。
PDICテキスト形式
見出し語
訳語 / 用例
今回は、この「GENE.TXT」からユーザー辞書を作成します。
ファイルメニューから「エンコードの設定とリロード」を実行してコマンドバーを出したら、エンコードに「shiftjis」を指定してGENE.TXTを「Open」します。ファイルサイズが2.57MBありますので、開くのに多少時間がかかるかもしれません。
ファイルが開けたら、今度はコマンドバーのエンコードを「utf-8」に変更して「Save」します。これでGENE.TXTのエンコードがUTF-8に変更されました。
次に正規表現のパターンファイルを作成します。PDICテキスト形式をタブ区切りファイルに変換するためのパターンは以下の通りです*2。
([^\n]+)\n([^\n]+)\n \1\t\2\n / <//>
上のパターンをテキストファイルに保存します。名前は任意ですが「Gene-Pattern.txt」とでもしておきます。
以上で準備作業が完了しましたので、実際の変換作業に入ります。
- 一括置換メニューから「ファイルから一括置換」を実行し、サイドバーを表示します。
- 処理対象ファイルに「GENE.TXT」を選択します。
- オプションの「前処理を行う」をチェックし、前処理用ファイルに「Gene-Pattern.txt」を選択します。
- オプションの「一括置換を行う」のチェックを外し、「出力結果を表示する」をチェックします。
- 「実行」ボタンを押します。
- 処理が始まります。ファイルの保存先を指定するダイアログが表示されたら「Gene-Dict.txt」など適宜ファイル名を入力して下さい。
- 処理が完了したら、新しいタブに「Gene-Dict.txt」の内容が表示されます。
- 先頭行に「英語〈tab〉日本語〈改行〉」を追加し、上書き保存します。これでPDICテキスト形式からTSVへの変換が完了しました。
- 設定メニューの「ユーザー辞書の設定」から「ユーザー辞書の新規作成」を実行します。
- 画面の指示に従ってソースファイルに「Gene-Dict.txt」を選択し、新規辞書ファイル名を「Gene95.dic」とします。保存先も指定します。
- 右の画像のように検索できれば成功です。