橋の日バージョンによる変更点

主要な変更点は次の2つです。

これにともない、原本であるメタ辞書の書式を若干拡張し、各システム用辞書 への変換時に、収録語の選択が行なえるようにしました。

配布用の辞書形式では、収録語選択をかけた「品質管理済版」と選択を行なわ ず、機械的に各システム用辞書へ変換した「非品質管理版」を準備しています。 せっかく手間をかけていますから、「品質管理版」を使ってもらいたいとは思 いますが、「非品質管理版」でも、今回の作業により分割された複合語の要素 だった語が含まれていますから、以前のバージョンよりも語数が増加していま す。

長大な複合語の分割

TAXiの日バージョンの地球物理辞書には、例えば、「地震波構造探査」という 語が収録されていました。この「地震波構造探査」という語は、地質構造を探 る操作のうちでも特に地震波を使ったものという意味ですが、「地震波」「構 造」「探査」の 3 つの語が変換可能であれば、漢字変換する上ではこれを構 成することができます。幸い、たいていのかな漢字変換システムは、名詞の連 続を比較的正しく変換してくれます。

「地震波」は「地震」と「波」があればいいじゃないかとおっしゃるかも知れ ませんが、「地震波」が辞書に登録されていない場合、「地震は」という「地 震」+助詞「は」の変換をされてしまう可能性があり、これを分割するのは適 当ではありません。ここまで都合がよくなくとも、密接な関係のある語はあま り神経質には分解していません。

複合語として認定された語は 494 語、複合語を分解して生じた語は、もとも と含まれていたものも含めて 750 語となりました。

この他、長大な複合語の認定作業およびその分割のやり方を議論した際に、収 録しなくてもよかろうと判断されたり、複合語の一部のみを収録語とするのが 適当と判断されたりした語があわせて 112 語ありました。

システム辞書との重複チェック

一般に使われるのとは少しだけ意味が違うのだけど字面は同じ専門用語や、複 合語の分割作業によって発生した語などで、すでに種々のかな漢字変換システ ムのシステム辞書に登録されている語が、地球物理辞書にはかなりの数含まれ ています。

これまでは、辞書の形式変換のみでそれぞれのシステム用の辞書を作ってきた ため、あるシステムには含まれているけど別のシステムには含まれていない語 などをうまく区別する方法はありませんでした。そのせいで、「この語はすで に辞書に登録されている」という趣旨のエラーが、単語登録をしようとすると、 かなり大量に出力されていました。

一方、地球物理辞書は、開発の基本を Wnn に置いてきました。Wnn をはじめ とするフリーなかな漢字変換システムでは、Windows 用の多くのかな漢字変換 システムとは異なり、「必ず使わなければならない辞書」は存在しません。たまた ま、Wnn V4 なら pubdic、新しい FreeWnn なら pubdic+ が標準の辞書として インストールされるようになっていますが、これらの辞書を使わずに、まった く独自の辞書を使ったからといって動作には何も支障がないわけです。したがっ て、例えば「火砕流」が pubdic に入っているからと言って、これを排除して しまうと、pubdic でない独自の辞書を使っている人が「火砕流」のような重 要な専門用語が変換できないという事態が発生し、こんな語も変換できないな んて…と嘆く結果になるかもしれません。

つまり、その語がなにかの辞書に収録されているからという理由だけでは、そ れを地球物理辞書に収録しない理由にはならないのです。このような事情から、 地球物理辞書をユーザ辞書として追加すると、冗長な部分がかなりあることに なります。

とはいえ、やはり冗長な部分は省きたいのが人情です。幸い、複合語を排除す る作業のためにメタ辞書の書式を拡張する必要があったので、この作業のため のフラグもメタ辞書に含められるようにしました。

現在、地球物理辞書で(正規に)サポートしている辞書形式は、Wnn, Canna, ATOK, MS-IME です。これらの標準的な辞書に含まれている語かどうかに関し て、個別に調査し、フラグを付けていきます。

まず、Wnn, Canna ですが、FreeWnn と Canna の最新版(3.5B2)は、ともに標 準の辞書として pubdic+ を使っていることがわかりました。そこで、pubdic+ に含まれている語にはフラグを付けることにしました。pubdic+ はテキスト形 式で辞書全体を見ることができますから、適当なテキスト処理を行なえばこの 作業は終了です。721 語が重複することがわかりました。

ATOK としては、稼働している最も古そうなバージョンということで、ATOK8 for HP-UX を基準としました。これらの商用のかな漢字変換システムは、シス テム辞書の中身を取り出す簡単な方法がありません。そこで、辞書登録作業を 行なってみて、そのエラーから重複をチェックすることにしました。また、 ATOK8 では、登録できる漢字の「読み」にかなり厳しい長さ制限があります。 そこで、長さ制限に引っ掛かる語のチェックも行ないました。長さ制限に引っ 掛かるものの多くは複合語フラグも付いています。エラーの解析の結果、重複 する語は 966 語、長さ制限に引っ掛かる語は 176 語でした。

MS-IME としては、MS-IME97 でチェックを行ないました。なるべく古いもので チェックしようとしたのですが、MSIME95 では用言の取り扱いが以後のバージョ ンとは異なり、意図しないエラーが発生してしまって、今回のチェックには使 えないことが判明したためです。MS-IME97 でも ATOK と同様に登録時のエラー を解析し、1259 語が重複することがわかりました。MS-IME で重複すると判定 された語を見てみると、かなりマニアックな語が登録されていることがわかり ます。例をあげると「回転楕円体」「湿潤断熱減率」「ハイドロクロロフルオ ロカーボン」「熔岩流」など。なんで収録されているのかわからないような語 も結構あります。

これらの調査結果をメタ辞書に反映し、それぞれのシステム辞書に含まれる語 と複合語を除いた、品質管理済版を作成しました。

ことえり用のβ版はどういう制限があるかわからないので、収録語の少ない pubdic のフラグと、ATOK の長さ制限、複合語チェックをかけて品質管理とし ました。


このページに関するお問い合わせは e-mail address of AICまでお気軽にどうぞ。
最終更新: Wed Aug 8 22:05:13 2001