ITmedia ガジェット 過去記事一覧
検索
インタビュー

辞書作りのシステム化は“辞書の定義”まで変えるかもしれない 『大辞林』編集長インタビュー(1/3 ページ)

「分からない言葉があったら引く」以外の使い方も生まれるかも。

PC用表示 関連情報
advertisement

 制作期間10余年、数十人規模の制作チーム、かつて膨大な手作業により指紋が消失する者もいた。――― これは巨大な建造物ではなく、“辞書”という1冊の本の話です。2019年9月、大型国語辞書『大辞林』(三省堂)から、13年ぶりの全面改訂となる第4版が刊行。本記事は、映画「舟を編む」の制作にも関わった編集長・山本康一さんへのインタビュー企画・第3回となります。

 今回は前回前々回にもチラッとでてきた「辞書作りのシステム化」を中心に伺いました。ユーザー側には見えにくい側面ですが、実は“辞書の定義”まで変えてしまう大きな転換点になっているようです。



取材参加者

  • 山本康一さん:『大辞林』第4版編集長
  • ながさわさん:数百冊の辞書を保有する辞書コレクター。暇さえあれば辞書を引いている
  • ねとらぼ編集部

約20年前から進められていた“辞書のシステム化”

――― 前回、『大辞林』は第3版(2006年刊行)のころから自動組版(紙面などのレイアウトの自動化)に取り組んでいるというお話を伺いました。具体的にはどんなことを?

編集長:20年近くかけて「XML(※)で辞書を設計する」という方針をかなり突き詰めてやってきました。辞書の項目は「見出し」「語義解説」「用例」などから構成されますが、それらのレイアウトに関わる要素をしっかりデータ化しておくことで、“同じデータをさまざまなレイアウトで出力できる”ようにしています。

※XML:「タグ」で文字列を挟むなどして、文章の意味や構造を記述するマークアップ言語。例:<midashi>これは見出しです</midashi> <gogi>これは語義解説です</gogi>

ながさわ:従来、人間が作ってきた辞書をシステム化したわけですね。

編集長:これがない時代は困りましたね。例えば、語義が複数あってそれぞれに番号が振られているとき。語義番号には丸で囲った数字のほか、白抜き漢数字、黒抜き漢数字などが使われることがあるのですが、その階層構造に悩んだことがあります。「白抜き漢数字は黒抜き漢数字よりも上なのか、下なのか、それとも同列なのか」という。

 もちろん、辞書内の凡例に関するページを見るとルールが書いてあるんですが、当時の編集長に聞いたら「それはケースバイケースだ」と言っていて。

――― 困ってしまいますね、ルールがあるのにケースバイケースとは

編集長:結果的に言えば、ほぼ凡例通りになっていたんですけどね。第3版でXMLを採用するとき全て調べました。

 でも、システム化した方が「本当にそうなっているのか」が分かりやすくなる。データが正しくできているか検証するプログラムもあるので、そういう意味でも整合性が保ちやすいと思います。

――― XMLでは独自のタグを定義することが可能。言ってみれば「辞書のデータをどう分類したり、構成したりするか」が自分で決められるわけですが、『大辞林』にはどれくらいタグがあるのですか?

編集長:XMLには「要素」「その要素の属性」というものが設定されるのですが、全部合わせて300種類ほどでしょうか。

ながさわ:そんなにあるんですか!?

編集長:自動組版のためにデータの意味を隅々まで定義して構造化する必要がある……という事情もありますが、さらに編集履歴や言葉のジャンル、位相(年齢、地域、会話・文章などで現れる言葉の意味の違い)といったユーザーには見えないメタ情報も含まれています。これからもどんどん進化していくと思います。

ながさわ:そういったデータを利用して、別の検索方法も利用できるようになったら面白そうですね。例えば、語釈の“類義語”にあたる箇所を検索に利用して、似た意味の言葉を抽出するとか。

編集長:編集支援システム上では可能です。というか、それができないと役に立たない。正規表現を使って、欲しいデータをピンポイントで拾ってくることもできます。

――― 私が学校で教わった辞書の使い方は「言葉が50音順に並んでいて、分からない言葉があったら引く」くらいでしたが、検索方法が変わるならもっと違うことができるかもしれませんね

Copyright © ITmedia, Inc. All Rights Reserved.

       | 次のページへ
ページトップに戻る