辞書作りのシステム化は“辞書の定義”まで変えるかもしれない 『大辞林』編集長インタビュー(1/3 ページ)

「分からない言葉があったら引く」以外の使い方も生まれるかも。

» 2019年11月22日 20時00分 公開
[ねとらぼ]

 制作期間10余年、数十人規模の制作チーム、かつて膨大な手作業により指紋が消失する者もいた。――― これは巨大な建造物ではなく、“辞書”という1冊の本の話です。2019年9月、大型国語辞書『大辞林』(三省堂)から、13年ぶりの全面改訂となる第4版が刊行。本記事は、映画「舟を編む」の制作にも関わった編集長・山本康一さんへのインタビュー企画・第3回となります。

 今回は前回前々回にもチラッとでてきた「辞書作りのシステム化」を中心に伺いました。ユーザー側には見えにくい側面ですが、実は“辞書の定義”まで変えてしまう大きな転換点になっているようです。



取材参加者

  • 山本康一さん:『大辞林』第4版編集長
  • ながさわさん:数百冊の辞書を保有する辞書コレクター。暇さえあれば辞書を引いている
  • ねとらぼ編集部

約20年前から進められていた“辞書のシステム化”

――― 前回、『大辞林』は第3版(2006年刊行)のころから自動組版(紙面などのレイアウトの自動化)に取り組んでいるというお話を伺いました。具体的にはどんなことを?

編集長:20年近くかけて「XML(※)で辞書を設計する」という方針をかなり突き詰めてやってきました。辞書の項目は「見出し」「語義解説」「用例」などから構成されますが、それらのレイアウトに関わる要素をしっかりデータ化しておくことで、“同じデータをさまざまなレイアウトで出力できる”ようにしています。

※XML:「タグ」で文字列を挟むなどして、文章の意味や構造を記述するマークアップ言語。例:<midashi>これは見出しです</midashi> <gogi>これは語義解説です</gogi>

ながさわ:従来、人間が作ってきた辞書をシステム化したわけですね。

編集長:これがない時代は困りましたね。例えば、語義が複数あってそれぞれに番号が振られているとき。語義番号には丸で囲った数字のほか、白抜き漢数字、黒抜き漢数字などが使われることがあるのですが、その階層構造に悩んだことがあります。「白抜き漢数字は黒抜き漢数字よりも上なのか、下なのか、それとも同列なのか」という。

 もちろん、辞書内の凡例に関するページを見るとルールが書いてあるんですが、当時の編集長に聞いたら「それはケースバイケースだ」と言っていて。

――― 困ってしまいますね、ルールがあるのにケースバイケースとは

編集長:結果的に言えば、ほぼ凡例通りになっていたんですけどね。第3版でXMLを採用するとき全て調べました。

 でも、システム化した方が「本当にそうなっているのか」が分かりやすくなる。データが正しくできているか検証するプログラムもあるので、そういう意味でも整合性が保ちやすいと思います。

――― XMLでは独自のタグを定義することが可能。言ってみれば「辞書のデータをどう分類したり、構成したりするか」が自分で決められるわけですが、『大辞林』にはどれくらいタグがあるのですか?

編集長:XMLには「要素」「その要素の属性」というものが設定されるのですが、全部合わせて300種類ほどでしょうか。

ながさわ:そんなにあるんですか!?

編集長:自動組版のためにデータの意味を隅々まで定義して構造化する必要がある……という事情もありますが、さらに編集履歴や言葉のジャンル、位相(年齢、地域、会話・文章などで現れる言葉の意味の違い)といったユーザーには見えないメタ情報も含まれています。これからもどんどん進化していくと思います。

ながさわ:そういったデータを利用して、別の検索方法も利用できるようになったら面白そうですね。例えば、語釈の“類義語”にあたる箇所を検索に利用して、似た意味の言葉を抽出するとか。

編集長:編集支援システム上では可能です。というか、それができないと役に立たない。正規表現を使って、欲しいデータをピンポイントで拾ってくることもできます。

――― 私が学校で教わった辞書の使い方は「言葉が50音順に並んでいて、分からない言葉があったら引く」くらいでしたが、検索方法が変わるならもっと違うことができるかもしれませんね

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

先週の総合アクセスTOP10
  1. 小1娘、ペンギンの卵を楽しみに育ててみたら…… 期待を裏切る生き物の爆誕に「声出して笑ってしまったw」「反応がめちゃくちゃ可愛い」
  2. 富山県警のX投稿に登場の女性白バイ隊員に過去一注目集まる「可愛い過ぎて、取締り情報が入ってこない」
  3. 2カ月赤ちゃん、おばあちゃんに少々強引な寝かしつけをされると…… コントのようなオチに「爆笑!」「可愛すぎて無事昇天」
  4. 異世界転生したローソン出現 ラスボスに挑む前のショップみたいで「合成かと思った」「日本にあるんだ」
  5. 【今日の計算】「8+9÷3−5」を計算せよ
  6. 21歳の無名アイドル、ビジュアル拡散で「あの頃の橋本環奈すぎる」とSNS騒然 「実物の方が可愛い」「見つかっちゃったなー」の声も
  7. 1歳赤ちゃん、寝る時間に現れないと思ったら…… 思わぬお仲間連れとご紹介が「めっちゃくちゃ可愛い」と220万再生
  8. 業務スーパーで買ったアサリに豆乳を与えて育てたら…… 数日後の摩訶不思議な変化に「面白い」「ちゃんと豆乳を食べてた?」
  9. 祖母から継いだ築80年の古家で「謎の箱」を発見→開けてみると…… 驚きの中身に「うわー!スゴッ」「かなり高価だと思いますよ!」
  10. 「ゆるキャン△」のイメージビジュアルそのまま? 工事の看板イラストが登場キャラにしか見えない 工事担当者「狙いました」
先月の総合アクセスTOP10
  1. フワちゃん、弟の結婚式で卑劣な行為に「席次見て名前覚えたからな」 めでたい場でのひんしゅく行為に「プライベート守ろうよ!」の声
  2. 親が「絶対たぬき」「賭けてもいい」と言い張る動物を、保護して育ててみた結果…… 驚愕の正体が230万表示「こんなん噴くわ!」
  3. 水道検針員から直筆の手紙、驚き確認すると…… メーターボックスで起きた珍事が300万再生「これはびっくり」「生命の逞しさ」
  4. フワちゃん、収録中に見えてはいけない“部位”が映る まさかの露出に「拡大しちゃったじゃん」「またか」の声
  5. スーパーで売れ残っていた半額のカニを水槽に入れてみたら…… 220万再生された涙の結末に「切なくなった」「凄く感動」
  6. 桐朋高等学校、78期卒業生の答辞に賛辞やまず 「只者ではない」「感動のあまり泣いて10回読み直した」
  7. 「これは悲劇」 ヤマザキ“春のパンまつり”シールを集めていたはずなのに…… 途中で気づいたまさかの現実
  8. 「ふざけんな」 宿泊施設に「キャンセル料金を払わなくする方法」が物議 宿泊施設「大目に見てきたが厳格化する」
  9. がん闘病中の見栄晴、20回以上の放射線治療を受け変化が…… 「痛がゆくなって来ました」
  10. 食べ終わったパイナップルの葉を土に植えたら…… 3年半後、目を疑う結果に「もう、ただただ感動です」「ちょっと泣きそう」