「日本の住所のヤバさ」河野デジタル相の発言きっかけで話題に 表記統一は難しい? 地図会社に聞いた(1/2 ページ)
丁目や番地の区切り1つとっても、ハイフンだったり「の」だったり、いろいろ複雑で……。
河野太郎デジタル相のテレビ番組での発言をきっかけに、Twitterでは「日本の住所表記(の不統一性)がヤバい」と話題を呼んでいます。表記を統一するのは難しいのか? 地図会社のゼンリンに聞きました。
きっかけとなったのは6月4日放送の、フジテレビ系「日曜報道 THE PRIME」。番組では、マイナ保険証に誤って別人の情報がひも付けられるトラブルなど、マイナンバーカードにかかる諸問題が議題となりました。こうしたエラーについて「AIなどを活用して人が介在せず防ぐ方策は取れないのか」と問われ、河野大臣は「AIを活用するまでもなく、ふりがなが振られれば、名前の照合はできる。名前、生年月日、マイナンバー、これらがきちんと照合されれば誤登録はなくなる」としたうえで、住所の表記ゆれがネックになると答えました。
その一例として挙げたのが、番地の表記。例えば「港区赤坂1−2−3」ならば「一丁目2の3」と書く人もいますし、ハイフンを半角にするか全角にするかも人それぞれです。こうした表記のばらつきについて、河野大臣は「将来的にはAIの技術を使って表記ゆれを判断することがあり得るかもしれない」としました。
この発言は、Twitterで上がった「その程度の表記統一にAIを使うまでもない」「Excelで置換するだけでいいのでは」といった意見がきっかけで広く注目を集めることに。確かに、番地等の区切りを統一するだけなら一括で処理するのも簡単そうに思えます。
しかし、こうした声に対し、「住所の正規化(データベースとして扱えるよう、一定のルールに基づいて整理すること)は容易なものではない」といった反論が多数上がり、話題はさらに拡大。京都の「河原町通三条下る二丁目山崎町」といった複雑な表記や、市町村合併や区画整理の結果、同じ場所でも複数の住所コードが発生している地域など、イレギュラーな事例が次々と挙げられました。そもそも最初に例示されたハイフン自体、「―(ダッシュ)」や「─(けい線)」など類似の文字が混同されることもありますしね……。
そんななか、地図製作に携わるinuroさんのnote「とにかく日本の住所のヤバさをもっと知るべきだと思います」も話題に。この騒動の原因を、「いつまで経っても解消されない、解決が困難な課題である」「その困難さが界隈(かいわい)以外に共有されていない」と述べつつ、複雑な日本の住所システムについて紹介しています。
例えば、「○○市XX町1丁目」といった何となく一般的に見える表記のパターンにも、「静岡県下田市2-4-26(下田郵便局)」のように、市の直下に丁目があるといった例外があるとのこと。また、「埼玉県春日部市八丁目」の「八丁目」は意味合いとしては「固有名詞」で、「1〜7丁目は存在しない」というワナもあるそうです。
ほかにも、「大阪市中央区上町A-○○」や「千葉県八街市八街は○○番地」といった街区符号にアルファベットや「いろは」を使うケースや、「同じ番地に複数のビルが存在」など、日本の住所表記はイレギュラーだらけ。これらを一定のフォーマットに落とし込むのは難解で、AIの助けも必要そうに思えます。なんならAIも嫌がりそう。
この難解な問題について、地図会社はどう取り組んでいるのか? ねとらぼ編集部はゼンリンを取材しました。
―― 正規化は難しいという意見が多いですが、地図会社としての意見をお願いします
ゼンリン 特定のリストの“記入・入力時のゆれ”による住所表記のゆれについては、ルールの作成や入力フォームによる制御、またチェックツールを使用してデータを補正する方法などで改善できることもあると考えます。
その一方で、日本の住所の表現方法は多様であり、さまざまな住所表現が存在しています。また、近年変更された住所・所在地は自治体により明確に定義されていますが、昔ながらの住所は地名を由来としています。これにより、住所の表記のゆれや体系に一貫性がない状態が存在するため、正規化は容易ではないと考えています。
―― ゼンリンではどのような取り組みをしていますか?
ゼンリン 実際に使用されている住所表記を、調査スタッフが現地で確認することで、実態にあった住所データベースを当社独自の基準に基づき構築しています。
その住所データベースを基に自治体や企業様がお持ちのリストの住所を最新の住所に変換する「データクレンジング」や、座標を付与する「ジオコーディング」などをサービスとして展開しています。
Copyright © ITmedia, Inc. All Rights Reserved.