ITmedia ガジェット 過去記事一覧
検索
ニュース

自衛隊イラク日報の全文検索サイトが登場 個人が3時間程度で制作

すごい。

advertisement

 防衛省が、当初存在しないとしていた自衛隊イラク派遣時の日報を4月16日に公開。その膨大な資料を全文検索できるサイト「イラク日報 全文検索【イラク日報村】」が17日夜に有志によりWeb上で公開され、話題を呼んでいます。

 日誌の全文データは朝日新聞デジタルなどがWeb上で公開していますが、そのままでは文字検索ができないPDFファイルとなっていたため、1万ページ以上ともいわれる内容を精査するのは大変でした。


 制作したのはマーケティングリサーチ会社ポップインサイトに務める森川公康(@alea12)さん。業務の間を縫って、自衛隊の日誌検索サイトを作ってしまいました。

 検索をすると、文字列がヒットしたPDFファイルへのリンクと、その文字列が出現するPDF内のページ番号が表示される親切な仕組み。サイトのトップページには「人気のキーワード」ランキングも表示されます。

自衛隊イラク日報の全文検索サイトが登場 個人が3時間程度で制作 ほのぼのした文体で人気の「バグダッド日誌」「バスラ日誌」に出てくる“素麺”“スキンヘッド”“モンゴル”といったキーワードが人気
自衛隊イラク日報の全文検索サイトが登場 個人が3時間程度で制作 最も検索されている“戦闘”の検索結果
自衛隊イラク日報の全文検索サイトが登場 個人が3時間程度で制作 検索結果に書かれていた通り、「2004年09月22日の日報(12ページ目)」に“戦闘”の文字が確認できる(緑色の下線は編集部で強調したもの)

 森川さんによると、実制作にかかったのは3時間程度。まずGoogle Cloud Vision APIにPDFのOCR化(※)を行わせるコードの作成に約1時間。OCR化は寝ている間に終わり、OCR結果からの必要情報の抽出とデータベース設計に約1時間、検索インタフェースの制作に約1時間かかったそうです。

※OCR化:PCなどで画像上の文字情報を認識できるようにする処理


 日報検索サイトを作った動機は、「紆余曲折を経て公開された貴重なデータをより多くの方に知ってもらいたいと思ったから」とのこと。また、Google Cloud Vision APIの活用を検討していたところ、格好の題材だったために挑戦したという背景もあったそうです。

 日誌検索サービスに使われた技術はGoogle Cloud Vision APIの他に、RailsやHerokuなども駆使しているそうです。森川さんは過去にも手軽にWeb上からFaxを送信可能なサービス「FaxFlyer」や、Twitterの他人のアカウントを紹介(他己紹介)できる「ツイたこ」といったユニークなサービスを手掛けています。

 自衛隊の日報といえば、一部ほのぼのしたエッセイ風の「バグダッド日誌」「バスラ日誌」のコーナーがSNSなどで話題になっていました(関連記事)。これらの日誌コーナーを抜き出すシステムを組むことはできないか森川さんに問い合わせたところ、「ご要望を多く頂いており、まさに開発中です!」とのことでした。こちらの完成も楽しみです。


SNSで話題になっていた「バグダッド日誌」

防衛省公開の「バグダッド日誌」が読み物として面白いと話題に 「バグダッド日誌」で特に人気の坊主ネタ
防衛省公開の「バグダッド日誌」が読み物として面白いと話題に 坊主になった結果、韓国の陸中佐に「南無阿弥陀仏」と崇められることに
防衛省公開の「バグダッド日誌」が読み物として面白いと話題に 謎の生物「ヴィッシー」
防衛省公開の「バグダッド日誌」が読み物として面白いと話題に プリンタを壊したエピソード
防衛省公開の「バグダッド日誌」が読み物として面白いと話題に 「バグダッド日誌」の最終回

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る