防衛省が、当初存在しないとしていた自衛隊イラク派遣時の日報を4月16日に公開。その膨大な資料を全文検索できるサイト「イラク日報 全文検索【イラク日報村】」が17日夜に有志によりWeb上で公開され、話題を呼んでいます。
日誌の全文データは朝日新聞デジタルなどがWeb上で公開していますが、そのままでは文字検索ができないPDFファイルとなっていたため、1万ページ以上ともいわれる内容を精査するのは大変でした。
制作したのはマーケティングリサーチ会社ポップインサイトに務める森川公康(@alea12)さん。業務の間を縫って、自衛隊の日誌検索サイトを作ってしまいました。
検索をすると、文字列がヒットしたPDFファイルへのリンクと、その文字列が出現するPDF内のページ番号が表示される親切な仕組み。サイトのトップページには「人気のキーワード」ランキングも表示されます。
森川さんによると、実制作にかかったのは3時間程度。まずGoogle Cloud Vision APIにPDFのOCR化(※)を行わせるコードの作成に約1時間。OCR化は寝ている間に終わり、OCR結果からの必要情報の抽出とデータベース設計に約1時間、検索インタフェースの制作に約1時間かかったそうです。
※OCR化:PCなどで画像上の文字情報を認識できるようにする処理
日報検索サイトを作った動機は、「紆余曲折を経て公開された貴重なデータをより多くの方に知ってもらいたいと思ったから」とのこと。また、Google Cloud Vision APIの活用を検討していたところ、格好の題材だったために挑戦したという背景もあったそうです。
日誌検索サービスに使われた技術はGoogle Cloud Vision APIの他に、RailsやHerokuなども駆使しているそうです。森川さんは過去にも手軽にWeb上からFaxを送信可能なサービス「FaxFlyer」や、Twitterの他人のアカウントを紹介(他己紹介)できる「ツイたこ」といったユニークなサービスを手掛けています。
自衛隊の日報といえば、一部ほのぼのしたエッセイ風の「バグダッド日誌」「バスラ日誌」のコーナーがSNSなどで話題になっていました(関連記事)。これらの日誌コーナーを抜き出すシステムを組むことはできないか森川さんに問い合わせたところ、「ご要望を多く頂いており、まさに開発中です!」とのことでした。こちらの完成も楽しみです。
SNSで話題になっていた「バグダッド日誌」
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 自衛隊のイラク「バグダッド日誌」がエッセイ風の読み物として面白いと話題に 「キャッチボールでプリンタを壊した」エピソードなど
ある意味日常系。 - ココアが土にしか見えない ティラミスアイスを地面に見立てた戦場ジオラマが秀逸すぎる
撮影後すぐにおいしくいただいたそうです。 - 21年前のワープロ「書院」で2018年にインターネットをしたら、無間地獄に突入した
ネット機能を搭載した21年前のワープロで、2018年のネットの世界を見てみました。 - 味のある画像に早変わり! どんな画像もドット絵風にしてくれるWebサービス「低画質画像メーカー」が楽しい
いろいろ変換してみたくなるやつ……! - 「タニシのように住環境を整えるよ」 → 新居に床暖やカラオケ環境を構築したソフトウェアエンジニアのDIYがプロ級
取材で聞けば聞くほどに濃密な話が。