防衛省が、当初存在しないとしていた自衛隊イラク派遣時の日報を4月16日に公開。その膨大な資料を全文検索できるサイト「イラク日報 全文検索【イラク日報村】」が17日夜に有志によりWeb上で公開され、話題を呼んでいます。
日誌の全文データは朝日新聞デジタルなどがWeb上で公開していますが、そのままでは文字検索ができないPDFファイルとなっていたため、1万ページ以上ともいわれる内容を精査するのは大変でした。

フットワーク軽すぎ
制作したのはマーケティングリサーチ会社ポップインサイトに務める森川公康(@alea12)さん。業務の間を縫って、自衛隊の日誌検索サイトを作ってしまいました。
検索をすると、文字列がヒットしたPDFファイルへのリンクと、その文字列が出現するPDF内のページ番号が表示される親切な仕組み。サイトのトップページには「人気のキーワード」ランキングも表示されます。



検索結果に書かれていた通り、「2004年09月22日の日報(12ページ目)」に“戦闘”の文字が確認できる(緑色の下線は編集部で強調したもの)
森川さんによると、実制作にかかったのは3時間程度。まずGoogle Cloud Vision APIにPDFのOCR化(※)を行わせるコードの作成に約1時間。OCR化は寝ている間に終わり、OCR結果からの必要情報の抽出とデータベース設計に約1時間、検索インタフェースの制作に約1時間かかったそうです。
※OCR化:PCなどで画像上の文字情報を認識できるようにする処理
元データにはdragonerさんがまとめたものを使用したとのこと

日報検索サイトを作った動機は、「紆余曲折を経て公開された貴重なデータをより多くの方に知ってもらいたいと思ったから」とのこと。また、Google Cloud Vision APIの活用を検討していたところ、格好の題材だったために挑戦したという背景もあったそうです。
日誌検索サービスに使われた技術はGoogle Cloud Vision APIの他に、RailsやHerokuなども駆使しているそうです。森川さんは過去にも手軽にWeb上からFaxを送信可能なサービス「FaxFlyer」や、Twitterの他人のアカウントを紹介(他己紹介)できる「ツイたこ」といったユニークなサービスを手掛けています。
自衛隊の日報といえば、一部ほのぼのしたエッセイ風の「バグダッド日誌」「バスラ日誌」のコーナーがSNSなどで話題になっていました(関連記事)。これらの日誌コーナーを抜き出すシステムを組むことはできないか森川さんに問い合わせたところ、「ご要望を多く頂いており、まさに開発中です!」とのことでした。こちらの完成も楽しみです。
SNSで話題になっていた「バグダッド日誌」





コメントランキング
「FNS歌謡祭 第1夜」であなたが良かったと思うアーティストは?【人気投票実施中】(投票結果) | 音楽 ねとらぼリサーチ
今川焼? 大判焼き? あの“円形の厚焼き和菓子”の名前は? 47都道府県別・呼び方の勢力図を公開!(投票結果) | グルメ ねとらぼ
「ベストヒット歌謡祭2025」で良かったアーティストは?【人気投票実施中】(投票結果) | 音楽 ねとらぼリサーチ
2025年「NHK紅白歌合戦」の「白組」出場歌手で楽しみなのは?【人気投票実施中】 | 音楽 ねとらぼリサーチ
岩手県の「おいしいお土産」10選! 一番うまいと思うのは?【人気投票実施中】(2/2) | 岩手県 ねとらぼリサーチ:2ページ目