INFONEEDS

自衛隊イラク日報の全文検索サイトが登場 個人が3時間程度で制作

自衛隊イラク日報の全文検索サイトが登場 個人が3時間程度で制作

 

■□記事抜粋:ねとらぼ□■

防衛省が、当初存在しないとしていた自衛隊イラク派遣時の日報を4月16日に公開。その膨大な資料を全文検索できるサイト「イラク日報 全文検索【イラク日報村】」が17日夜に有志によりWeb上で公開され、話題を呼んでいます。

日誌の全文データは朝日新聞デジタルなどがWeb上で公開していますが、そのままでは文字検索ができないPDFファイルとなっていたため、1万ページ以上ともいわれる内容を精査するのは大変でした。

 

<blockquote class=”twitter-tweet” data-lang=”ja”><p lang=”ja” dir=”ltr”>自衛隊イラク日報の全文検索サービスを作成・公開しました。どうぞご利用ください。Google Cloud Vision API の OCR 結果を利用しています <a href=”https://t.co/kjGHlQjhZk”>https://t.co/kjGHlQjhZk</a></p>&mdash; alea12 (@alea12) <a href=”https://twitter.com/alea12/status/986205184584921089?ref_src=twsrc%5Etfw”>2018年4月17日</a></blockquote>
<script async src=”https://platform.twitter.com/widgets.js” charset=”utf-8″></script>

 

制作したのはマーケティングリサーチ会社ポップインサイトに務める森川公康(@alea12)さん。業務の間を縫って、自衛隊の日誌検索サイトを作ってしまいました。

検索をすると、文字列がヒットしたPDFファイルへのリンクと、その文字列が出現するPDF内のページ番号が表示される親切な仕組み。サイトのトップページには「人気のキーワード」ランキングも表示されます。

森川さんによると、実制作にかかったのは3時間程度。まずGoogle Cloud Vision APIにPDFのOCR化(※)を行わせるコードの作成に約1時間。OCR化は寝ている間に終わり、OCR結果からの必要情報の抽出とデータベース設計に約1時間、検索インタフェースの制作に約1時間かかったそうです。

日報検索サイトを作った動機は、「紆余曲折を経て公開された貴重なデータをより多くの方に知ってもらいたいと思ったから」とのこと。また、Google Cloud Vision APIの活用を検討していたところ、格好の題材だったために挑戦したという背景もあったそうです。

日誌検索サービスに使われた技術はGoogle Cloud Vision APIの他に、RailsやHerokuなども駆使しているそうです。森川さんは過去にも手軽にWeb上からFaxを送信可能なサービス「FaxFlyer」や、Twitterの他人のアカウントを紹介(他己紹介)できる「ツイたこ」といったユニークなサービスを手掛けています。

自衛隊の日報といえば、一部ほのぼのしたエッセイ風の「バグダッド日誌」「バスラ日誌」のコーナーがSNSなどで話題になっていました(関連記事)。これらの日誌コーナーを抜き出すシステムを組むことはできないか森川さんに問い合わせたところ、「ご要望を多く頂いており、まさに開発中です!」とのことでした。こちらの完成も楽しみです。

 

 

▶▶▶全文は下記リンクより

情報源: ねとらぼ

Sponsor

URL :
TRACKBACK URL :

Leave a reply

*
DigiPress

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

相互RSS

フォローする

アーカイブ

Return Top
%d人のブロガーが「いいね」をつけました。