ニュース

すげええええ! 江戸時代以前の「くずし字」をテキストデータにできるOCR技術を凸版印刷が開発

国文学&日本史専攻学生「ガタッ」

advertisement

 凸版印刷が「くずし字を判別してテキストデータ化するOCR(光学文字認識)技術」を開発しました。江戸期以前の本や明治期の手書きの文章は「くずし字」を使って書かれており、学習しないと読むことができません。くずし字の学習は近世以前の日本文学や日本史を学ぶ学生にとっては必要不可欠で、多くの学生が「よ、読めない……」と悲鳴を上げています。

 凸版印刷の開発した技術は、書物のくずし字を自動で判読し、テキストデータ化することを可能にするもの。2014年に実施した検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することができたとのこと。OCRで判読した文字は専門家によって校正・校閲され、その結果はくずし字のデータベースにフィードバックされます。


古典籍を自動で判読する技術を開発

くずし字のテキストデータ化処理の流れ

 現在、くずし字で書かれている古典籍は100万点以上と言われており、大部分が翻刻(ほんこく、くずし字で書かれた文献を楷書に直したり活字で出版するなどして読みやすい形式にすること)されていません。この技術が広まれば、今後、多くの古典籍が誰にでも読めるようになるかもしれません……!

advertisement

 凸版印刷は、この技術による古典籍のテキストデータ化サービスを2015年夏から試験的に開始します。「今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります」とのメッセージを発信しています。

青柳美帆子

Copyright © ITmedia, Inc. All Rights Reserved.

記事ランキング

  1. そうはならんやろ “0円の画材”と“4万円の画材”、それぞれでジョーカーを描いてみた結果に驚き【海外】
  2. マクドナルド、兎田ぺこらとのコラボ匂わせ→斜め上の解釈で生まれた“架空のキャラ”に爆笑 「それにしか見えないw」
  3. 「ジオング」を“貴婦人風”に徹底アレンジした結果…… 2年がかりの“超大作3DCG”に反響 「立体化してほしい」
  4. 心身不調の壇蜜、1年の“30%以上が入退院”な難事に本音吐露 次々襲うネガティブ変化に「難所は多種多様」「長生きって難しい」
  5. 100均のクッションゴム、まさかの使い方に目からウロコ 家中の“プチストレス解消法”に「思いつかなかった!」「これはすごい」
  6. 「普通に失礼だとか思わないんかな」 小浜線公認キャラの展示パネルを覆うように“貼り紙”で謝罪 観光協会「不快な思いをさせた」
  7. 売上7億円超の人気漫画『小悪魔教師サイコ』作画家・合田蛍冬氏が出版社を提訴した訴訟が和解 同一原作の後発漫画が出版されトラブルに 出版社は謝罪
  8. 大竹しのぶ、お別れ近づく“孫娘”と笑顔のペアルック 10年後の17歳でも「私達の事覚えていてくれるかなぁ」
  9. 患者から「相談しづらい」と言われた男性医師が決断→イメチェンした爽やかな姿に「うぇ!? 同じ人!?!?」「髪型変えると表情も変わる」
  10. 高校3年生で出会った2人が、15年後…… 世界中が感動した姿に「泣いてしまった」「幸せを分けてくださりありがとう」【タイ】