ニュース

すげええええ! 江戸時代以前の「くずし字」をテキストデータにできるOCR技術を凸版印刷が開発

国文学&日本史専攻学生「ガタッ」

advertisement

 凸版印刷が「くずし字を判別してテキストデータ化するOCR(光学文字認識)技術」を開発しました。江戸期以前の本や明治期の手書きの文章は「くずし字」を使って書かれており、学習しないと読むことができません。くずし字の学習は近世以前の日本文学や日本史を学ぶ学生にとっては必要不可欠で、多くの学生が「よ、読めない……」と悲鳴を上げています。

 凸版印刷の開発した技術は、書物のくずし字を自動で判読し、テキストデータ化することを可能にするもの。2014年に実施した検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することができたとのこと。OCRで判読した文字は専門家によって校正・校閲され、その結果はくずし字のデータベースにフィードバックされます。


古典籍を自動で判読する技術を開発

くずし字のテキストデータ化処理の流れ

 現在、くずし字で書かれている古典籍は100万点以上と言われており、大部分が翻刻(ほんこく、くずし字で書かれた文献を楷書に直したり活字で出版するなどして読みやすい形式にすること)されていません。この技術が広まれば、今後、多くの古典籍が誰にでも読めるようになるかもしれません……!

advertisement

 凸版印刷は、この技術による古典籍のテキストデータ化サービスを2015年夏から試験的に開始します。「今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります」とのメッセージを発信しています。

青柳美帆子

Copyright © ITmedia, Inc. All Rights Reserved.

記事ランキング

  1. 刺しゅう糸を20時間編んで、完成したのは…… ふんわり繊細な“芸術品”へ「ときめきやばい」「美しすぎる!」
  2. 「理解できない」 大谷翔平と真美子さんの“スキンシップ”に海外驚き 「文化は100%違う」「伝説だわ」【大谷翔平激動の2024年 現地では「プレー以外のふるまい」も話題に】
  3. 友達が描いた“すっぴんで麺啜ってる私の油絵"が1000万表示 普段とのギャップに「全力の悪意と全力の愛情を感じる」
  4. 後輩が入手した50円玉→よく見ると…… “衝撃価値”の不良品硬貨が1000万表示 「コインショップへ持っていけ!」
  5. 毛糸6色を使って、編んでいくと…… 初心者でも超簡単にできる“おしゃれアイテム”が「とっても可愛い」「どっぷりハマってしまいました」
  6. 「これは家宝級」 リサイクルショップで買った3000円家具→“まさかの企業”が作っていた「幻の品」で大仰天
  7. 「人のような寝方……」 “猫とは思えぬ姿”で和室に寝っ転がる姿が377万表示の人気 「見ろのヴィーナス」
  8. ザリガニが約3000匹いた池の水を、全部抜いてみたら…… 思わず腰が抜ける興味深い結果に「本当にすごい」「見ていて爽快」
  9. 山奥で数十年放置された“コケと泥だらけ”の水槽→丹念に掃除したら…… スッキリよみがえった姿に「いや〜凄い凄い」と210万再生
  10. 余りがちなクリアファイルをリメイクしたら…… 暮らしや旅先で必ず役に立つアイテムに大変身「目からウロコ」「使いやすそう!」