ニュース
すげええええ! 江戸時代以前の「くずし字」をテキストデータにできるOCR技術を凸版印刷が開発
国文学&日本史専攻学生「ガタッ」
advertisement
凸版印刷が「くずし字を判別してテキストデータ化するOCR(光学文字認識)技術」を開発しました。江戸期以前の本や明治期の手書きの文章は「くずし字」を使って書かれており、学習しないと読むことができません。くずし字の学習は近世以前の日本文学や日本史を学ぶ学生にとっては必要不可欠で、多くの学生が「よ、読めない……」と悲鳴を上げています。
凸版印刷の開発した技術は、書物のくずし字を自動で判読し、テキストデータ化することを可能にするもの。2014年に実施した検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することができたとのこと。OCRで判読した文字は専門家によって校正・校閲され、その結果はくずし字のデータベースにフィードバックされます。
現在、くずし字で書かれている古典籍は100万点以上と言われており、大部分が翻刻(ほんこく、くずし字で書かれた文献を楷書に直したり活字で出版するなどして読みやすい形式にすること)されていません。この技術が広まれば、今後、多くの古典籍が誰にでも読めるようになるかもしれません……!
advertisement
凸版印刷は、この技術による古典籍のテキストデータ化サービスを2015年夏から試験的に開始します。「今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります」とのメッセージを発信しています。
(青柳美帆子)
関連記事
読めたらがっかり? 「視力が悪い人にしか見えない文字」が書かれた画像がTwitterで話題に
読めないと悔しいけど読めても悲しい。古代エジプトの象形文字“ヒエログリフ”を書けるLINEスタンプが登場 ……読める日本人ほぼいねえだろ!
日本語が併記されているので、古代エジプトに詳しくない人でもなんとか使えます。海自&米海軍の人文字がステキ! 「THX GWA」「さようなら」
原子力空母ジョージ・ワシントンが任務を終えて離日。文字はアートだ! 誰もが見たことのある企業ロゴをフリーハンドで描くプロの技がすごい
スラスラ~。みんなの手書き文字、平均するとどんな字になる? フォント化して配布へ
自分の字を入力して、平均と比べることもできる。「今年の顔文字大賞2014」発表! 応募総数約4000の中から大賞に選ばれたのは一世を風靡したあの顔文字!
今となっては懐かしい……書くのが苦手な文字「ひ」をうまく書くためのたった一つの方法
ひ。ヤバい(褒めてる) 「小泉花陽」の4文字だけでかよちんを描いた動画から感じる理屈じゃないひたむきな気持ち
泣けちゃうのごめんね。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.