コンピュータの文字認識

コンピュータが紙に書かれた文字を認識して読み取ることをOCR(光学文字認識)と呼びます。

OCRは紙の文書化された文字を読み込んでデータ化する目的のために作られたものです。

もともとは英文タイプライターの文書を読み込むものを目的としているので、複雑な字形を読み取るのが難しいのは仕方がありません。

日本語手書きの文書などをコンピュータが完全に読み込むのはまだまだ先の話になるでしょう。

試験やアンケートで利用される選択式のチェックシートなどはOMRというマーク認識のソフトウェアで処理され、間違いの許されない分野ではまだまだ利用されており、日本語のOCRが大規模に実用されるということはほとんど事例がないでしょう。

国勢調査用紙などでも一部OMR、一部OCRなど部分によって分けていたりします。

記述式のアンケート用紙や申し込み用紙などは、人間の目と手を介したパンチ入力の形でデータ化されていることがほとんどです。

現在スマートフォンなどで、かなりの精度で名刺の内容を読み取って連絡先に追加するアプリが複数出ています。

これは名刺の特性を生かして、ある程度読み取りミスを補完できるためです。

「代表取締役」を代ミ取締役などと読み取ってしまっても、前後の文字列から正しく補完することができます。

氏名についても、名刺の中で強調されている部分、かつ日本人の名前の辞書を持っていれば、かなりの精度で補完することができます。

このようなアシストがあってかつ、活字やプリンタで印刷されたものでないと実用的ではないでしょう。

日本では公的な書類からレシートなどでも罫線などが多用されているので、罫線を誤って文字の一部として読み取ってしまうことはとても多いです。

Google DriveでOCRしてみる

Google Driveを利用してOCRを試してみることも可能です。

Google Driveへ文書を、スキャナやカメラなどで読み取った画像の形でアップロードします。

この際、コントラストを調節したり、歪みを補正したり、シャープネスなどの加工しておくと読み取りの精度は増します。

アップロードした画像を右クリックし、アプリで開く-Google ドキュメント、と操作するとOCRされた文字列が入力された状態になります。

罫線や、読み取り時のノイズなどはあらかじめ省いておくとより良い状態になります。

また文章の折り返しなどがある場合や二段に組まれている場合など、ほとんどの場合うまく読み取れないので、一文は連続している方が良いです。

上記の読み取りが難しい部分のないものであれば、かなり上手くOCRしてくれることもあります。

紙の文書をパンチ入力してデータ化する場合、一度このOCR機能を試してみる価値はあるかも知れません。