OCRって？

そもそも、「OCRってなんやねん」という話ですが、
OCRは「Optical Character Recognition（光学文字認識）」の略で
一般的に、画像に書かれた文字を読み取って、
テキストデータに変換してくれるソフトウェアのことを指します。

近年はかなり読み込みの精度が上がってきていますが、
いかんせん、専用ソフトを立ち上げるのが面倒くさい。
たった１枚の画像を読み込むのに、わざわざ起動するのは
なんとなく気が引けてしまいます。

そこで今回ご紹介するのが、「Online OCR」です。

「Online OCR」とは？

「Online OCR」はWeb上で使える無料OCRスキャンサイトです。
ブラウザ上で簡単に操作できるので、かなり気軽に使えます。

↓こんな英語のサイトですが、日本語の読み込みもOK!

というわけで、サイトに移動して使ってみましょう。

まずは、画像を選択します。
（※今回は弊社のホームページから適当に↓の画像をチョイスしました）

ページ左の「Select file…」ボタンをクリックし、
画像ファイルを選択します。

画像ファイルはjpg,bmp,png,gifのほか
単一ページであればpdf,tifも選択できます。

次に読み取る言語と出力するファイル形式の選択です。
出力形式はテキスト形式とエクセル、ワード形式が選べます。

ここでは言語は「JAPANESE」、出力形式は「Text Plain(txt)」
を選択しています。

①②まで選択できたら、
まずは、右下の「Enter Captcha code」欄に、左に表示されている数値を入力！

それから、「CONVERT」ボタンをクリックします。

↓こんな感じになりました。

少しおかしなところもありますが、なかなかの精度です。
「Download Output File」をクリックすると指定した出力形式のファイルがダウンロードできます。
ちなみに、このサイトは縦書き画像にも対応しているので、
新聞や雑誌の記事なども読み込むことができるそうです。

また、無料登録すると読み込み画像のファイルサイズが最大100MBまで（通常は5MB）、
PDFやRTFなどの出力にも対応してくれるそうです。

楽にテキストを抽出したいな～ってときは、是非お試しあれ。