お知らせ

画像ファイルからテキストを抽出しよう!

000

どうも、大阪支社のとよです。
気づけばもう6月。梅雨の時期が近づいてきました。

さて、前振りとは何も関係ありませんが、
今回はちょっと便利なOCRスキャンサイトのご紹介。

OCRって?

そもそも、「OCRってなんやねん」という話ですが、
OCRは「Optical Character Recognition(光学文字認識)」の略で
一般的に、画像に書かれた文字を読み取って、
テキストデータに変換してくれるソフトウェアのことを指します。

近年はかなり読み込みの精度が上がってきていますが、
いかんせん、専用ソフトを立ち上げるのが面倒くさい。
たった1枚の画像を読み込むのに、わざわざ起動するのは
なんとなく気が引けてしまいます。

そこで今回ご紹介するのが、「Online OCR」です。

「Online OCR」とは?

Online OCR」はWeb上で使える無料OCRスキャンサイトです。
ブラウザ上で簡単に操作できるので、かなり気軽に使えます。

↓こんな英語のサイトですが、日本語の読み込みもOK!
001

というわけで、サイトに移動して使ってみましょう。

「Online OCR」の使い方

①画像選択

まずは、画像を選択します。
(※今回は弊社のホームページから適当に↓の画像をチョイスしました)
sys001

ページ左の「Select file…」ボタンをクリックし、
画像ファイルを選択します。
003

画像ファイルはjpg,bmp,png,gifのほか
単一ページであればpdf,tifも選択できます。

②言語と出力形式の選択

次に読み取る言語と出力するファイル形式の選択です。
出力形式はテキスト形式とエクセル、ワード形式が選べます。
004

ここでは言語は「JAPANESE」、出力形式は「Text Plain(txt)」
を選択しています。

③出力

①②まで選択できたら、
まずは、右下の「Enter Captcha code」欄に、左に表示されている数値を入力!
006

それから、「CONVERT」ボタンをクリックします。
005

結果・・・

↓こんな感じになりました。
007

少しおかしなところもありますが、なかなかの精度です。
「Download Output File」をクリックすると指定した出力形式のファイルがダウンロードできます。
ちなみに、このサイトは縦書き画像にも対応しているので、
新聞や雑誌の記事なども読み込むことができるそうです。

また、無料登録すると読み込み画像のファイルサイズが最大100MBまで(通常は5MB)、
PDFやRTFなどの出力にも対応してくれるそうです。

楽にテキストを抽出したいな~ってときは、是非お試しあれ。