画像ファイルからテキストを抽出しよう!
どうも、大阪支社のとよです。
気づけばもう6月。梅雨の時期が近づいてきました。
さて、前振りとは何も関係ありませんが、
今回はちょっと便利なOCRスキャンサイトのご紹介。
OCRって?
そもそも、「OCRってなんやねん」という話ですが、
OCRは「Optical Character Recognition(光学文字認識)」の略で
一般的に、画像に書かれた文字を読み取って、
テキストデータに変換してくれるソフトウェアのことを指します。
近年はかなり読み込みの精度が上がってきていますが、
いかんせん、専用ソフトを立ち上げるのが面倒くさい。
たった1枚の画像を読み込むのに、わざわざ起動するのは
なんとなく気が引けてしまいます。
そこで今回ご紹介するのが、「Online OCR」です。
「Online OCR」とは?
「Online OCR」はWeb上で使える無料OCRスキャンサイトです。
ブラウザ上で簡単に操作できるので、かなり気軽に使えます。
というわけで、サイトに移動して使ってみましょう。
「Online OCR」の使い方
①画像選択
まずは、画像を選択します。
(※今回は弊社のホームページから適当に↓の画像をチョイスしました)
ページ左の「Select file…」ボタンをクリックし、
画像ファイルを選択します。
画像ファイルはjpg,bmp,png,gifのほか
単一ページであればpdf,tifも選択できます。
②言語と出力形式の選択
次に読み取る言語と出力するファイル形式の選択です。
出力形式はテキスト形式とエクセル、ワード形式が選べます。
ここでは言語は「JAPANESE」、出力形式は「Text Plain(txt)」
を選択しています。
③出力
①②まで選択できたら、
まずは、右下の「Enter Captcha code」欄に、左に表示されている数値を入力!
結果・・・
少しおかしなところもありますが、なかなかの精度です。
「Download Output File」をクリックすると指定した出力形式のファイルがダウンロードできます。
ちなみに、このサイトは縦書き画像にも対応しているので、
新聞や雑誌の記事なども読み込むことができるそうです。
また、無料登録すると読み込み画像のファイルサイズが最大100MBまで(通常は5MB)、
PDFやRTFなどの出力にも対応してくれるそうです。
楽にテキストを抽出したいな~ってときは、是非お試しあれ。