OCRで画像内のテキストを抜き出す方法と注意点

2020.4.24

画像やPDFのファイルに重要な文章があった場合は、皆さんはどうされますか。その箇所を手書きで写したり、ノートパッドにメモしたりされている方も多いかと思います。ですが、重要な部分が長い場合は、手間もかかり、面倒に感じるものです。

そのような場合には、OCRの機能を利用すれば、簡単に画像からテキストを抜き出すことが可能になります。ここでは、画像からテキストデータを抜き出す方法や、利用する上で注意すべきポイントを解説します。

画像から文字を認識するにはOCR

最近では、SNSアプリのカメラツールにOCR技術が搭載されているものもあり、文字を取り込むことが可能になっており、ビジネスシーンや日常生活においても便利なツールとして浸透してきています。

大量の紙の資料の保管や整理は、非常に面倒な作業です。それらの資料をOCRの機能を用いてドキュメントスキャナーなどでデジタル化をし、テキスト付きPDFにすることもできます。テキスト付きPDFでデータ化した書類は、保管スペースの削減やデータ検索が可能になり、整理しやすくなります。

PDFを表計算ソフトなどの編集が可能な形式へ変換するには、OCRの技術を活用できます。OCR機能を利用する方法としては、オンラインサービスやパソコンにインストールするOCRソフトがあります。

画像内の手書き文字もAIで認識可能

OCRのソフトでは、活字や1枠1文字の手書き文字については高い認識率で読み取れるものの、フリーピッチの手書き文字認識は苦手とされていました。しかし、AI-OCRの登場により手書き文字の認識についても一気に精度が向上しました。日々大量に発生する紙の注文書や申込書などの業務処理も、今までのOCRでは文字認識が難しかった手書きの箇所が読み取れるようになり、業務の効率が大幅に向上しています。

OCRの利用における注意点

実は、OCRを利用することで全ての文字が認識されるかというと、そうではありません。OCRで文字の認識がしづらい文字のタイプがあります。例えば、「カラーやかすれた文字」、「文字が斜めで印刷されているもの」、「特殊な文字」、「網掛け文字」、「縦書きと横書きが混在しているもの」などは、OCR機能を利用する上で、文字認識がしづらいタイプの文字です。

ドキュメントスキャナーを利用して文字の認識をしやすくするために、以下の点を注意するとよいでしょう。

紙の書類からよりよく文字を認識するためには 、文字を認識しやすくする工夫が必要です。以下の点を注意してスキャンするとよいでしょう。

文字を認識しやすくするため、ドキュメントスキャナー等でスキャンする際に、以下の点に注意すると良いでしょう。

  • 伝票などの薄い紙の場合、後ろに黒い紙を敷くことで裏写りを防止する
  • カラーの資料は白黒で印刷しておく
  • 200~300dpiの解像度でスキャンする

まとめ

OCRの機能を利用して、簡単に画像からテキストを抜き出す方法を紹介しました。OCRを利用することで文字の入力が便利になります。当社では、イメージスキャナーやタブレット端末のカメラを利用して画像から文字認識できるソリューションを用意しております。

DynaEye 本人確認カメラOCR」は、タブレット端末(Windows®/Android™/iOS)を使用して読み取った本人確認書類(運転免許証/マイナンバーカード/在留カード)の情報を、本人確認や入力支援業務で活用できるソフトウェアです。タブレット端末のカメラで撮影した本人確認書類の種別と文字を認識し、システムやソフトウェアパッケージにデータを直接取り込むことができるので、本人確認書類からデータ入力を行う業務システムを簡単に構築いただけます。

  • Androidは、Google LLC. の商標です。
  • その他、記載されている製品名などの固有名詞は、各社の商標または登録商標です。

SHARE