PDFや画像から文字(テキストデータ)を抽出するなら「Googleドライブ」

PDFや画像から文字(テキストデータ)を抽出するなら「Googleドライブ」

画像ファイルやPDFファイルに表示されている文字を認識する(OCR)には、専用のアプリを利用するのが一般的ですが、Googleアカウントを持っているなら、Web版の「Googleドライブ」を利用すれば、専用ソフトに引けを取らない精度で文字を認識してくれます。

そこでここでは、パソコンでWeb版の「Googleドライブ」を使って、画像ファイルやPDFファイルから文字を抽出する方法を紹介します。

動作環境

この記事は、以下の環境で実行した結果を基にしています。他のエディションやバージョンでは、動作結果が異なる場合があることをご了承ください。

ソフトウェアバージョン
Windows10 Pro 64bit21H2

テキストデータを抽出する

まず、WebブラウザでGoogleドライブにアクセスします。(Googleアカウントでログインしていない場合は、ログインします。)

ここでは、Google Chromeを利用しています。

マイドライブ - Google ドライブ

PDFや画像から文字(テキストデータ)を抽出するなら「Googleドライブ」

Googleドライブのページを開いたら、文字認識させたい画像やPDFファイルをドラッグするなどしてアップロードします。

PDFや画像から文字(テキストデータ)を抽出するなら「Googleドライブ」

ファイルをアップロードしたら、Googleドライブ上でファイルを右クリックして、メニューから「アプリで開く」>「Googleドキュメント」を選択します。

PDFや画像から文字(テキストデータ)を抽出するなら「Googleドライブ」

すると、アップロードしたファイルの文字認識処理が実行され、処理が完了するとGoogleドキュメントが開き、元の画像と抽出されたテキストデータが表示されます。

手書き文字でなければ、以下のようにかなり高精度で変換できます。また、横書きだけでなく縦書きでも問題なくテキストを抽出できます。

PDFや画像から文字(テキストデータ)を抽出するなら「Googleドライブ」

なお、抽出したテキストデータは、クリップボードにコピーしてほかのアプリに貼り付けたり、Googleドキュメント上で、Word形式、ODF形式、PDF形式、テキスト形式などのファイルとして保存することができます。

テキストデータ抽出時の留意点

テキストデータの抽出精度は、手書きではない文字ならかなりの高精度で抽出できますが、手書きの文字や、文字に色が付いていたり、箇条書きや表などが含まれる場合では、うまく抽出できない場合もあるようです。

なお、文字認識が可能なファイルの制限事項は、公式ヘルプで以下のように記載されています。

  • 元ファイル形式: JPEG、PNG、GIF、PDF
  • ファイルサイズ:2MB以下(2MB以上でも変換できる場合もあります)
  • ファイルの向き:元ファイルを正しい向きにします。向きが間違っている場合は、回転させてからGoogleドライブにアップロードします。
  • 画質:明るさが均一でコントラストがはっきりしたシャープな画像

PDF や写真のファイルをテキストに変換する - パソコン - Google ドライブ ヘルプ

あとがき

ちなみに、紙の書類からテキストデータを抽出するなら、スマホ版「Google Keep」がおススメです。

Android端末で紙の書類や画像からテキストデータを抽出する方法
ここでは、Android向けアプリの「LINE」や「Google Keep」を使って、紙の書類や画像からテキストデータを抽出する方法を紹介します。

記事が役立ったらシェアしてくれるとうれしいです。