ペパレス > コラムTOP > スキャンしたPDFをエクセルに変換する方法


スキャンしたPDFをエクセルに変換する方法



前回のコラムでは、AI技術を導入した様々なOCRソフトにより、膨大なデータのExcelデータ化をいとも簡単に実行できることを一例に挙げました。

しかし、現段階でそのような高価なOCRソフトを導入できるのは、まだごく一部の大企業だけかと思います。
特に個人レベルでは、購入するとしても数万円程度のOCRソフトが限界です。

紙の文書をExcelに変換することは、今の時代では必須の管理業務とも言えます。
しかし、人の手だけでその作業を行うと、時間がかかるうえに入力ミスの可能性が0%になることはないでしょう。

少しでも効率よく行うために、「スキャン エクセルに変換」「PDF エクセルに変換」というワードは、検索エンジンでもよく入力されているようです。

Web上でも様々な方法の例が挙げられていますので、このコラムではサンプル用にオンラインツールで作成した名簿を
・手入力
・無料オンラインツール
・Word
・Googleドキュメント
・有料OCRソフト(読取革命)
の5つの方法でExcelデータ化しました。

実際にかかった作業時間の比較や、作業手順について解説していきます。




①手入力(15分)

入力に11分、確認に4分、合計15分かかりました。
人名は簡単に変換できるものではなく、タイピングが速い人でも手間取る要因となります。
時には違う読み方で入力することも必要となるので、思いのほか時間がかかってしまいます。

また、数字が羅列すると正確な認識が困難で入力ミスも増えるので、確認作業にも時間と労力がかかります。




②無料変換ツール(small pdf:10分 PDF converter:10分)

Excelへの変換を無料で実行できるツールを検索すると、いくつかヒットします。
しかし検証してみたところ、いずれも1日に変換できるデータの数には制限がかかっていました。

I LOVE PDF
Clever PDF
soda PDF ONLINE
の3つはエラーが生じたり、白紙のExcelデータが仕上がったりしたので、恐らくPDFにOCR処理(透明文字埋め込み)がされていなければ変換できないのではないかと思います。

透明文字のないPDFで変換できたのは、
small pdf
PDF converter
の2つです。

それぞれExcelへの変換を行い、誤認識された箇所を手修正しました。
いずれも認識精度は低く、殆どのセルで修正や入力のやり直しが必要となりました。

【small pdf】


【PDF converter】


どちらも変換から修正の完了までかかった時間は10分です。
手入力よりも時間が短縮できたのは、電話番号の入力が省けたことが要因かと思います。


③Word(手入力以上)

Word2013以降ではPDFの編集が可能です。
Wordで読み込むと、表は表として認識されるため、それをExcelに貼り付けると手間がかからない…とされていますが、これはOCR処理がされている一部のPDFに限られた話です。

スキャン時にOCR処理ができるスキャナーもありますが、そうでないものも多いです。
また、ペパレスで使用している業務用スキャナー(Fujitsu fi-6800)でスキャン時にOCR処理を行って透明文字付きのPDFを作成しましたが、そのPDFもWordでは単なる画像として読み込まれ、編集はできませんでした。

その為、この度はWordでPDFの編集が行えないケースでの検証となります。

OCRされていないPDFで、Wordを利用したExcel化を行う場合は、
①GoogleドライブにPDFをアップロード
②Googleドキュメントで開いてテキスト情報を抽出(OCR)
③Wordとして保存する
④文字列を選択して表に変換する
という手順になります。

・GoogleドライブにアップロードしたPDFをGoogleドキュメントで開く


・Wordとしてダウンロード


・Wordで文字列を選択し、表のメニューの「文字列を表にする」をクリック


しかし残念ながら、想定していた表の形にはなりませんでした。



場合によってはこの手順で正確な表が作成され、Excelに貼り付けることもできるのかもしれませんが、これでは手入力よりも手間がかかってしまいます。


④Googleドキュメント(7分)

Wordの表変換が思い通りにならないのであれば、Googleドキュメントで抽出したテキストをExcelにコピーペーストする方が作業効率は良いはずです。

実際に計測してみたところ、OCRの精度が高かったこともあり、かかった時間は7分でした。手入力の約半分です。

コツとしては、OCRの結果を一度書式なしのテキストファイルにエクスポートします。
そうすることでテキストを貼り付けたりドラッグしたりするだけで表を完成させることができます。




⑤有料OCRソフト(5分)

弊社でも利用している代表的なOCRソフトの1つ、読取革命で検証を行いました。
このソフトでは選択した領域を「表」として認識する設定があり、罫線も自由に引くことができます。



認識結果は誤認識が2箇所で、ソフトにPDFを読み込ませるところも含めてかかった時間は5分でした。
このように上下に並べて比較することができますので、確認作業も行いやすくなっています。



表の形はそのままで、OCRソフトから直接Excelへ転送することもできました(フォントサイズやセルのサイズの調整は必要です)。
有料には、やはりそれだけの価値があると言えます。


※読取革命で自動認識後、校正なしでExcelに転送したもの


以上が検証結果です。
お金をかけずにPDFの表をExcelに変換するのであれば、GoogleドキュメントのOCR機能を利用するのが最も効率的です。

ただし、作業途中でブラウザを消してしまったり、エクスポートしたテキストファイルを誤って削除してしまったりすると、思うように作業が捗らなくなるというケースも考えられます。

これまで保管していた大量の書類やPDFの情報をExcelに入力するなど、大がかりな作業となることが明白な場合は、OCRソフトを購入した方が費用対効果は高いとこの度の検証で感じました。

OCRソフトとExcel、両方でデータを保管できるというのも一つの安心材料かと思います。

今では一定期間無料で使用できるOCRソフトが増えています。
ここで紹介した読取革命もそのうちの一つなので、是非一度試用してみてください。

パソコンの操作が苦手、量が多すぎて自力で行うのは骨が折れる、という方はデータ入力の代行サービスを利用するのも一つの方法です。

ペパレスでもExcelデータ化のサービスがあり、メールにサンプルの画像を添付していただければ詳しいお見積りをお出しすることができます。
スキャンサービスと合わせてご依頼いただくことも可能なので、書類のデータ化を考えている方は一度ページをご覧ください。

名簿・住所録のEXCELデータ化サービスについてはこちら