OCR・テキスト入力サービス一覧


ペパレスでは、紙媒体をテキストデータとしてパソコンで活用するため、スキャン後の画像データを文字情報に変換するOCRサービスを各種ご用意いたしております。

<OCR作業の流れ>

各種スキャニング

OCR画像処理

テキスト抽出


透明文字埋め込みPDF

スキャン後のPDFファイルをOCRし、テキスト変換した後、文字を透明色にして、元のPDFファイルの同じページに埋め込んだPDFファイルです。
OCRを行えるのは文字情報だけですので、抽出された文字だけを見ても本の原形がわからず、図や見出しなどもわからない上に文字化けも含んでいますので、単独では使いにくい文字情報でも、元の画像となるPDFページの上に重ねて1ページとすることで、読むときは、元の画像から文字が読め、埋め込まれたテキスト情報を使用して、PDF全体から特定の単語が使われているページを検索することが可能となります。また、OCR品質が良い場合は、文章としてコピー取得することもできますので、引用文を抜き出すことも可能です。
OCR品質はレベル1から4までの中からお選びいただけます。OCRの品質については、こちらをご確認ください。



テキストファイル(.txt .doc)

スキャン後のPDFファイルをOCRし、テキストに変換したそのままの情報をテキストファイルとして納品するサービスです。
抽出された文字情報は、認識品質の影響を強くうけますので、低いレベルのOCRでは、文字化けの多く含むこととなります。
本換算で、レベル2でも1冊1万円程度は必要となります。書籍の1読者としての利用ではなく、ご自身が著者の場合の紙媒体からの再出版・編集作業をお考えのお客様や、引用頻度の高い論文、会員組織様向けの組織出版物など、重要度の高い1冊の業務目的のご利用の方におすすめです。
OCR品質はレベル2から5までの中からお選びいただけます。OCRの品質については、こちらをご確認ください。



名簿のエクセルファイル化

書籍タイプの名簿から、文字情報を抽出し、エクセルファイルに出力するサービスです。元データの中から、「氏名と電話番号だけをエクセル化したい」といった要望にお答えすることも可能です。
エクセル化は「スキャン+エクセル化費用(価格はセル単位)」が必要となります。
名簿エクセル化サービスの詳細はこちらをご確認ください。