テキスト化専用オール白黒2値に関しまして


中間色(グレー)を使用せず白黒2値で行います。
白黒2値の場合、価格に変更はなく、標準で400dpiスキャンとなります。
※この設定で本の表紙をスキャンした場合、黒い模様など意味をなさないデータになることが多いため、表紙スキャンは行いません。

メリット
各種OCRソフトで推奨している400dpiスキャンを安価に達成できます。OCR(文字認識)に限った用途にお勧めです。
ファイルサイズが極端に小さいです。文字に限っては弊社で提供するモバイル圧縮ファイルよりもさらにコンパクトでモバイルに適しているかもしれません。


デメリット
中間諧調を使用しない為、絵がつぶれ、文字は角張り、雑なエッジとなりますので人が閲覧する上ではかえって汚く見えることも多いです。
OCRソフトは認識にあたって中間諧調が無いほうが良い認識結果を出しますので、完全にテキスト抽出目的の場合に使用してください。
画像処理を施すとグレースケール化されますので行ないません。


その他特徴
透明文字埋め込みPDFファイルを作成する場合、OCRソフトに読み込む段階で画像処理されます。
元データが白黒2値の場合、OCR結果に良い影響は与えますが、作成後の透明文字埋め込みPDFは、「2値を元に認識したテキスト情報」
が透明色で埋め込まれた「グレースケール画像ベースのPDF」。という状態になりますのでファイルサイズは大きくなります。
尚、「透明文字埋め込みPDF処理」を選択した場合、OCR処理されたPDFファイルに加え、2値データの生ファイルも別途納品されます。



上記のような特徴がございます。もし、用途が、
「閲覧用のPDFファイルがほしいが自動処理の透明文字埋め込みPDFを作成したいので出来る限り認識結果の高いものがほしい」
という場合には、白黒2値では、認識に与える良い影響よりも、視認性に与える悪影響の方がずっと大きい為、
解像度を上げたおまかせ「カラー・またはグレースケール」で透明文字埋め込みPDFファイルを作成した方が良いと思います。