オプション:OCRテキスト化サービスについて


概要

本をスキャンして作成したPDFファイルは、画像ファイルを束ねたファイルですので、本来、文字情報は含まれておりません。
通常納品のPDFサンプル  ←PDFファイルの為、右クリックで対象を保存してご確認ください。

スキャン後のPDFファイルに対して、さらに、OCR(文字認識画像処理)ソフトを使って画像中の文字を識別→抽出し、PDFファイル上に透明文字として埋め込むサービスを「透明文字埋め込みPDF化」、抽出したテキストからWord用の.docファイルや、ワードパットなどテキストエディタで閲覧できる.txtファイルを作成することをペパレスでは、「テキスト化」と呼んでおります。

OCRソフトを使いテキスト化した場合、約95%は正常に文章認識できるといわれておりますが、逆に言うと5%は誤認識するということで、実は非常に深刻な問題であり、1ページ600文字の簡単な小説でも30か所は誤りがあるということになります。誤字発生原因は網掛けをゴミとして認識したり、図を文字と認識したり、段落を無視し文章を壊したり、横書きを縦書きと認識したり、様々です。

完全に自動処理でのOCR作業である「透明文字埋め込みPDF化」をレベル1とすると、段階的に手作業の度合いを増やし、レベル2・レベル3・レベル4の作業をご用意しております。レベルが上がるごとにコストパフォーマンスは下がりますが、文字抽出の精度は上がります。
ご予算と必要とするテキストの精度で使い分けて頂ければと思います。
各サービスを利用時、スキャンした原本のPDFファイルも合わせて納品致します。

注意:対象は日本語または英語書籍になります。(混在可)




レベル1-「透明文字埋め込みPDF」-(完全自動処理)

<書籍内を時々検索したい方向け>
・納品形式「透明文字埋め込みPDF」形式のみ

OCR自動認識で読み取った文字情報をPDF上に透明色で張り付けたPDFファイルを作成します。
弊社では複数のOCRソフトを使用し、ご依頼特性にもっとも適したソフトや機能をその都度選択し、処理しております。
※scansnapやAcrobat付属の簡易OCR機能は使用しません。
ほぼ自動処理という制限内で、最もOCR効果の良いと思われる手段でOCRします。
1冊800円で対応可能です。
※ただし、認識精度は機械任せである為、品質は良くも悪くも書籍とソフトウェア次第となります。
○失敗例→段組み無視・見出しと本文の混同・写真を文章として誤認識したサンプル画像
100%でないにしろ文章は途切れても単語は生きていますので、書籍中から探している単語をある程度検索したいといった程度の用途には向いています。この状態で抽出されたテキストは誤字が非常に多く混じっている為、テキストファイルとしての納品は行っておりません。
レベル1-「透明文字埋め込みPDF」サンプル
見積例:(スキャン費別)
600文字250P小説            800円
1500文字2段組み余白なし400P辞書 800円




レベル2「レイアウト手動設定」

<書籍内を高頻度に検索したいので1段階OCR品質を高めたい方>
<PDFからコピペ引用で文章を抜き出したい方>
<最も安価な手段で紙媒体をテキスト化したデ-タがほしい方>

・納品形式「透明文字埋め込みPDF形式」・「.txt」・「.doc(x)」

OCR作業の工程は、まず、PDFファイルをOCRソフトで開き、本の中の文字エリアが「縦書き」なのか「横書き」なのか?や、「段組み」があるのか?といった認識枠を決定したのち、その枠内の文字に対して認識を開始します。
レベル2の「レイアウト手動設定」処理では、この段組みや横縦の読み込み部分を手動設定することで、横書きを縦書きとして認識したり、段落を無視したり、「図を文字化しようとしたり」といった、致命的ミスを手動で回避した文字化を行うサービスです。
レイアウト手動修正により、認識枠が改善され、文章としても成り立ったサンプル画像
 この処理を行うことで、大部分の致命的ミスを除去できますので、単語検索だけでなく、最低限文章データとしてまとまった状態で抽出可能です。
手動で読み込みエリアを決定するサービスですので、ページ番号やページ上部の章タイトルを除去した認識も対応可能です。
 一方で、認識そのものは自動処理であるため、網掛けや手書き部分を認識できなかったり、その他の自動認識上の理由で文章を認識できず、手入力でしか補完出来ない場合は、文章が段落ごとごっそり抜け落ちるといったケースもあります。また、認識後のテキストにも一切手修正は加えませんので、ゴミが誤字を発生させたり、文字が変形している場合は文字化けが多数発生しますのでご注意ください。

 自動OCRよりも格段に高品質で、「レベル3」手修正テキスト化サービスよりもずっと低価格である為、そこそこの品質のデータがほしいという方に人気の高いペパレスのオリジナルサービスです。日・英以外にも各種言語の処理が可能です。1ページのレイアウトが1枠の場合、30円/ページ。以後は枠が増えるごとに+5円/ページの費用となります。
技術書など、写真や段落・見出しなど複数存在するレイアウト構成の書籍の場合、およそ45円程度となる場合が多いです。

納品形式は、「透明文字埋め込みPDF」か、.txtか、ワード用の.docファイルが可能です。
レベル2-「透明文字埋め込みPDF」サンプル .pdf
見積例:(スキャン費別)
600文字250P小説            30円×250P=7500円
1500文字2段組み余白なし400P辞書 35円×400P=16000円




レベル3「手修正テキスト化作業」

<紙媒体しか残っていない本を再出版する為に、再テキスト化したい方>
<各種目的・出版社様向け>

・納品形式「透明文字埋め込みPDF形式」・「.txt」・「.doc(x)」
レベル2のレイアウト処理をしてOCR認識を行った後、1文字1文字を目視で手修正して、ゴミを目視で排除して交じっていないテキストを作成するサービスがペパレスの「手修正テキスト化」サービスです。一般的にテキスト化というとこのレベルを言います。日本語又は、英語のみ可能です。費用は、1ページの文字数が600文字で100円/ページとなります。簡単な小説で100円。密度の高いものではページ500円くらい必要な本もあります。書籍の内容のままの誤字のないテキストデータが必要な場合のサービスです。
納品形式は、「透明文字埋め込みPDF」か、.txtか、ワード用の.docファイルが可能です。
比較用 レベル2の状態でテキスト化した誤字の多いサンプル .txt
比較用 レベル3の状態でテキスト化した誤字の少ないサンプル .txt
レベル3で「透明文字埋め込みPDF」化したサンプル .pdf
見積例:(スキャン費別)
600文字250P小説            100円×250P=25000円
1500文字2段組み余白なし400P辞書 260円×1.3×400P=135200円




レベル4「2重チェック」

<さらに完成度の高いテキストをお求めの方>
レベル3で作成したテキストファイルを担当者を変えて2重にチェックするサービスです。
チェックはすればするほどデータ精度が上がります。最高の品質となり、誤字を限りなく無くした出版品質のデータが必要な場合のサービスです。費用は、レベル3の料金+35%の再チェック費となります。
納品形式は、「透明文字埋め込みPDF」か、.txtか、ワード用の.docファイルが可能です。
見積例:(スキャン費別)
600文字250P小説            100円×250P×1.35=33750円
1500文字2段組み余白なし400P辞書 260円×1.3×400P×1.35=182520円




レベル5「オーダーメイド テキスト編集」

・「レベル4OCR」までが.txtファイルで表現可能な単純文章に限られたOCRサービスであるのに対し、

①文章では表現しきれなかったグラフや表なども画像として原本に近い位置に張り付けたWORDファイルを作成。
②分数や微積分などの.txtで表現できない数式の含まれる文章を.docx形式で手入力したWORDファイルを作成。
③その他、OCR後のテキストデータをご指定の形式に加工して納品

など、実現可能なあらゆるテキスト加工をご要望通りに行うサービスとなります。


<参考>
・図や表を原本から切り取って同じ位置に張り付け
・太字の強調、色変更、網掛けなどをWORD形式で再現
・分数などの1行で表現できない数式などの高度な入力
・参考書から、問題部分だけを抽出したテキストデータを作成
・元文章の改行部位変更

・原本送付→サンプルファイル及び見積もり提出→入金→納品との形式をとっております。
※.txt .doc .docx 形式を利用し、作業、納品をさせて頂きます。
※ある程度裁量が必要な作業となりますので、お客様からの指定の無い部分は弊社裁量での作業とさせて頂いております。
※微妙な位置関係や色合いまでは、再現出来かねます。また、ご指示が細かくなるほど、作業時間やミス率に悪影響を与えます。
※レベル5OCRの2重チェックご希望の場合、別途ご要望ください。

費用の目安 2000円/1時間
「レベル5」の費用は原本やお客様のご要望の複雑さにより大きく変動しますので、数ページのテスト作業を元に概算の作業時間を計算し、作業時間に時間単価をかけて金額を算出する方式をとっております。
従いまして、ある程度の打ち合わせや事前準備を要するサービスとなりますので、概算5万円以上での受注とさせて頂いております。 

サンプル①
元データ 特殊な数式や、1行で表現出来ない分数、図などが混在し、レベル4以下のOCRでは表現できません。
レベル3.doc 1行で表現出来ない文章はレベル4以下では十分に再現できません。
レベル5.docx WORDの編集機能を使用して、分数など1行では表現できない数式も手入力でデータ化し、編集できないグラフ類は元データの画像を切り取って近い位置に貼り付けています。尚、特殊な数式の手入力にはそこそこ時間を要します。
<参考ページ単価2500円>


サンプル②
元データ 各ページの本文と右側の補足を並行して表現するためには、原本と同じレイアウトで文章を配置する必要があります。
レベル3.doc 右側の補足部分と本文を混ぜてOCRすると、テキストデータ文章の流れを乱す為、通常は除外してOCRします
レベル5.docx WORDのレイアウト段落編集機能を使用し、補足文章も原本と近い位置に近いサイズでデータ化しています。
<参考ページ単価550円>


 テキストデータの出力形式と用途

ペパレスでレベル2以上のOCR作業を行った場合、下記3種類の出力をお選び頂けます。用途に応じて最適な形式をお選びください。



①TXT形式・②Word形式

主に出版者様や著者の皆様が出版済みの書籍を別媒体で出版する際にご利用いただいております。
納品後のデータをもとに、校正→出版されておられるようです。
Word形式は.txt形式をそのまま移し替えただけですので特にこの2形式の間に差異はございません
ワードパットや秀丸エディタで編集を行いたい場合は.txt形式、
マイクロソフトワードで編集したい場合はWord形式をご利用ください。


③透明文字埋め込みPDF形式

論文などパソコンで閲覧しつつ、引用もしたい時は、PDFファイルは閲覧には向きますが、コピペは不可能。通常の.txtやWord形式のテキスト化ではグラフや表を表現できず、文章のみとなるため、閲覧しづらく、コピペ用途として割り切った使い方となりがちです。
このような閲覧と引用の両方を実現した形式が、「透明文字埋め込みPDF」形式となります。
自動処理のテキストデータではコピペ用途としては不十分で、閲覧+検索程度の用途となりますが、
手修正したテキストを埋め込んだ「透明文字埋め込みPDFファイル」は、閲覧・検索・コピペとあらゆる用途をパーフェクトにこなせる非常に利便性の高いPDFファイルとなります。





その他の確認事項



前処理のスキャンについて

レベル3以上のテキスト化作業を行う場合、OCRの認識精度をあげ、人為的な作業負荷を下げる為、 400dpiスキャニングが必要となります。
※どうしても300dpiデータからOCR希望の場合はそれも可能ですが、作業費が2割増となります。



費用について

料金ページに詳細をご用意しております。