OCR・テキスト化サービスの品質と価格

オプション：OCRテキスト化サービスについて

概要

本をスキャンして作成したPDFファイルは、画像ファイルを束ねたファイルですので、本来、文字情報は含まれておりません。
通常納品のPDFサンプル　←PDFファイルの為、右クリックで対象を保存してご確認ください。

スキャン後のPDFファイルに対して、さらに、OCR（文字認識画像処理）ソフトを使って画像中の文字を識別→抽出し、PDFファイル上に透明文字として埋め込むサービスを「透明文字埋め込みPDF化」、抽出したテキストからWoｒｄ用の.docファイルや、ワードパットなどテキストエディタで閲覧できる.txtファイルを作成することをペパレスでは、「テキスト化」と呼んでおります。

OCRソフトを使いテキスト化した場合、約95%は正常に文章認識できるといわれておりますが、逆に言うと5%は誤認識するということで、実は非常に深刻な問題であり、1ページ600文字の簡単な小説でも30か所は誤りがあるということになります。誤字発生原因は網掛けをゴミとして認識したり、図を文字と認識したり、段落を無視し文章を壊したり、横書きを縦書きと認識したり、様々です。

完全に自動処理でのＯＣＲ作業である「透明文字埋め込みPDF化」をレベル1とすると、段階的に手作業の度合いを増やし、レベル2・レベル3・レベル4の作業をご用意しております。レベルが上がるごとにコストパフォーマンスは下がりますが、文字抽出の精度は上がります。
ご予算と必要とするテキストの精度で使い分けて頂ければと思います。
各サービスを利用時、スキャンした原本のPDFファイルも合わせて納品致します。

注意：対象は日本語または英語書籍になります。（混在可）

レベル１-「透明文字埋め込みPDF」-(完全自動処理)

＜書籍内を時々検索したい方向け＞
・納品形式「透明文字埋め込みＰＤＦ」形式のみ

OCR自動認識で読み取った文字情報をPDF上に透明色で張り付けたPDFファイルを作成します。
弊社では複数のOCRソフトを使用し、ご依頼特性にもっとも適したソフトや機能をその都度選択し、処理しております。
※scansnapやAcrobat付属の簡易OCR機能は使用しません。
ほぼ自動処理という制限内で、最もOCR効果の良いと思われる手段でOCRします。
1冊800円で対応可能です。
※ただし、認識精度は機械任せである為、品質は良くも悪くも書籍とソフトウェア次第となります。
○失敗例→段組み無視・見出しと本文の混同・写真を文章として誤認識したサンプル画像
100％でないにしろ文章は途切れても単語は生きていますので、書籍中から探している単語をある程度検索したいといった程度の用途には向いています。この状態で抽出されたテキストは誤字が非常に多く混じっている為、テキストファイルとしての納品は行っておりません。
レベル1-「透明文字埋め込みPDF」サンプル
見積例：（スキャン費別）
600文字250P小説　　　　　　　　　　　　1000円
1500文字2段組み余白なし400P辞書　1000円

レベル2「レイアウト手動設定」

＜書籍内を高頻度に検索したいので1段階OCR品質を高めたい方＞
＜PDFからコピペ引用で文章を抜き出したい方＞
＜最も安価な手段で紙媒体をテキスト化したデ－タがほしい方＞
・納品形式「透明文字埋め込みPDF形式」・「.txt」・「.doc(x)」

OCR作業の工程は、まず、PDFファイルをOCRソフトで開き、本の中の文字エリアが「縦書き」なのか「横書き」なのか？や、「段組み」があるのか？といった認識枠を決定したのち、その枠内の文字に対して認識を開始します。
レベル2の「レイアウト手動設定」処理では、この段組みや横縦の読み込み部分を手動設定することで、横書きを縦書きとして認識したり、段落を無視したり、「図を文字化しようとしたり」といった、致命的ミスを手動で回避した文字化を行うサービスです。
レイアウト手動修正により、認識枠が改善され、文章としても成り立ったサンプル画像
　この処理を行うことで、大部分の致命的ミスを除去できますので、単語検索だけでなく、最低限文章データとしてまとまった状態で抽出可能です。
手動で読み込みエリアを決定するサービスですので、ページ番号やページ上部の章タイトルを除去した認識も対応可能です。
　一方で、認識そのものは自動処理であるため、網掛けや手書き部分を認識できなかったり、その他の自動認識上の理由で文章を認識できず、手入力でしか補完出来ない場合は、文章が段落ごとごっそり抜け落ちるといったケースもあります。また、認識後のテキストにも一切手修正は加えませんので、ゴミが誤字を発生させたり、文字が変形している場合は文字化けが多数発生しますのでご注意ください。

　自動OCRよりも格段に高品質で、「レベル3」手修正テキスト化サービスよりもずっと低価格である為、そこそこの品質のデータがほしいという方に人気の高いペパレスのオリジナルサービスです。日・英以外にも各種言語の処理が可能です。1ページのレイアウトが1枠の場合、50円/ページ。以後は枠が増えるごとに+5円/ページの費用となります。
技術書など、写真や段落・見出しなど複数存在するレイアウト構成の書籍の場合、およそ65円程度となる場合が多いです。

納品形式は、「透明文字埋め込みPDF」か、.txtか、ワード用の.docファイルが可能です。
レベル2-「透明文字埋め込みPDF」サンプル　.pdf
見積例：（スキャン費別）
600文字250P小説　　　　　　　　　　　　50円×250P＝12500円
1500文字2段組み余白なし400P辞書　55円×400P＝22000円

レベル3「手修正テキスト化作業」

＜紙媒体しか残っていない本を再出版する為に、再テキスト化したい方＞
＜各種目的・出版社様向け＞
・納品形式「透明文字埋め込みＰＤＦ形式」・「.txt」・「.doc(x)」
レベル2のレイアウト処理をしてOCR認識を行った後、1文字1文字を目視で手修正して、ゴミを目視で排除して交じっていないテキストを作成するサービスがペパレスの「手修正テキスト化」サービスです。一般的にテキスト化というとこのレベルを言います。日本語又は、英語のみ可能です。費用は、１ページの文字数が600文字で100円/ページとなります。簡単な小説で100円。密度の高いものではページ500円くらい必要な本もあります。書籍の内容のままの誤字のないテキストデータが必要な場合のサービスです。
納品形式は、「透明文字埋め込みPDF」か、.txtか、ワード用の.docファイルが可能です。

<レベル3・レベル4OCRをテキスト納品する際の共通仕様>
・ルビは作業対象外となります。（付与希望時はオプションで手入力25円/1件）
・各行先頭は空白除去・各行末は改行となります。
・作業はOCR（誤字修正）に特化しております。テキスト納品希望の場合、納品データについて、段落１段下げの空白や、各章間の空白数調整や、行末の改行消しなど文章レイアウトの仕上げ編集は行っておりません。最終的に出版をご予定の場合、こういった編集作業を経て頂く必要がございます。

比較用レベル2の状態でテキスト化した誤字の多いサンプル　.txt
比較用レベル3の状態でテキスト化した誤字の少ないサンプル　.txt
レベル3で「透明文字埋め込みPDF」化したサンプル .pdf
見積例：（スキャン費別）
600文字250P小説　　　　　　　　　　　　130円×250P＝32500円
1500文字2段組み余白なし400P辞書　335円×1.3×400P＝174200円

レベル4「2重チェック」

＜さらに完成度の高いテキストをお求めの方＞
レベル3で作成したテキストファイルを担当者を変えて2重にチェックするサービスです。
チェックはすればするほどデータ精度が上がります。最高の品質となり、誤字を限りなく無くした出版品質のデータが必要な場合のサービスです。費用は、レベル3の料金+35％の再チェック費となります。
納品形式は、「透明文字埋め込みPDF」か、.txtか、ワード用の.docファイルが可能です。
見積例：（スキャン費別）
600文字250P小説　　　　　　　　　　　　130円×250P×1.35＝43875円
1500文字2段組み余白なし400P辞書　335円×1.3×400P×1.35＝235170円

　テキストデータの出力形式と用途

ペパレスでレベル２以上のOCR作業を行った場合、下記2タイプの出力をお選び頂けます。用途に応じて最適な形式をお選びください。

①txt+word用doc形式

主に出版者様や著者の皆様が、電子データの失われた紙の書籍を別媒体で出版する際のテキスト抽出にご利用いただいております。
txtファイルとdocファイルの双方を納品します。
・「txtファイル」は文章全体をシンプルな１ファイルにまとめたテキストファイルとなります。デメリット：表など１行で表現できない文章のレイアウトが崩れます。
・「word用docファイル」各ページのテキストを自動的にwordのテキストボックス内に埋め込む形で作成されたファイルとなり、表など立体的な位置関係を最低限な形で表現できます。
デメリット：各ページが独立したテキストボックスであり、配置も自動である為、１冊の文章全体をコピペしたりフォントサイズを全体修正したりできない為、あくまで部分抜粋用です。

まずはtxtファイルをメインファイルとして、お好みのテキストエディタにコピペし、表や位置関係が複雑なページが含まれる場合、部分的にword納品されたデータを確認する。という風にご活用いただけます。

②透明文字埋め込みPDF形式

論文などパソコンで閲覧しつつ、引用もしたい時は、PDFファイルは閲覧には向きますが、コピペは不可能。通常の.txtやWord形式のテキスト化ではグラフや表を表現できず、文章のみとなるため、閲覧しづらく、コピペ用途として割り切った使い方となりがちです。
このような閲覧と引用の両方を実現した形式が、「透明文字埋め込みPDF」形式となります。
自動処理のテキストデータではコピペ用途としては不十分で、閲覧+検索程度の用途となりますが、
手修正したテキストを埋め込んだ「透明文字埋め込みPDFファイル」は、閲覧・検索・コピペとあらゆる用途をパーフェクトにこなせる非常に利便性の高いPDFファイルとなります。

費用について

料金ページに詳細をご用意しております。

レベル3以上のテキスト化の標準仕様について

レベル３以上のテキスト化につきましては、目視による手修正が入る関係で、時に出来ないことなども発生する為、下記を弊社の共通仕様として業務を行っております。

〇旧字
旧字が含まれる書籍の場合はビュワーによってはフォントがなく表示されないこともある為、テキストファイルではなく、ワード納品を推奨とし、 OCRはできる限り原本通りの旧字で行い、なければ新しい字で対応し、それも見つからない場合■旧字■等、裁量で表現しています。

〇数式
テキスト納品では１行で表現できないテキストはワードなどで特別な入力を使用しなければ再現できない為、弊社では１行で表現できる数式はそのままOCR認識いたしますが、分数やべき乗などが含まれ、１行で表現できない場合は、■数式■と記載し省略いたしております。

〇図表
図や表につきましては、文章で表現できませんので、作業対象外となり見積もりからも除外されます。
写真のキャプションは作業対象と致しております。

〇半角・全角
英数字は半角での入力を基本と致しております。

〇レイアウト
修正していません。従いまして、段落・改行は書籍原本の改行位置で毎行改行を行います。

〇空白・空白の行間
段落はじめなど、行の頭を含め、行の初めに空白がある場合は除外しております。
その他、小説の章の終わりに長い空白スペースがある場合など、空白については再現しておりません。

〇その他
人為的作業であるため、原本受け取り段階で判断できる問題は事前に打ち合わせをさせて頂きますが、部分的な問題や発生頻度の低い問題について、事前に取り決めのない要件つきましては、事後的に弊社裁量での対応となりますのでご了承ください。

OCR作業は上記仕様で行っておりますので、誤った文字を修正したテキストの生成に特化したサービスとなっておりますので、納品後のテキストを再出版される場合は、段落や空白などレイアウトを整える作業が必要となります。

その他の確認事項

前処理のスキャンについて

レベル3以上のテキスト化作業を行う場合、OCRの認識精度をあげ、人為的な作業負荷を下げる為、 400dpiスキャニングが必要となります。
※どうしても300dpiデータからOCR希望の場合はそれも可能ですが、作業費が２割増となります。

創業14年　ペパレスの電子書籍化サービス

几帳面な精鋭スタッフが高品質なデータを作成します

論文・社内報・他社で困難な古書や雑誌もお任せ下さい
OCRテキスト化・名刺・名簿の電子化も得意分野です