OCRの便利機能や活用方法　-　ペパレス電子化コラム

ペパレス　＞　コラムTOP　＞　OCRの便利機能や活用方法

OCRの便利機能や活用方法

ペパレスでは「テキスト入力サービス」の業務を行う際、OCRソフトを利用しています。

OCRとはOptical Character Recognitionの略で、日本語では「光学文字認識」という意味です。画像情報をソフトウェアが認識して文字情報に変換するという機能で、様々な使い道があります。

しかし、OCRの用途は知られていないものが多くありますので、OCRを使用した便利な機能をいくつか紹介します。

その前に、OCRソフトの「画像中の文字を文字情報に変換する」工程を簡単に説明します。
まず、スキャン等で作成した画像ファイルをOCRソフトで読み込み、文字認識をさせます。

手書き文字や印刷が乱れた文字だと正確な文字認識はできませんが、通常の活字の文章であれば約95%が正常に文章認識できるといわれています。

下の画像のように画像中の文字と文字情報を並べて比較することで、誤認識された文字を手修正できるというソフトもあります。上の白い段が画像、下の緑の段が変換された文字情報です。

この文字情報と画像の文字を紐づけた状態で作成したPDFが「透明文字埋め込みPDF」や「透明テキスト付PDF」と呼ばれているものです。情報は埋め込まれていても見た目には透明色で見ることができず、通常のPDFと全く違いがないので、「透明」と言われています。

閲覧者が透明文字埋め込みPDFを閲覧する際、「見る」のは画像としての活字であり、検索や文字情報のコピペとして活用したい際には、透明化された文字情報を利用する仕組みです。

この「透明文字埋め込みPDF」の活用方法をいくつか紹介します。

文字列の検索

これはOCRの基本的な使い方です。

Adobe Acrobat全てのバージョンにある機能で、検索したい文字を入力すると、その文字列を含むページや位置までジャンプすることができます。Wordの検索機能と同じようなものです。

デジタルだからこそ実現できる速度と精度の索引なので、重宝されている方も多いと思います。
検索はツールバーの「編集」から選択できます。

文字列や画像のコピー

こちらもOCRの基本的な使い方です。透明文字が埋め込まれているPDFでは、ツールバーの「選択ツール」で選択した文字や画像を、クリップボードにコピーすることができます。

そのままWordなどの他のファイルに貼り付けることができるので、文章や画像の引用が非常にスムーズになります。

注釈機能

こちらも検索と同様、Acrobatのバージョン問わず使用できる機能です。

本にマーカーで印をつけたりメモをしたりと、書き込みをされる方は多くおられます。特に試験勉強で使用する参考書や問題集は、使うほどにそうした書き込みは自然と増えてしまいます。

それを電子書籍で行うのが注釈機能です。

ツールバーの「注釈」、あるいは文字を選択して右クリックからでも注釈機能の操作は可能です。テキスト注釈は、Acrobat上でこのように表示されます。

生育地…ハイライト表示
樹形…下線（緑線）
樹皮…ノート注釈
灰色…取り消し線（赤線）

ノート注釈はカーソルを近付けると内容が表示され、クリックすると吹き出しの形で内容が表示されます。

勿論注釈は何度も修正できますし、不要になれば削除することもできます。専門書や参考書の電子書籍をお持ちの方にはとてもオススメの機能です。

リンク作成

指定した文字列や画像に対してリンクを作成することができます。
選択ツールで文字や画像を選択し、右クリックから「リンクの作成」を選ぶとダイアログが開きます。

画像では「雌しべ」という単語に対してウェブページのリンクを作成しました。文字をクリックするとウェブページが開きます。

ウェブページだけでなくページビューやファイルのリンクも作成できますので、沢山の関連情報が埋め込まれたPDFファイルを作成できます。

しおり機能

しおり機能とはPDF ファイルに目次を作成するというものです。

作成したしおりをクリックすると指定されたページへジャンプできるという便利な機能で、「第1章 …」「略語集」などラベル名も自由につけられます。

OCR処理がされていないPDFでは、ページ数と倍率を指定した状態で「新規しおり」をクリックし、ラベル名を入力するのがしおりを作成する手順となります。

しかしOCR処理のされたPDFでは、ページ数でなく文字列や画像に対してしおりを作成することができ、作成の手順も一手間省くことができます。

「選択ツール」を選んだ状態でしおりパネルを開き、文字列をドラッグして選択します。そのまま「新規しおり」をクリックすると、選択した文字列にしおりが設定され、それが自動的にラベル名になります。

下の画像ではPDFの「シャシャンボ」という文字に対してしおりが設定されており、しおりパネルの「シャシャンボ」をクリックすると、この画面が表示されます。

画像に対してしおりを設定したい場合は、画像をクリック、もしくはドラッグで囲んで新規しおりをクリックします。画像の一部にしおりを設定したい場合は、ドラッグしてその部分を囲んで新規しおりをクリックします。

下の画像では赤の四角で囲んだ画像にしおりを設定しています。

読み上げ機能

AcrobatにはPDFのテキストを音声で読み上げる機能があります。
視覚に障害がある方でも、この機能を利用すれば電子書籍の内容を耳で聞くことができます。

環境設定ダイアログでは、文書を読み上げる順序、ボリューム、速度などを設定することができます。

読み上げ機能はツールバーの「表示」から選択することができます。

以上がOCR機能を使用した透明文字埋め込みPDFの主な活用方法です。

PDFだけでなく、認識結果をテキストファイルやWordなどの文書ファイルに転送できるOCRソフトもあります。丁寧に文字情報を確認、修正したうえであれば、データをそのまま再出版に使用することもできます。

知られていない活用方法はまだまだあると思いますが、紹介した機能だけでも電子書籍の質や利便性を向上できますので、参考にしてみてください。

少し余談になりますが、AcrobatでもOCR認識をしてテキストを埋め込んだPDFを作成することができます。
検証してみたところテキスト認識の精度に大きな問題はありませんが、ファイルサイズが1/3程度まで圧縮されてしまうことが分かりました。

左がペパレスで使用しているOCRソフトで作成した透明文字埋め込みPDF、右がAcrobatで作成した透明文字埋め込みPDFになります。

Acrobatではテキストが埋め込まれると同時に画質も大幅に劣化しますので、気になる方は別でOCRソフトを購入したほうが無難です。

なお、ペパレスでは透明文字埋め込みPDFの作成を1冊800円から対応しております。
過去に納品させていただいたデータ、他社様やご自身で作成された電子書籍に対しても、透明文字を埋め込むことは可能です。

サービスの詳細はサイドメニューの「テキスト入力」の欄をご覧ください。

創業14年　ペパレスの電子書籍化サービス

几帳面な精鋭スタッフが高品質なデータを作成します