DCD Blog

avatar

Posted by Sekine - 13 7月, 2018

文字にアウトラインがかかったPDFからも 、文字を抽出することができる場合があります。

avatar
header-picture

こんにちは、制作進行の関根です。

仕事柄、原稿を管理する場面も多く、いただいた原稿がアウトラインのかかったPDFしかないということがあります。文字にアウトラインがかかっているとは、表現が難しいのですが、文字が文字として認識できない状態で、図形のようになってしまう状態を言います。

 ○アウトライン前

PDFで開いて全選択すると、選択され、その部分は抽出できます)

pdfoutline1

○アウトライン後

PDFで開いて全選択すると、選択できません。抽出できません)

pdfoutline2

上記ぐらいの文であれば、手打ちでもいいですが、文字が大量の場合、それを全て手打ちしてデータ化すると時間がかかります。そこで、Acrobat Proの機能でアウトラインを解除します。

 解除と言いましたが……注意とお願いです。

 アウトライン前と後が混在する時、PDFの解像度や作成したソフトや状況(印刷設定で書かれた場合は難しい、面積が多いと難しい)など、場合により完璧に適用できるものではありません。完全には抽出できないですが、少しでも制作が楽にできる一つの知識として、手打ちを極力減らす手法として、ご認識いただければと。

それではやってみます。

まず開きます。この時、全選択すると、下記のアラートが出ます。「はい」で進みます。

pdfoutline3

すると、テキスト認識というポップアップが出ます。

pdfoutline4

ポップアップを拡大してみます。設定の参考にしてください。

pdfoutline5

これでOKすると、

pdfoutline6

解除できました。

これをテキストソフトなどにコピペすれば、文字データとして使用できます。

Acrobat Proのこの機能をご存知なかった人に、作業が少しでも楽にできればと思って書きましたが、中盤で書かせていただいた通り、完璧に適用できるものではありません。どの状態がダメかも、全てはお答えできなく、申し訳ありません。

なので、何かご相談があれば、お気軽にお問い合わせください。何かお力になれることがあれば幸いです。

完全には抽出できないかもと曖昧な情報で申し訳ありませんが、少しでも制作が楽にできるかもしれない、そんな知識をこのブログの場所でこれから書けるよう努めます。 

Topics: Tips, 校正・校閲


Recent Posts

PDFの原寸出力と分割出力

read more

震災孤児のためのチャリティーカレンダー2019

read more

文字にアウトラインがかかったPDFからも 、文字を抽出することができる場合があります。

read more