「PDFからコピペしたら文字化けした」「図版の形が変わっちゃった」。それってPDFが「構造化」されてないからかも!?

皆さんこんにちは、フリーライターのヤマダユウス型です。このAdobe BlogではPDFの閲覧・作成・編集などができる「Adobe Acrobat(以下、Acrobat)」について様々な使い方を紹介してきましたが、そんな僕でもたまに、こんな風に思うことがあります。

「PDFって、便利だけどたまに使いづらい時があるな…」

あぁ、待って! PDFが嫌いなわけじゃないんです! むしろ好きだからこそ細かい部分が気になるというか…! 例えば皆さんもこんな経験、ありませんか?

・PDF内のテキストをメモ機能などにコピー&ペーストしたら、文字化けしてしまった

・WordやPowerPointなどをPDFに書き出すと、元ファイルと違う見た目になる

などなど。これらのエラーの原因はいくつか考えられますが、「PDFが構造化」 されていないことが原因となっている可能性があるのです。「構造化」っていうとなんだか難しい話に聞こえるかもしれませんが、例えば以下のようなケースで想像できるかもしれません。

同じPDF化でも、結果が変わってしまう?

PDF化によって見た目やアウトプットが変わってしまう例を紹介しましょう。以下のようなPowerPointのファイルがあったとします。

これはPowerPointで名刺のデザインを作成した想定です。こちらのデータをPDF化したい場合、一般的には以下の方法が考えられるでしょう。

・PowerPointのメニューから「名前を付けて保存」→ファイル形式をPDFにして保存(あるいはエクスポート→ファイル形式をPDFにして保存)

直接PDFを作成できる手段として多くの方が活用しているのではないでしょうか。

またはAcrobatを使ってPowerPoint形式のファイルをPDFに変換することも可能ですよね。

このように特定のファイルをPDF化するサービスやアプリはいくつか存在しますが、ここで伝えたい重要なこと。それは、PDF化の方法は多岐にわたるということではなく、利用するツールによってPDFの見た目や内包データが変化することがある、ということです。

実際にPowerPointの仮想プリンターからPDF化したものと、Acrobatを使ってPDF変換したものを見比べてみましょう。

左側がAcrobatでPDF変換したもので、右側がPowerPointのエクスポート機能を使いPDF化したもの。右側のPDFは氏名のフォントが変化しており、元ファイルと違った見た目になってしまっています。こうしたエラーは、PDFがきちんと構造化されていないことによって起こり得るあるあるのひとつなのです。

「構造化されたPDF」ってなに? PDFの構造のありなしを比較してみた

察しの良い方はすでにお分かりかもしれませんが、PDFには「構造化されていないPDF」があれば「構造化されたPDF」もあります。ちょっとややこしくなってきましたが、それぞれの仕組みについて簡単に説明しましょう。

構造化されたPDFは、いわば 「情報コンテナ」。テキストや画像といった表に見える情報だけでなく、メタデータやセキュリティ機能など複数の情報データが 何層ものレイヤー構造で成り立っている ため、元ファイルの情報を保持でき、様々なプラットフォームでの二次利用性も高いのが特徴です。

▲PDFの情報コンテナのイメージ。いくつもの多層的な情報を内包できる便利な容れ物のように機能し、音声や動画、セキュリティ情報、暗号化など、様々な情報を添加できる。

一方構造化されていないPDFは、データに規則性がなく構造情報を含みません。つまりPDF内のテキストや画像が 1枚の「写真」のように保存された状態 のため、PDF内のテキスト選択ができなかったり、画像やテキストの編集ができなかったりということが起きます。「PDF=画像や文書の形式のひとつでしょ?」と思っていた方は、もしかしたら今まで構造化されていないPDFを扱っていたのかもしれません。

両者の違いがわかったところですが、なんだかここまで聞くと「構造化されたPDF」って特別なシステムがないと作れなそうですよね…でも大丈夫。先にちらっと紹介した通りAcrobatがあれば簡単に作成できるんです!

でも一方で「PDF化するだけならわざわざAcrobatを使う必要はないのでは?」「私はスピード重視でPDF化をしたいんだ!」と思う方もいるかもしれません。そんな方々に向け、なぜ構造化されたPDFを選ぶべきなのかをお伝えするべく、Acrobatを使ってPDF化したものと、他の方法でPDF化したファイルを、それぞれ比較してみました。

それぞれのPDFファイルを見比べてみよう

まずはWordで作成した文書ファイルのPDF化について。左右それぞれのPDFファイルを見比べてみてください。

左側はAcrobatでPDF変換したもの、右側はサードパーティ製のPDF化サービスを用いてPDF化したものです。赤丸で囲んだ部分を見比べると、右側は罫線が縦書きではなく横書きとして保存されています。これはよろしくない。

グラフィカル ユーザー インターフェイス, テキスト 自動的に生成された説明

また、それぞれのPDFファイルの文章冒頭をコピー&ペーストしてみると、サードパーティ製のPDFからコピーしたテキストはとんでもないことに…。この現象、PDFプレスリリースのテキストをコピーするとたまにあるんですよね。ホラーっぽくてびっくりしちゃう…。

同じPDF化された文書であっても、見た目や内包データが変わってしまうのがわかってもらえたと思います。

Acrobatがあれば使用ソフトを問わず構造化されたPDFを作成できるので、PDF文書を作る機会が多い人にとっては大いなるメリットになるでしょう。

構造化されたPDFだからできる、タグ付けやレイヤー機能

お次はやや踏み込んだ使い方で、構造化されたPDFの利点を紹介します。サンプルとして使うのは以下のWordファイル。

こちらもAcrobatによるPDF変換と、Wordの「名前を付けて保存」からPDFとして保存したものとを比較していきます。今回はAcrobatの機能のひとつである「アクセシビリティタグ」に注目してみましょう。

※アクセシビリティタグ:タグを追加することで、さらにPDF のアクセシビリティを向上させることができる機能。論理構造ツリーによって、コンピューターが読み上げたり、別の形式に書き出したりする際の精度が高まる。(PDF にタグが含まれていない場合、 自動的にタグが設定される。)

アクセシビリティタグを表示させてみると、左側のAcrobatによるPDF変換を経たものはいくつものタグが表示されています。これは元となったWordファイル内のタグ情報が表示されており、画像や段落を選択すると該当の部分にジャンプすることが可能です。

一方、右側の「名前を付けて保存」からPDF化したものはタグ情報が保存されておらず、テキストのデータも見えなくなってしまいました。これでは情報の整理どころか、資料として使えるファイルとは言えませんよね。

今回のサンプルは3ページ程度ですが、業務の中では数十ページにもわたる資料をPDF化することもあるのではないでしょうか。1ページ目から目的のページや情報までスクロールするとなると時間もかかるし、手間ですよね。そういった際にも構造化されたPDFであれば、章や見出し、重要な表などにタグ付きしおりを埋め込んでおけるので、情報をより詳細に構造化でき、情報を整理しやすいという利点もあります。

PDFを作成するなら、これからは「Acrobat」を使ってみて。

PDFの仕様が公開され、オープンスタンダードになっているが故に、どれも同じと思われがちなPDF。ですが、一見同じように見えるPDFも作成ツールによって中身や使い勝手が異なってくるということがお分かりいただけたのではないでしょうか。

その点、AcrobatはPDFを開発したアドビが提供しているがゆえに、”PDFの質”という観点においてはやはり信頼できますよね。相手にも意図した通りのアウトプットが表示されるようにしたい、PDFからデータを抽出したり他の形式で再利用したりしたい、あるいは検索エンジンやデータ解析ツールでも内容を正しく、効率的に抽出させたい…。そういった場合には特に、Acrobatで作成できる「構造化されたPDF」があなたの業務をより快適に、そしてスムーズにしてくれるでしょう。

さらに「上司に送信したPDFファイルが、自分が想定したデザインと違って表示されていた」、あるいは「社外向けに配布したPDFリリースに不要なメタデータが含まれていた」など、こうしたエラーも構造化を知ることで回避できるようになります。

2025年はAcrobatを使って、ディープかつ自在にPDFを使いこなしてみてはいかがでしょう?