金融業界必見!AI時代を勝ち抜くPDF戦略活用術

イメージを挿入しています...

「データが企業の競争力の源泉の一つである」ということは今やビジネス界では常識となりました。金融業界でも電子化は進んでいるものの、決算短信などのドキュメントの読み込みと活用・フローの自動化についてはまだ発展途上だと言われています。

本記事では、PDF Extract APIやAcrobat AI Assistantを活用したドキュメントプロセスの自動化と、非構造化データの効率的な抽出・活用術について解説します。

なお、オンラインセミナー「金融業界は特に必見!AI時代におけるPDFの戦略的活用法」でも紹介しています。ぜひ確認してみてください。

非構造化データの活用が競争力を左右するわけ

企業が持つデータに「構造化データ」と「非構造化データ」の2種類があり、企業が持つデータの90%ほどが非構造化データと言われています。

構造化データは明確な形式と固定されたデータモデルを持つデータのこと。SQLなどのクエリ言語で容易に検索や操作が可能で、再利用が容易です。一方、非構造化データは任意のフォーマットで保存されており、画像、動画といった、各種アプリケーションに依存した独自形式のデータです。金融業界で流通する決算短信も、複雑なレイアウト情報、表、注釈など、多くの意味付けされたデータによって構成された非構造化データと言ってよいでしょう。非構造化データはそのままでは再利用が難しく、約40%のデータが一度も再利用されていないという調査結果もあります。これらの再利用されていないデータは、企業にとって「宝の山」ととらえることもでき、非構造化データの活用が企業の競争力を左右するといっても過言ではありません。

文書の電子化とビジネスのデジタル化 ~変わったことと変わっていないこと~

ビジネスの現場では財務諸表や売買契約書などの重要なドキュメントに関しては、多くがPDFを通して情報が流通し、デジタル化が進みました。ところが文章のプロセスやワークフローについては依然として変わっていません。

手動のドキュメントプロセスによる生産性の低下や、非効率なプロセスでの顧客の損失、アクセシビリティの欠落など、PDFを使ったドキュメントプロセスには多く改善点があります。中でもセキュリティ・コンプライアンスの問題は深刻で、公開されているPDFの92%が編集可能で、コンプライアンス違反が企業にもたらす平均コストは1,500万ドルとの調査結果もあります*。

*WorkMarket 2020 In(Sight)Report, IDC, PDF Health Check

ドキュメントプロセスの自動化に必要な要素

ドキュメントプロセスの自動化には、ドキュメントのライフサイクル全体に渡ってシームレスなドキュメント体験が欠かせません。これを簡単に構築できるソリューションとして、Adobe Acrobat Service があります。

同サービスは一元化されたカスタムドキュメントを大規模に作れる「生成」、データ抽出・活用の「インテリジェンス」、タグ付け・チェックの「アクセシビリティ」、ISMAP対応やリスク軽減の「信頼性」の4つ要素から構成されています。

また自動化にあたっては、Microsoft Power AutomateでAcrobat Serviceのプラグインが用意され、ノーコードで実現できます。定型化された繰り返しの多い作業に自動化によって生産性を大幅に向上させることができます。

例えば、旅行保険の申込フォームに入力された情報は、Generation APIによって自動で契約書がPDFとして生成されます。契約書の書面も画面を顧客に提示し、Acrobat Sign APIを使って電子署名が完了するという、スムーズなドキュメントプロセスが実現できます。

詳しいご説明をオンラインセミナー「金融業界は特に必見!AI時代におけるPDFの戦略的活用法」でも紹介しています。ぜひ確認してみてください。

PDF Extract API で実現する非構造化データの活用
~決算短信の中はなぜ綺麗にコピーできないのか~

前述のように、企業には活用が進んでいない非構造化データが多くあり、それを分析・活用するためにはAIの力がカギとなります。金融業界においても、数値統計分析に利用する元データの構造化や、画像認識、音声認識、自然言語処理や各種最適化など、さまざまな角度で検討が進んでおり、日々の会議録から、資産ポートフォリオ、格付情報、財務諸表まで多くの用途で期待されています。ビジネスシーンのあらゆるところで見られる非構造化データであるPDF活用はその代表例です。

PDFを思い通りにコピー&ペーストできないと感じたことはありませんか?たとえば、決算書の2行が1行として抽出されてしまったり、パラグラフの抽出される順番が思い通りでなかったりするケースです。PDFにはヘッダー/フッターやフォント情報、表、画像、空白文字、レイアウト情報までさまざまな情報が入っているため、情報を正しく抽出するためにはAIの力が必要です。

PDF Extract APIならテキスト、テーブル、画像を抽出。文章構造を理解することができます。情報は構造化Jsonとして出力され、リスト、テーブル、パラグラフの位置情報やテーブルのヘッダーそれぞれが、AdobeのAIであるAdobe Senseiによって区分けされて抽出されます。

なお、Adobe Extract APIの実力はデモサイトで試すことができます。たとえば決算短信を読み込んで正しく理解することを確認してみてください。通常、決算短信には一覧性のために、さまざまな加工がされています。そこから表や脚注まで正しく抽出され、あとで再利用(検索)するときにしっかりと役立つことが確認できるでしょう。抽出結果はダウンロード可能で、Microsoft Excel、画像など、再利用可能な形で格納されます。

デモサイト:https://udp.adobe.io/document-services/apis/pdf-extract/

三菱UFJトラスト投資工学研究所では各社の決算報告書、統合報告書などのPDFをテキストデータとして抽出し、データ整形に要する時間を大幅に削減しました。従来では抽出されたデータの文章構造が保持されず、膨大な目視作業があったものを、PDF Extract APIによって報告書の文章構造が保持されたまま、PDFからテキストデータを抽出できるようになったのです。

Acrobat AI Assistant を使った個人の作業効率化

ドキュメント活用に関する効率化は個人レベルでも実現できることがあります。文書の理解と整理の時間を大幅に短縮し、知的生産性を向上させるのが Acrobat AI Assistant です。同サービスでは、AIアシスタントがドキュメントに関する洞察を瞬時に提供し、そのソースを提示して人が検証可能な状態にし、データを学習に使わず安全と責任を果たし、簡単な導入を特徴としています。

例えば、IRレポートのサマリーをワンクリックで生成することができます。プロンプトを使って、その企業の売り上げにもっとも貢献したセグメントを確認すると、その答えとともに、当該情報のソースとなった部分を明示してくれます。当然入力された情報は学習データとして目的外に利用されることはありません。これらのサービスがAcrobat/Acrobat Reader のオプションサービスとして提供されています。

「宝の山」は自社にある

企業が持つデータの活用は、大量のドキュメントを再利用できるような形にすることによってその可能性が広がります。企業のドキュメントプロセスの自動化、情報の素早く確実な抽出、個人の生産性の向上を通じて、自社の宝の山から新たなビジネスチャンスを見出す可能性を高めてはいかがでしょうか。

動画解説付きのオンラインセミナー「金融業界は特に必見!AI時代におけるPDFの戦略的活用法」でも本記事の内容を紹介しています。ぜひ確認してみてください。

アドビが開催しているセミナー情報はこちら
チュートリアル動画はこちら
ペーパーレス化や電子署名に関するお役立ち資料はこちら