アドビとNVIDIAが協業し、次世代LLMでPDFインテリジェンスのパワーを活用

Image credit: Adobe Stock/ aamir.

アドビは本日、NVIDIAとの長期的なパートナーシップを拡大し、企業が3兆を超えるPortable Document Format（PDF）ドキュメントに格納されたビジネスインテリジェンスを活用する新たな方法を模索することを発表しました。アドビのPDFサービスとNVIDIAのテクノロジーを組み合わせることで、大規模言語モデル（LLM）とPDFの可能性を3つの側面から前進させます。アドビのPDFテクノロジーと専門知識を活用し、次世代LLMのトレーニングとチューニングにおいてNVIDIAをサポートすること、NVIDIA NIMおよびNVIDIA NeMoマイクロサービスとアドビのPDFサービスを活用し、PDFに格納されたデータに生成AIを適用する企業を支援すること、LLMの研究開発を促進するためのオープンデータセットを開発することです。

Acrobatに導入されたAIアシスタントは、PDFのインテリジェンスを活用して個人の生産性を加速させましたが、今度はその価値を企業に拡大しようとしています。 NVIDIAのLLMと検索拡張生成（RAG）機能を使ったイノベーションとAdobe PDF Extractテクノロジーの組み合わせは、ドキュメントのインテリジェンスの新時代に向けた一歩です。

NVIDIAのエンタープライズコンピューティング担当バイスプレジデントであるManuvir Dasは、次のように述べています。「PDFには、膨大かつ貴重な情報が保存されており、あらゆる企業の生成AIアプリケーションのインテリジェンスをカスタマイズするために利用できます。今回新たな1ページを迎えたNVIDIAとアドビのパートナーシップでは、NVIDIAマイクロサービスを使用してPDFデータの価値を活用し、生成AIエージェントとコパイロットを強力な生産性ツールに変えることができます。」

次世代LLMのトレーニングとチューニング

アドビとNVIDIAは、新しいNVIDIA LLMのトレーニングに取り組んでいます。NVIDIA AIファウンドリーサービスとNVIDIA AI エンタープライズソフトウェアを組み合わせ、Adobe PDF Extract Servicesを活用することで、NVIDIA Nemotron LLMを含む次世代のNVIDIA AI基盤モデルをトレーニングおよびチューニングするためのデータセットを構築しています。これらのモデルとオープンソースおよび商用のLLMは、NVIDIA AI エンタープライズソフトウェアスイート内のNVIDIA NIM推論マイクロサービス上で実行されます。

PDFには、世界中で最も価値のある情報が含まれています。しかし、データが非構造化であるため、データを利用可能なインテリジェンスに変換することは、通常困難か不可能です。PDFの発明者であり革新者であるアドビは、PDFの構造とコンテンツに関する世界的な権威です。Adobe PDF Extract Servicesは、カスタマイズやセットアップなしで、ネイティブ PDF やスキャンされたPDF などさまざまな種類のドキュメントから高精度のデータを抽出します。このテクノロジーは、受賞歴のある Acrobat Liquid Mode と同じ人工知能と機械学習モデルを活用して、PDF 内の非構造化データをリッチな構造化データに変換し、効率的な分析を実現します。

生成AIをグローバルエンタープライズに拡大

このほか、高性能の生成AI機能をグローバルエンタープライズに拡大するため、両社は新たな手段にも注目しています。検索拡張生成（RAG）機能は、生成される回答と独自データや外部ナレッジベースを組み合わせ、より最新かつ信頼性の高い回答を提供することで、エンタープライズにとってのLLMの有用性を拡大できます。

アドビのPDFサービスを組み合わせて、組織のPDF内部から独自の情報を抽出し、事前にトレーニングされたNVIDIA LLMを使用して、企業が自然言語を使用してデータと対話できるようにするための専門知識ベースを模索しています。また、NVIDIA NIM推論とNVIDIA NeMo Retrieverマイクロサービスによって、企業がAdobe Document Cloudの製品とサービスを使用し、本番アプリケーションでPDFを同期的に使用できるようにする方法も検討しています。

上記に加えて、NVIDIA NIMのようなNVIDIAのアクセラレーテッドコンピューティング/エンタープライズAIソフトウェアと、AI対応機能やAdobe Fireflyなどの製品を組み合わせることで、NVIDIAとアドビは、市場投入期間を短縮し、高性能のインタラクティブなカスタマーエクスペリエンスを実現する方法を模索しています。

研究用のオープンデータセットを構築

アドビとNVIDIAは、LLMとデジタルドキュメントの役割に関する研究を推し進めるため、両社の専門知識を結集させています。事前トレーニングデータとしてPDFを使用し、LLMの研究開発を強化するため、両社はデータセットの共同キュレーションについても協業しています。両社は今後、LLMと超大規模モデル（VLM）のトレーニングでPDFデータを最大限に活用できるよう、後処理技術に関するオープンな研究を共同で実施します。このデータセットの知見、手法、影響を公表し、研究目的でデータセットを公開することで、人工知能と機械学習の分野の研究者、開発者、愛好家による容易なアクセスと広範な普及を実現していきます。

※この記事は2024年3月18日（米国時間）に公開されたブログの抄訳です。

https://blog.adobe.com/jp/publish/2024/02/02/cc-design-ai-trends-2024-predictions-next-wave-business-innovation

https://blog.adobe.com/jp/publish/2024/02/29/dc-paperless-seminar20231024

https://blog.adobe.com/jp/publish/2023/12/20/dc-acrobat-interview-20231220