アドビ、音声処理と映像制作に革命をもたらすAI搭載の新オーディオツールを先行公開

映像クリエイターをいつも悩ませるのが音声品質です。風の干渉、マイクの不適切な設置、人ごみなどの理由で発生する雑音はそれだけで映像を台無しにしかねず、ホビイストからプロフェッショナルまでのあらゆる映像制作者が対応を余儀なくされています。この課題を解決するのはこれまで容易ではありませんでしたが、AIの進化は数々のエキサイティングな新しいソリューションを可能にし、音声処理に革命がもたらされ、誰もが高品質な映像を簡単に制作できるようになるでしょう。

アドビは本日、AIを搭載した新技術「Project Sound Lift」を公開しました。これは、AIの力で人の声とサウンドを個別に強化、変換、制御することで、さまざまな状況下で収録された音声を簡単に操作できるようにするワンクリックソリューションです。「Project Sound Lift」には、現在Adobe Premiere Proなどのアドビツールで利用できる「スピーチを強調」テクノロジーが統合されており、クリエイターがスタジオ品質のオーディオコンテンツを制作・コントロールする方法をさらに変革します。

Adobe Researchの音声AI研究者が開発したこのプロジェクトは、世界中の何百万人ものユーザーが信頼を寄せるアドビ製品の未来の重要機能となりうるアイデアや技術のプロトタイプを、アドビのエンジニアや研究者が直接紹介するショーケース「Sneaks」の一環として、本日Adobe MAX Japan 2023のステージで発表されました。

https://www.youtube.com/watch?v=E2szhS3PkeA

従来の音声AIモデルを使ったサウンド分離では、多くの場合、話者や音源が単一、かつ背景ノイズやエコーのないクリーンで明瞭な録音を前提としていました。しかし、実世界の録音がこのような条件を満たすことはほとんどありません。ノイズやリバーブ、複数の話者など、コントロール不可能なサウンドイベントが含まれていることもあります。こうした制約のため、専門家のように高度なオーディオツールを使いこなせない一般人にとって、日常的な録音における音声AIの適用は困難なものでした。

「Project Sound Lift」なら、人の声、拍手、笑い声、アラーム、群衆などの環境音など、日常生活で発生するさまざまな音声イベントを個別のトラックに分離して管理することができます。各トラックを個別にコントロールすることで、全体的な音のインパクトとクオリティを最大化できるのです。

以下にて、Project Sound Liftのを実例をご紹介します。

https://blog.adobe.com/media_1e0aa76ef3737a740717d9a550c7ca324f72d03aa.mp4

シャンタヌナラヤンの基調講演より。デモ：音楽、聴衆の環境音、アナウンサーの声、シャンタヌの声の分離

https://blog.adobe.com/media_1d86959219c44059ce3018d22010308a02bcc6ac9.mp4

Adobe MAXの群衆の中のラッセルブラウンの講演より。デモ：話者の声とノイズ（背景の環境音など）を分離

https://blog.adobe.com/media_133bf82ef805ea891e7afec9683c9196fb26a8690.mp4

街頭で話すアドビリサーチ伊藤大地。デモ：話者の声とノイズ（背景の環境音など）を分離、人の声の音声変換

この記事は2023年11月15日（米国時間）に公開された Adobe previews new AI-powered audio tool to revolutionize voice processing and video creation の抄訳です。

https://blog.adobe.com/jp/publish/2023/10/12/cc-max-sneaks-2023

https://blog.adobe.com/jp/publish/2023/10/18/cc-creativecloud-october-2023-update-list

https://blog.adobe.com/jp/publish/2023/10/11/cc-next-gen-of-creativity-powered-by-ai