生成AIが切り拓く映像クリエイティブの世界《Inter BEE 「Adobe Day 2024」レポート》

テキスト AI によって生成されたコンテンツは間違っている可能性があります。

<このレポートは2024/11/14時点の内容となります。>

アドビは国際放送機器展 Inter BEE 2024の2日目に、アドビの革新的な製品や最新技術を体感できる一日「Adobe Day 2024」を特別開催しました。当日行われた6つのセッションの中から、この記事では生成AIのプロユースでの実情などを紹介し、映像制作にもたらす変革と未来を探ったセッション「生成AIが切り拓く映像クリエイティブの世界」の内容をレポートします。生成AIが実現した効率的かつ高品質な映像と、ごく短期間の技術革新によって浮かび上がってきた課題も取り上げた本セッションは、立ち見が出るほどの注目の講演となりました。

人, 屋内, 男, フロント が含まれている画像 自動的に生成された説明

登壇していただいたのは映像のプランナー・ディレクター・クリエイティブコンダクターとして活躍している清水勝太さんです。清水さんは2007年から広告制作会社の博報堂プロダクツでプロダクションマネージャーとCMプランナーを担当、映像ディレクターとしても広告の映像制作に従事しました。2018年からはADKマーケティング・ソリューションズでプランナー・クリエイティブとして広告戦略やブランディングを手掛け、2023年に独立して合同会社KOELを創業。現在はクリエイティブやプロデューサー・ディレクターとして映像制作を行っており、ご自身でAIを用いたアートワークを制作したのをきっかけに、DO/AIというサービスにクリエイティブコンダクターという職種で参加しています。

本セッションでは、清水さんがクリエイティブコンダクターを担ったプロジェクトの実例を披露していただきながら、生成AIを用いた映像制作の実状とチームビルディングの現在などについてお話しいただきました。

なお、このセッションは、以下のインデックスの流れで講演が行われました。

テキスト 自動的に生成された説明

1 生成AIを用いた映像制作とチームビルディング

そもそも生成AIでどこまでできるのかという例として、清水さんが2024年9月にとあるコンペに提出した映像作品がデモ映像として上映されました。中世ヨーロッパを思わせる世界での戦争と平和、どこかの王の生涯を彷彿とさせる壮大な設定、そしてその王が死の間際に見る走馬灯のような抽象的な表現を含んだこの映像は、音楽やナレーションを含むすべての素材をAIで生成しています。

屋内, 座る, 写真, 小さい が含まれている画像 自動的に生成された説明

この映像を編集も含めて2日間という短期間で制作したことが紹介され、生成AIを用いた具体的なワークフローが解説されました。ワークフローは4段階に分かれています。

テキスト AI によって生成されたコンテンツは間違っている可能性があります。

1)文章生成

まずはじめに文章で画像生成用のプロンプトを作成しています。ChatGPTやClaudeを使ったり、DeepLで日本語から英語に翻訳してプロンプトを作成しています。

2)画像生成

つぎに文章プロンプトを元に画像を生成します。ここでは、Midjourney、Firefly、Stable Diffusionなどを使用。生成AIでは現状ハルシネーション(=幻覚。事実に基づかない情報を生成する現象)が発生する場合があるので、部分的にPhotoshopで生成し直したり、画像のアップスケールの部分でMagnificやKreaを使っています。

3)動画生成

さまざまなAIソフト(Runway、Luma、KLING、Fireflyなど)を使って画像を動画にします。そして編集には通常の撮影と同じくPremiere Proを使用。

4)編集

音楽を作曲する場合はUdioやSunoで生成し、4Kにする場合はTopazで動画のアップスケールを作成。そして最後にPremirere Proでオンライン編集を行っています。

生成AIの3つの強み

清水さんは生成AIを扱う上での前提としてこう述べました。

「撮影やCGでできないことというのは基本的にありません。だから、AIについてもソフトによってモーフィングっぽい表現はありますが、本質的にAIらしい表現というのは存在しないんじゃないかと僕は考えています」

この考え方を踏まえたうえで、生成AIがもつ3つの強みについて解説が行われました。

1. 想像の拡張性

1つ目は創造の拡張性です。会場のスクリーンにはすべて同じプロンプトで生成された画像が複数枚表示され、CGや撮影の技術がなくてもアイデアを可視化して形にすることができることが示されました。清水さんは、ディレクターとしてキービジュアルを書くときは1、2枚が限界なのが、AIを使えば無限に何百枚と短時間でできると語り、予想を超えた想定外のものが生成できる点を強みとして挙げています。

グラフィカル ユーザー インターフェイス AI によって生成されたコンテンツは間違っている可能性があります。

「ディレクターの皆さんは分かると思いますが、カメラマンにお願いしたときに想像を超えたアングルを撮ってくれたり、エディターにお願いした時にオフラインがすごく良かったりというクリエイティブジャンプがあると思います。それがAIにもあるのが大きな特徴です」

2. 可視化

2つ目の強みである可視化については「日本の文化 ✕ メガネ」というテーマのCMの企画が例に挙げられました。多くの方が「想像できるけど実際それは何?」というアイデアについて、企画の段階で精度の高いビデオコンテにすることができることが強みと清水さんは語っています。

グラフィカル ユーザー インターフェイス AI によって生成されたコンテンツは間違っている可能性があります。

「例えば歌舞伎や桃太郎、寿司屋のような日本の文化、そういうものとメガネをかけあわせた企画について、みんなが『こういうものだね』と思えるものを可視化できる。曖昧なコンセプトが具体的なビジュアルになってくるわけです。プロジェクトに関わるメンバーやお客さんが早い段階で共通認識を持つことができます。企画の段階でこのビジュアルを作ることが多く、衣装やCG、ロケ地のイメージなど、いろんな映像の企画フェーズで使うことができます」

3. コストダウン

そして3つ目に挙げられたのがコストダウンの強さです。

グラフィカル ユーザー インターフェイス AI によって生成されたコンテンツは間違っている可能性があります。

生成AIで作られた画像を例に、同じような画像を撮影する場合には膨大なコストがかかることが解説されました。キャストやオーディション、ロケ地の選定やアートディレクション、カメラマン・撮影・衣装・ヘアメイクなど。画像例のような背景の開けたロケ場所が遠方であれば、移動や宿泊、食事、そのほかにCGなどのリソース。数え上げるとかなりのコストがかかることがわかりますが、生成AIであればPCの前ですべて完結する点が紹介されました。

生成AIの5つの難しさ

生成AIの強みをあらためて見てみると良いことだらけに思えますが、じつは困難なことのほうが多いということを清水さんは指摘します。

1. 簡単につくれるという誤解

まず、簡単に作れると誤解されていることが挙げられました。ここで例に示されたのが、清水さんがクリエイティブコンダクターを担当し、CMディレクター/映画監督である中島信也監督が手掛けたAIの動画コンテンツ「しんちゃんとお父ちゃん」です。初めに紹介されたカットでは、じつに600枚以上の画像を生成したと言います。

テキスト AI によって生成されたコンテンツは間違っている可能性があります。

「これはなぜかというと、1枚の画像に構図や衣装、登場人物、人物の位置、建物の高さ、時代、季節など、無限に要素が含まれていて、本当にこれがいいという理想のために何回もトライするからです。生成すること自体は本当に簡単で『簡単にできるでしょ?』と言われるんですけど、理想とするものを生成するにはめちゃくちゃ時間がかかるんですね」

これは動画に関しても同じで、まだまだプロンプト通りにいかずに数十テイクが必要な場合もあるということです。続いて例に挙げたCMの1コマは、喫煙所の運営などを行っている株式会社コソドのCMでした。タバコを吸っているモデルを格好良くポージングさせたいのに、なぜかタバコが発射されるというシーンが上映され、会場では笑いも起きていました。

写真, 屋内, 座る, フロント が含まれている画像 AI によって生成されたコンテンツは間違っている可能性があります。

「何十テイクも生成したあとに、これが出てくると崩れ落ちそうになるんですけど……それぐらい簡単にはできないということです。プロンプトで、ある程度コントロールはしますが、まだまだ完全なコントロールはできないですね」

2. 他者のイメージの可視化

他者のイメージの可視化はもっと大変であることを清水さんは指摘しています。

「アート制作は自分の頭の中をAIを使って拡張して可視化すればいいと思いますが、広告や映画は他者である監督やクライアントの頭の中にある潜在的なアイデアやイメージを可視化します。生成AIを用いて理想の世界を作り上げるということです」

清水さんはここで「未来の幕張のキービジュアルを作ってほしい」とリクエストを受けた場合を想定して、その難しさについて解説しました。

テキスト AI によって生成されたコンテンツは間違っている可能性があります。

そのイメージは何年後の未来の幕張で、季節はいつなのか。天候は雨か? 人の数は? 人種は何人がいて服装はどんな服を着ていて、ドローンが飛んでる? そもそもカメラの高さは空撮なのか目高(めだか)? カメラのボディは? レンズは? などなどイメージを形作る要素がたくさんあることを指摘します。言語化できていない潜在的なイメージをプロンプトに入力して、何100回とフィードバックを繰り返し、他者の理想の世界を可視化するのはとても時間がかかる作業だと清水さんは述べています。

「よく『抜け感が良いほうがいい』と言われることがあるのですが、そのまま『抜け感』とプロンプトに打っても何も出てきません。『見ないと分からない』とも言われるのでいろんなパターンを見せてフィードバックを繰り返しますが、それで結局時間がかかるわけです」

3. 一貫性の維持

先に例に挙げた「しんちゃんとお父ちゃん」の映像の一コマについて、主人公の顔が映っているカットは800枚ぐらいを生成しているそうです。トーンや質感について人物や商品を一貫性を持って生成するというのはとても難しく、技術的には可能であっても開発コストかかることを指摘しています。

テキスト が含まれている画像 AI によって生成されたコンテンツは間違っている可能性があります。

例えば情緒的な物語で、主人公の顔が毎回異なるような場合、「お父ちゃん」と呼ばれて振り返ったら毎回違う男の子が出てきてしまってはとてもシュールな映像になってしまうわけです。現状では、一貫性の維持はとても難しい問題だといえるでしょう。

写真, 人, 屋内, 建物 が含まれている画像 AI によって生成されたコンテンツは間違っている可能性があります。

4. ハルシネーションとの戦い

ハルシネーションは、登場する人物の身体がありえない状態に再現されるなど、事実に基づかない情報が生成されてしまう現象です。

グラフィカル ユーザー インターフェイス, テキスト AI によって生成されたコンテンツは間違っている可能性があります。

ここでは生成AIを使って制作されたIHIさんのCMの一コマで、ハルシネーションが起きている例が挙げられました。この例では建物の中に顔がめりこんでいたり、頭が四角形になってしまうエラーが発生しています。それに対しては本編集で調整したそうで、品質の管理やレタッチャー・コンポジターとの協業は必須とのことでした。

5. 不確実性

海外の生成AIサービスの場合は、日本独特の文化(例えば下駄やわらじ、お好み焼きなど)のクオリティが担保されない点、また激しい動きについて、画像から動画を生成する際に理想とするものが生成できるかわからないという点が挙げられました。

グラフィカル ユーザー インターフェイス, Web サイト AI によって生成されたコンテンツは間違っている可能性があります。

清水さんはある監督から「バスケットボールでドリブルする動画を生成してほしい」とリクエストされたのですが、iPhoneで撮影したほうが早いと答えたそうです。実際に生成AIで作られたドリブルの動画例では、ボールがありえない動きをするところが上映されました。清水さんはこういった懸念点にも触れています。

「生成AIでトライしたけど蓋を開けてみたらできなかったとか、CGも撮影も納期が間に合わないということにならないように、早めの判断や事前のテストが大切です。またバックアップとして必ずレタッチャーも必要になることを忘れないでほしい」

これらの5つの難しさをいかに突破するのかという課題に対して、清水さんは生成AIと映像制作のプロフェッショナルチーム「DO/AI」を立ち上げました。同チームは「AIを楽しもう」をテーマに、生成AIを活用して広告と映画の大きく2つのサービスを提供。清水さんを含む2名のクリエイティブコンダクターと11名以上のAIクリエイターが参画しています。

グラフィカル ユーザー インターフェイス, Web サイト AI によって生成されたコンテンツは間違っている可能性があります。

「広告主や著名なクリエイターはAIのことが分からない。逆にAIクリエイターは広告や映像のことがわからない。なので、どちらもわかる僕がクリエイティブコンダクターと名乗って全体のクリエイティブを統括しています」

ダイアグラム AI によって生成されたコンテンツは間違っている可能性があります。

そして実際に清水さんがクリエイティブコンダクターを担当し、生成AIが活用された2作品がデモ上映されました。

1つめはIHIさんの海外限定のグローバルCMです。映像をAIで生成しており、音楽とナレーションは人間の手で作られています。

雲, 暗い, 市, 煙 が含まれている画像 自動的に生成された説明

そしてもう1つの事例はピザハットさん。After Effetsで作られた文字以外は生成AIで作られた映像と音楽で構成されています。作中の声はもともとAIで作られた英語の音声を入れていたところ、クライアントから人間の声がいいという要望を受けて、清水さん自身が担当した音声に差し替えられたということでした。

トレイの上にあるピザ 自動的に生成された説明

2 クリエイティブの民主化がもたらす変革

セッションの後半では、生成AIについて「よく聞かれること」や「今後どういうことが起こるのか」ということをお話しいただきました。

まず清水さんが挙げた注目点が「メディアの民主化からクリエイティブの民主化へ」ということでした。インターネットによってYouTuberやインフルエンサーが登場し、テレビ以外のネットを含めてメディアの民主化が起きてきましたが、AIの出現によってクリエイティブの民主化が起こりつつあることを実感していると語ります。

テキスト 自動的に生成された説明

「今までなら絶対作れなかったような高品質なショート動画がSNSにどんどん上がってきています。個人が企業のCMを作るCtoBの世界が広がるのではないかと感じています。個人のクリエイターが低価格で高品質なコンテンツを作って、単価の安い個人受けのようなところが台頭してくると予想しています」

プロはどう差別化し、生き残るのか?

個人クリエイターが生成AIを活用することに対して、プロフェッショナルはどう差別化すべきかについて解説が行われました。仕事で映像制作をする上で当たり前のこととしながらも、清水さんは2点のポイントを挙げています。

テキスト 自動的に生成された説明

<チームの力>

1つはチームの力が非常に重要だと述べています。クライアントサイドへの対応や潜在的なイメージの言語化、ディレクションや撮影の併用、ハルシネーションや著作権のチェックなど、案件が大きい場合には一人での対応が難しいため、組織化はとても大事になってきます。

<映像のプロフェッショナル>

そもそも映像を始めた人たちは面白いものをつくりたいという探求心が個人に比べるとみんな強いと思っていると清水さんは語ります。撮影や照明など、専門的な現場を知っているということもすごく大事で、クライアントに寄り添った対応や何より現場を知っているということ、そして細部に行き届く配慮やかゆいところに手が届くようなプロデューサーが求められると話しました。

「結論としては、そういうプロフェッショナルと生成AIの共同によって、社会全体のクリエイティブが底上げされるのではないかと感じています。映像のプロフェッショナルと生成AIの化学反応で次世代のクリエイティブが誕生し、それが企業や視聴者に新しい価値を提供して、どんどんいい意味で発展していくと思います」

テキスト 自動的に生成された説明

3 著作権の壁とその崩壊

つづいて多くの方が関心を寄せている著作権の話について語られました。生成AIにはまだ法律上で明確な基準がないので、清水さん率いるDO/AIチームは、著作物を参照したり「スターウォーズ」のような固有名詞を入れたりせずに完全オリジナルで制作しているとのことですが、どうしても既存の著作物と似ることがあると言います。

テキスト 自動的に生成された説明

「類似していないかどうかは、今はまだ人力で確認する必要があります。また逆に我々が作ったものに対しても人間がどの程度創作的に関与したのか明確にして、必要によっては著作権を主張する必要があります。大企業の生成AIに対する認識は変わってきたところもありますが、まだ著作権リスクがあるのでなかなか踏み込まない企業さんが多いのが実状です。炎上リスクもどうしても高いので、積極的な提案はまだまだ及び腰というフェーズだと思います」

テキスト 自動的に生成された説明

現場でのリアルな面を伝えつつ、清水さんは今後の展開も予測しています。

「生成AIを用いること自体は不可逆的なので、予算がないときに使ったり予算以上のクリエイティブ、つまり本来できなかったことができるクリエイティブジャンプアップがトレンドになっていくと思っています」

テキスト 自動的に生成された説明

清水さんはまだ黎明期が続くと見込みながらも、生成AIを利用したクリエイティブは当たり前になっていくと語っています。実際にミュージックビデオなどでは背景の素材やVtoV(撮影した素材をアニメーションに変えたりするAIのエフェクトなど)、演出の分野で多用されている例が挙げられました。

広告も含めて動画は投資だと述べる清水さんは、ボトムアップで中小企業や小規模キャンペーンのようなところから生成AIを用いた制作がどんどん増えていくのではないかという見解も示しています。

白黒の写真に文字が入っている 低い精度で自動的に生成された説明

「いま大物の役者さんが出演する大企業のYouTubeコンテンツは当たり前にありますが、同じように気づいたら当たり前にAIが使われていて日常化して世界中に広がっていく。そういう未来を想像していて、壁は崩壊といいますか有耶無耶になっていくんじゃないかと考えています」

4、制作スタッフとAI、協力か対決か?

予測が難しくデリケートな話にも触れています。撮影やCGの仕事がAIに取って代わられるのかどうか? という話題です。これには2つの観点で見解を述べています。

①予算ありきの場合

例えばシズルの撮影で1000万円がかかる想定で予算が最初から300万円しかない場合、そもそも動画を作ろうという流れにはならずに、その予算でSNSやチラシを使った「動画以外の施策」になる可能性が高いと清水さんは話します。つまり、この予算感の中で生成AIに取って代わられたのは、シズルの撮影やCGの仕事ではなく「動画以外の施策」だと言えるのではないかということです。

ピザの箱 自動的に生成された説明

付け加えて生成AIでシズルを作る困難さについても説明されています。そもそも生成AIで作られたものはまだおいしそうに見えなかったり、シズルが微妙であったり、一貫性という点で同じ商品に見えるようにするのはとても困難とのこと。そこを突き詰めると撮影したほうが確実で、ピザハットさんの案件に関しては、ティザーかつクライアントや代理店のみなさんから理解があったので成立した案件との補足説明がありました。

②タイトなスケジュールとカット数で納期的、予算的に難しい場合

CGは新たなカットを作る場合に1週間以上かかると思うのですが、AIの場合は代理店の人と集まれればみんなで1時間単位でスクラップ&ビルドできるところが利点であると清水さんは述べています。CGが納期的にも予算的にも難しい場合でも、AIを使うことで実現できることはあるということです。

グラフィカル ユーザー インターフェイス, Web サイト 自動的に生成された説明

ただし前にも述べている通り、同じ商品を生成するのはすごく大変なので、企業の商品や技術を紹介する場合には向いていないとのことでした。将来的なイメージや抽象的な表現などで映像が完結できる企画の場合は有用と語っています。

ここで語られたのは、あくまでAIはツールの1つということでした。しかし技術の進歩は不可逆的ということで、難しい問いに対する清水さんの見解もまとめられています。

「AIで映像制作をすることが当たり前になる分岐点というのは、遅かれ早かれ必ずやってきます。ただ、まだまだ難しいところもあるので十分に時間はあると思っています。やっぱり将来に不安を覚える人は、AIを使う側に回るのが一番いい。その分岐点が何年後かはわからないですが、『奪われた』と叫んでいる人は『対策をしてこなかった』と叫んでいるのと同じだと思います」

テキスト 自動的に生成された説明

Adobe生成AIビデオモデルのファーストインプレッション

*2025/2/13 にAdobe Firefly Video Modelがベータ版に追加されました
セッションの締めくくりにはAdobe Firefly Video Modelを使った感想と実際例が上映されました。

まず紹介されたのは先に例として挙げられた「未来の幕張」で、こちらはChatGPTを使いながらプロンプトを生成。「多くの多民族の人々が未来的な服装で行き交う〜」というようなプロンプトで生み出されたムービーが上映されました。

グラフィカル ユーザー インターフェイス, テキスト 自動的に生成された説明

テレビ番組の画面 低い精度で自動的に生成された説明

清水さんはまだまだ改善する点はあると指摘しながらも、プロンプトの効き具合を高く評価していました。

つづいてはパラメーターを用いて「引き画+空撮+ズームアウト」の要素を加えたものと、「寄り画+目高+手持ち」の要素を加えたものの2点を上映。プロンプトよりもパラメーターのほうが効いていると清水さんは評価しています。

総評として、パラメーターの設定が非常に有効だと感じている点が語られました。またベータ版ということでハルシネーションやクオリティの改善がこれから進んでいくことに期待しているとのことでした。

グラフィカル ユーザー インターフェイス, アプリケーション 自動的に生成された説明

そしてリクエストしたい機能として同時生成が挙げられました。現在は1つのビデオしか生成できないので、同時に生成できるとより使いやすいとの評価です。また、生成するうえで除外してほしい点を入力できるネガティブプロンプトの搭載も追加希望として挙げられました。

Premiere Proの生成拡張

続いて紹介されたのは、Premirere Proのベータ版を用いた生拡拡張です。これは他のセッションでも詳しく触れている機能で、任意のクリップを2秒拡張できる機能です。

屋外, 写真, フロント, 市 が含まれている画像 自動的に生成された説明

テレビの画面のスクリーンショット 自動的に生成された説明

スクリーンに表示されたPremiere Pro上で、「少し意地悪な、これはできないだろうという素材で試した」という動画が上映されました。清水さんは「お気づきになられましたか? 実はこの最後の2秒が拡張されています。車が疾走しているカーチェイスのシーンなので、生成は難しいかなと思っていたら凄く自然に生成されています。かなりびっくりしました」と驚きをもって説明していました。

そのほかにも2つの例を披露していただきました。アグレッシブな点滅がある激しいライブ演奏シーンでは、同じようになかなか拡張に気付かない高いレベルで映像が生成されていると述べています。

暗い部屋にいる女性 中程度の精度で自動的に生成された説明

そして最後は映像の処理として難しいと思われる風で髪の毛が煽られているシーン。マスクを切る際にはすごく大変な映像を取り上げて、実例を見せていただきまました。

テレビ, モニター, 画面, 人 が含まれている画像 自動的に生成された説明

「これもパッと見は(拡張した部分が)分からない。よく見ると雲がちょっと甘くなってたりする部分もありますが、そこに注視しないと分からないほどすごくクオリティが高い。これが自動で生成されています」

このFireflyは商用利用が可能な設計となっているので、その点でもクリエイターの強力なサポートツールであり、使いこなすことで未来に備えられると清水さんは述べています。

テキスト 自動的に生成された説明

生成AIを使いこなすことが当たり前になる未来がやってきて、生成AIの出現によって映像にできなかった企画を映像化できる。そしてさらに表現力が高い映像を追い求めることができると清水さんは語ります。

「ホラー映画の監督と話していると、予算がどうしても足りなくて、最後にお化けが出るときはだいたいボロボロの長い髪の女の人になってしまう。そこを生成AIで作ればCGですごくお金が掛かるような怖い幽霊もできますし、色んな応用が利くと思っています。いろいろお話しさせていただきましたが、人間対AIとかそういうことではなく、これらのツールを掛け合わせて、本当に何を表現するかというところが非常に大切になってくると思います」

テキスト 自動的に生成された説明

未来に向けた課題と可能性

最後に本セッションのまとめとして、未来に向けた課題と可能性が提示されました。

清水さんが今回披露した実例は半年前にはまったく実現できなかったことで、人間のクリエイティビティが技術の進化に追いついてないという点を課題として挙げています。この状況も含めて、あらゆるツールを活用したクリエイターが台頭するとも予見しています。そして、セッション中に何度も繰り返し触れていた「一貫性」の面がキーであると指摘しており、映像にとっては必要不可欠な要素なので、これが解決できたときに映像業界のブレイクスルーが必ず起きると締めくくりました。

テキスト 自動的に生成された説明

生成AIを用いた映像制作現場で、いま実際なにが起きているのか、実例を交えてリアルな情報が得られる充実したセッションとなりました。清水さんに評価いただいたAdobe Firefly VideoModelとPremiere Proの生成拡張に関する詳しい機能については、同日行われた他のセッションでも詳しく触れられていますので、そちらのレポートもぜひご覧ください。