Sora2で動画広告制作の落とし穴。現場でつまずいて初めて気づいた「必須スキル」とは
生成AIで動画を作る、という話はもう珍しくなくなりました。
ですが、「広告として本当に使えるレベル」で作るとなると、話はまったく別です。
今回、ある教育機関の広告動画を、Sora2を中心とした生成AIで制作しました。ターゲットは50〜70代の男女。YouTube広告として配信する1分動画を4本です。
※本来であれば、記事内に完成した動画を埋め込んでお見せしたいのですが、クライアントの配信スケジュールの都合上、現時点ではまだ未公開となっています。そのため、制作プロセスと学びを中心にお伝えする形となることをご了承ください。
この記事では、企画から絵コンテ、プロンプト設計、編集、失敗の記録まで、すべて公開します。
最も重要な発見を先にお伝えします。
2025年11月時点では、生成AIで動画を作るには、これまで人の手で行っていた撮影・編集の知識が、むしろ必須でした。
ただし、これはあくまで現時点での話です。AIの進化速度を考えると、数ヶ月後、数年後には、こうした専門知識がなくても高品質な動画が作れるようになる可能性は十分にあります。
ですが、少なくとも今は、従来の映像制作の知識が、生成AIを使いこなす上で大きな武器になっています。
SNSで見かけるAI動画のデモと、広告案件で通用する動画は、完全に別物でした。
記事で得られること
本記事は、生成AI(Sora2 pro)を用いて教育機関向けのYouTube広告(60秒 × 複数本)を制作した実務経験をもとに、以下を一次情報としてまとめたものです。
- AI動画を「広告として成立」させるための情報設計(絵コンテ中心)
- AIの弱点を前提にしたカット設計(破綻しない構図・動作・画角)
- 従来の撮影・編集知識が、プロンプト設計にどう活きるか(2025年11月時点)
- 権利・ブランドセーフティの線引きと、実務での注意点

1. まず結論から:AI動画制作の本質は「映像制作」ではなく「情報設計」でした
従来の動画制作は、撮影・編集だけでなくカラグレ・MA等のポスプロ作業など多くの工程があり、たくさんのスペシャリストが関わる分業制の世界です。
ですがAI動画制作は、まったく違います。
人間がやるべきは「事前設計」と「AIとの対話」の比重が、極端に大きくなります。
AIに指示を出して、生成された素材を見て、「ここは違う」「もっとこう」と調整を重ねる。この往復作業が、AI動画制作の核心です。
つまり、「AIと対話しながら構造をつくる → AIと対話しながら素材を作る → 人間が広告に仕上げる」という、新しいワークフローになります。
AI動画は「完成品」ではありません。「ただの10秒素材」です。考え方としては、カメラで撮影した動画データと同じです。

2. 「AI動画は長尺が苦手」という、残酷な事実と向き合う
2025年11月時点では、Sora2がどれだけ高性能でも、長尺を一発で生成するのは機能的にも難しい状況でした。
理由は他にもあります。
- 顔が安定しない
- 時間が進むほど崩れやすい
- 物体の整合性が保てない
- 「動きの連続性」が理解できていない
そのため、広告として成立させるには、「短尺 × 多セクション × 差し替え前提」で作るしかありませんでした。
今回の案件では、60秒の動画を10秒 × 6カットで組んでいます。
これが、AI動画を商用に乗せるための、最初の設計判断でした。
※ただし、これもあくまで2025年11月時点での制約です。AIの進化によって、近い将来、長尺の一発生成が可能になる可能性は十分にあります。

3. 生成AIの「弱点」を知って、それを前提に設計する
制作を進めるなかで、AI動画の特性が見えてきました。
顔が安定しない
同じ人物でも、角度が変わると「別人」になりやすいです。特に高齢者の顔は、若返る傾向が強いです。
→ 解決策:顔のアップを避けて、手元・背中・足元中心の構成にしました
歩行や走行が破綻しやすい
足が地面に刺さったり、スピードが急に変わったりします。
→ 解決策:歩くシーンは「固定カメラ + 遠景」か「足元のみ」に限定しました
手元の寄りは、難易度が高い
ペンの角度、紙の皺、手の形が不自然になります。指の挙動が不自然になることもありました。
→ 解決策:手元カットは、なるべく避けるか、実写素材に差し替えました
この「弱点を前提に設計する」という考え方が、2025年11月時点でのAI動画制作の核心でした。
AIに無理をさせない。AIが得意なことだけをやらせる。人間が補完する。
この割り切りが、商用レベルの動画を作る鍵でした。

4. どう乗り越えたか?--「再現性が高い構造」を先に設計する
(1)カットを細かく分割する(10秒生成)
長尺の生成では破綻しやすいため、まず10秒程度の短い動画を生成し、その中から5秒分を抜き出してスロー再生するなどの工夫をすると、表現をコントロールしやすくなります。
各カットを、独立した「完成度の高い素材」として生成して、編集で一つの物語にしていきました。
(2)絵コンテは「感情 × 画角 × 動作」をセットで書く
AIに「絵の意味」を伝えないと、動きが成立しません。
悪い例: 「女性が本を読む」
良い例: 「68歳の女性が、朝の静かな時間、窓際の自然光の中で、紙のテキストを1ページめくります。表情は穏やかです。カメラは固定で、手元に寄ります。ドキュメンタリー風、実写の質感で」
上記のようなプロンプトを日本語で書き、英語でも追記します。この違いが、成功確率を劇的に上げました。
(3)固有名詞は使わず、「抽象化」して土地の雰囲気を表現する
「奈良の寺院」 → 中国風になる
「京都の街並み」 → 別の場所になる
そのため、下記のように書きました。
「歴史文化が残る地域の回廊、砂利の参道、木造建築の柔らかな輪郭、観光地感を抑えた静けさ、早朝の自然光」
ここで、「観光地感を抑える」という否定的なプロンプトが特に効きました。

5. 生成AIは「知識ゼロでも作れる魔法」ではなかった--従来の知識が活きた話
ここまで読んでいただいて、もしかすると「生成AIがあれば、撮影や編集の知識がなくても動画が作れる」と思われたかもしれません。
ですが、少なくとも2025年11月時点では、まったく逆でした。
生成AIで動画を作るには、これまで人の手で行っていた撮影の知識、レンズの知識、編集の知識が役に立ちました。
今回の案件で痛感したのは、私自身がカメラ、レンズ、撮影技術、編集技術の下地をある程度持っていたからこそ、プロンプトに活かせたということです。
以下、具体的にどんな知識が、どう役立ったかをお伝えしていきます。
(1)カラーグレーディングの知識:「フラットな色味」で出力させる
Sora2には、LOG(ログ)形式での出力機能はありません。
ですが、カラグレの知識があると、「なるべくフラットな色味で出力してもらう」という指示ができます。
プロンプトに、「Natural color grading, flat color profile, minimal saturation, neutral tones, soft contrast」と書くことで、後からPremiere ProやDaVinci Resolveでカラグレしやすい素材が生成されます。
カラグレの知識がなければ、この指示はできませんでした。
(2)レンズの知識:焦点距離で「絵の意味」を変える
レンズの焦点距離によって、映像の印象はまったく変わります。
- 24mm(広角):空間の広がり、環境を見せたいとき
- 35mm(標準広角):人物と環境を両立させたいとき
- 50mm(標準):自然な視界、ドキュメンタリー風
- 85mm(中望遠):人物の表情、感情に寄りたいとき
今回の動画では、シーンごとにレンズを使い分けました。
ただし、Sora2が正確な焦点距離でレンダリングしているわけではなく、あくまでカメラ的な画角の特徴を模倣している点には注意が必要です。それでも、構図や画角の傾向を伝える手段としては、非常に有効でした。
(3)映像の質感をコントロールする:fpsとモーションブラーの考え方
映像の質感を決める要素として、フレームレート(fps)やモーションブラー(動きのブレ)があります。
今回の動画は、教育機関の広告であり、50〜70代向けですので、落ち着いた印象を重視しました。
そこで、プロンプトに「24fps, cinematic motion」と指定しました。
ただし、重要な注意点があります。現時点のSora2は、fpsを完全に制御できるわけではありません。「24fps」と書くのは、あくまで「映画的な質感を目指したニュアンス」をAIに伝える意味合いに留まります。
同様に、「natural motion blur, 1/50 shutter speed」といった表現も、「自然なモーションブラーを求めている」という意図をAIに伝えるための比喩的な使い方です。
それでも、こうした撮影用語をプロンプトに含めることで、映像の質感に一定の傾向を持たせることができました。
(4)絵コンテの知識:これまでの動画制作ノウハウが活きた
そもそも、絵コンテを考えるときに役立ったのは、これまで人間の動画クリエイターに依頼する際に作成していた絵コンテが下地になっています。
- どのシーンで何を伝えるか
- カメラはどこに置くか
- 視聴者の感情はどう動くか
- どこでカットを切るか
これらは、すべて「人間が作る動画」で培ったノウハウです。
生成AIは、この絵コンテを「実行する道具」でしかありません。
絵コンテを制作・判断する力がなければ、どれだけAIが高性能でも、意味のある動画は作れません。
2025年11月時点では、生成AIは、これまでの動画制作の知識を「不要」にするのではなく、「増幅」する道具だということです。
- カメラの知識があるから、レンズを指定できる
- 編集の知識があるから、カット割を設計できる
- カラグレの知識があるから、フラットな色味で出力させられる
- 映像制作の知識があるから、質感のニュアンスを伝えられる
これらの知識がないまま生成AIを使っても、「なんとなくきれいな映像」は作れるかもしれません。ですが、それが「広告として機能する動画」になるとは限りません。
ただし、これもあくまで2025年11月時点での話です。AIの進化速度を考えると、半年後、1年後には、こうした専門知識がなくても、高品質な動画が作れる時代が必ず来ると思います。

6. 生成AI時代の権利とブランドセーフティ
技術的な話と同じくらい、今回重要だったのが権利まわりです。
Sora2の利用規約上は、生成物の商用利用は可能です。ただし、「規約上OK」=「なんでも気にせず使ってよい」ではないというのが、今回の学びでした。
生成物は「二次創作的な解釈」で見られるリスクがある
たとえば今回のように、寺社仏閣や歴史的建造物を想起させるカットを使う場合、その建物の持ち主(寺社など)、自治体や観光協会、関係する文化財管理者から見ると、「うちの建物を、勝手に広告に使われていないか?」という目線が入ります。
生成動画自体は厳密には「その建造物そのもの」ではなく、"それっぽいイラストや二次創作に近い存在"ですが、見る側の印象としては「ほぼあそこだよね」と受け取られる可能性があります。
ここを「AIが描いたからセーフでしょ」で済ませるのは、広告としてはかなり危ういと感じました。
今回やったこと:寺社側に確認して、許可を取った
今回の案件では、特定の寺院や建造物を想起させるカットが含まれる構成だったため、関係する寺院・施設に問い合わせを行い、「こういう趣旨の動画広告で、このようなカットを使用したい」という説明を行い、事前に利用許可を取るというプロセスを踏みました。
正直、ここは時間も手間もかかります。ですが、教育機関という公共性の高いクライアント、寺社仏閣という「場所そのものがブランド」の被写体、YouTube広告という露出規模を考えると、ここをショートカットするのはリスクしかない、という判断です。
YouTube Studioでの生成AIラベル付与は必須
もう一つ、実務で重要だったのが、YouTube Studio上での生成AIラベルの付与です。
YouTubeは2024年から、生成AIで作成された動画に対して「改変または合成コンテンツ」のラベル付与を義務化しています。
これを付けないと、動画が削除される可能性、チャンネルへのペナルティ、広告配信の停止、最悪の場合、アカウント停止というリスクがあります。
今回の案件では、動画納品前にクライアントにラベル表示の仕様を説明し、アップロード時に必ずラベルを付与し、広告配信前にラベルが正しく表示されているかをチェックする体制を組みました。
「生成AIで作った」ことを隠すのではなく、正直に開示する。
これが、2025年以降のAI動画広告の大前提だと思います。

7. 編集で「広告」に仕上げる--AIは素材、人間が構成
生成されたカットは、あくまで「素材」です。
ここから、各種編集ソフトで下記の作業を行いました。
- 各カットを3〜7秒程度に調整(短すぎると情報が入らず、長すぎると離脱される)
- プロのナレーターを起用(AI生成音声だと「AI感」が増幅してしまう)
- 字幕は2行以内、16字/行(50〜70代がターゲットの場合、文字サイズ・行数・情報量がダイレクトに視聴体験に効く)
- BGMは薄めに(ナレーションを邪魔しない)
- ロゴは最後に(冒頭の長いロゴは離脱を招く)
編集の段階で、AIが生成した「素材」が、初めて「広告」になりました。
ここが、人間の仕事でした。

8. まとめ:AI動画時代に「活きるスキル」とは
2ヶ月のプロジェクトを振り返って、生成AI時代のクリエイティブについて、いくつかの確信を持つようになりました。
生成AIの価値は「コスト削減」ではなく「仮説検証の高速化」
従来の動画制作では、一つのアイデアを形にするのに数週間はかかります。そのため、一度「これで行こう」と決めたら、それを信じるしかありませんでした。
ですが生成AIなら、数時間で3つのバージョンを作れます。それらを実際にクライアントに見せて、議論して、データで判断できます。
映像のトーン、ナレーションの言い回し、カット構成、冒頭3秒のフック----こうした要素を、小さなコストで何度も試せます。
生成AIは、そのサイクルを劇的に速くしてくれます。
「活きるスキル」が、はっきりしてきた
今回のプロジェクトを通じて、現時点でのAI動画制作に「活きるスキル」が、はっきり見えてきました。
- 絵コンテを描く力(構成設計)
- カメラ・レンズ・照明の知識(プロンプトに活かす)
- 編集のリズム感(視聴者心理の理解)
- ブランドセーフティの判断(権利・倫理)
- クライアントとのコミュニケーション
そして最も重要なのは、「何を作るべきか」を決める力です。
ターゲットは誰か、何を伝えるべきか、どんな感情を動かすべきか、どこで離脱させないか、どう行動させるか----人間だけで決めても良し、AIと相談しながら考えるのも良しです。
これからの動画制作者に必要なのは「AI使い」ではなく「設計者」
生成AI時代の動画制作者に求められるのは、「AIをうまく使える人」ではありません。
「何を作るべきかを設計できる人」です。
ターゲット理解、構成設計、感情設計、技術的制約の理解、権利とブランドセーフティの判断----これらができる人が、生成AIという強力な道具を手に入れたとき、初めて「広告として機能する動画」が作れます。
逆に言えば、これらができない人は、どれだけAIが進化しても、「なんとなくきれいな映像」しか作れないかもしれません。
これは、写真の世界と似ています。
カメラの性能がどれだけ進化しても、プロのカメラマンが撮る写真とアマチュアが撮る写真には、明確な違いがあります。それは、機材の差ではありません。生成AIも、同じだと思いました。
以上、2025年11月時点での報告でした。
この記事が10年後に発掘され、「かつて広告用動画制作には、人間の専門知識が必要だった時代があったらしい」「AI生成動画の黎明期を記録した貴重な資料」などと、未来の誰かに新鮮な気持ちで読まれるほど、動画制作の技術が進化していることを、心から期待しています。
SF作家アーサー・C・クラークは、こう書きました。
「十分に発達した科学技術は、魔法と見分けがつかない」 (クラークの第三法則)
今回、「まだ人間の専門知識が必要だ」と分かった風で語っている生成AI技術も、数年後には「魔法」のように当たり前になっているかもしれません。
ですが、その魔法がどれだけ進化したとき、人間には何が残るのでしょうか?
未来の読者の皆さん、あなたの時代では、その答えは見つかっていますか?
それとも、この記事を読んでいる「あなた」は、本当に人間ですか?
-
資料請求
ヨリミルのサービス資料をダウンロードいただけます。
ノウハウをお役立ち資料として無料配布しています。 -
無料相談
課題感が明確でなくても構いません。
まずはお気軽にご相談ください。 -
メルマガ登録






