動画AIエージェントの現在地

NOBUラジオ

動画AIエージェントの現在地

0:00

-9:05

動画AIエージェントの現在地

未来はあるが、今は中途半端

NOBU

5月 22, 2026

TL;DR

動画AIエージェント（Higgsfield、Zopia、Renoise、TopViewなど）には確かに未来がある。ユーザーが具体的な作り方を知らなくても、テンプレ通りに動画を仕上げてくれる仕組みは本来とても価値がある。
ただし現状はどれも中途半端。汎用性を優先した結果、モデルの性能を引き出すプロンプト設計が甘く、ゴール解析や中間プロセス（シーン設計、イメージボード、プロップ資料など）の設計も不足している。
「帯に短したすきに長し」の状態。完全テンプレ特化型か、もしくはノーコードツール的な本格派のどちらかに振り切らないと厳しい。
本格的に映像を作る人であれば、Claude CodeやCodexとfal.aiのAPIを組み合わせて、自分でエージェントを構築するほうが長期的に価値が高い。

動画AIエージェントとは何か

まず前提の整理から。

Seedance、Veo、Klingなどはあくまで「AIモデル」です。これに対してAIエージェントは、それらのモデルをラッピングして、特定の目的のために様々なプロセスを経て自動的・自律的に動かし、最終出力を得るAIのことを指します。

つまり「動画AIエージェント」と言ったら、たとえば「30分のショート動画が欲しい」とユーザーが頼むと、

複数回、動画生成AIモデルに動画を生成させる
それを自動でつなげる
目的に合った動画として仕上げる
結果をユーザーに返してくる

──というイメージです。

最近だとOiiOiiiやZopia、Renoise、TopViewなど、本当に色んな会社がAIエージェントを作っていますね。

ここには未来がある

正直、ここには確かに未来があると思っています。

ユーザーからすれば、具体的な映像の作り方を知らなくても、「こういうものが欲しいんだよね」「こういうテンプレートのものが欲しいんだよね」と渡せば、素材が適当でゴールが曖昧でも、テンプレート通りにいい感じに仕上げてくれる。これをやってくれるのが本来的なAIエージェントなので、本当に達成されるならとても価値がある。

ただし、現状はどれも中途半端

ただ、いろんなツールを使っていますが、現状どれも中途半端です。理由はいくつかあります。

理由①：モデルの性能を引き出すプロンプトが甘い

まず、汎用性を高めようとした結果、プロンプトや途中のプロセスが最適化されていない。これは2つに分かれます。

ひとつめは、Seedance、Klingなど各モデルの性能を引き出すためのプロンプトが十分に練られていないこと。一般的に知られているワンパターンな方法を、LLMを介して出力しているように見えるんですよね。

エージェントによっては途中出力のプロンプトを確認できるんですけど、それを読むと「秒数指定があって、ショットはどう取って」というような、いわゆる構造化プロンプトが基本になっている。

でも例えばSeedance 2であれば、もっと他に制御しやすい方法があります。最近よく挙がるのはイメージボードを使って構成を整える方法。あと自分が最近やっているのは手順書みたいなものを使うやり方。

KlingにせよSeedanceにせよ、一連の流れを「説明上のドキュメント」として書いてしまって渡しても、ちゃんと解釈してくれるんですよ。そして中間の映像的な繋がりは、もう完全にSeedance 2にお任せしてしまう。そうしたほうが矛盾が生じづらい。

ところが今のAIエージェントが出力しているプロンプトは、構造化プロンプトで精緻に書きすぎているせいで、カット感やショット同士の繋がりが怪しくなったり、矛盾が出たりする。それが累積されて、動画全体では品質が微妙なものができあがってしまう。

理由②：ゴール解析と分類の精度が低い

もうひとつは、「ユーザーがこういうの欲しいんだよ」と伝えたときの解釈と、「じゃあどの演出方法を採用しますか」という分類の話。

どの方法を選ぶかで品質が変わってくるんですけど、ここの調査・理解が足りていないのか、質が出てない。

そしてさらに上流のゴール解析プロセスも不足しています。「本当にそれでいいのか」というところも含めて、どういうステップを踏めばゴールに適切な動画になるのかが不十分に見える。

理由③：中間プロセスがすっ飛ばされている

Seedance 2の場合、複数の参照画像、動画、音、これらを使って品質を制御できます。

なのに今のエージェントは、企画を解析したらキャラクターを作って、構造化プロンプトを作って、すぐSeedanceに投げてしまう。

本来この間に、

シーン設計
ショットがブレないように複数アングルの画像を作る
イメージボードを作る
イメージボードの質を保つために、プロップなど細かい部分の詳細資料を作る

といった多段階のステップが必要なのに、ここが無視されている。

じゃあテンプレ通りなら作れるのか？

「そんなに不足しているなら、テンプレ通りのものならうまく作れるのか」というと、それもイマイチなんですよね。

帯に短し、たすきに長し。

結論から言うと、今の動画AIエージェントは帯に短したすきに長し。中途半端なんです。

だから、振り切るならどちらかしかないと思っています。

① 完全テンプレ特化型 例えばニュース映像用、あとはYouTubeショートでよく見るゆっくり音声系のテンプレ（今は収益化が全然されないらしいですけど）みたいに、わかりきったものに情報を渡したら自動で作れます、というレベルまで割り切る。

② 本格派のノーコードツール型 中間プロセスまで制御可能な、よりプログラミングツールに近いノーコード環境にする。

この両極端にせざるを得ないんじゃないか。なのに今のサービスは全部、中途半端な中間にいる。だから出力結果もイマイチになる。

じゃあどうするか：本格派は自作したほうがいい

こういう状況だと「動画AIエージェントの使い方を覚えたほうがいいのか」というと、自分はあまりそう思わないです。

それよりも、本格的に映像を作る人なら、自分でAIエージェントを構築したほうがいいと思っています。

ベースはCodexでもClaude Codeでも何でもいい。そこに、自分で発見したSeedance 2のスキルなんかを組み合わせて、プロセスを自分で設計して出力させる。

API側はだいたいfal.aiに揃ってます。Seedance 2もあるし、GPT Image、Nano Bananaも揃っているから、実は既存サービスと同じものが自作できるんですよ。

それらを自分で構築したほうが、

長期的に人材としての価値が高まる
より自分に合った映像制作の自動化になる

と踏んでいます。

まとめ

動画AIエージェントには未来がある（最終的にはそっち方向に行く）
でも今いろんな会社が出しているものは、だいたい中途半端
理解力や自分の経験という点では、自作したほうがいい

NOBUのニュースレター

動画AIエージェントの現在地

TL;DR

動画AIエージェントとは何か

ここには未来がある

ただし、現状はどれも中途半端

理由①：モデルの性能を引き出すプロンプトが甘い

理由②：ゴール解析と分類の精度が低い

理由③：中間プロセスがすっ飛ばされている

じゃあテンプレ通りなら作れるのか？

帯に短し、たすきに長し。

じゃあどうするか：本格派は自作したほうがいい

まとめ

このエピソードについてのディスカッション

もっと続けますか？