「お気に入りの写真やイラストを、そのまま動かせたら」——VeoのImage-to-Video(i2v)を使えば、手元の1枚から数秒のAI動画を作れます。でも、どの入口で・どのモデルで・どんなプロンプトを書けばいいのか、最初は迷いがちです。
この記事では、最短で1本作る手順を先に示したうえで、滑らかに動かすプロンプトの型、1枚i2vと参照画像の違い、料金の見方まで整理します。
所要時間の目安は10分。必要なのはGemini・Flow・APIのいずれかと、動かしたい画像1枚です。読み終えるころには、最初の1本を自分で作り、うまくいかない時の直し方まで判断できるようになります。
内容をまとめると…
最短で1本作る手順と、始める前の準備が分かる
滑らかに動かすプロンプトの型と、すぐ使える例文が分かる
1枚i2vと最大3枚参照の違い、Gemini・Flow・APIの選び方が分かる
料金感と、失敗しにくい試し方が分かる
プロンプト・導入・制作フローをまとめて学びたい方向けに、AI制作に役立つ無料資料を用意しています。
画像生成だけでなく、AIに作業を任せるためのエージェント活用資料もあわせて受け取れます。
画像から動画を作る手順(アップロード→プロンプト→生成)
最初の1本を作るだけなら、まずはGeminiアプリかFlowで十分です。所要時間の目安は10分、必要なのは動かしたい画像1枚と、短い動きの指示文だけです。

操作の流れはどの入口でもほぼ同じです。次の5ステップで進めると、最初の1本を迷わず作れます。
- 入口を選ぶ:コード不要ならGeminiアプリかFlow、自分のアプリに組み込みたいならGemini APIを開き、i2v(画像から動画)を選びます。
- 画像をアップロード:動かしたい写真やイラストを最初のコマ(Start)としてアップロードします。動画の1コマ目に一番近い絵を選ぶのがコツです。
- プロンプトを書く:「何が・どう動くか」を短く具体的に書きます。最初は1つの動きだけに絞ると失敗しにくくなります。
- 設定を選ぶ:縦横比(16:9か9:16)、長さ、本数を決めます。初回は4秒・1本で試すと、どこが崩れたかを見分けやすくなります。
- 生成して選ぶ:出てきた候補から良いものを選び、必要なら最後のコマ(End)を足したり、プロンプトを微調整して作り直します。
最初の検証では、顔や形が崩れるか、背景まで動くか、動きが強すぎるかの3点だけを見ます。ここを切り分けると、2本目からの修正が速くなります。
- 顔や形が崩れる:動きを1つに減らし、
slowlyやgentlyを足す - 背景まで動く:
背景は固定、背景は動かさないと明記する - 思ったより激しい:カメラ指示を1つに絞り、ズームかパンのどちらかだけにする
静止画を滑らかに動かすプロンプトのコツと例
静止画を滑らかに動かす近道は、動きの要素を分けて書くことです。次の4つを意識すると破綻しにくくなります。
- 被写体の動き:誰/何が、どう動くか(例:女性が振り返る、湯気が立ちのぼる)
- カメラの動き:寄る・引く・パンするなど(例:ゆっくりズームイン)
- 速度・強さ:slowly / gently など、控えめな表現が安定します
- 雰囲気・音:光や風、環境音を添えると自然さが増します
迷ったら、被写体 → 動き → カメラ → 固定したい要素 → 光や音の順で1行ずつ足すと書きやすくなります。
[被写体]が[速度]で[動く内容]。
カメラは[寄る / 引く / パンする]。
背景は固定。
光は[朝日 / 夕景 / ネオン]。
必要なら[環境音]を入れる。例:「湯気の立つコーヒーカップ。湯気がゆっくり立ち上る。カメラが少し寄る。背景は固定。朝のやわらかい光。小さな店内音。」
良い例:「静かな海辺。波がゆっくり打ち寄せ、カメラがわずかに前進。やわらかい夕日と波の音。」
悪い例:「全部を激しく動かして、人物も背景もダイナミックに変化」——要素を詰め込みすぎると、顔や形が崩れやすくなります。
動かしたくない部分は「背景は固定」と明記し、まず1つの動きで試してから足していくと、滑らかな仕上がりに近づきます。
VeoのImage-to-Video(画像から動画)とは?1枚i2vと参照画像3枚の違い
VeoのImage-to-Video(i2v)は、テキストだけでなく手元の写真やイラストを起点に動画を作る機能です。同じ「画像を使う」でも、Veoには性格の異なる2つの入れ方があります。
- 1枚の画像から動かすi2v:その画像を動画の最初のコマ(初期フレーム)として、自然な動きと音を足していく。被写体やレイアウトはほぼそのまま動き出します。
- 最大3枚の参照画像(Ingredients to Video):登場人物やモノ、雰囲気などの見た目を「お手本」として渡し、別の場面でも同じ見た目を保ったまま生成する。
つまり、「この絵をそのまま動かしたい」なら1枚i2v、「この登場人物やモノを別の場面でも使い回したい」なら参照画像、と覚えると迷いません。参照画像(Ingredients to Video)は現行のVeo 3.1で使える機能で、初期フレーム指定とは目的が異なります。この記事では主に1枚i2vの手順を中心に、応用として参照画像も扱います。
Veo Image-to-Videoで使えるモデルと入口(Gemini・Flow・API)
i2vを使う入口は主に3つです。手軽に試すならGeminiアプリ、編集しながら作り込むならFlow、自分のアプリに組み込むならGemini APIが向きます。どの入口でも、画像を渡してプロンプトを添えるという流れは共通です。
モデルは速度と画質・料金のバランスで選びます。きれいさ重視なら標準のVeo 3.1、量をこなしたいなら安価なFastやLite、という住み分けです。対応する解像度・長さ・縦横比・料金はモデルで変わるので、下の表で見比べてください(金額は1秒あたり・音声込みの公式料金)。
| モデル | 解像度 | 長さ | 縦横比 | 料金(1秒・音声込み) |
|---|---|---|---|---|
| Veo 3.1 | 720p / 1080p / 4K | 4・6・8秒 | 16:9 / 9:16 | $0.40(720p/1080p)・$0.60(4K) |
| Veo 3.1 Fast | 720p / 1080p / 4K | 4・6・8秒 | 16:9 / 9:16 | $0.10(720p)・$0.12(1080p)・$0.30(4K) |
| Veo 3.1 Lite | 720p / 1080p | 4・6・8秒 | 16:9 / 9:16 | $0.05(720p)・$0.08(1080p) |
| Veo 2 | 720p | — | 16:9 / 9:16 | $0.35 |
1080pや4K、参照画像を使う生成は8秒が前提になります。4Kは標準とFastのみで、Liteは1080pまでです。最新の対応状況と料金は必ず公式の料金ページで確認してください。
最初・最後フレームと参照画像(Ingredients to Video)の応用
1枚i2vに慣れたら、Veo 3.1の応用機能で表現の幅を広げられます。
- 最初・最後フレーム指定:始まり(Start)と終わり(End)の2枚を渡すと、その間を自然につないだ動画を作れます。音声も含めて、AからBへ移り変わる演出に向きます。「変身」「ビフォーアフター」のような見せ方が作りやすくなります。
- 参照画像(Ingredients to Video):登場人物やモノ、雰囲気などを最大3枚渡して見た目を固定し、別の場面でも同じ主役を保ったまま動画にできます。シリーズ物や広告で「同じ主役を使い回したい」ときに効きます。
1枚i2vが「この絵を動かす」用途なのに対し、参照画像は「この見た目を別の場面で再現する」用途です。どちらもVeo 3.1で使え、目的に合わせて選ぶと、入門の先の作り込みがぐっと楽になります。
Veo Image-to-Videoの料金の目安
Veoの動画生成は1秒あたりの従量課金で、料金はモデルと解像度で変わります(具体額は前の比較表を参照)。費用感は次の3点で押さえると分かりやすいです。
- 長さ×解像度で効く:同じモデルでも8秒は4秒の倍、4Kは標準解像度より割高になります。試作は短め・低解像度から始めると安心です。
- モデルで大きく差が出る:Fastは標準のおよそ4分の1、Liteはさらに安く、量をこなす検証に向きます。仕上げだけ標準のVeo 3.1に上げる、という使い分けが現実的です。
- まず1本の単価を計算:「1秒料金×秒数」でおおよその1本コストが出ます。本数(1〜4本)を増やすとそのぶん掛かる点にも注意します。
料金は改定されることがあるため、本番運用の前に必ず公式の料金ページで最新の単価を確認してください。
Veo Image-to-Videoのよくある質問
- QVeoの画像から動画は無料で使えますか?
- A
Geminiアプリのプランや提供状況によって使える範囲が変わります。APIのVeo 3.1は有料プレビューとして提供され、生成は1秒あたりの従量課金です。まずは手元のプランで使える範囲を確認し、本格利用ならAPIの料金を見積もるのがおすすめです。
- Q作った動画は商用利用できますか?
- A
商用利用の可否は利用するプラットフォームの利用規約に従います。仕事で使う場合は、生成前に各サービスの最新の規約・ライセンス条件を必ず確認してください。
- Q1回でどのくらいの長さの動画が作れますか?
- A
Veoの動画はおおむね4・6・8秒の単位で生成します。1080pや4K、参照画像を使う生成は8秒が前提です。長い動画にしたいときは、複数のクリップをつなぐ前提で作ると扱いやすくなります。
- Q縦動画(9:16)やTikTok向けの動画も作れますか?
- A
はい。縦横比は16:9(横)と9:16(縦)から選べるため、ショート動画やリール向けの縦動画も作れます。生成時に9:16を指定してください。
- Q生成した動画に音声は付きますか?
- A
Veo 3.1はネイティブで音声を生成でき、会話や効果音などが映像に合わせて付きます。表に載せた料金も音声込みの単価です。
まとめ:Veoで画像から動画を作るときのポイント
VeoのImage-to-Videoは、手元の1枚から手軽に動画を作れるのが魅力です。最後に要点を振り返ります。
- 手順:最初の1本はGeminiアプリかFlowで十分。4秒・1本・動き1つから試す
- 使い分け:その絵をそのまま動かすなら1枚i2v、同じ見た目を別シーンで使うなら最大3枚の参照画像(Ingredients to Video)
- プロンプト:被写体・カメラ・速度・雰囲気を分け、背景を固定したい時は明記する
- 料金:1秒あたりの従量課金。短め・低解像度から始め、本番前に公式の料金を確認する
まずは気に入った写真を1枚アップロードし、短い動きのプロンプトで試してみましょう。1本作ってみると、自分の用途にどのモデルと入口が合うかが一気に見えてきます。
画像生成AIを使いこなすには、ツールの使い方だけでなく、プロンプト改善・環境導入・モデル選定・作業フローの理解が重要です。制作に役立つAI資料をまとめて受け取れます。
クリエイター向け資料を受け取る


