Google DeepMind Gemini API 视频生成技术分析报告
一、核心功能模块
1. 视频生成服务
- 文本转视频(Text-to-Video)
- 图像转视频(Image-to-Video)
- 支持两种宽高比配置:
- 16:9(横屏)
- 9:16(竖屏)
2. SDK版本支持
语言 | 最低版本要求 |
---|---|
Python | v1.10.0 |
JavaScript | v0.8.0 |
TypeScript | v0.8.0 |
Go | v1.0.0 |
二、技术实现细节
1. 文本转视频流程
# 典型代码示例
operation = client.models.generatevideos(
model="veo-2.0-generate-001",
prompt="场景描述文本",
config=types.GenerateVideosConfig(
persongeneration="dontallow", # 人员生成控制
aspectratio="16:9" # 画面比例
)
)
2. 图像转视频流程
- 需先通过Imagen生成图像
- 单次支持生成2个视频输出
- 强制设置
persongeneration="dontallow"
三、关键参数分析
参数 | 可选值 | 约束条件 |
---|---|---|
persongeneration | dontallow/allowadult | 图像转视频仅限dontallow |
aspectratio | 16:9/9:16 | 影响生成视频分辨率 |
numberofvideos | 默认2个 | 图像转视频固定输出量 |
四、性能数据
- 平均处理时间:2-3分钟/视频
- 支持并发操作(示例显示同时处理2个请求)
- 轮询间隔建议:20秒
五、Prompt工程规范
-
结构化要素:
- 主体(Subject)
- 背景(Background)
- 动作(Action)
- 风格(Style)
- 镜头(Camera)
- 构图(Composition)
- 氛围(Ambiance)
-
负面提示:
- 支持negativePrompt参数
- 需用三重引号包裹内容
六、技术限制
- 图像转视频功能:
- 必须提供前置生成的图像
- 不支持人物生成选项
- 输出限制:
- 单次最多2个视频结果
- 需手动保存生成文件
七、建议应用场景
- 电商商品动态展示
- 社交媒体短视频生成
- 教育内容可视化
- 营销素材自动化生产