AI-NEWS · 2025年 4月 11日

谷歌开放Veo 2 API

Google DeepMind Gemini API 视频生成技术分析报告

一、核心功能模块

1. 视频生成服务

  • 文本转视频(Text-to-Video)
  • 图像转视频(Image-to-Video)
  • 支持两种宽高比配置:
    • 16:9(横屏)
    • 9:16(竖屏)

2. SDK版本支持

语言 最低版本要求
Python v1.10.0
JavaScript v0.8.0
TypeScript v0.8.0
Go v1.0.0

二、技术实现细节

1. 文本转视频流程

# 典型代码示例
operation = client.models.generatevideos(
    model="veo-2.0-generate-001",
    prompt="场景描述文本",
    config=types.GenerateVideosConfig(
        persongeneration="dontallow",  # 人员生成控制
        aspectratio="16:9"             # 画面比例
    )
)

2. 图像转视频流程

  • 需先通过Imagen生成图像
  • 单次支持生成2个视频输出
  • 强制设置persongeneration="dontallow"

三、关键参数分析

参数 可选值 约束条件
persongeneration dontallow/allowadult 图像转视频仅限dontallow
aspectratio 16:9/9:16 影响生成视频分辨率
numberofvideos 默认2个 图像转视频固定输出量

四、性能数据

  • 平均处理时间:2-3分钟/视频
  • 支持并发操作(示例显示同时处理2个请求)
  • 轮询间隔建议:20秒

五、Prompt工程规范

  1. 结构化要素

    • 主体(Subject)
    • 背景(Background)
    • 动作(Action)
    • 风格(Style)
    • 镜头(Camera)
    • 构图(Composition)
    • 氛围(Ambiance)
  2. 负面提示

    • 支持negativePrompt参数
    • 需用三重引号包裹内容

六、技术限制

  1. 图像转视频功能:
    • 必须提供前置生成的图像
    • 不支持人物生成选项
  2. 输出限制:
    • 单次最多2个视频结果
    • 需手动保存生成文件

七、建议应用场景

  1. 电商商品动态展示
  2. 社交媒体短视频生成
  3. 教育内容可视化
  4. 营销素材自动化生产

火龙果频道