生数科技在WAIC 2025发布"参考视频"功能,革新视频制作流程
核心功能:告别分镜,一键生成视频
- 功能亮点:跳过复杂的前期分镜流程
- 操作流程:
- 用户上传人物/道具/场景参考图 + 文字提示
- 直接生成完整视频内容
- 流程简化:
- 传统流程:分镜→视频生成→剪辑→成品
- 新流程:参考图→视频生成→剪辑→成品
示例:输入提示词"诸葛亮与丘吉尔、拿破仑在会议室讨论",上传三位历史人物和会议室场景参考图,系统可生成完整对话视频。
商业化核心突破
- 解决关键瓶颈:主体一致性问题
- 技术参数:
- 支持同时输入最多7个主体
- 满足大多数创意场景需求
- 应用场景:广告/动画/影视/文旅/教育等领域
- 产业转型:从线下拍摄转向线上AI创作
技术路径与产业定位
- 技术架构:U-ViT架构(扩散模型+Transformer)
- 模型特点:
- 内置多模态理解能力
- 已成功应用于视频生成
- 产业优先:更关注内容质量而非技术路线
具身智能领域拓展
- 联合发布:7月25日与清华大学共同推出Vidar模型
- 技术突破:
- "视频大模型+具身智能"路径
- 实现低成本、少样本泛化
- 底层逻辑:
- 视频模型与具身智能均处理时空信息
- 共享输入决策逻辑
- 应用前景:
- 将虚拟视频转化为机械臂动作
- 解决传统VLA方法数据稀缺问题
当前重点:优先提升视频生成能力,具身智能作为持续探索方向。