视频生成
用内置的 generate_video 工具把文本或参考媒体变成视频。
需要一段片段又不想离开聊天?吩咐智能体,它就会为你渲染一段。内置的视频生成工具接收一段提示词和可选的参考媒体(图片 / 视频 / 音频),在后台渲染视频,并把它直接放到智能体或空间 Drive(云盘)中的某个路径上——渲染期间你可以继续工作。

工作方式速览
- **异步。**调用会立即返回;视频渲染时你可以继续聊天。
- **写入 Drive。**成功后视频会落到你选定的路径上,消息气泡会显示一张预览卡片。
- **可取消。**排队中或运行中的任务可以从聊天界面停止。
启用该工具
打开 Agent Settings → Tools → Video 并把该分组打开。如果你的账户里看不到这个分组,说明视频生成在你当前的环境中不可用——请联系你的管理员。
输入参数
| 参数 | 必填 | 说明 |
|---|---|---|
prompt | 是 | 对视频的自然语言描述 |
file_path | 是 | 输出路径。相对路径落到智能体 Drive;/space/... 写入空间 Drive |
attachments | 否 | 参考媒体数组——每一项是一个 URL、资产 ID、Drive 路径字符串,或一个显式对象 { path? / url?, type?, role?, name?, mimeType? } |
model | 否 | 覆盖默认模型 |
durationSeconds | 否 | 4–15 秒 |
aspectRatio | 否 | adaptive / 21:9 / 16:9 / 4:3 / 1:1 / 3:4 / 9:16 |
resolution | 否 | 480p / 720p / 1080p(并非每个模型都支持 1080p) |
generateAudio | 否 | 默认开启 |
watermark | 否 | 默认关闭 |
returnLastFrame | 否 | 索取最后一帧,以便衔接下一段片段 |
webSearch | 否 | 为纯文本生视频的提示词允许参考性的网络搜索 |
attachments 中的 role 取值
| role | 媒体类型 | 典型用途 |
|---|---|---|
reference_image | 图片 | 通用参考(风格、主体) |
first_frame | 图片 | 视频的首帧 |
last_frame | 图片 | 末帧——与 first_frame 搭配用于首末帧模式 |
reference_video | 视频 | 用于编辑 / 延展流程的参考片段 |
reference_audio | 音频 | 用于配音或背景的参考音频 |
如果你省略 role,系统会根据媒体类型选取一个合理的默认值。
输出路径
- 相对路径(如
videos/demo.mp4)——写入智能体 Drive - 以
/space/开头的绝对路径——写入空间 Drive - 缺失的扩展名会被规范化为
.mp4 - 聊天气泡的视频卡片会直接从该路径渲染预览
能力矩阵
能力因模型档位而异——根据你的需要挑选一个:
| 档位 | 文生视频 | 首帧 | 首+末帧 | 多模态参考(图/视频/音频) | 编辑 | 延展 | 最高分辨率 | 时长 |
|---|---|---|---|---|---|---|---|---|
| Flagship | ✓ | ✓ | ✓ | 完整 | ✓ | ✓ | 1080p | 4–15s |
| Flagship fast | ✓ | ✓ | ✓ | 完整 | ✓ | ✓ | 720p | 4–15s |
| Pro | ✓ | ✓ | ✓ | 仅图片 | ✗ | ✗ | 1080p | 4–12s |
| Lite i2v | ✗ | ✓ | ✗ | 仅图片 | ✗ | ✗ | 720p | 2–12s |
| Lite t2v | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | 720p | 2–12s |
当 generateAudio: true 时,Flagship 档位可以输出音频。
媒体规格
图片——jpeg / png / webp / bmp / tiff / gif / heic / heif。每张 ≤ 30 MB,宽高比 0.4–2.5,边长 300–6000 px。数量:首帧 1 张,首+末帧 2 张,多模态参考 1–9 张,lite 参考 1–4 张。
视频——mp4 / mov,H.264 或 H.265 + AAC / MP3。每段 2–15 秒,最多 3 段,总计 ≤ 15 秒。480p / 720p / 1080p,24–60 fps。
音频——wav / mp3,每段 2–15 秒,最多 3 段,总计 ≤ 15 秒,每段 ≤ 15 MB。
提示词技巧
公式:主体 + 动作,场景 + 动作,镜头 + 动作。
- 具体一点。不要堆砌抽象的形容词。
- 把重要的部分(主体、动作、镜头)放在前面。
- 先迭代提示词,再加参考媒体;把模糊的措辞换成具体的描述。
- 文生视频方差很大——用它来试探创意;当你需要稳定的画面时,改用图生视频。
- 使用图生视频时,上传一张高质量的首帧;首帧质量对结果影响很大。
宽高比与裁剪
如果 aspectRatio 与输入图片不同,后端会沿较短的一边进行居中裁剪,使裁剪区域完全落在原图之内。把 aspectRatio 设得接近输入图片的比例,或使用 adaptive 让后端自动匹配。
取消任务
排队中或运行中的任务可以直接从消息气泡停止。状态会立即翻转为「cancelled」,后台不再继续任何工作。
限制
- 中间状态和临时视频 URL 会保留 24 小时然后被清理;已经写入 Drive 的视频不受影响。
- 含有真实人脸的参考媒体会被拒绝。
- 按账户的 RPM 与并发限制适用;如果你触发了速率限制,错误会显示在消息气泡里。
- 生成时间取决于时长、分辨率和模型——通常为 30 秒到几分钟。关闭会话会暂停状态更新;重新打开会话会恢复更新。