一站式音视频生成
可灵 2.6 能从文本或图片生成音视频同步的内容,包括语音、环境音和动作时序。支持对话、演唱、环境声效等多种音频类型。
生成模式
文生音视频
输入一段文字,生成带语音、音效和背景音的完整视频。描述动作和对话,模型自动生成同步的音视频内容。
图生音视频
让静态图片动起来并配上声音。可单独上传图片,也可结合文字描述,生成语音、音效和环境声。
核心特性
音画同步
语音、环境音与动作节奏保持统一,画面切换流畅,声画协调。
高品质音频输出
语音、音效、环境声三层分离清晰,音质干净通透。
语义理解音频
根据提示词理解语境和情绪,生成匹配场景的音效,多镜头切换保持连贯。
能力演示
多人对话
支持单人或多人对话场景,每个角色声音独立,语音节奏与画面动作自然配合。
演唱表演
生成稳定的歌声,音调和节奏可控,适合音乐类和表演类视频。
音效与环境声
根据画面内容生成匹配的音效和背景音,如脚步声、风声、物品碰撞声等。
应用场景

短视频创作
一次生成动作、对话、环境声和音效,适合短剧、Vlog 和故事性内容制作。

产品展示
配合清晰讲解语音和产品音效,制作带货视频和产品介绍内容。

ASMR 内容
生成细腻的环境音、材质摩擦声和轻柔人声,适合助眠和放松类内容。