Core Features

超越视觉，
重构多模态创造力

Gemini Omni 已在 Gemini App 上线，它不只是文本生成视频工具，也可以接收图片、音频与视频素材，并通过对话继续修改结果。

六大核心能力

为专业视觉工作流注入前所未有的效率与灵感

🎥

全模态视频生成

支持文本、图片、音频与视频输入生成视频，官方将 Gemini Omni 概括为 any input to video。

🎧

多模态原生音频

可在生成画面的同时结合环境音效、人物对白与背景音乐，减少额外拼接步骤。

📝

多图参考生成

支持使用多张图片作为人物、商品或场景参考，更适合保持主体与风格一致。

🪄

对话式视频编辑

如同与后期助理交流，通过自然语言指令继续修改上一次生成结果。

🎬

视频到视频转换

可基于已有视频生成新风格短片，适合动画化、风格化和二次创作。

⚡

头像与角色视频

可结合图片、音频和角色素材生成头像视频，适合口播、说明和短内容场景。

Gemini Omni

Perfect Text Rendering

Multi-image Reference

用参考图保持主体一致

Gemini Omni 支持用多张参考图生成视频，更适合围绕同一个人物、商品、宠物或品牌素材做短片创作，降低主体漂移和风格不一致的问题。

用多张图片固定人物、商品或场景参考
更适合产品展示和品牌素材短片
可与文本提示词、音频和视频素材组合使用

Conversational Editing

像聊天一样剪辑视频

相比一次性生成视频，Gemini Omni 更强调多轮对话式编辑。用户可以围绕同一条结果继续要求改风格、换场景、替换元素或基于参考图重新生成。

"参考这几张产品图，把视频改成夜晚城市广告风格，并保留主体外观。"

已完成示例修改。画面风格已切换为夜晚城市广告，并尽量保持主体与参考图一致。

功能延伸阅读路径

如果您已经确认自己最关心的是视频生成、音频同步、文字一致性或对话式编辑，下一步应继续进入更贴近决策的页面，缩短理解与试错路径。

会员信息

查看不同等级开放哪些能力。

下载入口

进入 Web、iOS 与 Android 官方入口。

教程中心

按主题继续拆解实际使用方法。

竞品对比

对比 Sora、Runway 与 Kling 的差异。

功能常见问题

Gemini Omni 最值得优先关注的核心能力是什么？

如果您是初次了解，建议优先关注全模态输入到视频、原生音频和对话式视频编辑。这三项能力最能体现 Gemini Omni 与传统视频生成工具的差异。

看功能特性页时最值得先关注什么？

如果您是第一次了解 Gemini Omni，建议先关注多图参考、音频、多模态理解和对话式编辑这几项差异化能力，再结合自己的使用场景判断是否值得继续深入。

看完功能页后应该继续看什么？

如果您关心使用门槛，继续看会员信息与下载入口；如果您关心具体落地，继续看教程中心、应用场景和竞品对比页。

超越视觉，重构多模态创造力