Gemini Omni 是 Google DeepMind 在 2026 年 5 月 Google I/O 大会上推出的全模态(Omni)AI 模型,定位为"从任何输入生成任何内容"的统一架构。这是业界首次由顶级 AI 公司将文本、图像、音频和视频处理管道合并为单一统一架构。首发版本 Gemini Omni Flash 已面向全球 Google AI Plus、Pro 及 Ultra 订阅用户开放。
Gemini Omni 通过融合三项核心技术实现"any-to-any"能力:
最具颠覆性的能力是通过自然语言进行多轮对话式视频编辑。用户上传视频后,可连续发出指令:"把背景改成下雨的东京霓虹小巷",接着"让角色走快点,调暗路灯"——模型在整段对话中保持场景一致性,无需从头开始。
支持上传最多 5 张参考图片来锚定角色外貌、道具和场景,确保跨镜头的一致性。每次编辑都在上次基础上叠加,角色保持一致、物理规律得以维持、场景记忆此前所有的变更。
可对帧内特定元素进行精准替换,如"把桌上的咖啡杯换成玻璃花瓶",模型在替换同时维持周围光影和阴影不变。
不仅生成视觉逼真的场景,还能推理接下来应该发生什么。结合 Gemini 对历史、科学和文化语境的知识,实现从照片真实到有意义的叙事之间的跨越。
每个 Omni 生成文件均嵌入双重溯源保护:

加载中...