Gemini Omni 是 Google DeepMind 在 2026 年 5 月 Google I/O 大會上推出的全模態(Omni)AI 模型,定位爲"從任何輸入生成任何內容"的統一架構。這是業界首次由頂級 AI 公司將文本、圖像、音頻和視頻處理管道合併爲單一統一架構。首發版本 Gemini Omni Flash 已面向全球 Google AI Plus、Pro 及 Ultra 訂閱用戶開放。
Gemini Omni 通過融合三項核心技術實現"any-to-any"能力:
最具顛覆性的能力是通過自然語言進行多輪對話式視頻編輯。用戶上傳視頻後,可連續發出指令:"把背景改成下雨的東京霓虹小巷",接着"讓角色走快點,調暗路燈"——模型在整段對話中保持場景一致性,無需從頭開始。
支持上傳最多 5 張參考圖片來錨定角色外貌、道具和場景,確保跨鏡頭的一致性。每次編輯都在上次基礎上疊加,角色保持一致、物理規律得以維持、場景記憶此前所有的變更。
可對幀內特定元素進行精準替換,如"把桌上的咖啡杯換成玻璃花瓶",模型在替換同時維持周圍光影和陰影不變。
不僅生成視覺逼真的場景,還能推理接下來應該發生什麼。結合 Gemini 對歷史、科學和文化語境的知識,實現從照片真實到有意義的敘事之間的跨越。
每個 Omni 生成文件均嵌入雙重溯源保護:

加載中...