Google在I/O 2026發表全新AI模型Gemini Omni,可以把任何素材都能變成影片,不管是文字、圖片、影片、音訊,交給AI就能整合成一支新影片。對一般使用者來說,以後想做影片不用門檻、不用剪輯軟體,只要像聊天一樣下指令,就能讓影片換場景、加特效、改角度,甚至把原本拍不到的畫面變出來。一文看懂Gemini Omni是什麼。

我是廣告 請繼續往下閱讀
Gemini Omni是什麼?從任何素材生成影片

Gemini Omni是Google新一代多模態AI模型,官方形容「可以從任何輸入創造任何內容」的模型,第一階段先從影片生成開始。簡單來說,以前生成式AI多半是輸入文字產生圖片,或輸入文字產生影片;Gemini Omni則更進一步,可以把文字、圖片、影片、音訊一起當作參考素材,再生成一支完整影片。

舉例來說,使用者可以提供一張人物照、一段走路影片、一首背景音樂,再請AI生成一段「角色照著指定動作走路、畫面風格跟著音樂節奏切換」的影片。原本需要拍攝、剪輯、特效後製的流程,未來可能直接在AI對話框中完成。

▲用簡單的文字、手繪稿就能製作出非常具有質感的影片。(圖/翻攝官網)
▲用簡單的文字、手繪稿就能製作出非常具有質感的影片。(圖/翻攝官網)
Gemini Omni像聊天一樣剪影片

Gemini Omni最貼近一般用戶的功能,就是對話式影片編輯,使用者不用打開複雜的剪輯時間軸,也不用一格一格調整畫面,只要用自然語言告訴AI想改什麼,例如「把房間燈光調暗」、「把人物移到另一個場景」、「把鏡頭改成從肩膀後方拍攝」,AI就會依照前一次影片內容繼續修改。

Google表示,Gemini Omni的每次指令都會接續前一次修改,角色會盡量維持一致,物理效果與場景記憶也會延續,就像是和剪輯師溝通一樣,一步一步把影片修到想要的樣子。

懂物理、情境和知識

Google強調,Gemini Omni除了生成出看起來很像影片的畫面,還結合Gemini的推理能力與世界知識,能理解重力、動能、流體等物理效果,也能處理歷史、科學、文化脈絡,讓影片內容更有邏輯。對於製作知識型內容的創作者來說,像是科普影片、產品解說、教學短片,過去可能需要設計動畫、找素材、剪輯後製,未來只要輸入簡單的文字,AI就能生成具視覺化效果的說明影片。

▲使用者可以提供一張人物照、一段走路影片、一首背景音樂,再請AI生成一段「角色照著指定動作走路、畫面風格跟著音樂節奏切換」的影片。(圖/翻攝官網)
▲使用者可以提供一張人物照、一段走路影片、一首背景音樂,再請AI生成一段「角色照著指定動作走路、畫面風格跟著音樂節奏切換」的影片。(圖/翻攝官網)
Gemini Omni誰可以用?

Google第一波推出的是Gemini Omni Flash。官方指出,Gemini Omni Flash已向全球Google AI Plus、Pro、Ultra訂閱用戶開放,可透過Gemini App與Google Flow使用;同時也會從本週起,免費提供給YouTube Shorts與YouTube Create App用戶。

AI影片怎麼辨識?Google加入SynthID浮水印

隨著AI影片越來越真實,真假辨識也成為外界關注焦點。Google表示,所有Gemini Omni生成影片都會加入SynthID不可見數位浮水印,使用者可透過Gemini App、Chrome中的Gemini以及Google搜尋驗證影片是否由Gemini Omni生成。


周淑萍編輯記者

現為《NOWnews今日新聞》資深記者,主跑科技、醫療。

記者經歷從《蘋果日報》為起點,同時伴隨著iPhone發展史,從蘋果 iPhone 3 開始持續到現在,每一代、每一年推出的iPhone 都沒錯過。信仰加值的每一年,除...