OpenAI將Sora技術報告取名為「Video generation models as world simulators」,展現OpenAI打造「世界模擬器」的企圖。Sora是AI發展進程的里程碑,將加速超越人類的「通用人工智慧」(AGI)到來,Sora不僅推動上游AI伺服器、光通訊和晶片產業發展,影視、廣告行銷、IP等內容產業,未來都有可能受益於生成式影片發展。
OPEN AI正在教導AI理解和模擬物理世界的運行方式,Sora建立在過去OpenAI對DALL-E和GPT模型的基礎之上,OpenAI在2023年9月發布了DALL-E 3,它是DALL-E文字到圖像模型系列的第三代產品。Sora利用改良版的DALL-E3技術,並超越了ChatGPT基於文字模型的功能。根據OpenAI公佈的Sora大模型技術報告,Sora的核心技術為Diffusion Transformer架構,透過影片壓縮網路、時空補丁提取和影片生成三個主要步驟,可製作出長達60秒、解析度1080p的影片,還能根據文字提示編輯和擴展內容,代表著人工智慧創建內容領域的重大突破。
事實上,文字生成影片並非新鮮事。在Sora發布前,已有數十種影片生成產品開始投入使用,全球數百萬用戶根據文字或圖像提示創建短片。根據美國投資機構a16z統計,截至2023年底,已有21個經由大型科技企業和新創公司發布的AI視訊模型,其中包括較知名的Runway、Pika、Genmo以及Stable Video Diffusion等[1](詳見圖一)。
謝昀澤認為,過去大家都擔心會有超越專家能力的「超級人工智慧」(Super AI)出現,但是現在「超級深偽」(Super Deepfake)欺詐技術,已隨著越來越多的網路AI影音服務就在眼前,如果沒有適當的風險控制,恐將形成「深偽即服務」(Deepfake as a Service,簡稱DaaS)的暗黑產業鏈,這項技術可能被用來製造更加精細和難以辨識的假新聞,對公眾意識形態、選舉、乃至國家安全均構成前所未有的挑戰,連過去傳統的資安防護與認證基礎工程,如遠距身分識別等機制,都可能被撼動。儘管Sora的能力令各界感到驚艷,但AI生成影片所衍生的社會影響和道德問題仍成為隱憂,尤其美國將在2024年進行總統大選,AI生成影片可能傳遞錯誤和詐欺宣傳,在選舉期間更成為不可忽視的巨大風險,潛在資安風暴正在生成中。