OpenAI将Sora技术报告取名为「Video generation models as world simulators」,展现OpenAI打造「世界仿真器」的企图。Sora是AI发展进程的里程碑,将加速超越人类的「通用人工智能」(AGI)到来,Sora不仅推动上游AI服务器、光通讯和芯片产业发展,影视、广告营销、IP等内容产业,未来都有可能受益于生成式视频发展。
OPEN AI正在教导AI理解和模拟物理世界的运行方式,Sora建立在过去OpenAI对DALL-E和GPT模型的基础之上,OpenAI在2023年9月发布了DALL-E 3,它是DALL-E文字到图像模型系列的第三代产品。Sora利用改良版的DALL-E3技术,并超越了ChatGPT基于文字模型的功能。根据OpenAI公布的Sora大模型技术报告,Sora的核心技术为Diffusion Transformer架构,透过视频压缩网络、时空补丁提取和视频生成三个主要步骤,可制作出长达60秒、分辨率1080p的视频,还能根据文字提示编辑和扩展内容,代表着人工智能创建内容领域的重大突破。
事实上,文字生成视频并非新鲜事。在Sora发布前,已有数十种视频生成产品开始投入使用,全球数百万用户根据文字或图像提示创建短片。根据美国投资机构a16z统计,截至2023年底,已有21个经由大型科技企业和新创公司发布的AI视讯模型,其中包括较知名的Runway、Pika、Genmo以及Stable Video Diffusion等(详见图一)[1]。
谢昀泽认为,过去大家都担心会有超越专家能力的「超级人工智能」(Super AI)出现,但是现在「超级深伪」(Super Deepfake)欺诈技术,已随着越来越多的网络AI影音服务就在眼前,如果没有适当的风险控制,恐将形成「深伪即服务」(Deepfake as a Service,简称DaaS)的暗黑产业链,这项技术可能被用来制造更加精细和难以辨识的假新闻,对公众意识形态、选举、乃至国家安全均构成前所未有的挑战,连过去传统的信息安全防护与认证基础工程,如远距身分识别等机制,都可能被撼动。尽管Sora的能力令各界感到惊艳震惊,但人工智能生成视频所衍生的社会影响和道德层面问题仍成为隐忧,尤其美国将在2024年进行总统大选,人工智能生成视频可能传递错误和诈欺宣传,在选举期间更成为不可忽视的巨大风险,潜在信息安全风暴正在生成中。