第154期
2024 年 3 月 6 日
  北美智权官网 智权报文章分类/搜寻   历期智权报   订阅北美智权报  
 
OpenAI再写AI生成模型新里程碑:Sora的优势与风险何在?
吴碧娥/北美智权报 编辑部

2024年2月15日,OpenAI推出人工智能视频生成模型Sora,并公开了一系列示范视频,展示Sora极其逼真的动画制作能力,让人留下深刻的印象。只要透过提示词描述一个想法,就能在几秒钟内看到它以高真实的视频形式呈现在你眼前,这就是Sora的力量。

OpenAI将Sora技术报告取名为「Video generation models as world simulators」,展现OpenAI打造「世界仿真器」的企图。Sora是AI发展进程的里程碑,将加速超越人类的「通用人工智能」(AGI)到来,Sora不仅推动上游AI服务器、光通讯和芯片产业发展,影视、广告营销、IP等内容产业,未来都有可能受益于生成式视频发展。

OPEN AI正在教导AI理解和模拟物理世界的运行方式,Sora建立在过去OpenAI对DALL-E和GPT模型的基础之上,OpenAI在2023年9月发布了DALL-E 3,它是DALL-E文字到图像模型系列的第三代产品。Sora利用改良版的DALL-E3技术,并超越了ChatGPT基于文字模型的功能。根据OpenAI公布的Sora大模型技术报告,Sora的核心技术为Diffusion Transformer架构,透过视频压缩网络、时空补丁提取和视频生成三个主要步骤,可制作出长达60秒、分辨率1080p的视频,还能根据文字提示编辑和扩展内容,代表着人工智能创建内容领域的重大突破。

要训练从文字到视频的AI产生系统,需要大量带有相应文字字幕的视频,OpenAI首先训练一个高度描述性的字幕产生器模型,并对高度描述性视频字幕进行训练,以提高文字保真度以及视频的整体质量。OpenAI利用GPT将简短的使用者提示,转换为较长的详细字幕,然后传送到视讯模型,使Sora能够根据用户提示词产生准确的高质量视频,还能够在时间上向前或向后,扩展出更长且视觉连贯的视频。

在发布Sora的同时,OpenAI也承认Sora有其限制,包括不能准确模拟基本相互作用的物理过程(例如玻璃破碎)、长时间样本中可能出现不连贯性,或是对于理解因果关系仍有挑战。而为了安全性问题,Sora将限制对性、暴力、仇恨或名人图像,以及包含知识产权内容的文字提示。OpenAI目前先向小型的「红队」(red teaming)提供部分的访问权限,「红队」由错误讯息、仇恨内容和偏见等领域的专家所组成,他们将以对抗性方式测试Sora模型。OpenAI亦和特定的视频制作者和艺术家共享Sora,以寻求在创意领域中的使用回馈,未来才会进一步将Sora公开给一般公众,时间仍未定。

还有哪些AI视频生成工具?

事实上,文字生成视频并非新鲜事。在Sora发布前,已有数十种视频生成产品开始投入使用,全球数百万用户根据文字或图像提示创建短片。根据美国投资机构a16z统计,截至2023年底,已有21个经由大型科技企业和新创公司发布的AI视讯模型,其中包括较知名的Runway、Pika、Genmo以及Stable Video Diffusion等(详见图一)[1]

图一、21个AI视频模型

图片来源:a16z

Sora并非同类产品中的第一个,只是其他已经发布的AI模型,基本上都只能生成10秒以内的极短视频,Sora可以产生60秒一镜到底的多镜头视频,大幅提高了视频的质量和生成内容长度。而其他大型科技公司也有令人瞩目的AI视频生成模型,像是Meta的Emu Video、Google的Lumiere,以及字节跳动的MagicVideo,只是至今仍未宣布他们的模型何时公开,仅处于研究阶段。因此,OpenAI推出的Sora,仍为AI视频生成行业向前迈出了一大步。

用AI模型也能拍出电影

另一个值得注意的是,热门照片和视频编辑应用程序Facetune和Photoleap背后的以色列新创公司Lightricks,即将在今年3月27日推出一款视觉AI视讯工具LTX Studio,强调仅使用文字描述即可产生角色、场景、分镜,除了能在较长的制作过程中进行编辑和控制,甚至可以制作整部电影。由用户编写生成人物和情节的文字描述,再从各种摄影机角度和风格中进行选择,并添加音乐、音频和各种自定义元素。Lightricks表示,LTX Studio最初将会是免费的,未来希望透过LTX Studio催生更多类型的电影项目,即使是非常小的团队,也能够创造出惊奇之作。

图二、LTX Studio带来的故事叙述体验。

图片来源:LTX Studio

潜在的信息安全风险

台湾KPMG安侯企业管理股份有限公司董事总经理谢昀泽表示,过去一段时间,以生成式AI技术创作或伪冒视频的深度伪造技术(Deepfake)越来越普及,但多数视频都无法达到高画质、长时间,且多镜位的质量,且深伪的工具使用门坎也较高。但Sora却一举突破了这些障碍,根据简单的提示词所生成的4K超高画质视频,真实感已经达到专业人士难以分辨真伪的程度。

谢昀泽认为,过去大家都担心会有超越专家能力的「超级人工智能」(Super AI)出现,但是现在「超级深伪」(Super Deepfake)欺诈技术,已随着越来越多的网络AI影音服务就在眼前,如果没有适当的风险控制,恐将形成「深伪即服务」(Deepfake as a Service,简称DaaS)的暗黑产业链,这项技术可能被用来制造更加精细和难以辨识的假新闻,对公众意识形态、选举、乃至国家安全均构成前所未有的挑战,连过去传统的信息安全防护与认证基础工程,如远距身分识别等机制,都可能被撼动。尽管Sora的能力令各界感到惊艳震惊,但人工智能生成视频所衍生的社会影响和道德层面问题仍成为隐忧,尤其美国将在2024年进行总统大选,人工智能生成视频可能传递错误和诈欺宣传,在选举期间更成为不可忽视的巨大风险,潜在信息安全风暴正在生成中。

 

数据源:

  1. OpenAI Research: Video generation models as world simulators.
  2. 2024/2,Lightricks: Lightricks Introduces First Generative AI Filmmaking Platform: LTX Studio.

 

备注:

 

好消息~北美智权报有微信公众号了!

《北美智权报》内容涵盖世界各国的知识产权新闻、重要的侵权诉讼案例分析、法规解析,以及产业与技术新知等等。

立即关注北美智权微信公众号→ NAIP_IPServices

~欢迎读者分享与转发~


作者: 吴碧娥
现任: 北美智权报主编
学历: (台湾)政治大学新闻研究所
经历: 北美智权报资深编辑
骅讯电子总经理室特助
经济日报财经组记者
东森购物总经理室经营企划

 


 





感谢您阅读「北美智权报」,欢迎分享智权报连结。如果您对北美智权电子报内容有任何建议或欲获得授权,请洽:Editorial@naipo.com
本电子报所登载之文章皆受著作权保护,未经本公司授权, 请勿转载!
© 北美智权股份有限公司 & 北美联合专利商标事务所 版权所有 234 台湾地区新北市永和区福和路389号五楼 TEL:+886-2-8923-7350