北美智权股份有限公司

第154期


2024 年 3 月 6 日

北美智权官网

智权报文章分类／搜寻历期智权报订阅北美智权报

OpenAI再写AI生成模型新里程碑：Sora的优势与风险何在？

吴碧娥／北美智权报编辑部

2024年2月15日，OpenAI推出人工智能视频生成模型Sora，并公开了一系列示范视频，展示Sora极其逼真的动画制作能力，让人留下深刻的印象。只要透过提示词描述一个想法，就能在几秒钟内看到它以高真实的视频形式呈现在你眼前，这就是Sora的力量。

图片来源 : shutterstock、达志影像

OpenAI将Sora技术报告取名为「Video generation models as world simulators」，展现OpenAI打造「世界仿真器」的企图。Sora是AI发展进程的里程碑，将加速超越人类的「通用人工智能」（AGI）到来，Sora不仅推动上游AI服务器、光通讯和芯片产业发展，影视、广告营销、IP等内容产业，未来都有可能受益于生成式视频发展。

OPEN AI正在教导AI理解和模拟物理世界的运行方式，Sora建立在过去OpenAI对DALL-E和GPT模型的基础之上，OpenAI在2023年9月发布了DALL-E 3，它是DALL-E文字到图像模型系列的第三代产品。Sora利用改良版的DALL-E3技术，并超越了ChatGPT基于文字模型的功能。根据OpenAI公布的Sora大模型技术报告，Sora的核心技术为Diffusion Transformer架构，透过视频压缩网络、时空补丁提取和视频生成三个主要步骤，可制作出长达60秒、分辨率1080p的视频，还能根据文字提示编辑和扩展内容，代表着人工智能创建内容领域的重大突破。

要训练从文字到视频的AI产生系统，需要大量带有相应文字字幕的视频，OpenAI首先训练一个高度描述性的字幕产生器模型，并对高度描述性视频字幕进行训练，以提高文字保真度以及视频的整体质量。OpenAI利用GPT将简短的使用者提示，转换为较长的详细字幕，然后传送到视讯模型，使Sora能够根据用户提示词产生准确的高质量视频，还能够在时间上向前或向后，扩展出更长且视觉连贯的视频。

在发布Sora的同时，OpenAI也承认Sora有其限制，包括不能准确模拟基本相互作用的物理过程（例如玻璃破碎）、长时间样本中可能出现不连贯性，或是对于理解因果关系仍有挑战。而为了安全性问题，Sora将限制对性、暴力、仇恨或名人图像，以及包含知识产权内容的文字提示。OpenAI目前先向小型的「红队」（red teaming）提供部分的访问权限，「红队」由错误讯息、仇恨内容和偏见等领域的专家所组成，他们将以对抗性方式测试Sora模型。OpenAI亦和特定的视频制作者和艺术家共享Sora，以寻求在创意领域中的使用回馈，未来才会进一步将Sora公开给一般公众，时间仍未定。

还有哪些AI视频生成工具？

事实上，文字生成视频并非新鲜事。在Sora发布前，已有数十种视频生成产品开始投入使用，全球数百万用户根据文字或图像提示创建短片。根据美国投资机构a16z统计，截至2023年底，已有21个经由大型科技企业和新创公司发布的AI视讯模型，其中包括较知名的Runway、Pika、Genmo以及Stable Video Diffusion等（详见图一）[1]。

图一、21个AI视频模型

图片来源：a16z

Sora并非同类产品中的第一个，只是其他已经发布的AI模型，基本上都只能生成10秒以内的极短视频，Sora可以产生60秒一镜到底的多镜头视频，大幅提高了视频的质量和生成内容长度。而其他大型科技公司也有令人瞩目的AI视频生成模型，像是Meta的Emu Video、Google的Lumiere，以及字节跳动的MagicVideo，只是至今仍未宣布他们的模型何时公开，仅处于研究阶段。因此，OpenAI推出的Sora，仍为AI视频生成行业向前迈出了一大步。

用AI模型也能拍出电影

另一个值得注意的是，热门照片和视频编辑应用程序Facetune和Photoleap背后的以色列新创公司Lightricks，即将在今年3月27日推出一款视觉AI视讯工具LTX Studio，强调仅使用文字描述即可产生角色、场景、分镜，除了能在较长的制作过程中进行编辑和控制，甚至可以制作整部电影。由用户编写生成人物和情节的文字描述，再从各种摄影机角度和风格中进行选择，并添加音乐、音频和各种自定义元素。Lightricks表示，LTX Studio最初将会是免费的，未来希望透过LTX Studio催生更多类型的电影项目，即使是非常小的团队，也能够创造出惊奇之作。

图二、LTX Studio带来的故事叙述体验。

图片来源：LTX Studio

潜在的信息安全风险

台湾KPMG安侯企业管理股份有限公司董事总经理谢昀泽表示，过去一段时间，以生成式AI技术创作或伪冒视频的深度伪造技术（Deepfake）越来越普及，但多数视频都无法达到高画质、长时间，且多镜位的质量，且深伪的工具使用门坎也较高。但Sora却一举突破了这些障碍，根据简单的提示词所生成的4K超高画质视频，真实感已经达到专业人士难以分辨真伪的程度。

谢昀泽认为，过去大家都担心会有超越专家能力的「超级人工智能」（Super AI）出现，但是现在「超级深伪」（Super Deepfake）欺诈技术，已随着越来越多的网络AI影音服务就在眼前，如果没有适当的风险控制，恐将形成「深伪即服务」（Deepfake as a Service，简称DaaS）的暗黑产业链，这项技术可能被用来制造更加精细和难以辨识的假新闻，对公众意识形态、选举、乃至国家安全均构成前所未有的挑战，连过去传统的信息安全防护与认证基础工程，如远距身分识别等机制，都可能被撼动。尽管Sora的能力令各界感到惊艳震惊，但人工智能生成视频所衍生的社会影响和道德层面问题仍成为隐忧，尤其美国将在2024年进行总统大选，人工智能生成视频可能传递错误和诈欺宣传，在选举期间更成为不可忽视的巨大风险，潜在信息安全风暴正在生成中。

数据源：

OpenAI Research: Video generation models as world simulators.
2024/2，Lightricks: Lightricks Introduces First Generative AI Filmmaking Platform: LTX Studio.

备注：

参考数据：2024/1/31，a16z.com: Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024.

好消息～北美智权报有微信公众号了！

《北美智权报》内容涵盖世界各国的知识产权新闻、重要的侵权诉讼案例分析、法规解析，以及产业与技术新知等等。

立即关注北美智权微信公众号→ NAIP_IPServices

～欢迎读者分享与转发～

作者：	吴碧娥
现任：	北美智权报主编
学历：	(台湾)政治大学新闻研究所
经历：	北美智权报资深编辑骅讯电子总经理室特助经济日报财经组记者东森购物总经理室经营企划