- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
核心观点
Sora是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多LLM,如
ChatGPT和GPT-4,表现出涌现能力,但在Sora出现之前,展示类似能力的视觉模型一直很少。根据Sora的技术
报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。
Sora的成功源于DiffusionTransformer架构的引入,和过去多年高质量数据的积累。
从架构上看,视频生成模型的技术路线开始收敛,Sora的DiffusionTransformer架构证实了有效scale-up也即是
增加算力能够对提升视频生成的精细度和效果,是视频生成领域的"GPT-3时刻"。类似于GPT-3证明了更大的训练量、
模型参数量、Token数量,训练效果越好。引入了Transformer的Sora也表现出了同样的趋势,OpenAI进行了32x
训练量和1x、4x训练量的对比,从结果上看,32x训练量的生成效果远远强于1x和4x的生成效果。在Sora发布后
Google、Snap也发布了采用类似技术的视频生成模型,确定了DiffusionTransformer的视频生成路线,并且算力的
需求会大大提升。
从数据上看,高质量的数据对视频生成模型的训练至关重要,Sora利用自有工具增强训练数据集与提示工程。OpenAI
训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调Sora以提高其指令跟随
能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora执行了一个额外的提示扩展步骤,
即调用GPT-4V模型将用户输入扩展到详细的描述性提示。
我们认为,随着DiffusionTransformer类模型大量应用于图像及视频生成,推理需求将大幅增加,与LLM推理更需
要内存带宽的资源需求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求。Sora的DiT和大语言模型
在推理时的逻辑不同,Diffusion需要约20Steps优化过程,每次均是计算的完整的patch,访存需求也会大大下降,
从LLM推理的访存密集型场景转变成算力密集型场景。
Sora高质量的视频生成对影视和游戏行业的影响是最直接而深远的,降低制作门槛并且很有可能重塑影视和游戏制
作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响,前期可以替代掉分镜以及概念片制作,
后期可以取代部分特效制作。对于游戏行业,游戏开发人员可能会使用它来生成自定义的视觉效果,甚至是从玩家叙
述中生成角色动作。
风险提示
模型架构的大幅改变影响算力需求分布
算力速度发展不及预期
中美科技领域政策恶化
敬请参阅最后一页特别声明1
扫码获取更多服务
行业深度研究
内容目录
一、Sora模型的特点4
1.1Sora在生成视频的质量、灵活性和时长上与之前的模型有代际差距4
二、视频生成模型的历史与现状5
2.1文生视频是个年轻的方向,最早能追溯到15年的基于GAN生成模型5
2.2GAN和VAE时代6
2.3TransformerBased6
2.4DiffusionBased6
2.5视频生成模型的前沿:把卷积网络卷出了DiffusionModel7
2.6国内的绝大多数文生视频模型还处于Diffusion阶段,研发机构也在快速跟进8
三、Sora模型逆向工程9
3.1VideoEncoding:将视频信息有效的转化为机器理解的方法是至关重要的9
3.2模型的核心部分:DiffusionTransformer11
3.3大语言模型训练和推理对计算资源的需求分布不同12
3.4对算力需求的影响:Pa
文档评论(0)