理性分析Sora影响关注OpenAI高速创新的源动能.pdf

理性分析Sora影响关注OpenAI高速创新的源动能.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

理性分析Sora影响

关注OpenAI高速创新的源动能

中国移动研究院战略与产业研究所

2024年3月

摘要

Sora模型带来文生视频重大突破,其技术水平与

OpenAI由此彰显的超常创新迭代速度,引起科技界、商界

和投资界热议。对Sora成本、成熟度进行分析后,我们认

为短中期内该模型对内容产业难有颠覆性影响。比起Sora

本身,OpenAI持续引领技术潮流的源动能更值得关注。除

了海量数据和巨大算力的投入外,强大的工程创新能力和

不拘一格的用人魄力是OpenAI成功的另外两大关键。建议

一方面持续跟踪关注文生视频技术的最新动态和研发进展

另一方面更要关注OpenAI背后创新的源动力,参考OpenAI

实践经验,双向发力强化前沿领域工程创新,加速产业技

术发展;构建人才合作培养生态,为新生力量提供引领未

来科技探索的成长平台。

一、预计短中期内,Sora难以颠覆内容产业

1

成本高企,限制了Sora的发展路径。Sora的关键技术

之一是把视频按照空间、时间维度切割划小为若干视频片

段(Patch),然后进行训练、处理、输出等工作,Patch

之于Sora就好比Token之于ChatGPT。综合业界目前的测

算结果并参考通过GPT-4API输出Token的定价,预计客户

采用Sora生成1分钟视频的成本约为十几至几十美元(折

合人民币百元至千元量级)。对比国内纯人工拍摄视频约

100-500元/条[1]的成本,Sora目前在B端产业推广方面的

竞争力还有限。同时,高昂的成本也使得Sora难以复刻

ChatGPT“通过低推理成本、高适应性迅速在C端用户普及、

依托海量用户输入数据迭代优化模型”的成功路径。

Sora技术尚不成熟,也非视频生成技术的“唯一解”。

一是理解和再现物理规律的能力不足。Sora模型出现了相

关性与因果律矛(例如,吹蜡烛但蜡烛火苗纹丝不动)

2

局部合理与整体荒谬矛(例如,跑步机与跑步者的方向

相反)、临界状态缺失(例如,果汁泼溅视频中,缺失果

汁从杯中流洒出来的过程)等问题,在构建一个广义的、

符合现实世界运行逻辑的“世界模型”方面仍有很大的提

升空间。二是生成视频的一致性不佳。Sora模型历次生成

视频的“画风”不同,使得用户难以将多个视频片段剪辑

拼接成连贯长视频。与此同时,近期无论是Meta发布的V-

JEPA模型还是阿里发布的EMO模型,均采用了与Sora不同

的底层架构,同样展现了独特的技术特点和在部分领域对

Sora的比较优势。例如,EMO模型能够生成与输入音频同步

且在表情和头部姿势上更富有表现力的肖像视频。

文档评论(0)

汀枫 + 关注
实名认证
内容提供者

机械工程师、监理工程师持证人

声明:本账号发布文档部分原创,部分来源于互联网和个人收集,仅用于技术分享交流,版权为原作者所有,如果侵犯了您的知识版权,请提出指正,将立即删除相关资料。

领域认证该用户于2023年08月20日上传了机械工程师、监理工程师

1亿VIP精品文档

相关文档