云启资本:回到现实!Sora破局,我们关注哪4个关键问题?

好买说:春节假期期间Sora文生视频模型问世令各界大为震动,云启资本认为,新AI模型对世界的影响可能是巨大的。它可以对物理系统进行更精确、更高效的模拟,从而彻底改变制造业、建筑业和娱乐业等行业此外,它还可能对教育和培训产生影响。

Sora的官网介绍页,无数纸飞机自由地通往密林深处、开启新的探索。在日语里,Sora意为「天空」,另外一层引申含义是「自由」、「无限的创造力」

Sora的突然发布引发了一波几乎与ChatGPT3.5热度相当的讨论。这个文生视频模型对语言的理解能力、多镜头生成的一致性、画质的清晰度、复杂场景的创建能力和对物理世界的模拟,都达到了「全新代际」

密切关注AI进展的云启er们,从2月16日凌晨发布的当下就热切地跟进讨论。开工第一周,分别身处美国与国内的小伙伴们一起深入地讨论了Sora的“魔力”来自于哪、将会对于AI业态有哪些新的影响。

本期「FutureScope」栏目,我们节选出部分内容和大家分享。「地上一天,AI一年」,对于仍在快速演变的技术主题,我们在以下内容中做了较多的开放式探讨,也欢迎创业者、技术/行业专家在评论区留下您的最新洞察。

1.怎么又是OpenAI ?

Sora为什么能有如此强大的能力?根据OpenAI的官方说法,DALL·E 3 的Re-captioning 功能,能给训练用的视频素材都加上「高质量」文本描述,并因此提高输出视频的整体质量。另外,简短描述词会先由AI 进一步扩写,再交由 Sora 生成——能做到Re-captioning、扩写描述,是因为OpenAI有目前最强大的基座模型。模型本身的能力不仅能高质量描述,还能直接降低数据标注的成本。

由模型能力直接实现「降本增效」,OpenAI仍然以绝对优势领先。GPT4 — 对多模态内容的简单分析 — 生成多模态内容,Sora的成功向我们证实了,这个步骤是目前技术产品的最佳解。追本溯源,视频魔法的基础仍是GPT4。目前,国内的大部分基础模型尚有距离需追赶。

我们自2021年开始关注基础模型,并在天使轮投资模型公司MiniMax。2024年1月,MiniMax发布自研大模型「Abab6」,其测评结果已明显优于ChatGPT3.5。

2.成为「世界模拟器」,就够好了吗?

根据已经公布的demo,只要prompt符合基本物理定律,Sora制作的大多数视频都真伪难辨。而且所提出的要求越明确、细节越充分,其所生成的视频即使背景细节即使复杂,也无限接近于真实。对于有些不太符合物理定律和生活常识的prompt,Sora的视频则能被分辨出来是电脑特效;另外,部分已公布的demo里水滴的下落、狗毛的波动刻画得还不够精确。OpenAI 技术报告中透露,Sora 能够理解运动中的物理世界,但对部分交互的物理特性还不能很好的模拟。

借助于LLM的认知赋能,Sora让Gen-video真正物理世界的映像。但是,视频「创作」是否一定要完全符合现实世界?我们熟知的《秒速五厘米》、《龙猫》等动画作品中,最令人感动的画面往往是突破物理定律、仅存在于想象的画面。要真正成为视频制作者成熟的工具,「真实」和「想象」缺一不可。

3.Sora之于AI应用:新机会 VS 新挑战?

OpenAI在多模态内容生成方面持续保持领先,这在一定程度上进一步压缩了单模态模型的市场空间。马斯克在Twitter评论:“AI增强的人类将在未来几年里创造出最好的作品。”——马斯克对时间的预判是「未来几年」,当下,Sora在视频创作、数字人、虚拟世界等方面的应用尚未真正展开,Sora在商业化视频制作工作流中的价值有待验证。我们的GenAI被投企业已获得Sora内测资格,并开始积极探索新的内容生成方式对业务的积极影响。

文生视频技术目前仍处于测试阶段,尚未全面开放使用。生成复杂视频需要处理物理世界中数以万计的因果关系和逻辑推理,再加上幻觉等固有问题,其大规模商业化应用仍有众多挑战待解决

提出「世界模拟器」概念,OpenAI对于平行「数字世界」的探索还在继续。回到商业应用逻辑上,如何能通过技术进步真正利好生产生活?我们认为技术要和实体世界产生链接,比如具身智能、自动驾驶等。有观点认为,Sora对于视频影像的识别能力,将有可能进一步提升自动驾驶的普适性。

4.OpenAI的能力边界在哪?

Sora的成功,延续了OpenAI「暴力美学」的套路。基础理论并没有重大创新,算法模型是基于现有几种的混合应用,数据源和质量没有披露,工程化细节也没有解密,当然这也是最具壁垒的部分

沿着这条路,OpenAI从一家自称为「研究机构」的非盈利公司一步步成为了最受瞩目的明星公司。虽然在模型认知方面天然领先,但目前算力成本仍是不得不面临的挑战。大概一周前,Sam Altman 宣布 OpenAI 启动“造芯”计划,因为目前 OpenAI 需要大量的 GPU芯片进行训练计算。为启动这个计划,他希望筹得 7 万亿美元。

Sora还会带来哪些改变?我们拿这个问题去问了GPT4,以下是我们与GPT4的对话实录:

YQ

Hi, as an AI industry expert, imagine a fundamental model that generates 1-minute high-fidelity video and simulates the workings of the physical world. What impact will this model have on the world?

ChatGPT 4

The impact of such a model on the world could be significant. It could revolutionize industries such as manufacturing, architecture, and entertainment by enabling more accurate and efficient simulations of physical systems. This could lead to cost savings, faster development cycles, and more innovative solutions. Additionally, it could have implications for education and training, allowing for more immersive and realistic simulations of real-world scenarios. Overall, a base model that generates 1-minute high-fidelity video and simulates the workings of the physical world has the potential to have a transformative impact on various industries and society as a whole.

“这种模型对世界的影响可能是巨大的。它可以对物理系统进行更精确、更高效的模拟,从而彻底改变制造业、建筑业和娱乐业等行业。这可以节约成本,加快开发周期,并提供更具创新性的解决方案。此外,它还可能对教育和培训产生影响,使现实世界的情景模拟更加身临其境、更加逼真。总之,能够生成 1 分钟高保真视频并模拟物理世界运作的基础模型有可能对各行各业和整个社会产生变革性影响。”

免责声明:本文转载自云启资本,文章版权归原作者所有,内容仅供参考并不构成任何投资及应用建议。

风险提示:投资有风险。相关数据仅供参考,不构成投资建议。投资人请详阅基金合同和基金招募说明书,确认您自觉履行投资人的各项义务,并自行承担投资风险。

版权所有 好买Copyright © howbuy.com, inc 2014. All rights reserved. [沪ICP备08003295号-1]

关于好买私募 | 联系我们 | 诚聘英才 | 隐私条款 | 风险提示