AI快讯 | AI视频生成大模型Sora来了，中国厂商会跟进吗？

AI视频生成大模型Sora来了，中国厂商会跟进吗？

来源：沈阳站-天极网发布日期：2024-12-17

（本文系紫金财经原创稿件，转载请注明来源）

继ChatGPT之后，OpenAI又在文生视频的领域扔下一颗深水炸弹。

当地时间12月9日，Open AI宣布，旗下最新版本的视频生成大模型Sora Turbo正式面向公众推出，用户可以通过文字、图像或其他视频素材，生成长达20秒的视频。目前，该工具已在美国和其他部分市场面向ChatGPT Plus和Pro用户开放。

Sora官网上线后，用户蜂拥而入，OpenAI CEO山姆·奥尔特曼（Sam Altman）表示：“我们严重低估了Sora的需求，要让每个人都能访问还需要一段时间。”

作为AI领域的一面旗帜，OpenAI发布的Sora如“鲇鱼”般搅动着国内的AI市场。自Sora首次公开展示后，不少互联网大厂和人工智能公司纷纷跟进视频大模型这一赛道，并取得了一定的成效。

Sora“虽迟但到”

今年2月，OpenAI首次推出其文生视频模型Sora，因视频效果逼真、时长可达1分钟引发全球关注。

OpenAI当时表示，Sora为模型理解和模拟现实世界奠定了基础，相信这一能力将成为实现通用人工智能的关键里程碑。不过之后很长一段时间，Sora一直未对公众开放，只有部分艺术家、电影制作人和安全测试人员可以使用。

等了大半年，Sora终于不再只是艺术家们的工具。不过，此次公开提供给付费用户使用的Sora Turbo版本生成时长最多20秒，而非Sora首次公开展示时的1分钟。

相比旧版本，Sora新版本有哪些“进阶”？

首先是多模态输入支持。Sora-Turbo进一步扩展了输入形式，支持文本、图像以及现有视频的多模态输入。例如，用户可以上传一张静态图像为其生成动画，或对已有视频进行扩展以补全缺失帧。这种灵活性为创作者提供了更多可能性，显著拓宽了模型的应用场景。

其次是更高的生成质量。Sora-Turbo能够生成分辨率高达1080p的视频，并支持生成最长可达20秒的动态内容。这种优化不仅提升了生成视频的视觉细腻度，还显著增强了场景的连贯性与动态表现。

初始视频生成后，用户如果需要优化，可通过Remix工具来操作。为此，Sora还设置了细微、轻微、强力三种强度，以满足用户不同的更改需求。

总的来说，Sora 除了在生成视频上的出色表现之外，它还带来了更独有的视频创作产品功能，相当于给视频加分镜、剪辑、特效等等。这意味着，每个人都有机会创作出自己真正想要的视频。

定价方面，Sora Turbo将免费提供给ChatGPT Plus和Pro用户，每月月租20美元（约合人民币145元）的Plus用户，每月最多可以生成50个480P分辨率的优先视频；Pro订阅者则最多可生成500个优先视频，普通视频无限量生成，可下载无水印版视频，对应每月费用为200美元（约合1450元）。

需要注意的是，Sora暂不支持ChatGPT Team、Enterprise和Edu用户，也不向18岁以下用户开放。此外，英国、瑞士和欧盟等地区目前无法访问Sora。

中国厂商态度有点不一样

继今年2月OpenAI发布Sora样片以来，国内多家厂商抓住机会抢先入场，推出了文生视频产品，包括字节、快手、阿里云、腾讯、美图等在内的互联网厂商，以及Minimax、智谱、爱诗科技与生数科技等大模型初创厂商等都在快速跟进。

4月，生成式人工智能基础设施及应用提供商生数科技，发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

11月，字节跳动旗下的AI内容平台即梦AI宣布推出自研的视频生成模型Seaweed，现已正式向用户开放。用户只需登录平台，选择“视频生成”功能下的“视频S2.0”即可开始体验这一创新工具。

12月，腾讯混元大模型上线了视频生成能力，并开源了参数量130亿的视频生成大模型HunYuan-Vieo。据称该模型是业界参数最大的开源视频模型，可生成5秒视频……

值得一提的是，视频生成赛道不再延续GPT时代的发展模式，即OpenAI打出一张王牌，国内科技企业抢着跟进。这一次有点不同，国内没有重现语言大模型的盛况，甚至有厂商明确表示不会跟进。

Sora问世之后，百川智能创始人王小川表示，团队有人提出要做Sora，但他明确表态称不会跟进这个方向。

同样想法的还有百度创始人李彦宏，尽管百度已经在视频生成领域取得了一定的成果，但他不做Sora的态度也非常坚决，原因是Sora的商业化可能要五年甚至十年，目前百度更聚焦在大语言模型、多模态大模型，没有类Sora的产品化尝试。

总结下来，国内公司不跟进Sora的原因可能主要有以下两点：

一方面是出于技术考量，Sora的技术路线是Diffusion+Transformer相结合，通过文本、图片、视频作为提示词生成视频。但该技术路线目前存在不少争议，如李飞飞、Lecun等学术大神认为，Sora不能实现AGI，其根本不是真正的“世界模型”，并且仍会面临GPT4的巨大瓶颈。

另一方面是出于对商业化前景的担忧，Sora的商业化可能需要五年甚至十年，投资回报周期长。目前国内公司更关注短期内能够带来商业价值和收益的项目，对于需要长期投入且前景不明朗的视频生成领域，会更加谨慎。

1开发APP要写代码？你OUT了！有了云计算一哥，动动嘴就行了！2iPhone 16改变真大：难怪亿万果粉为之疯狂！3半导体产业全面回暖：科技浪潮下的新机遇4晋升业内新宠儿，MoE模型给了AI行业两条关键出路5共享出行与萝卜快跑，谁能超越滴滴？6人形机器人的理想与现实

AI视频生成大模型Sora来了，中国厂商会跟进吗？

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

网站与新媒体常态化监测：确保信息时代有效传播的关键

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展