大模型开源卷至视频生成领域:阿里开源万相2.1,性能超Sora
2025年02月26日 09:20
来源: 界面新闻
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

  2月25日晚间,阿里巴巴全面开源旗下视频生成模型万相2.1。该模型是阿里云通义系列AI模型的重要组成部分,于2025年1月发布。在权威评测集VBench中,其以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。

  万相2.1采用了自研的高效变分自编码器(VAE)和动态图变换器(DiT)架构,增强了时空上下文建模能力。这种设计使得模型能够更准确地捕捉和模拟现实世界的动态变化,同时通过参数共享机制降低了训练成本。

  模型通过将视频划分为多个块(Chunk)并缓存中间特征,避免了传统端到端编解码的复杂性,支持无限长1080P视频的高效生成和处理。

  它也是首个支持中文文字生成及中英文文字特效生成的视频生成模型。在指令遵循上,能严格依照镜头移动等指令输出视频,对长文本指令也能准确理解和执行。

  此外,该模型能够精准模拟现实世界的物理规律,例如雨滴落在伞上溅起水花、人物运动时的自然过渡等。在处理复杂运动(如花样滑冰、游泳等)时,万相2.1能够保持肢体的协调性和运动轨迹的真实性。

  阿里基于Apache 2.0协议将万相2.1的14B和1.3B两个参数规格的全部推理代码和权重全面开源,全球开发者可在 Github、HuggingFace和魔搭社区下载体验。

  据界面新闻记者了解,14B模型在指令遵循、复杂运动生成等方面表现突出,1.3B版本能在消费级显卡运行,仅需8.2GB显存就可生成高质量视频,适用于二次模型开发和学术研究,极大降低了使用门槛。

  事实上,开源视频生成模型业内已有先例,此前阶跃星辰就开源了全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V。而阿里的开源,进一步推动了这一趋势。

  对AI行业来说,开源可为开发者提供强大的工具,加速视频生成领域的技术创新和应用拓展。目前,国内AI明星公司DeepSeek正在持续开源,百度也已宣布于6月30日起全面开源文心大模型4.5。国外的OpenAI CEO山姆·奥特曼此前承认, “闭源策略站在了错误的一边”,而马斯克的Grok-3则采取了 “有限开源” 模式。

  预计未来会有更多企业和团队加入开源行列,推动大模型技术快速传播和普及。

(文章来源:界面新闻)

文章来源:界面新闻 责任编辑:43
原标题:大模型开源卷至视频生成领域:阿里开源万相2.1,性能超Sora
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500