AIGC领域再添一把火。4月27日,在2024年中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。
该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。
Vidu生成的视频:戴珍珠耳环的猫 图片来源:Vidu
虽然Sora能够根据文本指令生成60秒完整视频这一点仍然“遥遥领先”,但从视频生成效果来看,Vidu已经在对标Sora,因此也引发社交媒体广泛刷屏。
Vidu背后团队生数科技成立于2023年,一年多时间已经完成多轮融资,股东包括启明创投、达泰资本、百度风投、蚂蚁集团等,也包括另一家明星AI大模型企业智谱AI。
实现多项突破
清华大学人工智能研究院副院长、生数科技首席科学家朱军在论坛上表示,Vidu实现了“全栈自主创新”“多维全面突破”,一共有6大特点:模拟真实物理世界、富有想象力、具有多镜头语言、出色的视频时长、时空一致性高、理解中国元素。
此前Sora发布之后,OpenAI曾介绍,Sora能够深刻地理解运动中的物理世界,一个经典案例是,生成“一辆老式SUV行驶在山坡上”的画面,Sora能非常好地模拟轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化。
论坛现场将Vidu与Pika、Gen-2、Sora等其他文生视频大模型进行了对比,根据演示效果,在同样的提示词下,Vidu与Sora生成效果高度接近,一辆越野车行驶在森林中,阳光透过树叶的缝隙,在车身上形成光斑,车轮在颠簸的路段扬起灰尘……
除了能够模拟真实的物理世界、生成细节复杂,Vidu还具有丰富的想象力。它能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容,例如“画室里的一艘船正在海浪中驶向镜头”。
朱军表示:“作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。”
值得一提的是,Vidu生成的短片是从头到尾连续生成,没有明显的插帧现象,这是Vidu背后“一步到位”的生成方式,从文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。
短短两月进展迅速
朱军表示:“在今年2月,文生视频大模型Sora发布后,我们发现其刚好和我们的技术路线是高度一致的,这也让我们坚定地进一步推进了自己的研究。”
Vidu的快速突破,源自团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。
Sora发布推出后,团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,在短短两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型,显著提升了视频的连贯性与动态性。
生数科技于2023年3月成立,由清华系AI公司瑞莱智慧RealAI、蚂蚁集团和BV百度风投联合孵化创立。一年时间,已经完成多轮融资。今年3月,生数科技宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI,以及老股东BV百度风投和卓源亚洲跟投。
文生视频大模型正在加速应用渗透
4月15日,全球多媒体巨头Adobe在官网宣布,将Sora、Pika、Runway等集成在视频剪辑软件Premiere Pro中(简称“PR”)。此外,Adobe已经在为Firefly开发视频模型,该模型将为PR中的视频和音频编辑工作流程提供动力;通过AI驱动的音频功能已普遍可用,可使音频的编辑更快、更轻松、更直观。据了解,Adobe存量用户规模达3300万,未来有望成为大模型的巨大市场。
中信证券认为,文生视频有望推动视频创作者生产力革命,大幅降低生产成本、创作门槛,有望率先在短视频、动漫两大领域落地。建银国际认为,文生视频模型在各个行业都具有广泛的应用空间,包括但不限于营销广告、研发培训、电商零售、文娱游戏等。根据彭博行业研究的数据,在全球范围内,AIGC市场规模预计将从2023年的670亿美元跃升至2030年的8970亿美元,这意味着该领域复合年增长率高达45%。对于中国市场,艾瑞咨询预计其产业规模或从2023年的143亿元人民币增至2030年11441亿元人民币,复合年增长率将达87%。
(文章来源:中国证券报)