3月27日,阿里通义千问Qwen2.5-Omni正式开源。这是通义系列模型中首个端到端全模态大模型,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。相较于动辄数千亿参数的闭源大模型,Qwen2.5-Omni以7B(70亿)的小尺寸让全模态大模型在产业上的广泛应用成为可能,在手机上就能快速部署和应用。
在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni刷新业界纪录,全维度远超Google的Gemini-1.5-Pro等同类模型。

Qwen2.5-Omni以接近人类的多感官方式“立体”认知世界并与之实时交互,还能通过音视频识别情绪,在复杂任务中提供更智能、更自然的反馈与决策。具体来说,Qwen2.5-Omni支持文本、图像、音频和视频等多种输入形式,可同时感知所有模态输入,并以流式处理方式实时生成文本与自然语音响应。目前,开发者和企业可免费下载商用Qwen2.5-Omni。
据介绍,从2023年起,通义团队就陆续开发了覆盖0.5B、1.5B、3B、7B、14B、32B、72B、110B等参数的200多款“全尺寸”大模型,囊括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等全模态。截至目前,海内外AI开源社区中,千问Qwen的衍生模型数量突破10万,稳居全球第一开源模型阵营。
近期,我国头部大模型公司加快模型更新迭代。3月26日,DeepSeek宣布其V3模型完成小版本升级,目前版本号DeepSeek-V3-0324,用户登录官方网页、App、小程序进入对话界面后,关闭深度思考即可体验。如非复杂推理任务,选择新版本V3模型可提供速度更流畅、效果全面提升的对话体验。
3月21日,腾讯推出自研深度思考模型混元T1正式版,混元T1沿用混元Turbo S架构,不仅“秒回”“吐字快”,还擅长处理超长文本,推理能力更上一层楼。目前,腾讯元宝App已同时接入DeepSeek-V3-0324最新版和混元T1正式版。
3月6日,阿里云发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1。在保持领先性能的同时,千问QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署。
2月25日,阿里云视频生成大模型万相2.1(Wan)开源,同时支持文生视频和图生视频任务。14B版本万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。1.3B版本万相模型不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需8.2GB显存就可以生成480P视频,适用于二次模型开发和学术研究。
(文章来源:上海证券报)
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12