2月11日,智谱正式发布新一代大模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推一体全功能GPU MTT S5000上,Day-0就完成了全流程适配与验证。如此“发布即适配”的情况,有望成为未来国产GPU生态构建的常态。
凭借MUSA架构广泛的算子覆盖与强大的生态兼容能力,摩尔线程成功打通了模型推理全链路,并深度释放MTT S5000的原生FP8加速能力,在确保模型精度的同时显著降低了显存占用,实现了GLM-5的高性能推理。此次快速适配,不仅印证了MUSA软件栈的成熟度,更充分展现了国产全功能GPU对最新大模型即时、高效的支持能力。
摩尔线程方面期待,GLM-5与MTT S5000的国产双强联合,将为开发者带来可对标国际顶尖模型的极致编程体验。无论是在函数补全、漏洞检测还是Debug场景中,该组合均表现卓越,以显著增强的逻辑规划能力,从容应对各类复杂的长程任务挑战。
在此类适配中,摩尔线程核心优势在于可提供“软硬协同的全栈算力底座”。MTT S5000是专为大模型训练、推理及高性能计算而设计的全功能GPU智算卡,基于第四代MUSA架构“平湖”打造。其单卡AI算力最高可达1000 TFLOPS,配备80GB显存,显存带宽达到1.6TB/s,卡间互联带宽为784GB/s,完整支持从FP8到FP64的全精度计算。据接近测试项目的行业人士透露,MTT S5000在产品精度上已超越H100,更接近英伟达Blackwell架构。在近期一次数千亿参数模型的全流程训练验证中,该卡表现出了与H100集群极高的结果一致性,最终模型关键指标误差仅维持在千分之几的范围内,整体训练效果甚至实现小幅超越。
摩尔线程相关负责人告诉记者,据来自互联网厂商场景的实测信息反馈,MTT S5000在典型端到端推理及训练任务中,性能可达竞品H20的2.5倍左右。分析指出,这主要得益于其高达1000 TFLOPS的单卡算力,在绝大多数计算密集型场景中,该卡不仅能提供更强劲的算力输出,也在整体性价比上展现出显著优势。
MUSA软件栈的敏捷性是实现Day-0适配的关键。基于MUSA架构的TileLang原生算子单元测试覆盖率已超过80%,使得绝大多数通用算子可直接复用,显著降低移植成本,并能快速跟进前沿模型结构与新特性演进。
通过高效算子融合及框架极致优化,MTT S5000在确保代码生成质量的同时显著降低了响应延迟。无论是处理复杂的代码库分析,还是运行长周期的智能体(Agent)任务,均能保持首字延迟(TTFT)低、生成速度快的流畅体验。MTT S5000与GLM-5的软硬双强组合,在函数补全、漏洞检测等核心场景的表现超越同级,充分释放模型的规划能力和Debug能力,是执行长程开发任务的理想选择。
观察:从GLM-4.6、GLM-4.7到GLM-5,摩尔线程已将“发布即适配”化为常态,这种对主流软件栈的无缝兼容与敏捷响应,充分证明:国产全功能GPU及MUSA软件栈已经具备相当高的成熟度与稳定性,确保开发者能第一时间触达最新模型能力,从而携手共建蓬勃发展的国产AI生态。
文/广州日报新花城记者:钟达文
(文章来源:广州日报)