马斯克启动“全球最强大AI训练集群” 背后隐藏内忧外患
2024年07月24日 10:23
作者: 记者 张洋洋
来源: 科创板日报
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

  马斯克在其X社交平台上宣布,xAI团队、X团队、英伟达及支持公司于当地时间7月22日凌晨4时20分开始在孟菲斯超级集群上(Memphis Supercluster)进行训练。

  据马斯克介绍称,该集群在单个RDMA fabric上使用10万张液冷H100,是“世界上最强大的AI训练集群”。其目标是在今年12月前训练出“按每项指标衡量都是世界上最强大的人工智能。”

  马斯克此前曾表示,xAI计划于8月发布Grok 2,但目前并未宣称利用新的超级计算集群训练Grok 2。不过,确定的是计划于2024年底发布的Gork 3将在孟菲斯超级训练集群进行训练。本月早些时候,马斯克在X的一篇文章中指出,xAI的Grok 3将在100,000个 H100 GPU上进行训练,因此“它应该非常特别”。

image

  从规模上看,新的xAI孟菲斯超级集群确实在GPU算力方面超越了最新Top500榜单上的任何一台超级计算机。如Frontier(37,888 个 AMD GPU)、Aurora(60,000个Intel GPU)和Microsoft Eagle(14,400个Nvidia H100 GPU),似乎都远远落后于xAI机器。

  尽管规模庞大,但“世界上最强大的AI训练集群”的名头难以长期保持。

  目前,微软、谷歌和Meta等其他科技巨头也都在扩建数据中心来训练和运行他们的人工智能模型。路透社曾报道称,微软和OpenAI正在计划建设一个数据中心项目,该项目将包含一个拥有数百万专用服务器芯片的超级计算机,而目前项目耗资可能1150亿美元,包括一个名为 Stargate(「星际之门」)的人工智能超级计算机,预计将于2028年启动。

  Meta首席执行官扎克伯格也在今年一月份表示,到2024年底,公司的计算基础设施将包括3万张H100显卡。他还补充道,“如果包括其他GPU,则大约有60万台H100等效计算。”

  此外,除了算力竞争激烈的外患以外,xAI建设算力中心的内忧也一直存在。

  据孟菲斯当地媒体报道,xAI将在占地785,000平方英尺的前伊莱克斯孟菲斯工厂建造一个超级计算机集群,“将是该市历史上一家新进入市场的公司最大的资本投资。”

  负责这笔交易的经济增长非营利组织大孟菲斯商会会长泰德·汤森称,经过3月份几天的激烈谈判,马斯克和他的团队(其中包括来自他几家公司的代表)选择了田纳西州的孟菲斯市,因为这里电力充足,而且建设速度快。

  然而,xAI还没有与当地公用事业公司田纳西河谷管理局(Tennessee Valley Authority)签订合同,“TVA 尚未与xAI签订合同。我们正在与xAI和MLGW的合作伙伴就提案和电力需求的细节进行合作。”TVA还指出,任何超过100兆瓦的项目接入电力系统都需要TVA批准。

  尽管大孟菲斯商会团体赞扬xAI在该地区开设设施的决定,但一些当地人对该设施的能源和水消耗表示担忧。孟菲斯社区反污染组织和其他两个环保组织警告说,计算机设施会造成严重的“能源负担”。他们表示,“xAI预计每天至少需要一百万加仑的水用于其冷却塔。”

  孟菲斯市议会的几名成员正敦促政府停止马斯克算力工厂在孟菲斯建设,因为社区对这笔交易的秘密性质以及数据中心对电力和水的要求越来越担忧。

(文章来源:科创板日报)

文章来源:科创板日报 责任编辑:43
原标题:马斯克启动“全球最强大AI训练集群” 背后隐藏内忧外患
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500