编辑:乔阳我很困
【新智元导读】最近,许久没有新动向的马斯克放出了大消息——他旗下的人工智能初创公司xAI将投入巨资建造一个超算中心,以保证Grok 2及之后版本的训练。这个「超级计算工厂」预计于2025年秋季建成,规模将达到目前最大GPU集群的四倍。
一段时间以来,OpenAI、谷歌、微软相继召开会议,AI世界竞争日趋严重。
在如此充满活力的时代,怎么能少了马斯克先生呢?
不久前,他还忙于特斯拉和星链项目,但最近他似乎开始腾出手来,毫不费力地发布重磅公告。他直接宣布了一个大消息:——,他要打造。全球最大的超级计算中心。
今年3月,他的xAI发布了最新版本的Grok 1.5。此后,一直有关于Grok 2 下一个版本的传闻,但没有官方消息。
是因为我的计算能力不够吗?
当然,亿万富翁可能买不到足够的芯片。今年4月,他私下表示,由于缺乏先进芯片,Grok 2模型的训练和发布被推迟。
他表示,训练Grok 2 将需要大约20,000 个基于Hopper 架构的Nvidia H100 GPU,并补充说,Grok 3 及更高版本将需要100,000 个H100 芯片。
特斯拉第一季度财报当时称,马斯克的计划是在年底前部署85,000 个H100 GPU,并使用从红杉资本和其他投资者筹集的60 亿xAI 资金。大部分钱都花在小费上了。
目前,每台H100的售价约为3万美元,仅芯片一项就花费了28亿美元,这还不包括建设成本和其他服务器设备。
马斯克估计,这个芯片储备足以训练Grok 2。
但或许,经过一个月的思考,老马觉得这一步还不够大,不够突破。毕竟,xAI的定位是未来与OpenAI、谷歌等强大竞争对手正面竞争。如果你想训练一个模型,你就不能因为计算能力而丢掉链条。
因此,他最近公开表示xAI需要部署10万个H100来训练和运行下一版本的Grok。
xAI还计划将所有芯片串联起来,打造一台巨型计算机——,马斯克称之为“计算超级工厂”。
马云本月告诉投资者,他希望超级计算机能够在2025 年秋季之前启动并运行,并且由于这对LLM 的发展至关重要,因此他“亲自负责按时交付超级计算机”。
这台超级计算机可能由xAI 和Oracle 联合建造。近年来,xAI从甲骨文租用了大约16,000个H100芯片的服务器,使其成为该公司最大的此类芯片订购商。
如果不发展自己的计算能力,xAI 可能会在未来几年内花费100 亿美元购买云服务器,但最终使用“超级计算工厂”仍然会更便宜。
当今最大的GPU 集群
建成后,这个“超级计算工厂”的规模将至少是当今最大GPU 集群的四倍。
例如,根据Meta官网3月份公布的数据,启动了两个包含24000个H100 GPU的集群用于Llama 3训练。
尽管英伟达已宣布将于今年下半年开始生产和交付其全新Blackwell 架构B100 GPU,但马斯克目前的计划是购买H100。
与其购买大量可能停产的型号,为什么不尝试使用最新型号的芯片呢?黄先生本人向我们——解释了其中的原因:“在当今的AI竞赛中,时间至关重要。”
NVIDIA 每年都会更新新一代产品。如果你想等我的下一个产品,你就会失去训练时间和先发优势。
下一家达到里程碑的公司引入了突破性的人工智能,而下一个最接近的公司仅将其人工智能提高了0.3%。您想选择哪一款?
这就是为什么保持技术领先地位很重要,这样您的客户就可以依赖您并相信您能够保持领先地位。时间在这里至关重要。
这就是为什么我的客户仍然对构建料斗系统感到兴奋。时机就是一切。下一个里程碑即将到来。
但即使一切顺利,马斯克“个人负责”的“超级计算工厂”如期交付,该集群到明年秋天能否达到规模优势,能否持续还有待观察。
扎克伯格今年1 月在Instagram 上发帖称,Meta 计划在今年年底前额外部署35 万台H100,使H100 总数达到60 万台,其中包括已经可用的计算能力,尽管他说是相当的,但他没有提到单集群。芯片。 数量。
然而,在5 月初Llama 3 发布之前,这个数字在不到六个月的时间里几乎翻了一番,当时Meta 向Nvidia 额外购买了50 万块GPU,总计100 万块(零售价:30 美元)。十亿。
与此同时,微软的目标是在今年年底拥有180 万个GPU,而OpenAI 则更加激进,希望为其最新的AI 模型使用1000 万个GPU。两家公司还在洽谈开发价值1000 亿美元、由数百万个Nvidia GPU 驱动的超级计算机。
这场算力之战谁将最终获胜?
可能是英伟达。
不仅仅是H100。 NVIDIA CFO Colette Kress 此前曾提到Blackwell 旗舰芯片的优先客户名单,包括OpenAI、亚马逊、谷歌、xAI 等。
即将量产的B100以及英伟达今后每年都会更新的芯片,将继续部署在英伟达的超级计算中心,帮助英伟达完成算力的升级和迭代。
芯片或电量不足
对于特斯拉算力问题,马斯克表示,到目前为止,芯片短缺一直是AI发展的一大制约因素,但在未来一到两年内,电力供应将变得极其重要,而作为最大的芯片,它将他补充说,他甚至可能被取代。限制因素。
最重要的考虑因素,包括这个新“超级计算工厂”的选址,是电源。拥有100,000 个GPU 的数据中心可能需要100 兆瓦的专用电源。
显然,xAI 公司办事处所在的旧金山湾区并不是提供这种级别电力的理想选择。为了降低成本,数据中心通常建在电力便宜且充足的偏远地区。
例如,微软和OpenAI 正在威斯康星州建设一座大型数据中心,建设成本约为100 亿美元,此外还计划建造价值1000 亿美元的超级计算机。亚马逊云服务数据中心位于亚利桑那州。
“超级计算工厂”很可能位于德克萨斯州奥斯汀的特斯拉总部。
特斯拉去年宣布的Dojo 已在这里推出。该超级计算机基于定制芯片,有助于训练AI自动驾驶软件,也可用于向外界提供云服务。
第一个Dojo 在10,000 个GPU 上运行,建造成本约为3 亿美元。马斯克在4 月份表示,特斯拉目前总共使用35,000 个GPU 来训练其自动驾驶系统。
在数据中心训练模型是一个非常耗电的过程。 GPT-3训练预计消耗1,287兆瓦时的电力,大致相当于130个美国家庭一年的用电量。
马斯克并不是唯一一位注意到人工智能功率问题的首席执行官。 Sam Altman 本人已向Helion Energy 投资了3.75 亿美元,这是一家初创公司,旨在利用核聚变提供更环保、成本更低的AI 数据中心运营方式。
马斯克并不押注于核聚变技术,但他认为人工智能公司很快就会开始争夺能够将高压电流转换为电网可用电力(例如300 千瓦)的降压变压器。 ) 低于1 伏是一个显着的下降。 ”
除了芯片,AI产业还需要“变压器的变压器”。
原创文章,作者:小条,如若转载,请注明出处:https://www.sudun.com/ask/83064.html