人工智能数据中心入门|Bolt荐阅

时间: 2024-12-25 21:01:36 |   作者: 斯诺克今晚在线直播时间

  Eric Flaningam 是 Felicis(风险投资公司)的投资人和研究员,近期他在 Substack (在线内容分享平台)分享了一篇

  我们正处于历史上顶级规模的计算基础设施的建设期。当今的场景很像一百多年前的电网建设。在电网的诞生过程中,我们正真看到了发电厂规模扩张、天文数字的资本支出和电力成本的急剧下降。今天,我们正真看到的是数据中心的规模扩张、来自超大规模供应商的大额资本支出,以及AI计算成本的骤降。

  这是一篇对AI数据中心的介绍文章,我们将分几部分对AI数据中心进行系统性分析:它是什么、上下游企业链,以及潜在的投资机会。

  “数据中心”这个词并不能准确描述这些人工智能工厂的庞大规模。研究之后发现,超大数据中心的建设需要耗资数十亿美元,包括土地、电力和冷却设备、建设成本、GPU 以及其他计算基础设施。

  这还不包括能源成本。如果我们算上能源成本,一个超大规模数据中心将消耗高达 1 千兆瓦的能源。作为参考,纽约市的电力消耗约为 5.5 千兆瓦。因此,每五个这样的超大数据中心,我们就在电网中增加了一个相当于纽约市的负荷。

  我们可以将数据中心的价值链大致分为几个类别:开发数据中心的初始建设、支持数据中心的工业设施、数据中心的计算基础设施,以及数据中心供电所需的能源。此外,还有一些企业具有或租赁数据中心,为广大购买的人提供终端服务。

  注意:这幅图片并没有触及数据中心所涉及的每一个企业。金融家、房地产开发商、建筑公司和其他许多公司都为数据中心的建设做出了贡献。

  在深入探讨之前,我们该先看看数据中心的历史,这与我们今天看到的能源紧缺尤其相关,特别是在美国北弗吉尼亚地区。

  数据中心在很大程度上是随计算机和互联网的兴起而发展的,我将简要讨论这些趋势的发展历史以及我们是如何走到今天的。

  早期版本的计算机看起来与今天的数据中心相似:一个集中式计算机,旨在计算密集型的复杂任务。

  1. Colossus:艾伦·图灵(Alan Turing)为了破译恩尼格玛机而建造的计算机。

  2. ENIAC:二战期间美国军方设计的计算机,但直到 1946 年才完成。Colossus 是在 ENIAC 之前建造的,但由于 Colossus 的保密性质,ENIAC 通常被视为第一台计算机。

  20 世纪 50 年代,IBM 凭借其推出的大型计算机成为了计算机领域的霸主,并在计算机技术领域占据了数十年的主导地位。AT&T 也是当时另一家占主导地位的科技公司。

  1969 年发布的 ARPANET(阿帕网)是为了连接美国日益增多的计算机而开发的,它现在被认为是网络的早期版本。由于这是一个政府项目,其最密集的连接大多分布在在美国华盛顿特区附近。

  这就是美国北弗吉尼亚州在计算领域占据主导地位的最终的原因。时至今日,随着新一代数据中心的建立,他们盼望利用现有的基础设施,于是更多的数据中心在弗吉尼亚州北部地区建立和发展。

  20 世纪 90 年代,随着网络的发展,我们应该更多的物理基础设施来处理日渐增长的互联网数据,这在某些特定的程度上表现为数据中心作为相互连通的节点。AT&T(美国电话电报公司)等电信提供商已经建立了通信基础设施,因此,对他们来说,建设数据中心是顺理成章的扩张。

  然而,这些电信公司的合作竞争态势与今天的垂直整合云提供商类似。AT&T 拥有通过其基础设施传输的数据及基础设施本身。因此,在容量有限的情况下,AT&T 会优先处理自己的数据。公司对这种动态保持警惕,这导致了 Digital Realty 和 Equinix 等数据中心公司的崛起。

  在整个互联网泡沫期间,数据中心得到了大量投资,但泡沫破灭后,投资速度明显放缓。

  2006 年,随着亚马逊 AWS(Amazon Web Services)的发布,数据中心的低迷状态开始扭转。从那时起,美国的数据中心容量开始稳步增长。到今天,这种稳定的增长还在持续,据估计,到 2030 年,数据中心的容量将翻一番。

  2023 年人工智能狂潮席卷而来,模型训练所需的算力资源促使人们重新关注数据中心的规模。研究之后发现,计算基础设施之间的距离越近,性能就越强。此外,当数据中心被设计为计算单元而不单单是服务器机房时,公司能够获得额外的集成优势。不仅如此,由于模型训练不需要靠近最终用户,数据中心可以建在任何地方。

  总结当今的人工智能数据中心的特点:注重规模、性能和成本,还能够在任何地方建造。

  构建数据中心有两种方式,算力提供商可以再一次进行选择自行构建,或者与数据中心开发商(如 Vantage、QTS 或 Equinix)合作完成。

  首先他们要寻找一个合适的地方。然后会需要聘请一名总承包商来管理整个建设过程,总承包商会根据功能分别聘请专业的分包商进行实施工程,如电气、管道、暖通空调等。工人们将在项目进行期间搬到该地区。数据中心建筑外壳搭建完成后,下一步是安装设备。

  1. 电器设备:电气设备主要包含能够连接外部能源的主开关柜、配电装置、不间断电源(UPS)与服务器电源连接线。大多数数据中心还配有柴油发电机,作为停电时的备用电源。

  2. 冷却设备:最重要的包含冷却器、冷却塔、暖通空调设备(HVAC)以及连接服务器本身的冷却液或空气冷却设备。

  数据中心计算所需的基础设施最重要的包含运行模型训练和推理工作负载的设备。主要设备是 GPU 或加速器(Accelerator)。除了 Nvidia、AMD 和超级计算机之外,还有许多初创公司也在争夺人工智能加速器这块蛋糕。

  虽然 CPU 的重要性不如过去,但在执行复杂运算和任务分配方面仍然扮演着重要角色。在数据存储方面,存储设备负责将数据保存在芯片之外,而内存则专门用于存储需要频繁访问的数据。至于网络,它的作用是连接所有组件,实现服务器内部以及服务器与外部之间的通信。

  最后,所有这些都被打包到服务器中,安装在数据中心。如下图所示,我们大家可以在这里直观地看到其中一台服务器。

  2. 发电:发电厂将化石燃料转化为电能;而可再次生产的能源的发电则更接近电能的来源。

  3. 输电:变压器和变电站将高压电能转换为可控的电能,并通过高压线向目的地输电,以供人们使用。

  4. 配电:公共事业公司将管理最后一英里的配电,并通过购电协议 (PPA) 管理电力的输送。

  输电和配电就是通常所说的电网,由当地管理,根据地点的不同,其中任何一个都有几率会成为能源输送的瓶颈。

  遗憾的是,要快速提高能源容量并不是特别容易。数据中心有两种选择:并网能源和离网能源。1)并网能源通过电网,由公用事业公司分配。2)离网能源绕过电网,如太阳能、风能和电池。3)除此之外,还可以再一次进行选择在 2.5 千兆瓦核电站旁边建造一个千兆瓦数据中心,这样效果会更好。

  使用电网能源的问题就在于扩大电网容量所需的时间。下图显示了公司申请商业用电需要的等待时间。

  新一代数据中心规模更大、密度更高、速度更快、能耗更高。建设超大规模的数据中心并非新鲜事。从 2001 年的几兆瓦,到 2010 年代的 50 兆瓦,到 2020 年的120兆瓦大型数据中心,再到今天的千兆瓦级数据中心,每隔几年就会有关于数据中心超大规模的文章。

  这些千兆瓦的数据中心从系统角度进行设计,密度也更高。这里要解决的核心问题是摩尔定律的放缓,即随着晶体管密度的增加,半导体的性能将逐步的提升。然而,晶体管的改进正慢慢的变具有挑战。因此,解决方案是将服务器甚至整个数据中心更紧密地结合在一起。

  在实践中,这在某种程度上预示着数据中心正在被设计成集成系统,而不是堆满单个服务器的房间。这些服务器也被设计成集成系统,使所有设备更紧密地结合在一起。

  这就是 Nvidia 销售服务器和 POD(最小的可部署计算单元)的原因,也是超大规模企业建设系统级数据中心的原因, 大概也是 AMD 收购 ZT Systems 的原因。

  我们可以在下面看到 Nvidia DGX H100 的视觉效果,它可以是一立的服务器,也能够最终靠 POD(最小的可部署计算单元)与其他 GPU 相连,或者通过 SuperPOD(超级计算集群)连接,以实现更多连接。

  Nvidia 还帮助开创了加速计算,即从 CPU 中卸载任务,来提升了包括 GPU、网络和软件在内的所有其他组件的重要性。

  除此之外,人工智能的独特需求还要求处理海量数据。这就使得存储慢慢的变多的数据(内存 /存储)和快速移动慢慢的变多数据的能力变得更重要。这类似于心脏泵血,GPU 是心脏,数据是血液。

  这些零部件汇聚在一起,形成了这个星球上最强大的计算机。然而随着计算能力的提升,也会导致更多的能源消耗、更多的热量产生以及每台服务器所需的更多冷却,而且这种能耗只会慢慢的高。

  很明显,我们的能源基础设施需要发展,以支持这种建设。几乎每家科技公司都希望使用电网供电,因为这样更可靠,管理起来也更省事。不幸的是,当电网没办法提供电力时,超大规模的科技公司就需要自行解决电力问题。例如,AWS 将投资 110 亿美元在印第安纳州建设一个数据中心园区,并建设四个太阳能发电场和一个风力发电场(600 兆瓦)为其供电。

  从中长久来看,我最看好解决能源瓶颈的两个领域:核能和高储能电池。这两个领域都能为数据中心提供更具可持续性的能源。

  核电的优点有目共睹:清洁、可靠。现在的挑战是如何以经济可行的方式建造核电。依我来看,世界上一些最令人兴奋的初创公司正在应对这一挑战。

  高储能电池创新将是可再次生产的能源向前迈出的重要一步。太阳能和风能的问题就在于它们的不稳定性。它们只能在刮风或太阳出来时提供能源,而长期电池可以在能源过剩时储存能源,在能源匮乏时调配能源,从而帮助解决这一问题。

  1.施工许可自动化:当我与研究人员交谈时,有一个话题始终是制约数据中心建设的瓶颈:施工许可。对于数据中心和能源扩建,开发商需要获得建筑、环境、分区、噪音等方面的许可。他们在大多数情况下要获得地方、州和国家机构的批准。此外,还需要遵守不一样的地区的优先购买权法律。

  2.冷却液:新型人工智能数据中心的一个明显不同是服务器产生的热量慢慢的变大。这一代数据中心将采用液冷技术,而下一代数据中心可能会采用浸入式冷却。

  我们必须承认:(1)Nvidia 在构建生态系统方面所做的了不起的工作;(2)AMD 在巩固自己作为后来者所做的努力。

  从应用到软件基础设施,再到云计算、系统和芯片, Nvidia 在AI领域的地位之高令人难以置信。如果你想编写一本为技术浪潮做准备的完美剧本,Nvidia 已经做到了。此外,Crusoe 是另一家优秀的算力基础设施建设公司,它同时提供AI计算资源和能源服务。

  总的来说,参与数据中心建设的科技公司应该会继续保持良好的业绩,因为收入会在价值链中流动。从网络到存储,再到服务器,如果一个企业能提供顶级性能,那么他们的业绩就会表现出色。

  关于数据中心建设,我的最后一点想法是:这的确是一个我们这个时代新的大趋势,但它可能只是整个计算发展史的一部分。我认为人工智能、数据中心和算力这三者是一个整体,不能分开讨论。

  “我们可以从一个狭义的角度来看待人类历史:经过数千年的科学发现和技术进步,我们已知道怎么熔化沙子,加入一些杂质,以惊人的精度和超小的规模将其排列成计算机芯片,通过它运行能量,最终形成能够创造出越来越强大的人工智能的系统。”

  在过去的 100 年历史中, 创造智能是一个始终不变的趋势,而数据中心正是当今这一趋势的核心。

  Bolt 是线性资本为早期阶段、面向全球市场 AI 应用专门设立的投资项目。它秉持线性投资的理念和哲学,专注在技术驱动带来变革的项目,希望帮助创始人找到实现目标的最短路径,不管是行动速度,还是投资方式,Bolt 的承诺是更轻,更快,更灵活。Bolt 已经在 2024 年上半年投资了 Final Round、心光、Cathoven、Xbuddy、Midreal 等 7 个 AI 应用项目。返回搜狐,查看更加多