温馨提示:本站为天鹅湖票务官方授权演出订票中心,请放心购买。
你现在的位置:首页 > 演出资讯  > 舞蹈芭蕾

智算中心蓬勃发展,大模型却成稀缺资源

更新时间:2024-11-22 12:02  浏览量:79

英伟达芯片“黄牛”们,悄然沉寂于朋友圈

在2023年大模型风靡一时之际,“黄牛”们在朋友圈的喧嚣场景犹在眼前,他们发布的消息充斥着“抢购从速、预付30%定金,诚邀实力买家!”的急切语气。然而,到了2024年,画风突变,取而代之的是“现货现结、品质优良、价格实惠”的平和语调,更有不少人已默默退出这一舞台。

以H100整机的市场价格为例,官方标价约为30万美元,而水货价格一度飙升至300多万人民币,利润空间超过50%,这诱人的利润驱使许多人投身其中。然而,时过境迁,如今该机型的价格已回落至230万人民币左右,再行倒卖已几无利润可言。

这一变化背后,既有英伟达芯片迭代更新的推动,如基于Blackwell架构的GB200等新品,其单位算力成本更为低廉;也有算力市场从狂热回归理性的必然结果。人们逐渐认识到,拥有GPU并不意味着就能转化为大模型的算力,这一现实是用大量资金投入换来的深刻教训。

大模型之“大”,往往需要由64至256台服务器(每台服务器配备8张GPU卡)组成的算力集群进行训练。对于致力于基础大模型研发的厂商而言,万卡集群已成为入行门槛。不仅海外的OpenAI、马斯克的xAI等巨头在规划10万卡集群,国内也在这条道路上奋力追赶。

来自需求端的压力,正在深刻影响AI算力产业的发展,而智算中心作为这一领域的先锋,首当其冲。作为计算、存储与网络的综合载体,智算中心直接映射出大模型算力的行业现状。从一线传来的声音不约而同地指出:智算中心虽多,但大模型的需求却难以满足。

01

算力供需悖论:紧缺与空置并存

智算中心的数量并非绝对过剩,而是面临一种复杂的供需矛盾。从不同维度观察,真正适合大模型训练的算力在未来一段时间内仍存在着显著的缺口,因此,大规模智算中心的建设步伐不会就此停歇。

以OpenAI为标杆,自ChatGPT问世两年来,大模型产业的发展步伐似乎有所放缓,但这或许只是新一轮爆发前的蓄力阶段。在“规模法则”的指引下,xAI、Meta、OpenAI等科技巨头纷纷布局十万卡乃至更大规模的智算集群。

例如,今年7月,马斯克宣布位于美国田纳西州孟菲斯市的超级智算集群已开始投入训练,该集群配备了10万个英伟达H100 GPU,被誉为“全球最强AI训练集群”。两个月后,马斯克进一步宣布,该集群将命名为“Colossus(巨人)”,并计划在未来几个月内再增配10万颗GPU,其中5万颗为更先进的英伟达H200。Grok 3的训练预计将在三到四个月内完成,目标是在12月发布。

再看OpenAI,其与微软在算力交付上的分歧也凸显了算力需求的紧迫性。微软与OpenAI曾合作共建代号为“星际之门”的巨型数据中心项目,预计成本超1150亿美元,旨在打造配备数百万块GPU的超级计算机。据悉,微软计划到2025年底向OpenAI提供约30万个英伟达最新的GB200 GPU。然而,OpenAI似乎对微软的速度并不满意,在完成最新一轮66亿美元的融资后,又与甲骨文达成合作,将在德克萨斯州的一个新数据中心租用服务器,该数据中心未来可容纳数十万个英伟达GPU。

超大规模数据中心解决方案提供商秦淮数据表示,公司坚定看好智算前景,预计2027年智算需求将迎来新一轮爆发,到2030年,100%的推理需求都将由超大规模数据中心承担。

赛迪顾问人工智能与大数据研究中心高级分析师白润轩指出,截至2024年上半年,国内已建设和正在建设的智算中心超过250个,上半年智算中心招投标相关事件达到791起,同比增长高达407.1%。这表明智算中心的建设在全国范围内得到了广泛关注和支持,各地政府自2023年起加大了对智算中心的投资力度,推动了基础设施的快速发展。

百度智能云AI计算部负责人王雁鹏则从技术角度分析了大模型算力的需求。他认为,从需求侧来看,十万卡已成为今年大模型竞争的规模门槛。大模型算力基本估算为模型大小乘以所需数据量。以GPT4为例,其拥有万亿参数,大约使用了2万至3万张H卡集群进行训练。根据规模法则推算,GPT5的集群卡数可能在5万至10万之间,参数级别将提升3至5倍。

然而,与万卡算力集群的火热态势相对应的是,大模型市场的表现却显得相对“冷静”。据不完全统计,截至2024年10月9日,国家互联网信息办公室已备案188个生成式人工智能项目,即有188个大模型可上线提供生成式人工智能服务。但其中超过三成的大模型在备案后未进一步公开进展;仅约一成的大模型仍在加速训练;接近一半的大模型则转向了AI应用的开发。

这些迹象表明,大模型预训练的需求正越来越集中于少数几个大型集群。与此同时,国内市场相较于海外市场更为复杂。相似之处在于算力需求持续增长,但不同之处在于算力封锁、生态不完善以及前期部分炒货囤卡的行为。这些因素共同导致了一种奇特的现象——算力既紧缺又空置。因为,“将GPU卡安装进机房”与“构建用于大模型训练所需的算力集群”是两个截然不同的概念。

关于智算中心的空置率或浪费程度,目前并没有一个统一的答案。但从相关资料中可以大致感知到这一问题的严重性。上半年,国内已上线的智算中心拥有17亿卡时的算力,但实际使用仅为5.6亿卡时,利用率为32%。另有数据显示,目前算力基础设施行业的平均上架率不足60%。

02

算力空置现象引发广泛关注

近期,国内已建成的众多智算中心面临算力空置的问题,这一现象已引起政府及业界的深切关注。一位与政府关系密切的行业专家向媒体透露,无论是采用国产芯片还是英伟达芯片的智算中心,都存在不同程度的闲置情况。政府已对此问题予以重视,并指出智算中心的运营主体中,有不少出现了亏损。在算力挑战短期内难以解决的情况下,投资节奏需要有所控制。

国家层面已出台多项政策推动智算中心建设,如“东数西算”工程、“数字中国建设整体布局规划”等。然而,据上述专家透露,国家发改委最近已明确表示,若再新建智算中心并采购国外芯片,将不予批复能耗指标。对于采购国产芯片的情况,若支持国产创新,并在“东数西算”的八大节点上建设,将考虑安排能耗指标。

目前,智算中心的投资模式主要包括三种:一是政府投资建设,资金来源于地方政府财政或专项债券,建成后归政府所有;二是企业独立投资建设,由企业联盟、少数企业联合或单独企业进行;三是高校或科研机构独立投资建设,主要向师生和研究人员提供免费算力支持,服务高校教育场景,建设成本相对较低。

值得注意的是,有不少智算中心通过银行贷款采购GPU芯片,而兜底方多为阿里巴巴、腾讯、百度等基础大模型公司。这引发了银行的疑虑,因为大模型公司本身已拥有云基础设施和大量GPU芯片,中间商的议价权和渠道能力往往不如这些大厂,银行对大厂是否愿意加价采购表示疑惑。

为应对算力空置问题,有地方政府开始尝试让云厂商租用闲置的智算中心算力。一位专家表示,国内存在大量未充分利用的GPU芯片,算力稀缺的背后实际上存在资源错配的问题。政府已意识到可能存在算力浪费的情况,但部分地方在能耗指标和供应商之间的拉扯时间较长,导致智算中心建设进度缓慢。而部分地方建设速度快却出现亏损,这种情况甚至引起了高层的关注。

为解决智算中心建设问题,特别是国有资金建设的小规模、分散算力中心的浪费问题,工信部日前已向六个城市下发了智算云服务试点的批文,希望通过公共云的方式加以解决。

近几个月来,政府已出台多项政策,强调有序引导,出清落后产能。例如,《数据中心绿色低碳发展专项行动计划》对数据中心行业的区域布局、能效水效、绿电使用进行了严格规定,并提出全面清理地方高耗能电价优惠政策。舆论普遍认为,该政策将加速落后产能淘汰,改善行业供给结构,促进行业良性发展。

此外,《公平竞争审查条例》于今年8月1日正式实施,要求各地方政府在没有法律法规依据或国务院批准的情况下,不得给予特定经营者税收优惠。这意味着地方“以税引商”的模式将被暂停,企业将更关注经营本身,有利于行业从价格战走向创新竞争。

云计算行业也注意到了智算中心建设中的问题。阿里云智能科技研究中心主任指出,目前存在三种类型的万卡集群:假万卡集群、伪万卡集群和真万卡集群。假万卡集群是指公司虽有1万张AI加速卡,但分布在不同数据中心,无法形成真正的集群效应。伪万卡集群则是指虽然拥有1万张AI加速卡并部署在同一数据中心,但在训练特定模型时,只有部分卡实际参与训练。而真万卡集群则是指单一集群拥有1万张AI加速卡,部署在同一数据中心,并能通过大规模资源调度技术,让万卡作为一台计算机,支持单一模型的同时训练。

数据中心行业内部也对内卷现象感受颇深。例如,很多数据中心企业无条件为客户预留资源,签订短期租约并允许客户随时调价调量,过度扩大责任范围,招投标价格突破合理底线等。这些都是内卷带来的乱象,亟待行业共同努力加以解决。

03

大模型算力为何会陷入闲置状态?

在深入探讨大模型算力闲置的原因之前,我们首先需要明确大模型所需的算力类型。当前,大模型主要依赖三种类型的算力:一是超大规模的训练任务,这类任务对算力集群的需求日益增长,使得智算中心常常供不应求;二是常规的大模型训练或微调,这类任务对算力的要求相对适中,一般的裸金属服务器或算力集群即可满足;三是推理需求,这通常可以通过云主机等来满足,且未来这一需求有望保持稳定增长。

从上述分类可以看出,除了超大规模的基础模型训练需求外,其他类型的大模型算力需求并不那么紧迫。在这些场景下,国产AI芯片完全有能力替代最新的英伟达GPU卡,企业可以在价格、成本和易用性之间找到平衡点。

ZStack的首席技术官(CTO)张伟观察到了一种有趣的现象,这也是国内企业在面对AI投入时的无奈选择。他表示,企业对AI的投入普遍持谨慎态度,在很多情况下,使用消费级显卡就能满足大模型非预训练的需求。

对于云服务商来说,按照正常的商业模式,他们通常会一边购买GPU卡,一边以云服务的形式将其出售,而不会大量囤积。然而,其他囤积GPU卡的行为显然没有充分认识到销售GPU卡的难度。

租用GPU卡也是一种节省成本的方式,但考虑到GPU的更新换代,这不仅仅是支付租金那么简单。云服务商还需要带领团队进行大量的技术改造,评估地价、电价等因素,并额外配置交换机、网卡、光缆等设备。每一项资本支出都需要仔细权衡其投入价值。

阿里云智能科技研究中心的负责人李欣进一步补充说,智算中心面临的主要门槛包括集群网络、任务调度和智能运维。另一位专家赵鹏也表示,国内构建10万张GPU卡的集群面临着跨地域部署、多芯片混合训练以及集群稳定性等难题,这些难题涵盖了技术和工程上的多重挑战。

首先是网络方面,大模型催生了一种全新的网络需求,这在以前从未出现过,因此也没有成熟的解决方案。市面上的所有方案都是边研发边使用。网络技术直接决定了集群规模的大小。李欣指出,阿里云在AI高性能网络架构方面的研究成果已被国际顶级会议SIGCOMM2024收录,成为该会议上首篇关于AI智算集群网络架构的论文。

其次是任务调度方面,如果算力集群规模较小,网络结构当然会相对简单,但效率和规模就会失去竞争力。如何让计算任务在硬件资源上灵活调度,以提高资产利用率并降低算力价格,是一个关键问题。传统的方法是按照硬件资源来调度,但这种方法效率极低。云计算行业已经进化到按任务来调度,可以实时监测到每一张卡上每一个任务的进程,并根据任务进程分配新的任务。

李欣强调,任务调度不仅仅是简单地给算力卡分配任务,而是要在这些卡之间调度更细颗粒度的不同计算任务。这需要大量的工程技术能力积累,这也是为什么现在全球范围内做得好的AI公司基本上都属于云计算公司。

最后是运维方面,在以前的计算中,如果算力卡出现故障,可以很快将其隔离并继续使用其他卡运行。但现在大模型存在很多瞬时故障,在毫秒级时间内会有抖动。一次通信过程中的抖动和丢包就会导致GPU利用率下降50%。据李欣介绍,阿里云已经升级到毫秒级检测,及时从集群中隔离故障算力。

此外,国内企业在构建算力集群时还面临一个现实的困难:芯片供应不稳定。这使得企业很难构建单一大规模的训练集群。现实情况是,企业内部会出现同一厂商不同代际芯片或不同厂商芯片共存的情况。这些芯片如何进行混合训练并保证效率是一个难题。

随着芯片集成度的不断提高,芯片的故障率也会相应上升。例如,英伟达H系列芯片的故障率比A系列高3到4倍。而且算力集群规模越大,其故障率就越高。按照H系列芯片的故障率水平,一个拥有十万张GPU卡的集群每20分钟就会出现故障。较高的故障率对稳定性训练保障提出了更高的要求。

赵鹏介绍,包括百度在内的国内厂商正在破解这些难题。在跨地域方面,针对由于传输距离变长所产生的高延迟问题,百度已经构建了10万张GPU卡级别的超大规模高性能网络,通过提供更高效的拓扑结构、更优的多路径负载均衡策略及通信策略,能够实现几十公里的跨地域通信。同时,在通信效率上,通过优化的拥塞控制算法和集合通信算法策略,将带宽有效率提升至95%,实现了完全无阻塞。最后,通过10毫秒级别超高精度网络监控保障了网络的稳定性。

04

智算中心:从无序竞争迈向有序发展

关于智算中心的建设进度是否超前,社会各界存在不同观点。一方认为,国内智算中心仍受制于海外技术生态,需要三到五年的过渡期来逐步摆脱依赖。在此期间,大规模加速推进智算中心建设可能会导致资源浪费。

而另一方则主张,面对日益严峻的国际技术封锁,国产算力生态必须加速成熟。相较于国家战略层面的竞争,超前建设所带来的一些小问题是可以接受的。有报道称,受美方要求影响,台积电已采取临时措施,暂停向中国大陆AI算力芯片客户提供7纳米及以下先进制程的代工服务。

目前,囤积英伟达显卡确实造成了一定程度的算力浪费。许多购卡方并不具备智算中心所需的关键能力,如网络架构、任务调度和运维管理。一位智算中心的技术专家坦言:“之前存在太多投机行为,很多人并非真正从事这个行业,认为囤货就能赚钱。他们只是简单地将显卡堆放在机房里,却无法解决稳定性、容错性等一系列问题,导致大量浪费。”

国产算力同样面临挑战。该专家在谈及国产AI算力浪费时表示:“华为的运营能力非常强大,在大家尚未准备好使用国产显卡和华为设备时,华为已经投入巨资建设算力场和智算中心。运营商也建立了数万张显卡的集群。然而,这些国产芯片距离客户开箱即用还有一定距离,真正能够高效利用还需时日。未来,随着更多国产芯片进入市场,这一问题可能会进一步加剧。”

然而,他对国产显卡的整体前景持乐观态度。他指出,基于大模型时代的算力格局变化,原有的模型非常分散,CUDA生态之所以强大,是因为需要兼容众多模型。而现在大模型逐渐收敛,主流框架趋于一致。同时,英伟达显卡价格昂贵,考虑到算力的可获得性,更多用户会愿意尝试使用国产显卡。

近日,《科学时报》也在头版刊登了全国政协委员李泉的署名文章《智算中心建设需谨慎》,文章强调,智算中心的建设需要巨额资金投入,但投资回报却存在不确定性。由于智算技术更新迭代迅速,智算中心的生命周期通常只有5至10年。如果没有强大的技术储备和升级能力,就可能陷入不断投入却无法跟上技术发展的困境。此外,智算中心的运营管理需要专业的技术人才和高效的管理团队,否则可能无法发挥其应有的作用,甚至出现设备闲置、资源浪费等问题。

因此,智算中心的建设需要科学、谨慎的决策,不能盲目跟风。在市场需求明确且可持续的情况下,应因地制宜、按需建设、适当超前。一些地区也加强了对智算中心运营的要求。例如,山东德州的“全国一体化工业大数据山东云中心省会经济圈区域分中心数据机房‘智汇未来’智算中心项目”,在招标文件中明确规定了采用设计、施工、采购、运营一体化的建设模式,要求运营期限不低于5年,并设定了项目验收投运后每年算力的最低收益。

ZStack的首席技术官(CTO)陈明也表示,从政策角度看,政府对智算中心的要求日益严格。过去,只要建起智算中心就可以,现在则要求在建设初期就要确定好的运营方,或者实现建设与运营一体化,以确保算力的有效利用。

“去年,算力消耗主要以训练为主,但目前来看,智算中心的算力并未得到充分消化。许多大模型厂商手中也囤积了大量算力。一些大模型厂商减少了预训练任务,对外部算力的需求也相应减少。现在,许多智算中心开始寻找推理场景,研究落地应用。使用端将更加分散,整个市场应该会朝着更健康的方向发展。”他总结道。

05

智算中心发展之路:从无序竞争到有序布局

智算中心,作为新时代科技发展的重要基础设施,正经历着从无序竞争到有序布局的深刻变革。近年来,随着人工智能技术的迅猛发展,智算中心的建设成为各国竞相追逐的焦点。然而,在这一波建设热潮中,也出现了不少问题和争议。

一方面,有人担忧智算中心的建设过于超前,可能会带来大量的资源浪费。特别是在国内智算中心仍无法完全摆脱海外生态体系的情况下,这种担忧尤为强烈。一些人认为,需要三到五年的过渡期来逐步适应和构建自己的技术生态,而在此期间,大规模加速推进智算中心建设可能会带来不必要的浪费。此外,一些地方在智算中心的建设上缺乏科学规划和合理布局,导致设备闲置、资源利用效率低下等问题。

另一方面,也有人认为面对国际技术封锁和竞争压力,国产算力生态必须加速成熟。智算中心的建设是国家战略竞争的重要组成部分,超前建设所带来的小问题是可以接受的。特别是在当前国际形势下,一些海外企业受到政治因素影响,开始限制对中国大陆的技术供应。这更加凸显了加速构建自主可控的算力生态的重要性。

然而,智算中心的建设并非一蹴而就,需要科学、谨慎的决策和规划。首先,需要明确市场需求和可持续性,确保智算中心的建设能够真正满足实际需求,避免盲目跟风。其次,需要因地制宜、按需建设,根据不同地区的经济、科技、人才等条件,制定科学合理的建设方案。同时,还需要适当超前,预留发展空间,以应对未来技术的快速发展和变化。

在智算中心的运营方面,同样需要专业的技术人才和高效的管理团队。一些地方在智算中心的建设上虽然投入了大量资金,但由于缺乏专业的运营团队和管理经验,导致设备无法充分发挥其作用,甚至出现了资源浪费和闲置的问题。因此,在智算中心的建设初期,就需要确定好的运营方,或者实现建设与运营一体化,以确保算力的有效利用。

此外,随着技术的不断发展和市场的不断变化,智算中心也需要不断升级和更新。一些地方在智算中心的建设上缺乏长远规划,导致设备和技术很快过时,无法跟上市场和技术的发展步伐。因此,在智算中心的建设过程中,需要注重技术储备和升级能力,确保智算中心能够持续发挥其在科技发展中的重要作用。

近年来,一些地方已经加强了对智算中心运营的要求,明确了采用设计、施工、采购、运营一体化的建设模式,并规定了项目验收投运后每年算力的最低收益。这些措施有助于确保智算中心的建设和运营更加科学、合理和高效。

总的来说,智算中心的发展之路需要从无序竞争走向有序布局。在建设过程中,需要注重科学规划、合理布局、专业运营和持续升级等方面的工作。只有这样,才能确保智算中心在科技发展中发挥更大的作用,为国家的科技进步和经济发展做出更大的贡献。同时,也需要加强国际合作和交流,共同推动全球智算中心的发展和进步。

华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。