新闻
发布日期:2026-04-18 10:16 点击次数:154
文 | 半导体产业纵横
东谈主工智能的极限便是拼卡的极限。顶级 AI 公司为这场"暴力好意思学"竞赛设定了单点集群万卡的门槛。
OpenAI 的单点集群 5 万张卡,谷歌 2.6 万张卡,Meta2.45 万张卡。摩尔线程首创东谈主兼 CEO 张建中曾在发布会上暗示," AI 主战场,万卡是最低标配。"
而跟着 DeepSeek 的横空出世,一场对于 AI 法子重写的大戏正在演出。
01 万卡集群如故 AI 入场券吗?
2020 年,微软率先构建了万卡智算中心用来其 AI 布局,随后各大科技巨头竞相参加万卡集群的智算中心建树,举例亚马逊、谷歌、Meta、特斯拉、xAI,国内科技公司字节高出、百度、蚂蚁、华为、科大讯飞、小米都建树了万卡集群,腾讯、阿里也曾卷向十万卡集群。
搭建万卡集群的智算中心需要消耗弘远的财力,单是 GPU 的采购资本就高达几十亿元。尽管造价腾贵,但"万卡集群"智算中心使得磨真金不怕火复杂的大模子成为可能,因此被业界视作 AI 竞赛的"入场券"。
长江证券在其研报中指出,"模子大小和磨真金不怕火数据量大小成为决定模子才调的要道成分。在同等模子参数和数据集下,集群磨真金不怕火时候有望显赫裁减。更大、更先进的集群能实时对阛阓趋势作出反映,快速进行迭代磨真金不怕火。举座上超万卡的集群将有助于压缩大模子磨真金不怕火时候,完了模子才调的快速迭代,并实时对阛阓趋势作出莽撞,完了大模子工夫上的追逐和当先。"
而 DeepSeek-V3 在磨真金不怕火时只是使用了 2048 个 H800 GPU,可是在多个表率测试中却取得了很可以的音讯,在数学基准测试 GSM8K 和 MATH、算法类代码 LiveCodeBench 等测试中超越此前的大模子拔得头筹。这不由激勉了一个念念考,DeepSeek 撑执千卡级集群磨真金不怕火,那么万卡智算中心如故 AI 入场券吗?
起首,咱们必须要承认万卡集群在大模子磨真金不怕火端仍有必要性,其次,大模子独到化部署已成业内共鸣,企业独到部署袖珍数据中心阛阓将会爆发。
DeepSeek 出现之后,宽阔公司都在争贯串入,作念我方的腹地部署。企业建树"我方的袖珍智算中心",部署 1~10 台就业器(百卡之内),或 10 来 20 台就业器(百卡范围),也可以完了高效的 AI 业务。这无疑让 AI 入场券发生了变化,"暴力堆卡"不再是独一进场模式,更多的企业可以通过算法优化参与到这场 AI 激越中。
以华为和瑞金病院相助发布的临床级多模态互动式病理大模子 RuiPath 为例,只是使用了 16 张算力卡,就学习了 300 余本病解析诊竹帛,在病理大夫整理的常用问题测试中问答准确率可到 90%。
高通工夫以为,现时先进的 AI 小模子已具有超卓性能。模子蒸馏和新颖的 AI 网罗架构等新工夫大概在不影响质料的情况下简化迷惑经由,让新模子的推崇超越一年前推出的仅能在云表运行的更大模子。
除此以外,企业部署袖珍智算中心也为四大运营商和铁塔公司带来了新的机遇。袖珍数据中心的部署需要悠闲的地方、电力、网罗等基础神色,而运营商和铁塔公司的物理机房资源是现成的,以中国铁塔为例,当今领有 210 万站址资源、动力神色和近百万处机房,并有 22 万"通讯塔"已升级为"数字塔"。另外,袖珍数据中心有计划数据产生源泉,可完了数据的快速处理和分析,对于边际算力的需求增多,当今中国铁塔算力正从集结式向"云边端"散布式范式更动,每个数据中心逐日新增数据量数十 T,瞻望 2025 年每数据中心接入约二十万站,改日数据范围将达数十 PB 级别。
左证 Gartner 预测,2025 年 75% 的企业数据将在边际侧处理,边际数据中心数目将高出传统数据中心的 3 倍。
02 数据中心芯片变革:磨真金不怕火减慢,推理崛起
DeepSeek 禁受纯强化学习磨真金不怕火旅途,开脱了对监督学习微调阶段的依赖,同期禁受全新的 GRPO 算法让模子群体相互学习,将内存消耗诽谤至传统 PPO 算法的三分之一,可在更少硬件资源下完成磨真金不怕火;FP8 羼杂精度磨真金不怕火,内存占用减少 50%,筹画浑沌量升迁 30%;其数据蒸馏工夫,将无效数据比例从行业平均 15% 降至 3% 以下;NVLink+InfiniBand 双通谈传输工夫使得集群里面的 GPU 通讯后果升迁了 65%。
DeepSeek 这些翻新性的方法诽谤了磨真金不怕火资本,使得数据中心芯片发生变革,改日磨真金不怕火端的高端 GPU 需求增速可能放缓,而推理端的算力需求将长期呈增长趋势。
对此,各大研究机构的判断殊途同归。其中,Gartner 预测 2025 年推理的集群算力范围将高出磨真金不怕火,IDC 预测到 2025 年用于推理的使命负载的芯片将达到 60.8%。TrendForce 集邦研究分析师龚明德指出:" DeepSeek 的驱动将促使云就业商更积极参加低资本的自有 ASIC 决策,并从 AI 磨真金不怕火重点转向 AI 推理。瞻望到 2028 年,推理芯片占比将升迁至五成。"
顾名念念义,磨真金不怕火芯片是应用在 AI 模子的磨真金不怕火阶段,需要通过普遍美艳过的数据来磨真金不怕火系统以稳当特定功能,因此更强调筹画性能和存储才调,而推理芯片在模子磨真金不怕火完成后,崇拜使用新数据进行预测和计算,更提神单元能耗算力、时延和资本的轮廓计议。
与英伟达市占率 98% 的磨真金不怕火芯片阛阓不同,推理芯片阛阓还未熟识,愈加百花都放。此前在网上掀翻一阵激越的好意思国东谈主工智能芯片公司 Groq,其成立于 2016 年,到当今为止也曾取得了 5 轮融资,2024 年 8 月 Groq 完成 6.4 亿好意思元的最新一轮融资后,估值达到 28 亿好意思元。Groq 专为大言语量身定制的新式 AI 加快芯片 LPU,性能推崇比老例的 GPU 和 TPU 升迁 10 到 100 倍,推理速率达到了英伟达 GPU 的 10 倍。
在海外阛阓,博通和 Marvell 是主要的推理芯片供应商。其中,博通与谷歌相助假想了六代 TPU,瞻望将在 2026、2027 年推出的第七代 TPU,同期其与 Meta 在 AI 基础神色方面的相助可能会达到数十亿好意思元;Marvell 则是与亚马逊、谷歌和微软相助,当今正在分娩亚马逊 5nm Tranium 芯片和谷歌 5nm Axion Arm CPU 芯片,同期瞻望在 2025 年启动亚马逊 Inferentia 芯片技俩,2026 年启动微软 Maia 芯片技俩。
在国内阛阓,各大科技公司也在积极布局 AI 推理芯片阛阓。
达摩院推出的含光 800 AI 芯片,单芯片性能是谷歌 TPU v3 的 8.5 倍、英伟达 T4 的 12 倍。
百度昆仑系列 AI 芯片,率先撑执 8bit 推理,百舸 DeepSeek 一体机搭载昆仑芯 P800,推理延伸低,平均 50 毫秒以内,其中昆仑 3A 超越英伟达 A800。
寒武纪的念念元 590 智能芯片,果真撑执统统主流模子,单卡算力高出英伟达 A100,集群算力接近 A100 水平,千卡互联的集群会再厌世一些性能。
当今,大模子推理阶段靠近许多优化挑战,起首便是 KV Cache 处理,推理过程会产生普遍中间限度用于诽谤筹画量。若何处理这些数据很要道,举例禁受页面式处理,但页面大小是固定如故左证负载特征动态退换,都需要仔细假想。其次是多卡协同:当模子较大时需要多 GPU 配合,举例在 8 个 GPU 上进行大模子推理,若何优化卡间并行亦然一大挑战。最枢纽的便是算法优化:若何从量化等角度进行优化,充分施展底层算力性能。
03 算法补性能:芯片竞争运行卷"软硬协同"
DeepSeek 之是以大概以 2048 个 H800 芯片惊艳天下,其中的枢纽原因之一是其对硬件进行了极致工程化调动,通过自界说 CUDA 内核和算子会通工夫,将 H800 GPU 的 MFU(模子 FLOP 期骗率)升迁至 23%,远超行业平均 15% 的水平,在交流硬件要求下可完成更多筹画任务,升迁磨真金不怕火后果,而况在 GPU 集群上完了了 98.7% 的执续期骗率。
这种翻新性的用算法补性能模式,被复旦大学复杂体系多表率研究院院长、上海东谈主工智能实验室领军科学家、国际著名筹画生物学家马剑鹏教育称为"中国 AI 的换谈超车"。同期,这种模式也将倒逼芯片厂商从"拼制程"转向"算法适配性"假想,预留更多接口撑执动态算法迭代,如可编程 NPU 架构。
人所共知,AI 用例正在不断演进,要在功能十足固定的硬件上部署这些用例明白是不切骨子的。而可编程 NPU 架构提供丰富编程接口和迷惑用具,撑执多种编程言语和框架,迷惑者可便捷地左证新算法需求进行编程和配置。同期,撑执左证不同算法需求动态重构筹画资源,如筹画单元、存储单元等等。
最枢纽的是,芯片研发资本高,预留接口撑执动态算法迭代可使芯片在较万古候内保执竞争力,面对新算法无需再行假想硬件,而是通过软件升级等模式来适配新算法,再也不惧算法更新迭代。
DeepSeek V3 中使用了比拟 CUDA 更底层的 PTX 来优化硬件算法,绕过了 CUDA 的高层 API,平直操作 PTX 请示集进行更细粒度的硬件优化,能在一定进程上开脱对 CUDA 高层框架的依赖,为迷惑者提供了不依赖 CUDA 进行 GPU 资源优化的阶梯。同期,DeepSeek GPU 代码使用了 OpenAI 建议的 Triton 编程言语来编写,而 Triton 的底层可调用 CUDA,也可调用其他 GPU 言语,为适配更多类型的算力芯片奠定了基础。
因而,咱们会看到许多报谈中都写谈," DeepSeek 打破英伟达 CUDA 工夫壁垒"。事实上,DeepSeek 的这一举动诠释芯片竞争从一运行的利弊卷硬件进入到更新的"软硬协同"内卷之中。而开源框架与国产芯片联结会是打破口,DeepSeek 既能在英伟达芯片上运行,也能在华为昇腾、AMD 等非主流芯片上高效运行。
更为潜入的影响是 AI 芯片范围不再是英伟达"一家独大",更多的芯片公司可以参与进来。而处在英伟达上游的存储芯片公司,举例三星电子、SK 海力士等可能也要被动进行转型。
此前,三星电子、SK 海力士等半导体巨头的发展政策一直是禁受以通用存储器为重点的量产模式,其业务也很猛进程上依赖于对英特尔、英伟达和 AMD 等主要客户的批量供应,此前好意思银分析预测 SK 海力士可能取得 2025 年英伟达 Blackwell GPU 的 60% 以上订单。
DeepSeek 发布使得科技公司对英伟达高端芯片需求会减少,可是阛阓对于 AI 芯片的总需求却不一定会减少。正如经济学家杰文斯所言:工夫进步天然提高了资源的使用后果,但需求的增多时常会导致总消耗量反而增多。
亚马逊首席本质官安迪・贾西曾暗示,DeepSeek 工夫打破反而会鼓舞东谈主工智能举座需求的增长。东谈主工智能推理等工夫资本的下跌,并不虞味着企业会减少在工夫上的参加。违抗,资本诽谤让企业大概迷惑此前因预算受限而放手的翻新技俩,最终反而加大了举座工夫开销。
这无疑是三星电子、SK 海力士转型的弘远契机开yun体育网,开脱对英伟达的依赖,拥抱更精深的阛阓。HBM 需求从高端 GPU 转向定制化存储决策,为 AI 就业提供各样化的产物威望。
Powered by kaiyun体育全站app入口IOS/安卓全站最新版下载 pc6下载站 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群系统 © 2013-2024