金磊 发自 WAIC
量子位 | 公众号 QbitAI
放眼当下,到底哪个芯片跑满血DeepSeek是最快的?
谜底很偶而——不是你认为的英伟达,而是一家国产GPU。
因为目下它的速率,一经径直来到了100 tokens/s!
这个速率比较海外GPU的50 tokens/s和国内的15 tokens/s,一经称得上是快上了一个数目级。
要是将三者放在一说念同期运行,成果会愈加一目了然。
伸开剩余95%当中间的国产GPU以鸿篇巨制之势给出了完整准确谜底之际,双方的“选手”则是还在深度念念考过程中:
那么这个国产GPU到底是谁?
不卖关子,它便是摩尔线程。
但这时深信有许多小伙伴会问了,从成立到目下不到5年时期,摩尔线程的缘何获取如斯速率。
在量子位了解完其在“算力之说念”的全貌之后发现,谜底,远比“作念出一颗更快的芯片”要庞杂和深入。
一经造了个AI超等工场
没错,这是因为摩尔线程在搞算力这件事儿上,一经给自家打造了一个AI超等工场(AI Foundry)。
提到Foundry这个单词,许多东说念主第一响应或者便是造芯俄顷的“晶圆厂”,它的价值取决于于坐褥芯片的良率、产能和工艺先进性。
但AI超等工场,它并非指代一个物理上坐褥芯片的晶圆厂,而是一个类比的观念:
这个AI工场的进化,就像升级制程一样,毫不是改改某个单一技巧就完事儿了,而是一个系统性、全方向的变革。
它条目通盘技巧栈“换骨夺胎”:从最底层的芯片架构必须转换、到集群的举座架构得开阔筹算,再到软件层面——算法奈何调更机灵,资源蜿蜒奈何跑更高效,每一个措施都至关进犯。
正是这种从根儿上动起来的基础设施大篡改,才能的确开释AI算力,终了大范围“坐褥”和“迭代”前沿AI大模子。
需要强调的一丝是,要建成这样一座超等工场,绝非暴力地将雨后春笋张显卡堆砌在一说念这样简便。
它需要五大中枢成分的精采耦合与协同进化,统筹兼顾;
这个AI工场的产能,用一套公式可玄虚为:
AI工场坐褥效率 = 加快经营通用性 × 单芯片有用算力 × 单节点效率 × 集群效率 × 集群沉稳性
摩尔线程正是围绕这五大成分,构建了技巧护城河。
全功能GPU:超等工场的基石
AI超等工场的基石,指的是一颗具备强盛通用性的“全功能GPU”。因为总结算力的进化史,其实便是一部全功能GPU的发展史。
从最初只可加快3D图形的“显卡”(VGA Card),到盛开编程接口、允许开采者创造无穷可能的“当代图形处理器”,再到被平庸应用于超算、深度学习、区块链等畛域的通用经营平台,GPU的每一次飞跃,都源于其通用性的拓展。
单一功能的加快器,如早期的3D加快卡或今天的某些专用AI芯片(ASIC),天然在特定任务上效率极高,但其无邪性差、编程阻难,无法符合AI模子日眉月异、应用场景无独有偶的发展趋势。
一个AI模子可能既需要处理说话,也需要清醒图像,致使要进行物理天下的模拟。如果工场的“机床”只可处理一种任务,那么它很快就会被淘汰。
因此,摩尔线程从创立之初就坚抓打造的确的全功能GPU,既要“功能完备”,也要“精度完整”。
源流是“功能完备”,即芯片里面集成了四大中枢引擎:
AI经营加快引擎:不仅能作念推理,更能作念考研,终了训推一体。
先进的3D图形渲染引擎:维持DX12等当代图形API,餍足游戏、AIGC、数字孪生等视觉经营需求。
物理仿真与科学经营引擎:这是常被残忍却至关进犯的一环。畴昔的Agentic AI、空间智能都需要与物理天下交互,强盛的科学经营本事是贯串数字天下与物理天下的桥梁。
超高清视频编解码引擎:AI的经营胁制最终需要通过视觉和听觉呈现给东说念主类,高清、低蔓延的流媒体处理本事是东说念主机交互体验的保证。
AI经营加快引擎:不仅能作念推理,更能作念考研,终了训推一体。
先进的3D图形渲染引擎:维持DX12等当代图形API,餍足游戏、AIGC、数字孪生等视觉经营需求。
物理仿真与科学经营引擎:这是常被残忍却至关进犯的一环。畴昔的Agentic AI、空间智能都需要与物理天下交互,强盛的科学经营本事是贯串数字天下与物理天下的桥梁。
超高清视频编解码引擎:AI的经营胁制最终需要通过视觉和听觉呈现给东说念主类,高清、低蔓延的流媒体处理本事是东说念主机交互体验的保证。
其次,“全经营精度”阴私。从FP32、FP16到业界前沿的FP8,乃至更低精度的INT8/INT4,完整的精度维持让路发者不错凭证不同任务的需求,在性能和精度之间找到最好均衡点。
非常是在大模子考研中,夹杂精度考研已是标配,而摩尔线程是国内少许数能够提供FP8考研本事的平台。“全功能”和“全精度”本事,确保了摩尔线程的GPU这座“机床”能够连结各种AI模子坐褥订单。
MUSA斡旋系统架构:超等工场的“总筹算师”
如果说全功能GPU是工场的机床,那么MUSA便是通盘工场的“总筹算师”。一个罕见的顶层架构,能够决定一家公司畴昔十年致使更万古期的技巧途径和发展后劲。
MUSA的核口头念是“一个架构,万千应用”(One Architecture for Many Applications)。它选拔创新的多引擎、可伸缩、可建树的斡旋系统架构,将GPU里面的经营、通讯、内存、蜿蜒等功能进行顶层筹算和斡旋经管。
先来看可伸缩,顾名念念义,MUSA架构是不错凭证不同客户、不同商场的需求,快速编订出优化的芯片建树,大幅诽谤了新品芯片的开采资本。
其次,资源全局分享,简便说,便是把悉数硬件资源——像经营中枢、内存、通讯这些——都买通,酿成一个大资源池,然后用智能蜿蜒无邪分派。
这招儿径直治理了大问题:以前那种单引擎GPU,多个任务一说念跑的时候非常容易卡。目下好了,悉数资源寰球分享,按需取用!
再举例,斡旋编程接口与教导集,开采者只需学习一套API和编程模子,就能驱动MUSA架构下悉数的硬件引擎,极地面诽谤了开采门槛,擢升了开采效率。
除此除外,MUSA架构里面包含了多个摩尔线程自研的中枢技巧。
举例,特地为FP8筹算的“Transformer引擎”,使其FP8的考研性能比较莫得该引擎的决议能擢升30%;草创的ACE异步通讯引擎,不错让经营和通讯并行不悖,治理了传统架构中通讯会占用经营资源的痛点,减少了15%的经营资源损耗,将GPU的算力开释;自研的MTLink2.0互联条约,终清晰GPU之间高效、低蔓延的通讯,提供了跳跃西各人业平均水平60%的带宽,为大范围集群部署奠定了坚实基础。
MUSA架构的先进性,确保了摩尔线程的每一颗芯片都不是孤单的算力单位,而是一个高度协同、经管高效的“作战小组”,有用擢升每颗芯片有用算力,为通盘AI超等工场提供了坚实的、可蔓延的算力底座。
MUSA全栈系统软件:超等工场的“操作系统”与“器用箱”
再好的硬件,要是莫得高效的软件,相同也无法阐扬其全部后劲。因此,摩尔线程打造了与MUSA硬件架构深度耦合的全栈软件系统,它在AI超等工场中饰演着“操作系统”和“开采者器用箱”的扮装。
这个软件栈不错说是阴私了从底层驱动到表层应用框架的方方面面:
高效驱动:摩尔线程的驱动经过深度优化,核函数启动时期镌汰50%,任务派发蔓延极低,不错一次性并发处理上千个任务,最初业界水平。
核默算子库:对标国际大厂的cuDNN,摩尔线程的muDNN在算子层面进行了多半优化,GEMM算子算力专揽率达98%,Flash Attention 算子算力专揽率打破95%。
高效驱动:摩尔线程的驱动经过深度优化,核函数启动时期镌汰50%,任务派发蔓延极低,不错一次性并发处理上千个任务,最初业界水平。
核默算子库:对标国际大厂的cuDNN,摩尔线程的muDNN在算子层面进行了多半优化,GEMM算子算力专揽率达98%,Flash Attention 算子算力专揽率打破95%。
通讯服从跃升:MCCL考研通讯库终了RDMA网罗97%带宽专揽率;基于异步通讯引擎优化经营通讯并行,集群性能擢升10%。
生态兼容与Triton维持:通过MUSIFY等器用,终清晰对PyTorch、TensorFlow等主流AI框架的无缝维持。尤其值得一提的是,基于Triton-MUSA编译器 + MUSA Graph 终了DeepSeek R1推理加快1.5倍,全面兼容Triton等主流框架。
完善的开采者套件:提供了一整套涵盖性能分析(Profiler)、调试、调优、一键部署等功能的器用链,如合并个“百宝箱”,让路发者能够细察硬件运行的每一个细节,榨干硬件的每一分性能。
通讯服从跃升:MCCL考研通讯库终了RDMA网罗97%带宽专揽率;基于异步通讯引擎优化经营通讯并行,集群性能擢升10%。
生态兼容与Triton维持:通过MUSIFY等器用,终清晰对PyTorch、TensorFlow等主流AI框架的无缝维持。尤其值得一提的是,基于Triton-MUSA编译器 + MUSA Graph 终了DeepSeek R1推理加快1.5倍,全面兼容Triton等主流框架。
完善的开采者套件:提供了一整套涵盖性能分析(Profiler)、调试、调优、一键部署等功能的器用链,如合并个“百宝箱”,让路发者能够细察硬件运行的每一个细节,榨干硬件的每一分性能。
这套全栈系统软件,确保了开采者不仅能“用起来”,更能“用得好”,将MUSA硬件架构的强盛本事顺畅地传递到表层应用,是贯串硬件与算法的要害要害。何况通过MUSA全栈系统软件的优化,摩尔线程终清晰“单节点经营效率”全面擢升。
KUAE经营集群:超等工场的“坐褥车间”
单卡、单节点的性能再强,也无法完成动辄千亿、万亿参数大模子的考研。AI超等工场必须以大范围集群的形势存在。为此,摩尔线程构建了夸娥(KUAE)大范围智能经营集群。
夸娥经营集群远非简便的就业器堆叠,它是一个软硬一体化的系统工程,相当于AI大模子的“坐褥车间”:
软硬一体化筹算:从就业器节点、交换机到机柜,再到表层的集群经管软件、任务蜿蜒系统,全部进行了协同筹算和优化。
创新5D并行考研:摩尔线程整合数据并行(DP)、活水线并行(PP)、张量并行(TP)等悉数主流的并行考研战术,全面维持Transformer等主流架构,并能凭证模子特质自动搜索和保举最优的并行决议。
端到端考研优化:阴私了从数据预处理、模子预考研、强化学习、微调到考证评估的全经过,提供一站式就业。
性能仿真器用(Simumax):自主研发的Simumax器用面向超大范围集群自动搜索最优并行战术,精确模拟FP8夹杂精度考研与算子会通,为DeepSeek等模子镌汰考研周期提供科学依据。
高效Checkpoint:针对大模子沉稳性难题,创新CheckPoint加快决议专揽RDMA技巧,将百GB级备份规复时期从数分钟压缩至1秒,擢升GPU有用算力专揽率。
软硬一体化筹算:从就业器节点、交换机到机柜,再到表层的集群经管软件、任务蜿蜒系统,全部进行了协同筹算和优化。
创新5D并行考研:摩尔线程整合数据并行(DP)、活水线并行(PP)、张量并行(TP)等悉数主流的并行考研战术,全面维持Transformer等主流架构,并能凭证模子特质自动搜索和保举最优的并行决议。
端到端考研优化:阴私了从数据预处理、模子预考研、强化学习、微调到考证评估的全经过,提供一站式就业。
性能仿真器用(Simumax):自主研发的Simumax器用面向超大范围集群自动搜索最优并行战术,精确模拟FP8夹杂精度考研与算子会通,为DeepSeek等模子镌汰考研周期提供科学依据。
高效Checkpoint:针对大模子沉稳性难题,创新CheckPoint加快决议专揽RDMA技巧,将百GB级备份规复时期从数分钟压缩至1秒,擢升GPU有用算力专揽率。
通过夸娥经营集群,摩尔线程将单点的GPU性能上风,生效蔓延到了千卡、万卡乃至更大范围的集群层面,构建起了一个的确具备强盛“坐褥力”的AI超等工场。何况通过实测,KUAE 2大范围智算集群,在不同架构模子的MFU,一经达到了行业最初水平。
零中断容错技巧:超等工场的“安全坐褥条约”
关于一个需要7x24小时不隔断运行的AI超等工场来说,沉稳性压倒一切。一次偶而的宕机,可能意味着数百万好意思元的损结怨数周使命的付诸东流。因此,摩尔线程开采了特有的“零中断容错技巧”,这是保险工场沉稳运行的“安全坐褥条约”。
传统的容错机制,在硬件(如GPU卡)发生故障时,需要暂停通盘考研任务,东说念主工替换硬件,再从最近的Checkpoint规复,通盘过程耗时耗力。而摩尔线程的零中断技巧则都备不同:
零中断容错技巧:当某个节点变慢或出现故障时,仅隔断受影响节点组,其余节点陆续考研,备机无缝接入,全程无中断。这一决议使KUAE集群有用考研时期占比超99%,大幅诽谤规复支出。
多维度考研细察:通过多维度的数据监控和AI预测模子,系统能够提前感知到哪些节点可能会成为“慢节点”,并进行预警或隔断,终了动态监测与智能会诊,颠倒处理效率擢升50%;
集群自检及蜿蜒优化:在考研任务启动前,系统会自动对通盘集群进行“体检”,确保悉数软硬件都处于最好气象,如同飞机升起前的安全查验,考研生效率提高10%,为大范围AI考研提供沉稳保险。
零中断容错技巧:当某个节点变慢或出现故障时,仅隔断受影响节点组,其余节点陆续考研,备机无缝接入,全程无中断。这一决议使KUAE集群有用考研时期占比超99%,大幅诽谤规复支出。
多维度考研细察:通过多维度的数据监控和AI预测模子,系统能够提前感知到哪些节点可能会成为“慢节点”,并进行预警或隔断,终了动态监测与智能会诊,颠倒处理效率擢升50%;
集群自检及蜿蜒优化:在考研任务启动前,系统会自动对通盘集群进行“体检”,确保悉数软硬件都处于最好气象,如同飞机升起前的安全查验,考研生效率提高10%,为大范围AI考研提供沉稳保险。
总结来看,上述的五大成分,即全功能GPU、MUSA架构、全栈软件、KUAE集群、零中断容错技巧,共同组成了摩尔线程的AI超等工场。
它是一个有机的举座,从芯片筹算的最底层到集群经管的最表层,为德不终紊,协同进化。正是这个完整的、端到端的体系,才栽种了著作开首的性能阐扬。
那么接下来的一个问题是:
为什么要造AI超等工场?
这个问题的谜底,或者植根于摩尔线程对经营创新曩昔、目下与畴昔的深入细察。
大模子的“本事”迭代速率令东说念主感触,从前年还在东说念主类平均水平的四五十分,到如今顶尖模子一经飙升至七八十分,直逼东说念主类顶尖水准。
模子的迭代速率,也从曩昔的数月一更,压缩到如今的数周致使每周一更。这场竞赛的背后,驱能源只好一个——算力。
正如马斯克能够凭借其20万张H100,让Grok模子在短时期内登顶名次榜,这狠毒地揭示了一个事实:Scaling Law是AI发展的铁律。
谁领有更大、更强的算力基础设施,谁就能更快地迭代模子,霸占技巧和商场的制高点。
而料到畴昔五年,Agentic AI(智能体AI)和空间智能将成为新的爆发点。AI将不再只是是聊天的器用,而是成为不错自主完成复杂任务的“数字职工”,并与物理天下深度会通。
这一切,都意味着对算力的需求将再次呈几何级数增长。在这样的大配景下,只是餍足于当下的经营本事是远远不够的,必须为畴昔愈加强大的经营需求作念好准备。
靠近永无非常的算力需求,只是追求“快”是单方面的。畴昔的经营,更需要的是全方向的“稳”——沉稳、可靠、高效、通用。
这正是缔造AI超等工场的根柢原因。
考研一个万亿参数的大模子,好比建造一座港珠澳大桥,是一项极其复杂的系统工程。它对基础设施的条目,堪比建造一座芯片晶圆厂。
你不成指望靠“东说念主海战术”,找十亿个儿童去抬起一栋大楼;相同,你也不成简便地将一万张低效的显卡堆在一说念,就祈望能考研出高质料的大模子。
这个过程充满了挑战,举例在资本方面,一次大范围考研动辄花消数月和数百万好意思元,任何中断或失败都是巨大的耗费。
再如靠近复杂的系统,上千个节点、上万颗芯片若何高效通讯、同步?软件和硬件若何完竣适配?又该若何快速定位和治理问题?
还有在骨子应用过程中,时常任务又是种种性的:今天考研说话模子,翌日可能就要处理多模态数据,后天又要进行科学经营……
这些挑战,都无法通过购买单一的“最快芯片”来治理。它需要一个从底层硬件到表层软件,再到集群经管和运维就业的端到端治理决议。
这恰正是摩尔线程“AI超等工场”的中枢价值地方——它提供的不是孤单的算力,而是一种详情味的、高效率的、高生效率的AI模子坐褥本事。
一言以蔽之,摩尔线程弃取了一条最重荷,但可能亦然最正确的说念路。他们莫得餍足于在某个单点上追逐或突出,而是驻足于畴昔,从根柢上念念考若何为这个时期提供首先进的“坐褥力器用”。
这,便是摩尔线程给出的谜底开云(中国)Kaiyun·官方网站 - 登录入口,一个不啻于快,更关乎畴昔的谜底。
发布于:北京市当前网址:http://www.gaku-ken.com/xinwen/1748197.html
tag:开云(中国)Kaiyun·官方网站 - 登录入口,后用,智能,蜿蜒,无邪,分派