AI 推理芯片阵营排行:谁在孵化最强模型

2026-04-28 奥古斯宏

最近换个角度看 Artificial Analysis 的排行榜:不看模型本身,看它们跑在什么芯片上。每个模型背后站着一个芯片厂商,把对应关系排出来,比模型分数本身更有信息量。

数据来源为 Artificial Analysis 排行榜和各厂商公开信息(2026 年 4 月)。

综合排名

排名 芯片阵营 代表芯片 最强模型 Intelligence Index
1 NVIDIA H100/B200 GPT-5.5 (xhigh) 60
2 Google TPU Trillium v6 Gemini 3.1 Pro 57
3 AWS Trainium Trainium 2 Claude Opus 4.7 (max) 57
4 Groq LPU LPU Kimi K2.6 54
5 华为昇腾 昇腾950PR DeepSeek V4 Pro (Max) 52
5 Meta MTIA MTIA + H100 Muse Spark 52
7 Cerebras WSE-3 GLM-4.7 (仅推理托管) 42

AI芯片阵营综合排名图表

编程专项排行

Artificial Analysis 还有一套独立的编程评分体系(Coding Index)。按各芯片阵营的最强编程模型来排:

排名 芯片阵营 最强编程模型 Coding Index
1 NVIDIA GPT-5.5 (xhigh) 59.1
2 Google TPU Gemini 3.1 Pro 55.5
3 AWS Trainium Claude Opus 4.7 (max) 53.1
4 华为昇腾 DeepSeek V4 Pro (Max) 47.5
4 Meta MTIA Muse Spark 47.5
6 Groq LPU Kimi K2.6 47.1
7 Cerebras GLM-4.7 36.3

AI芯片阵营编程能力排行图表

综合和编程两套评分不完全对应——综合智能高的不一定编程最强。以下按综合排名逐个说。

第一名:英伟达 + GPT-5.5

OpenAI 的 GPT-5.5 以 60 分排全球第一,运行在英伟达 H100 集群上,配合 TensorRT-LLM 实现推理优化。英伟达的壁垒在于生态体系——CUDA 软件栈、NVLink 互连、TensorRT 推理引擎,十多年积累,几乎所有顶级模型团队都建立在这个体系之上。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

最新一代 GB200 Grace Blackwell Superchip 将两颗 B200 GPU 和一颗 Grace CPU 通过 900GB/s NVLink 连接,官方宣称推理性能比 H100 提升 30 倍。

NVIDIA H100 GPU

第二名:Google TPU + Gemini 3.1 Pro

Gemini 3.1 Pro 评分 57,使用 Google 自研的第六代 Trillium TPU,完全不依赖英伟达 GPU。Gemini 的训练运行在由数万张 Trillium 芯片组成的集群上,通过自研光互连技术连接。单颗 Trillium 算力 512 TOPS,通过大规模集群部署和软件优化来弥补单芯片纸面性能差距。

Google Trillium TPU v6e

第三名:AWS Trainium + Claude Opus 4.7

Claude Opus 4.7 评分 57,主力训练芯片为亚马逊自研的 Trainium 2。2026 年 AWS 完成 Project Rainier 项目,在美国多个数据中心部署超过 50 万颗 Trainium 2 芯片,专门用于 Anthropic 训练 Claude,年底计划增加到 100 万颗。亚马逊已承诺追加 250 亿美元投资,Anthropic 签订了 10 年内采购 5 吉瓦 Trainium 算力的合同。按芯片部署规模计算,这是目前全球最大的非英伟达 AI 训练集群。

AWS Trainium2 AI 芯片

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

第四名:Groq LPU + Kimi K2.6

Groq 开发的 LPU(Language Processing Unit)采用 TSA(张量流架构)设计,每个核心集成 230MB SRAM,计算全部在片上完成,绕开了传统 GPU 推理的内存带宽瓶颈。Moonshot AI 的 Kimi K2.6 运行在 Groq LPU 上,评分 54。Llama 70B 在 LPU 上的推理速度为 300 tokens/s。

2025 年 12 月,NVIDIA 以 200 亿美元完成对 Groq 的资产收购及核心团队吸纳。2026 年 GTC 大会上发布了 Groq 3 LPU,LPU 技术被整合进 NVIDIA AI 工厂架构。

Groq LPU 推理卡

第五名:华为昇腾 + DeepSeek V4 —— 这可能是最重要的一条

DeepSeek V4 Pro 评分 52,与 Meta 的 Muse Spark 并列第五。但分数不是这条的重点。

2026 年 4 月,DeepSeek V4 完成了从英伟达 CUDA 到华为昇腾 CANN 的全栈迁移。昇腾 910B 采用 7nm 工艺和达芬奇架构,最新的 950PR 也已量产。DeepSeek V4 系列已能在 910B 上完成单机及多机部署。

这件事的意义不在技术层面,而在产业格局。在芯片禁令持续收紧的背景下,全球第五的模型跑在全套国产芯片上——这意味着中国最强的开源模型已经脱离了对英伟达的依赖。从 CUDA 到 CANN,十几年的生态迁移,DeepSeek 只用了 16 个月。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

前四名里的 Groq 被吞了,AWS 和 Google 靠的是自家体量,英伟达是十多年的生态壁垒。而 DeepSeek + 昇腾是唯一一个靠"被迫"走出来的路线,用被卡脖子的条件硬跑到了这个位置。

我不觉得 52 分就满意了,但它证明了一件事:国产算力链已经闭环。 以前说"国产替代"更像愿景和口号,现在它是一个能在榜单上和全球顶级玩家并列的事实。

华为昇腾 AI 芯片

寒武纪思元 AI 芯片

除了华为,国内其他芯片厂商也在快速跟进。寒武纪在 DeepSeek-V4 发布当天完成了 Day 0 适配,基于自研 vLLM-MLU 推理引擎,同时支持 V4-Pro 和 V4-Flash 两个版本,适配代码已开源——这已经不是第一次了,之前 V3.2 发布时也是当天同步。海光 DCU 走的是 GPGPU 架构、兼容类 CUDA 环境的路线,宣称可实现 DeepSeek 的"零等待"部署。加上昆仑芯、天数智芯等也在做适配,DeepSeek-V4 目前在国产芯片上的可用选项已经不限于一家。

这意味着国产算力正在从"能不能跑"过渡到"你选哪家"的阶段。华为昇腾拿了最高分,但背后是一条正在成型的供应链。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

第五名(并列):Meta MTIA + Muse Spark

Muse Spark 评分 52,由 Meta Superintelligence Labs 开发,是 Meta 首个闭源模型。该模型直接集成到 WhatsApp、Instagram、Facebook 等 Meta 旗下应用中,面向超过 30 亿月活用户,不提供 API 和开源权重。

硬件方面,Meta 目前拥有 35 万张 H100 GPU 的大规模集群,同时自研 MTIA 芯片,与 Broadcom 签署了多代芯片联合开发协议,与 AMD 签署了 6GW 芯片供应协议。Muse Spark 在此混合算力体系下训练。

Meta MTIA 自研 AI 芯片

第七名:Cerebras WSE-3 + GLM-4.7

Cerebras 采用晶圆级芯片设计,将整块晶圆作为单个芯片。第三代 WSE-3 拥有 4 万亿晶体管、90 万个 AI 核心,片上内存带宽 21 PB/s,约为 H100 的 7000 倍。

Cerebras 本身不训练模型,只提供推理托管服务。平台上推理速度最高的模型为 Llama 3.1 8B(2337 tokens/s),Llama 4 Maverick 在其上创下 400B 参数模型的推理纪录(969 tokens/s)。平台上评分最高的模型为智谱 Z.ai 的 GLM-4.7,Intelligence Index 为 42。

Cerebras WSE-3 晶圆级芯片

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

整理完这个榜单,我的两个判断

  1. DeepSeek + 昇腾的组合是中国算力的分水岭。 以前说"国产替代"总觉得差一口气,但头部模型已经能在国产芯片上跑出全球第五的成绩,这是从 0 到 1 的变化。

  2. Cerebras 这种"极致专用"路线,天花板看得见。 把所有晶体管堆在一个晶圆上追求绝对速度,在特定场景确实做到了英伟达做不到的事。但只能推理不能训练、只能托管别人模型——这条路能走多远,取决于它能不能找到自己的"引擎"。

这个榜单我会持续跟踪。毕竟芯片格局的变化,最终会决定我们能用到什么样的模型。

参考资料

最近浏览
IP用户:42.179.*.*
1 小时前 Chrome Mac 10.15
IP用户:18.97.*.*
1 小时前 Generic Bot
IP用户:150.40.*.*
2 小时前 Chrome Mac 10.15
IP用户:220.181.*.*
10 小时前 Baidu Spider
IP用户:172.204.*.*
12 小时前 ChatGPT
IP用户:111.197.*.*
16 小时前 Microsoft Edge Android 10
IP用户:57.141.*.*
18 小时前 Generic Bot
IP用户:223.109.*.*
21 小时前 Sogou Spider
IP用户:85.208.*.*
1 天前 Semrush Bot
IP用户:18.97.*.*
2 天前 Generic Bot
IP用户:57.141.*.*
2 天前 Generic Bot
IP用户:43.153.*.*
2 天前 Chrome Windows 10
累计浏览次数:146
评论
点击登录
phpreturn,PHP武器库,专注PHP领域的项目和资讯,收录和介绍PHP相关项目。
最近浏览 点击登录
累计浏览次数:327378
一周浏览次数:2736
今日浏览次数:214

本站所有权利归 phpreturn.com 所有

举报/反馈/投稿邮箱:phpreturn@ulthon.com

鲁ICP备19027671号-2