NVIDIA DGX Spark 拆机

Pasted image 20251024110522.png
NVIDIA DGX Spark标志着可及性AI基础设施的重要里程碑。2017年那篇奠定Transformer架构基础的划时代论文《Attention is All You Need》,当时需要配置八块P100 GPU的服务器,能耗高达数十千瓦时且占用大量数据中心空间。如今,DGX Spark以仅240瓦的紧凑型桌面设备形态,实现了更卓越的计算性能。这种能效与形态因子的跨越式提升,使得原本专属数据中心的AI能力得以惠及个人研究者、小型团队和分布式开发机构。

Pasted image 20251023184410.png

核心亮点

  • 数据中心级算力桌面化:GB10 Grace Blackwell芯片封装于1.13升、240W功耗的紧凑机箱内,售价3999美元,可提供高达1 PetaFLOP FP4稀疏算力。
  • 内存重构工作流‌:128GB统一内存支持本地全参数微调8B模型,并实现高吞吐推理。实测显示,Llama 3.1 8B FP4模型在128并发下可达约924 token/s,Qwen3 Coder 30B-A3B FP8模型在批量64下可达约483 token/s。
  • 弹性扩展与高速存储‌:集成ConnectX-7网卡提供200Gbps网络,支持集群扩展或NVMe-oF存储。内部2242 Gen5 NVMe接口适合轻量级I/O,持续高吞吐场景建议通过RDMA连接外部NVMe-oF存储。
  • 开箱即用的软件生态‌:预装DGX OS、CUDA、cuDNN、TensorRT、AI Workbench、容器及工作流模板,支持团队立即部署真实业务负载。
  • 实测性能验证‌:MAMF实测显示,BF16算力约99.8 TFLOPs,FP8算力约207.7 TFLOPs。内部GDSIO读取峰值达11.4 GiB/s,通过200Gbps网络连接时性能上限更高。

NVIDIA DGX Spark 技术规格

技术规格
详情
架构
GPU
NVIDIA Blackwell Architecture
CPU
20-core Arm (10x Cortex-X925 + 10x Cortex-A725)
Tensor Cores
5th Generation
RT Cores
4th Generation
NVENC / NVDEC
1× / 1×
内存
System Memory
128 GB LPDDR5X (Unified System Memory)
Memory Interface
256-bit
Memory Bandwidth
273 GB/s
性能
FP4
up to 1 petaFLOP (with Sparsity)
存储
Storage
1 TB or 4 TB NVMe M.2 (Self-encrypted)
接口
USB
4× Type-C USB 3.2 Gen 2×2 (20Gbps)
Ethernet
1× 10GbE RJ-45
NIC
ConnectX-7 Smart NIC – 2x 200G QSFP (Allows for a maximum of 200G bandwidth)
Wireless
Wi-Fi 7, Bluetooth 5.3
Audio Output
HDMI Multichannel Audio Output
Display Connectors
1× HDMI 2.1a
物理属性
Dimensions
150 × 150 × 50.5 mm (5.9 × 5.9 × 1.98″)
Weight
1.2 kg
Power Consumption
240 W

NVIDIA DGX Spark 外观与内部结构

NVIDIA DGX Spark 延续了英伟达标志性的工业设计语言,采用紧凑型机箱设计,完美复刻了更大尺寸 DGX 系统的外观与质感。前面板设有微型握持凹槽,致敬初代全尺寸 DGX 设备的提手设计,搭配金色斑点金属质感表面,呈现出精密的高端纹理,并以英伟达标志性的绿色徽标点缀。

NVIDIA DGX Spark 的物理尺寸为 5.9 × 5.9 × 1.98 英寸(150 × 150 × 50.5 毫米),重量仅 2.6 磅(1.2 千克),内部总容积为 1.13 升,完全符合 1 升级小型个人电脑的标准‌。尽管体积小巧,但凭借全金属合金外壳(同时作为被动散热器)的设计,整机呈现出扎实的密度感和结构强度,实现了美学与功能的完美平衡‌。

供电采用240W USB-C外接电源适配器(如图中所示,放置于主机旁)。该适配器设计紧凑且做工扎实,采用标准C5(三叶草)接口进行交流输入,与DGX Spark简洁高效的设计风格保持高度一致。

Pasted image 20251023194115.png

转到机身背面,DGX Spark延续了与前脸相同的金色斑点纹理处理,确保整机设计的一致性。从左至右依次布局:电源按钮旁设有四个USB-C接口(其中一个支持供电传输),其后为HDMI 2.1a视频输出接口、10GbE RJ-45以太网端口,而最引人注目的是由集成NVIDIA ConnectX-7智能网卡驱动的双200GbE QSFP56高速接口。

Pasted image 20251023194211.png

乍看之下,您可能会认为Spark支持400G连接能力;但受限于PCIe带宽,该设备实际仅能提供200G连接性能‌。为深入探究这一设计限制,我们进一步分析了Spark的拓扑架构:

Pasted image 20251023194331.png

通过lstopo工具观察可见,CX7网卡通过两条Gen5 x4链路实现电气连接。在操作系统层面,这些连接表现为四个独立接口,每个接口最高支持200G带宽。

Pasted image 20251023194428.png

在进一步观察其他连接设备时,首先注意到的是采用迷你2242规格的M.2 SSD,其通过Gen5 x4链路连接;其次是搭载PCIe Gen4 x1链路的Realtek RJ45 10GbE网卡控制器;最后是通过PCIe Gen3 x1链路连接的MediaTek无线网卡控制器‌。

Pasted image 20251023194659.png

深入剖析CPU架构,该处理器采用20核Arm异构设计,类似英特尔最新处理器的”大小核”架构,包含10个Cortex-A725能效核与10个Cortex-X925性能核,并划分为两个L3缓存集群。第一集群(8MB L3)包含CPU 0-4(Cortex-A725,最高频率2808MHz)和CPU 5-9(Cortex-X925,最高频率3900MHz);第二集群(16MB L3)则包含CPU 10-14(Cortex-A725,最高频率2860MHz)和CPU 15-19(Cortex-X925,最高频率3978-4004MHz)。每个核心均配备64KB私有L1数据缓存和64KB L1指令缓存,但L2缓存因核心类型差异显著:能效核Cortex-A725配备512KB L2缓存,而性能核Cortex-X925则拥有更大的2MB L2缓存(前者4倍)。其中CPU 15-19作为最快核心,得益于更大的16MB L3缓存和更高频率,其中CPU 19以4004MHz成为峰值性能核心。上述拓扑图中虚线标注了不同核心的功耗/频率层级。

Pasted image 20251023195056.png

将视角拉远,翻转DGX Spark设备后,其唯一可见的塑料部件是采用磁吸式设计的底座盖板。该设计在保持外壳简洁的同时,便于快速访问内部组件‌。移除磁性底座后,可露出四颗固定螺丝,由此可进入主内部舱室‌。

Pasted image 20251023195426.png

内部可见天线布线延伸至设备顶部区域,证实了该设备支持Wi-Fi 7和蓝牙5.3无线连接,这种设计为移动部署或实验室环境提供了灵活的网络接入方案,尤其适用于有线网络不可用的场景。

存储系统采用PCIe Gen5 2242规格的M.2 SSD,这种高性能硬件中较少见的紧凑型设计,在示例配置中搭载了三星4TB NVMe固态硬盘。该方案在有限空间内实现了存储性能与体积的平衡。

Pasted image 20251023195538.png

深入剖析DGX Spark内部架构,其核心搭载了NVIDIA Grace Blackwell的GB10超级芯片。该超级芯片两侧配置了8组焊接式LPDDR5X统一系统内存,可提供273GB/s的带宽,确保CPU与GPU运算时均能实现高速数据存取。

Pasted image 20251023195616.png

紧邻芯片的是CX7网卡,如前所述,该网卡可提供200Gbps的传输带宽。这使得用户能够将Spark设备连接至高速存储系统,甚至支持多台Spark设备组建集群。NVIDIA已完成验证并销售由2台Spark直接互联的集群方案,可支持更大规模的AI模型训练。

Pasted image 20251023195749.png

翻转电路板后,可清晰看到所有PCIe连接接口,包括采用PCIe Gen5 x4协议的2242规格M.2固态硬盘,以及通过PCIe Gen3 x1链路连接的MediaTek无线网卡。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注