NVIDIA DGX Spark 拆机

Pasted image 20251024110522.png
NVIDIA DGX Spark标志着可及性AI基础设施的重要里程碑。2017年那篇奠定Transformer架构基础的划时代论文《Attention is All You Need》，当时需要配置八块P100 GPU的服务器，能耗高达数十千瓦时且占用大量数据中心空间。如今，DGX Spark以仅240瓦的紧凑型桌面设备形态，实现了更卓越的计算性能。这种能效与形态因子的跨越式提升，使得原本专属数据中心的AI能力得以惠及个人研究者、小型团队和分布式开发机构。

核心亮点

数据中心级算力桌面化：GB10 Grace Blackwell芯片封装于1.13升、240W功耗的紧凑机箱内，售价3999美元，可提供高达1 PetaFLOP FP4稀疏算力。
内存重构工作流‌：128GB统一内存支持本地全参数微调8B模型，并实现高吞吐推理。实测显示，Llama 3.1 8B FP4模型在128并发下可达约924 token/s，Qwen3 Coder 30B-A3B FP8模型在批量64下可达约483 token/s。
弹性扩展与高速存储‌：集成ConnectX-7网卡提供200Gbps网络，支持集群扩展或NVMe-oF存储。内部2242 Gen5 NVMe接口适合轻量级I/O，持续高吞吐场景建议通过RDMA连接外部NVMe-oF存储。
开箱即用的软件生态‌：预装DGX OS、CUDA、cuDNN、TensorRT、AI Workbench、容器及工作流模板，支持团队立即部署真实业务负载。
实测性能验证‌：MAMF实测显示，BF16算力约99.8 TFLOPs，FP8算力约207.7 TFLOPs。内部GDSIO读取峰值达11.4 GiB/s，通过200Gbps网络连接时性能上限更高。

NVIDIA DGX Spark 技术规格

技术规格	详情
架构
GPU	NVIDIA Blackwell Architecture
CPU	20-core Arm (10x Cortex-X925 + 10x Cortex-A725)
Tensor Cores	5th Generation
RT Cores	4th Generation
NVENC / NVDEC	1× / 1×
内存
System Memory	128 GB LPDDR5X (Unified System Memory)
Memory Interface	256-bit
Memory Bandwidth	273 GB/s
性能
FP4	up to 1 petaFLOP (with Sparsity)
存储
Storage	1 TB or 4 TB NVMe M.2 (Self-encrypted)
接口
USB	4× Type-C USB 3.2 Gen 2×2 (20Gbps)
Ethernet	1× 10GbE RJ-45
NIC	ConnectX-7 Smart NIC – 2x 200G QSFP (Allows for a maximum of 200G bandwidth)
Wireless	Wi-Fi 7, Bluetooth 5.3
Audio Output	HDMI Multichannel Audio Output
Display Connectors	1× HDMI 2.1a
物理属性
Dimensions	150 × 150 × 50.5 mm (5.9 × 5.9 × 1.98″)
Weight	1.2 kg
Power Consumption	240 W

NVIDIA DGX Spark 外观与内部结构

NVIDIA DGX Spark 延续了英伟达标志性的工业设计语言，采用紧凑型机箱设计，完美复刻了更大尺寸 DGX 系统的外观与质感。前面板设有微型握持凹槽，致敬初代全尺寸 DGX 设备的提手设计，搭配金色斑点金属质感表面，呈现出精密的高端纹理，并以英伟达标志性的绿色徽标点缀。

NVIDIA DGX Spark 的物理尺寸为 5.9 × 5.9 × 1.98 英寸（150 × 150 × 50.5 毫米），重量仅 2.6 磅（1.2 千克），内部总容积为 1.13 升，完全符合 1 升级小型个人电脑的标准‌。尽管体积小巧，但凭借全金属合金外壳（同时作为被动散热器）的设计，整机呈现出扎实的密度感和结构强度，实现了美学与功能的完美平衡‌。

供电采用240W USB-C外接电源适配器（如图中所示，放置于主机旁）。该适配器设计紧凑且做工扎实，采用标准C5（三叶草）接口进行交流输入，与DGX Spark简洁高效的设计风格保持高度一致。

转到机身背面，DGX Spark延续了与前脸相同的金色斑点纹理处理，确保整机设计的一致性。从左至右依次布局：电源按钮旁设有四个USB-C接口（其中一个支持供电传输），其后为HDMI 2.1a视频输出接口、10GbE RJ-45以太网端口，而最引人注目的是由集成NVIDIA ConnectX-7智能网卡驱动的双200GbE QSFP56高速接口。

乍看之下，您可能会认为Spark支持400G连接能力；但受限于PCIe带宽，该设备实际仅能提供200G连接性能‌。为深入探究这一设计限制，我们进一步分析了Spark的拓扑架构：

通过lstopo工具观察可见，CX7网卡通过两条Gen5 x4链路实现电气连接。在操作系统层面，这些连接表现为四个独立接口，每个接口最高支持200G带宽。

在进一步观察其他连接设备时，首先注意到的是采用迷你2242规格的M.2 SSD，其通过Gen5 x4链路连接；其次是搭载PCIe Gen4 x1链路的Realtek RJ45 10GbE网卡控制器；最后是通过PCIe Gen3 x1链路连接的MediaTek无线网卡控制器‌。

深入剖析CPU架构，该处理器采用20核Arm异构设计，类似英特尔最新处理器的”大小核”架构，包含10个Cortex-A725能效核与10个Cortex-X925性能核，并划分为两个L3缓存集群。第一集群（8MB L3）包含CPU 0-4（Cortex-A725，最高频率2808MHz）和CPU 5-9（Cortex-X925，最高频率3900MHz）；第二集群（16MB L3）则包含CPU 10-14（Cortex-A725，最高频率2860MHz）和CPU 15-19（Cortex-X925，最高频率3978-4004MHz）。每个核心均配备64KB私有L1数据缓存和64KB L1指令缓存，但L2缓存因核心类型差异显著：能效核Cortex-A725配备512KB L2缓存，而性能核Cortex-X925则拥有更大的2MB L2缓存（前者4倍）。其中CPU 15-19作为最快核心，得益于更大的16MB L3缓存和更高频率，其中CPU 19以4004MHz成为峰值性能核心。上述拓扑图中虚线标注了不同核心的功耗/频率层级。

将视角拉远，翻转DGX Spark设备后，其唯一可见的塑料部件是采用磁吸式设计的底座盖板。该设计在保持外壳简洁的同时，便于快速访问内部组件‌。移除磁性底座后，可露出四颗固定螺丝，由此可进入主内部舱室‌。

内部可见天线布线延伸至设备顶部区域，证实了该设备支持Wi-Fi 7和蓝牙5.3无线连接，这种设计为移动部署或实验室环境提供了灵活的网络接入方案，尤其适用于有线网络不可用的场景。

存储系统采用PCIe Gen5 2242规格的M.2 SSD，这种高性能硬件中较少见的紧凑型设计，在示例配置中搭载了三星4TB NVMe固态硬盘。该方案在有限空间内实现了存储性能与体积的平衡。

深入剖析DGX Spark内部架构，其核心搭载了NVIDIA Grace Blackwell的GB10超级芯片。该超级芯片两侧配置了8组焊接式LPDDR5X统一系统内存，可提供273GB/s的带宽，确保CPU与GPU运算时均能实现高速数据存取。

紧邻芯片的是CX7网卡，如前所述，该网卡可提供200Gbps的传输带宽。这使得用户能够将Spark设备连接至高速存储系统，甚至支持多台Spark设备组建集群。NVIDIA已完成验证并销售由2台Spark直接互联的集群方案，可支持更大规模的AI模型训练。

翻转电路板后，可清晰看到所有PCIe连接接口，包括采用PCIe Gen5 x4协议的2242规格M.2固态硬盘，以及通过PCIe Gen3 x1链路连接的MediaTek无线网卡。

核心亮点

NVIDIA DGX Spark 技术规格

NVIDIA DGX Spark 外观与内部结构

发表评论 取消回复

发表评论取消回复