墨芯 S4 AI 计算卡产品手册

概述

墨芯人工智能 S4 计算卡（以下简称 S4 计算卡）专为数据中心的 AI 推理应用设计。作为一款通用深度学习推理加速卡，S4 计算卡采用单槽 PCIe Gen 3 x16 接口，半高半长设计。它配备 20 GB 的 LPDDR4x 内存，提供高达 65 GB/s 的峰值内存写入带宽和 65 GB/s 的峰值内存读取带宽，最大功耗为 70 W。S4 计算卡采用被动冷却设计，通过系统气流实现散热，确保在热限制范围内高效运行。

S4 计算卡基于墨芯人工智能 Antoum® 架构，通过软硬件的紧密结合，优化了结构化稀疏性的平衡，支持高达 32 倍的稀疏率。基于 Antoum® 架构，S4 计算卡支持 BF16 和 INT8 精度的计算。同时，S4 计算卡还提供端到端的软件解决方案，包括集成模型稀疏器、编译器和运行时，确保主流 AI 推理任务能够快速执行。

软硬件紧密结合的设计使 Antoum® 架构成为高效的 AI 片上系统处理器。此外，S4 计算卡还集成硬件视频编解码器和 JPEG 解码器，能够高效处理视频和图像相关的应用场景。为了确保系统稳定性，S4 计算卡在出厂时启用了 DDR 内存的 ECC 功能，防止内存发生可检测的错误。

S4 计算卡外观

规格

产品规格

规格	描述
产品名称	SparseOne®疏云®AI计算卡系列 \| 墨芯S4计算卡
热设计功耗（TDP）	70 W
Antoum®芯片名称	墨芯Antoum®英腾®芯片
外形尺寸	单槽，半高半长
PCI IDs	Device ID: 0x7000 Vendor ID: 0x1F36 Sub-vendor ID: 0x1F36 Sub-system ID: 0x7000
VBIOS NOR-Flash大小	16 MB
散热方式	被动散热
系统接口	PCIe Gen 3 x 16
板卡重量	316.8 g
P2P 带宽	P2P 单边带宽 9.52 GB/s P2P 双边带宽 19.04 GB/s

内存规格

规格	描述
最大内存时钟	4200 MHz
内存大小	20 GB
内存总线宽度	160-bit
峰值内存带宽	峰值内存写带宽 65 GB/s 峰值内存读带宽 65 GB/s

环境和可靠性规格

规格	描述
操作环境温度	0℃ - 50℃
存储温度	-40℃ - 70℃
操作环境湿度	5% - 95% 相对湿度
存储湿度	5% - 95% 相对湿度
降频温度	90℃
停止工作温度	100℃
下电温度	110℃

散热气流方向支持

S4 计算卡采用双向散热设计，支持气流从左到右或从右到左的流动方向，如图 2 所示。

散热气流方向

产品功能

PCIe 接口规格

介绍 S4 计算卡支持的 PCIe 接口规格。

PCIe 速率支持

S4 计算卡支持 PCIe Gen 3。

极性反转和通道位置翻转支持

S4 计算卡支持 PCIe 规范中定义的极性反转（Polarity Inversion）和通道位置翻转（Lane Reversal）。当翻转 PCIe 通道时，Rx 通道和 Tx 通道的顺序都必须颠倒。

硬件信任根

S4 计算卡通过片上硬件安全引擎和 ARM CPU 信任区域技术支持硬件信任根（Root of Trust）。信任根的基本功能包括安全引导和安全固件升级。S4 计算卡可以通过加密和认证进一步保护用户的 AI 模型，由强大的密钥管理系统和硬件信任根支持。

多实例 SPU 支持

S4 计算卡支持最多 4 个多实例 SPU （Sparse Processing Unit，稀疏处理单元）。墨芯人工智能 MIS （Multi-Instance SPU）技术可以将 S4 计算卡划分为多个单个实例，每个实例与自己的 DDR、片上存储器、AI 计算核心、视频编解码器和 JPEG 解码器完全隔离，从而实现计算资源供应和服务质量的优化。

外形规格

S4 计算卡采用半高半长的设计，标称尺寸如图 3 所示。

S4 计算卡外形规格