墨芯 S4 AI 计算卡产品手册

概述

墨芯人工智能 S4 计算卡(以下简称 S4 计算卡)专为数据中心的 AI 推理应用设计。作为一款通用深度学习推理加速卡,S4 计算卡采用单槽 PCIe Gen 3 x16 接口,半高半长设计。它配备 20 GB 的 LPDDR4x 内存,提供高达 65 GB/s 的峰值内存写入带宽和 65 GB/s 的峰值内存读取带宽,最大功耗为 70 W。S4 计算卡采用被动冷却设计,通过系统气流实现散热,确保在热限制范围内高效运行。

S4 计算卡基于墨芯人工智能 Antoum® 架构,通过软硬件的紧密结合,优化了结构化稀疏性的平衡,支持高达 32 倍的稀疏率。基于 Antoum® 架构,S4 计算卡支持 BF16 和 INT8 精度的计算。同时,S4 计算卡还提供端到端的软件解决方案,包括集成模型稀疏器、编译器和运行时,确保主流 AI 推理任务能够快速执行。

软硬件紧密结合的设计使 Antoum® 架构 成为高效的 AI 片上系统处理器。此外,S4 计算卡还集成硬件视频编解码器和 JPEG 解码器,能够高效处理视频和图像相关的应用场景。为了确保系统稳定性,S4 计算卡在出厂时启用了 DDR 内存的 ECC 功能,防止内存发生可检测的错误。

S4 计算卡外观

规格

产品规格

规格 描述
产品名称 SparseOne®疏云®AI计算卡系列 | 墨芯S4计算卡
热设计功耗(TDP) 70 W
Antoum®芯片名称 墨芯Antoum®英腾®芯片
外形尺寸 单槽,半高半长
PCI IDs Device ID: 0x7000
Vendor ID: 0x1F36
Sub-vendor ID: 0x1F36
Sub-system ID: 0x7000
VBIOS NOR-Flash大小 16 MB
散热方式 被动散热
系统接口 PCIe Gen 3 x 16
板卡重量 316.8 g
P2P 带宽 P2P 单边带宽 9.52 GB/s
P2P 双边带宽 19.04 GB/s

内存规格

规格 描述
最大内存时钟 4200 MHz
内存大小 20 GB
内存总线宽度 160-bit
峰值内存带宽 峰值内存写带宽 65 GB/s
峰值内存读带宽 65 GB/s

环境和可靠性规格

规格 描述
操作环境温度 0℃ - 50℃
存储温度 -40℃ - 70℃
操作环境湿度 5% - 95% 相对湿度
存储湿度 5% - 95% 相对湿度
降频温度 90℃
停止工作温度 100℃
下电温度 110℃

散热气流方向支持

S4 计算卡采用双向散热设计,支持气流从左到右或从右到左的流动方向,如图 2 所示。

散热气流方向

产品功能

PCIe 接口规格

介绍 S4 计算卡支持的 PCIe 接口规格。

PCIe 速率支持

S4 计算卡支持 PCIe Gen 3。

极性反转和通道位置翻转支持

S4 计算卡支持 PCIe 规范中定义的极性反转(Polarity Inversion)和通道位置翻转(Lane Reversal)。当翻转 PCIe 通道时,Rx 通道和 Tx 通道的顺序都必须颠倒。

硬件信任根

S4 计算卡通过片上硬件安全引擎和 ARM CPU 信任区域技术支持硬件信任根(Root of Trust)。信任根的基本功能包括安全引导和安全固件升级。S4 计算卡可以通过加密和认证进一步保护用户的 AI 模型,由强大的密钥管理系统和硬件信任根支持。

多实例 SPU 支持

S4 计算卡支持最多 4 个多实例 SPU (Sparse Processing Unit,稀疏处理单元)。墨芯人工智能 MIS (Multi-Instance SPU) 技术可以将 S4 计算卡划分为多个单个实例,每个实例与自己的 DDR、片上存储器、AI 计算核心、视频编解码器和 JPEG 解码器完全隔离,从而实现计算资源供应和服务质量的优化。

外形规格

S4 计算卡采用半高半长的设计,标称尺寸如图 3 所示。

S4 计算卡外形规格