墨芯 S30 AI 计算卡产品手册

概述

墨芯人工智能 S30 计算卡（下文简称 S30 计算卡）为数据中心的 AI 推理应用而打造。作为通用深度学习推理加速器，外形规格采用双槽 PCle Gen4 x16 的全高全长的设计方式。S30 计算卡支持 60 GB LPDDR4x 内存，高达 185 GB/s 峰值内存写带宽和 185 GB/s 峰值内存读带宽，最大功耗 250 W。被动冷却板设计使其在热限制内，通过系统气流来实现计算卡的操作。

S30 计算卡基于墨芯人工智能 Antoum® 架构构建。通过软硬件紧密结合的架构设计，强调平衡的结构化稀疏性，支持高达 32 倍的高稀疏率。基于 Antoum® 架构，S30 计算卡支持 FP16/BF16 和 INT8 计算。同时，S30 计算卡支持包括集成模型稀疏器的软件工具链、编译器和运行时在内的端到端软件解决方案，确保主流 AI 推理作业可以快速实现。

硬件与软件紧密结合的设计使得 Antoum® 成为一个高效的人工智能片上系统处理器。此外，S30 计算卡还支持硬件视频编解码器和 JPEG 解码器，使其能够处理各种视频和图像应用场景。同时，S30 计算卡随设备发货时，为系统 DDR 开启 ECC 功能，防止内存出现可检测的错误。

../../_images/S30-1.png

规格

产品规格

规格	描述
产品名称	SparseOne®疏云®AI 计算卡系列\|墨芯人工智能 S30 计算卡
TDP	250 W
Antoum®️芯片名称	墨芯 Antoum®英腾®芯片
机械外形规格	双槽，全高全长
PCI IDs	Device ID: 0x7030 Vendor ID: 0x1F36 Sub-vendor ID: 0x1F36 Sub-system ID: 0x7000
VBIOS NOR-Flash 大小	16 MB
热冷却解决方案	被动式
系统接口	PCIe Gen 4 x16
板卡重量	1584.4 g
P2P 带宽	P2P 单边带宽：26.38GB/s P2P双边带宽：52.76GB/s
Idle Power	40 W

内存规格

规格	描述
最大内存时钟	4200 MHz
内存大小	60 GB
内存总线宽度	480-bit
理论峰值内存带宽	峰值内存写带宽 185 GB/s 峰值内存读带宽 185 GB/s

环境和可靠性规格

规格	描述
操作环境温度	0℃ - 50℃
存储温度	-40℃ - 70℃
操作环境湿度	5%~95% 相对湿度
存储湿度	5%~95% 相对湿度
降频温度	90 ℃
停止工作温度	100℃
下电温度	110℃

电源示意图和管脚定义

接口名称

PCIe 8-Pin Power Connector

电源位置示意图

../../_images/S30-2.png

电源管脚定义

../../_images/S30-3.png

气流方向的支持

S30 计算卡采用双向散热的设计，实现灵活散热。它可以接受从左到右或者从右到左的气流，如下图所示。

../../_images/S30-4.png

产品功能

PCIe 接口规格

S30 计算卡的接口规格如下所述：

PCIe 速率支持

S30 计算卡支持 PCIe Gen 4.0

PN 翻转和 Lane 翻转支持

S30 计算卡支持 PCIe 规范中定义的 PN 翻转和 Lane 翻转。当翻转 PCIe 通道时，Rx 通道和 Tx 通道的顺序都必须颠倒。

硬件信任根

S30 计算卡通过片上硬件安全引擎和 ARM CPU 信任区域技术支持硬件根信任。信任根的基本功能包括安全引导和安全固件升级。S30 计算卡可以通过加密和认证进一步保护用户的 AI 模型，由强大的密钥管理系统和硬件信任根支持。

多实例 SPU 支持

S30 计算卡支持最多 12 个多实例 SPU（稀疏处理单元）。墨芯人工智能 MIS （Multi-Instance SPU）技术可以将 S30 计算卡划分为多个单个实例，每个实例与自己的 DDR、片上存储器、AI 计算核心、视频编解码器和 JPEG 解码器完全隔离，从而实现计算资源供应和服务质量的优化。

外形规格

S30 计算卡采取全高全长双槽的设计，标称尺寸如下图所示。

../../_images/S30-5.png