墨芯 S30 AI 计算卡 Datasheet
产品简介
墨芯人工智能 S30 计算卡(以下简称 S30 计算卡)搭载墨芯首颗芯片 Antoum®,是高达 32 倍稀疏率的 AI 计算卡。S30 计算卡专注于数据中心 AI 推理应用,可广泛应用于互联网、运营商、智慧城市、生命科学、自动驾驶等众多 AI 推理场景。
S30 计算卡在 250 W 功率下提供等效于 2832 TOPS INT8 和 1415.4 TFLOPS FP16/BF16 的算力 (32 倍稀疏化)。板载 60 GB LPDDR4x 内存,S30 计算卡可以提供高达 185 GB/s 峰值内存写带宽和 185 GB/s 峰值内存读带宽。墨芯人工智能独创双稀疏算法技术和 Antoum®芯片架构,与市场上同类产品相比,S30 计算卡算力具有数量级提升,并为客户极大降低 TCO(TotalCost of Ownership,即总拥有成本)。
通过软硬件紧密结合的 AI SoC 设计,原生稀疏卷积和矩阵乘法的稀疏处理单元(SPU)与异构的特殊功能加速器,让AI 推理应用效率最大化,为客户提供最大价值。矢量处理单元(VPU)可以提供灵活的可编程性,支持快速发展的 AI 算法框架。例如,在视频和图像处理上,视频编解码器以高达 30 FPS 的速度解码 192 路 1080p 的视频,JPEG 解码器以高达 6960 FPS 的速度解码 1080p 的图像。
系统参数
参数 | 描述 |
---|---|
FP16/BF16 稀疏处理单元峰值 | 44.1 TFLOPS | 1415.4 TFLOPS* |
INT8 稀疏处理单元峰值 | 88.5 TOPS | 2832 TOPS* |
FP16/BF16 矢量处理单元峰值 | 9.6 TFLOPS |
多媒体引擎 | 12 个视频解码器硬件,30 FPS 的速率解码 192 路 1080p 的视频 3 个视频编码器硬件,30 FPS 的速率编码 24 路 1080p 的视频 24 个 JPEG 解码器,6960 FPS 的速率解码支持 1080p 的图像 |
硬件加速 | 激活函数加速器 TOPK 硬件加速器 数据排布引擎 嵌入查找加速器 图像处理器(裁剪、调整大小和色彩空间转换) |
内存 | 60 GB LPDDR4x |
理论峰值内存带宽 | 峰值内存写带宽 185 GB/s 峰值内存读带宽 185 GB/s |
系统接口 | PCIe Gen4 x16 |
外形规格 | 全高全长,双槽 |
散热解决方案 | 被动式 |
TDP | 250 W |
注: *表示32倍稀疏
产品性能
实测数据显示,S30 计算卡相较于 S4 和 S10,可提供更高的算力。ResNet-50 和 Bert-Large 模型在 S4、S10 和 S30 计算卡的测试结果如下所示:
MLPerf Inference 3.1 中,S30 计算卡在大模型 GPT-J(60 亿参数)上,与 4nm 制程的英伟达 H100 纯硬件加速方案相比,12nm 制程的 S30 通过原创的双稀疏算法硬件协同方式,取得了高达 1.8 倍的优势。 S30 计算卡在 8 卡、4 卡、单卡模式下,性能分别为 170.59、91.57、23.28 (Sample/s),达到 H100 性能的 1.6 倍、1.8 倍、1.8 倍。
突破性创新技术
墨芯 Antoum®️ 架构
Antoum® 架构通过软硬件协同设计的创新方法实现高性能和高能效。
稀疏处理单元可支持高达 32 倍稀疏化,并具备线性加速比。
定制的激活引擎直接支持 BERT 模型中使用的 GELU 等复杂激活函数,以及可用于实现复杂激活函数的指数、对数、倒数等基本数学运算。
稀疏处理单元本身支持卷积和矩阵乘法运算,可以动态支持算子融合计算,如偏置加法、元素运算、量化和一些简单激活函数。
芯片计算单元和大容量大带宽片上存储紧密耦合,结合模型压缩稀疏能力,各种计算均可以在 Antoum® 芯片上完成,计算效率在业界处于领先位置。
高倍率稀疏张量核
S30 计算卡是业界支持高倍率稀疏张量运算的 AI 推理加速卡,支持高达 32 倍稀疏率,同时实现稀疏神经网络的高模型精度和高硬件执行效率。
高性能多媒体处理能力
S30 计算卡集成专用硬件视频编解码器引擎和 JPEG 解码器引擎。S30 计算卡支持创新智能视频分析服务,可轻松集成可扩展的深度学习算法,配备 12 个视频解码器引擎和 3 个视频编码引擎,可以编解码 4K 多路视频流数据。24 个 JPEG 解码器可以减轻 CPU 密集型的 JPEG 解码任务,以每秒 6000 帧以上的速度解码 1080p JPEG 图像数据。
可扩展性
S30 计算卡通过自定义稀疏处理单元和其他辅助加速单元形成 稀疏处理子系统,包括专用视频编解码器、JPEG 解码器引擎、词向量查找单元、内存格式转换引擎、向量处理器。12 个稀疏处理子系统每 4 个通过高带宽片上环网组成一个完整的芯片,可扩展的多通道子系统可以灵活地支持并行模型和并行数据计算。
企业级端到端的解决方案
墨芯 SparseRT™️ 软件开发环境全面支持 S30 计算卡,为快速开发提供了完整的可扩展平台并激活稀疏计算的潜力。除了 S30 计算卡,SparseRT™️ 可以高效支持通用的 AI 編程框架,如 TensorFlow、PyTorch、ONNX 和 MXNet 等。用户可以在熟悉的 TensorFlow 或 PyTorch 环境里进行开发之后再进行迁移与交付。
SparseRT™ 独特的 SparseOptimizer™ 为 AI 模型提供 4 至 32 倍的稀疏压缩能力,并且很容易集成到现有的模型交付流程中,从而充分释放大型模型的实时服务潜力。SparseRT™提供可视化性能分析工具,支持离线和实时的模型性能分析,帮助开发人员分析模型中存在的瓶颈,并为开发人员提供模型部署优化建议,使开发人员能将 S30 计算卡软硬件解决方案几乎零成本集成到现有的基础设施和算法交付中。