# MACS 发布日志 ## 概述 墨芯高级计算系统(MOFFETT Advanced Computing System,简称MACS)以SOLA Tookit的形式交付,它提供了驱动、运行时库以及一系列的工具,便于用户开发和调试在墨芯 AI 加速卡上的应用程序。MACS发布日志记录了SOLA各组件的版本、功能变更、问题修复等信息。 ## MACS 1.3.1 更新说明 ### 主要组件版本 | **组件** | **名称** | **版本** | **支持架构** | **支持平台** | | -------------------------------- | ----------------- | -------- | ------------ | ------------ | | SOLA Runtime Library | libsola.so | 3.7.0 | x86_64 | Linux | | SOLA Driver | N/A | 3.7.1 | x86_64 | Linux | | MOFFETT Management Library | libmfml.so | 1.06 | x86_64 | Linux | | MOFFETT SMI | mx-smi | 2.4.0 | x86_64 | Linux | | MOFFETT Qualification | mx-qual | 1.5.0 | x86_64 | Linux | | MOFFETT Firmware | N/A | 3.7.0 | x86_64 | Linux | | MOFFETT Kubernetes Device Plugin | k8s-device-plugin | 0.2.0 | x86_64 | Linux | | MOFFETT UBoot Firmware | N/A | 1.0.15 | x86_64 | Linux | ### **SOLA Driver** - 修复手动 MCU OTA 内存释放不完整的问题。 - 修复 S40 DC 测试偶现 MCU 版本号为 0 的问题。 - 修复 S40 DC 测试偶现电压值异常的问题。 ## MACS 1.3 更新说明 ### 主要组件版本 | **组件** | **名称** | **版本** | **支持架构** | **支持平台** | | -------------------------------- | ----------------- | -------- | ------------ | ------------ | | SOLA Runtime Library | libsola.so | 3.7.0 | x86_64 | Linux | | SOLA Driver | N/A | 3.7.0 | x86_64 | Linux | | MOFFETT Management Library | libmfml.so | 1.06 | x86_64 | Linux | | MOFFETT SMI | mx-smi | 2.4.0 | x86_64 | Linux | | MOFFETT Qualification | mx-qual | 1.5.0 | x86_64 | Linux | | MOFFETT Firmware | N/A | 3.7.0 | x86_64 | Linux | | MOFFETT Kubernetes Device Plugin | k8s-device-plugin | 0.2.0 | x86_64 | Linux | ### **SOLA Runtime** - `SOLA_VISIBLE_DEVICES` 支持 0,1,2/none 等写法 - 优化线程池实现 - 使用 mimalloc,优化性能 ### **SOLA Driver** - PCIe bar4 size支持到 16G,可以访问整个 local ddr - 适配 S40 - MFML新增动态调整频率和电压 API - 新增支持 Ubuntu 22.04 ### **MOFFETT Qualification** - 适配 S40 ### **MOFFETT** **SMI** - `reboot `子命令增加操作日志 - 增加板卡功率展示 - 适配 S40,优化展示内容 ### **MOFFETT Kubernetes Device Plugin** - 优化设备资源可见性 ## **MACS 1.2 更新说明** ### **SOLA Runtime** - 重构大模型 trigger 方案 - 支持大模型 data pipeline - 支持 4 core split 模式下内存只由 core 0 输出 - 支持大模型 profile - 支持获取设备的 SN、board_id - 优化日志 ### **SOLA Driver** - 支持通过PCIe switch 测试设备眼图 - 支持UCE计数 - 修复个别AMD芯片服务器无法识别卡问题 - 曙光服务器和麒麟系统的适配 - 设备启动恢复电压值为default值 ### **MOFFETT Qualification** - 优化 help 信息 - 优化 stress 功能,支持任意负载 ### 其它 - 安装包增加 EULA(End User License Agreement) - Runfile 安装增加依赖检查 ## **MACS 1.1.5 更新说明** ### **SOLA Runtime** - 自动管理 Create 相关接口的内存,析构自动释放 ### **SOLA Driver** - 增加 ioctl 接口的参数检查 ## MACS 1.1.4 更新说明 **其它** - Deb、RPM安装包结构规范 - 预编译二进制增加 Full RELRO、PIE、Canary 等安全编译选项 ## MACS 1.1.3 更新说明 ### **SOLA Driver** - 增加开机时 PCIe 速率检测,发现降速后自动恢复 ### **MOFFETT Qualification** - 将 `p2p` 可选参数改为 `-d` 和 `-c`,分别表示以 device 为单位或以 card 为单位进行测试 - 修复 `p2p` 测试双向带宽计算错误的 bug - 修复 `p2p` 测试 latency 波动不合理的 bug - 优化 `compute` 测试,展示在不同稀疏倍率下的算力 - `compute` 测试增加可选参数 `-i`,用于指定测试的设备 - `stress` 测试删除可选参数 `--loop`,调整可选参数 `--time` 的数值范围 - `stress` 测试增加可选参数 `--load`,表示负载程度,支持0%、50%、100%负载 - `stress` 改为同时进行计算和内存测试 **MOFFETT** **SMI** - 以 board id 作为卡展示模式下的 id - 修复某些情况下,展示的 device 和实际可用的数量不一致的问题 - 优化 `reboot` 在 device 无法访问时的错误信息 ## **MACS 1.1.2 更新说明** ### **SOLA Driver** - 修复reboot时电压偶现为0的问题 - 裁减固件大小,将开机加载固件优化到20秒 ### **MOFFETT Qualification** - 修复执行路径无写入权限导致的crash ### **其它** - moffett-bug-report.sh 需要root权限,以收集PCIe的详细信息 ## **MACS 1.1 更新说明** ### **SOLA Runtime** - 新增特性 - 所有 C++ 接口重构为 C 接口 - 修复问题 - 修复打开 Profiler 某些情况下写文件会 crash 的问题 ### **SOLA Driver** - 修复问题 - 整机功耗调整为 250W - Idle 整机功耗调整到 30W 以内 - 修复通过 BMC 监控 GPU 温度值跳变问题 - 修复启动过程中,BMC 监控到 GPU 温度值为 0 的问题 - 修复 mx-smi 概率性读到的功耗为 0 的问题 - 修复个别卡偶现 subsys 加载固件失败的问题 - 修复个别服务器 bloom 程序执行失败的问题 - 修复个别服务器 p2p 程序执行失败的问题 - 修复个别服务器超温降频后无法恢复成原始频率的问题 ### **MOFFETT Management Library** - 新增特性 - 增加获取 XID Error 的 API ### **MOFFETT SMI** - 新增特性 - `--help`, `--version` 参数在驱动未加载时也可以运行 - 修复问题 - `--help` 中 `device_id` 范围变为 0 ~ 31 - 修复 `list` / `query` 命令参数重复时的显示问题 ### **MOFFETT Qualification** - 修复问题 - 修复 `stress` 命令没有权限创建文件引起的 crash 问题 - `compute` 命令 `conv2d` 必须指定 `--sparsity` 和 `--iochannel` 参数 - `compute` 命令 `multiply` 不允许指定 `--sparsity` 和 `--iochannel` 参数 ### **MOFFETT Kubernetes Device Plugin** - 第一次发布墨芯 k8s-device-plugin, 支持在 Kubernetes 集群中使用墨芯 AI 加速卡设备。 ## **MACS 1.0 更新说明** ### **SOLA Runtime** - 第一次发布 SOLA Runtime API。 ### **SOLA Driver** - 第一次发布 SOLA Driver。 ### **MOFFETT Management Library** - 第一次发布 `MXML` 库。 ### **MOFFETT SMI** - 第一次发布 `mx-smi` 工具。 ### **MOFFETT Qualification** - 第一次发布 `mx-qual` 工具。 ### **MOFFETT Firmware Tools** - 第一次发布 `mx-mft` 工具。