mx-smi 用户手册

mx-smi(MOFFETT System Management Interface)是基于 MOFFETT Management Library(MFML)的系统管理命令行工具,用于收集设备信息、查看设备健康状态、重启设备、加载固件以及设置风扇控制的相关参数等。

命令格式:mx-smi [选项] [子命令]

-h,--help

显示帮助信息。

--version

显示 mx-smi 的版本。

-l,--loop

按指定的时间间隔持续输出命令结果。取值范围:1-3600 秒,默认间隔:5 秒。使用 Ctrl+C 终止输出。

mx-smi
╭─────────────────────────────────────────────────────────────────────────────────────────╮
│MOFFETT-SMI 2.9.0          Driver Version 3.12.0          SOLA Version 3.12.0            │
╰─────────────────────────────────────────────────────────────────────────────────────────╯
 Card
┌─────────────────────────────────────────────────────────────────────────────────────────┐
│Index     Name    Freq.  Voltage Temp. Fan Pwr Util  Bus ID   Memory-Usage       SN      │
├─────────────────────────────────────────────────────────────────────────────────────────┤
│Card0  S40-02-A02 700MHz  930mV   28C  20% 31W  0%  0:34:00.0 0MiB/81920MiB 2515040220003│
├─────────────────────────────────────────────────────────────────────────────────────────┤
│Card1  S40-02-A02 700MHz  930mV   28C  20% 33W  0%  0:3c:00.0 0MiB/81920MiB 2515040220004│
├─────────────────────────────────────────────────────────────────────────────────────────┤
│Card2  S40-02-A02 700MHz  930mV   29C  20% 30W  0%  0:9f:00.0 0MiB/81920MiB 2515040220002│
├─────────────────────────────────────────────────────────────────────────────────────────┤
│Card3  S40-02-A02 700MHz  930mV   28C  20% 33W  0%  0:a7:00.0 0MiB/81920MiB 2515040220001│
└─────────────────────────────────────────────────────────────────────────────────────────┘
 Processes
┌─────────────────────────────────────────────────────────────────────────────────────────┐
│Index    PID   Process Name                                                  Memory Usage│
├─────────────────────────────────────────────────────────────────────────────────────────┤
│   [No running processes found]                                                          │
└─────────────────────────────────────────────────────────────────────────────────────────┘

须知

显示的板卡信息为该卡下 Bus ID 值最小的设备信息。

输出字段(Card) 说明
Index 板卡索引
Name 产品名称
Freq. 板卡的频率
Voltage 板卡的电压
Temp. 板卡的温度
Fan 风扇调速比(单位:%),默认为 20%。仅支持 S40AC 计算卡,其他型号板卡显示为 N/A
Pwr 板卡功率,对不支持获取板卡功率的板卡则显示卡上所有设备的总功率
Util 板卡的使用率(负载)
Bus ID PCI 总线 ID,格式为 bus:domain:device.function
Memory-Usage 板卡的内存使用情况,格式为 Usage/Total,即(已使用内存/内存总量)
SN 板卡的序列号,是板卡的唯一标识。
输出字段(Processes) 说明
Index 运行该进程的板卡编号以及对应的设备 ID,输出格式为:(板卡编号:设备 ID)
PID 进程 ID
Process Name 进程名,最大展示长度为 32 个字符,超出长度后以 … 省略开头的字符
Memory Usage 进程占用的内存大小

子命令 list

查看设备的基本信息。

mx-smi list [选项]

-h,--help

显示帮助信息。

-i,--index

指定设备 ID,取值范围:0-31。如果未指定,则显示所有设备信息;如果指定多个值:

  • 空格分隔,例如:-i 0 1 2

  • 花括号中逗号分隔,例如:-i {0,1,2}

-l,--loop

按指定的时间间隔持续输出命令结果。取值范围:1-3600 秒,默认间隔:5 秒。使用 Ctrl+C 终止输出。

mx-smi list
╭────────────────────────────────────────────────────────────────────────────────────────╮
│MOFFETT-SMI 2.9.0          Driver Version 3.12.0          SOLA Version 3.12.0           │
╰────────────────────────────────────────────────────────────────────────────────────────╯
 Devices
┌────────────────────────────────────────────────────────────────────────────────────────┐
│Index    Name    Freq.  Voltage Temp. Fan Pwr Util  Bus ID   Memory-Usage       SN      │
├────────────────────────────────────────────────────────────────────────────────────────┤
│  +    00S30-00A                          4W                               2023513080332│
│  0              700MHz  930mV   26C  N/A 1W   0%  0:03:00.0 0MiB/20480MiB              │
│  1              700MHz  930mV   24C  N/A 1W   0%  0:04:00.0 0MiB/20480MiB              │
│  2              700MHz  930mV   26C  N/A 2W   0%  0:05:00.0 0MiB/20480MiB              │
├────────────────────────────────────────────────────────────────────────────────────────┤
│  +    00S30-00A                          3W                               2023513080288│
│  3              700MHz  930mV   27C  N/A 1W   0%  0:25:00.0 0MiB/20480MiB              │
│  4              700MHz  925mV   27C  N/A 1W   0%  0:26:00.0 0MiB/20480MiB              │
│  5              700MHz  925mV   28C  N/A 1W   0%  0:27:00.0 0MiB/20480MiB              │
├────────────────────────────────────────────────────────────────────────────────────────┤
│  +    00S30-00A                          3W                               2023483080244│
│  6              700MHz  930mV   27C  N/A 1W   0%  0:43:00.0 0MiB/20480MiB              │
│  7              700MHz  930mV   28C  N/A 1W   0%  0:44:00.0 0MiB/20480MiB              │
│  8              700MHz  930mV   28C  N/A 1W   0%  0:45:00.0 0MiB/20480MiB              │
├────────────────────────────────────────────────────────────────────────────────────────┤
│  +    00S30-00A                          5W                               2024083080031│
│  9              700MHz  930mV   26C  N/A 1W   0%  0:83:00.0 0MiB/20480MiB              │
│  10             700MHz  930mV   24C  N/A 2W   0%  0:84:00.0 0MiB/20480MiB              │
│  11             700MHz  940mV   29C  N/A 2W   0%  0:85:00.0 0MiB/20480MiB              │
├────────────────────────────────────────────────────────────────────────────────────────┤
│  +    00S30-00A                          4W                               2023513080299│
│  12             700MHz  930mV   30C  N/A 1W   0%  0:a3:00.0 0MiB/20480MiB              │
│  13             700MHz  930mV   30C  N/A 2W   0%  0:a4:00.0 0MiB/20480MiB              │
│  14             700MHz  930mV   30C  N/A 1W   0%  0:a5:00.0 0MiB/20480MiB              │
├────────────────────────────────────────────────────────────────────────────────────────┤
│  +    00S30-00A                          3W                               2023513080279│
│  15             700MHz  925mV   25C  N/A 1W   0%  0:c3:00.0 0MiB/20480MiB              │
│  16             700MHz  930mV   24C  N/A 1W   0%  0:c4:00.0 0MiB/20480MiB              │
│  17             700MHz  930mV   25C  N/A 1W   0%  0:c5:00.0 0MiB/20480MiB              │
├────────────────────────────────────────────────────────────────────────────────────────┤
│  +    00S30-00A                          5W                               2023513080328│
│  18             700MHz  930mV   24C  N/A 1W   0%  0:e3:00.0 0MiB/20480MiB              │
│  19             700MHz  930mV   25C  N/A 2W   0%  0:e4:00.0 0MiB/20480MiB              │
│  20             700MHz  930mV   25C  N/A 2W   0%  0:e5:00.0 0MiB/20480MiB              │
└────────────────────────────────────────────────────────────────────────────────────────┘
 Processes
┌────────────────────────────────────────────────────────────────────────────────────────┐
│Index    PID   Process Name                                                 Memory Usage│
├────────────────────────────────────────────────────────────────────────────────────────┤
│   [No running processes found]                                                         │
└────────────────────────────────────────────────────────────────────────────────────────┘

子命令 query

显示设备的详细信息。

mx-smi query [选项]

-h,--help

显示帮助信息。

-i,--index

指定设备 ID,取值范围:0-31。如果未指定,则显示所有设备信息;如果指定多个值:

  • 空格分隔,例如:-i 0 1 2

  • 花括号中逗号分隔,例如:-i {0,1,2}

-d,--display

仅显示选定字段的信息。如果未指定,则显示所有字段信息;如果指定多个字段:

  • 空格分隔,例如:-d MEMORY POWER

  • 花括号中逗号分隔,例如:-d {MEMORY,POWER}

可选字段

说明

MEMORY

设备内存信息

UTILIZATION

设备使用率信息

TEMPERATURE

设备的温度信息

POWER

设备的功耗信息

FREQUENCY

设备的频率信息

FAN

风扇信息

VOLTAGE

设备的电压信息

PIDS

执行中任务的系统进程 ID

ECC

ECC 信息

-l,--loop

按指定的时间间隔持续输出命令结果。取值范围:1-3600 秒,默认间隔:5 秒。使用 Ctrl+C 终止输出。

mx-smi query -i 0
Timestamp                             : Wed May 21 13:36:49 2025
Driver Version                        : 3.12.0
SOLA Version                          : 3.12.0

Attached Devices                      : 16

Device 0
    Product Name                      : S40-02-A02
    SPU Cores Number                  : 4
    FW Version                        : 1.0.17
    MCU Version                       : 3V02
    Serial Number                     : 2515040220003
    UUID                              : 04300000000000000000000002515040220003
    Board Id                          : 0x000
    PCI
        Bus                           : 0x34
        Device                        : 0x00
        Domain                        : 0x0000
        Bus Id                        : 0:34:00.0
        Device Id                     : 0x70401f36
        Sub System Id                 : 0x70011f36
    Fan
        Fan Policy                    : balance
        Fan Speed                     : 24% (1740 RPM)

    Memory Usage
        Total                         : 20480 MiB
        Reserved                      : 4484 MiB
        Used                          : 0 MiB
        Free                          : 15996 MiB
    Utilization
        Core 0                        : 0 %
        Core 1                        : 0 %
        Core 2                        : 0 %
        Core 3                        : 0 %
        Max                           : 0 %
        Min                           : 0 %
        Avg                           : 0 %
    ECC Errors
        Volatile
            Device Memory Corrected   : 0
            Device Memory Uncorrected : 0
        Aggregate
            Device Memory Corrected   : 1
            Device Memory Uncorrected : 0
    Temperature                       : 27 C
    Power
        Power Draw                    : 2 W
        Power Limit                   : 83 W
    Frequency                         : 700 MHz
    Voltage                           : 930 mV
    Processes
输出字段 说明
Timestamp 当前时间戳
Driver Version 驱动版本
Sola Version SOLA Toolkit 版本
Attached Devices 设备数量
Device 设备标识
Product Name 产品名称
SPU Cores Number 设备核心数量
FW Version 固件版本
MCU Version MCU 版本
Serial Number 序列号(同一张板卡拥有相同序列号)
UUID UUID(每个设备全局唯一 ID)
Board Id 板卡 ID
PCI PCI 信息
Bus PCI bus(16 进制)
Device PCI device(16 进制)
Domain PCI domain(16 进制)
Bus Id PCI bus ID,格式为 domain:bus:device.function(16 进制)
Device Id PCI vendor device ID(16 进制)
Sub System Id PCI 子系统 ID(16 进制)
Fan 风扇信息
Fan Policy 风扇模式
Fan Speed 风扇调速比(%)及每分钟转速(RPM)
Memory Usage 内存使用情况
Total SPU 总内存(单位:MiB)
Reserved SPU 预留内存(单位:MiB)
Used SPU 已使用内存(单位:MiB)
Free SPU 总空闲内存(单位:MiB)
Utilization 使用率(各核心上的平均使用率)
ECC Errors ECC 错误信息
Volatile 易失性设备内存错误信息
Device Memory Corrected 已纠正的易失性设备内存错误数量
Device Memory Uncorrected 未纠正的易失性设备内存错误数量
Aggregate 聚合设备内存错误信息
Device Memory Corrected 已纠正的聚合设备内存错误数量
Device Memory Uncorrected 未纠正的聚合设备内存错误数量
Temperature 设备的温度(单位:℃)
Power 设备功率信息
Power Draw 设备的当前功率
Power Limit 设备的最大功率(单位:W)
Frequency 设备的频率(单位:MHz)
Voltage 设备的电压(单位:mV)

子命令 select

打印指定的设备属性信息。

mx-smi select [选项]

通用选项

-h,--help

显示帮助信息。

-noheader

不显示属性名表头。

-l,--loop

按指定的时间间隔持续输出命令结果。取值范围:1-3600 秒,默认间隔:5 秒。使用 Ctrl+C 终止输出。

指定字段选项(二选一)

--board-field

指定显示板卡信息的字段。

(可选)-b, --board:指定板卡 ID,取值范围:0-7。如果未指定,默认显示所有板卡信息;如果指定多个字段或值:

  • 空格分隔,例如:--board-field board board.power

  • 花括号中逗号分隔,例如:--board-field {board,board.power} -b {0,1}

可选字段(不区分大小写):

可选字段

说明

board

板卡 ID

board.fan.policy

风扇模式

board.fan.speed

风扇调速比(单位:%)

board.fan.speed_rpm

风扇每分钟转速(RPM)

board.power

风扇功率

-f,--field

指定显示 SPU 设备信息的字段。

(可选)-i,--index:指定设备 ID,取值范围:0-31。如果未指定,默认显示所有设备信息;如果指定多个字段或值:

  • 空格分隔,例如:-f index pci.bus_id

  • 花括号逗号分隔,例如:-f {index,pci.bus_id} -i {0,1,2}

可选字段(不区分大小写):

可选字段

说明

board

板卡 ID

cores

设备核心数量

count

检测到的设备数量

driver_version

驱动版本

ecc.errors.corrected.volatile.device_memory

已纠正的易失性设备内存错误数量

ecc.errors.corrected.aggregate.device_memory

已纠正的聚合设备内存错误数量

ecc.errors.uncorrected.volatile.device_memory

未纠正的易失性设备内存错误数量

ecc.errors.uncorrected.aggregate.device_memory

未纠正的聚合设备内存错误数量

fan.policy

风扇模式

fan.speed

风扇调速比(单位:%)

fan.speed_rpm

风扇每分钟转速(RPM)

firmware_version

固件版本

frequency

设备的频率(单位:MHz)

index

设备 ID(根据 PCI bus ID 生成)

mcu_version

MCU 版本

memory.free

SPU 总空闲内存(单位:MiB)

memory.reserved

SPU 预留内存(单位:MiB)

memory.total

SPU 总内存(单位:MiB)

memory.used

SPU 已使用内存(单位:MiB)

name

产品名称

pci.bus

PCI bus(16 进制)

pci.device

PCI device(16 进制)

pci.domain

PCI domain(16 进制)

pci.bus_id

PCI bus id,格式为 domain:bus:device.function(16 进制)

pci.device_id

PCI vendor device id(16 进制)

pci.sub_device_id

PCI Sub System id(16 进制)

power.draw

设备的当前功率(单位:W)

power.limit

设备的最大功率(单位:W)

serial

序列号(同一张板卡拥有相同序列号,不同板卡的序列号不同)

sola_version

SOLA 版本

temperature

设备的温度(单位:℃)

timestamp

当前时间戳

utilization

使用率(各核心上的平均使用率)

uuid

UUID(每个设备全局唯一 ID)

voltage

设备的电压(单位:mV)

以下示例查看设备的指定信息。默认第一行展示输出的属性名,后续每一行为用户指定的设备的属性信息。

mx-smi select -f {index,pci.bus_id,board} -i 2 1 0
index, pci.bus_id, board
2, 0:3a:00.0, 0
1, 0:39:00.0, 0
0, 0:38:00.0, 0

以下示例查看板卡的指定信息:

mx-smi select --board-field {board,board.power} -b 0 1 2
board, board.power
0, 7 W
1, 3 W
2, 4 W

子命令 config

设置风扇模式和转速,操作记录保存在 /var/log/moffett/sola/smi.log 文件中。仅支持 S40AC 计算卡。

mx-smi config [选项] fan [子选项]

通用选项

-h,--help

显示帮助信息。

指定设备选项(三选一)

-i,--index

指定要修改配置的设备 ID,取值范围:0-31。如果指定多个值:

  • 空格分隔,例如:-i 0 1 2

  • 花括号中逗号分隔,例如:-i {0,1,2}

-b,--board

指定要修改配置的板卡 ID,取值范围:0-7。如果指定多个值:

  • 空格分隔,例如:-b 0 1 2

  • 花括号中逗号分隔,例如:-b {0,1,2}

--all:

指定所有设备。

fan 命令选项

-h,--help

显示帮助信息。

--policy

墨芯设备支持基于 PWM(Pulse-Width Modulation)和 PID(Proportional Integral Differential)算法自动调整风扇转速,两种调速策略根据当前设备的最大温度输出占空比,并选取更大的占空比进行调速,具体如下表所示。

风扇调速模式

说明

balance

设置风扇工作在均衡模式。
该模式介于性能模式和静音模式之间,兼顾性能和降噪。

performance

设置风扇工作在性能模式。
该模式下风扇转速较高,优先保证设备在较低的结温下工作。此模式下设备噪音会增大,推荐在对性能要求高的场景下使用。

silent

设置风扇工作在静音模式。
该模式下风扇转速较低,噪音较小。此模式下设备结温会相对升高,推荐对降噪要求高的场景下使用。

manual

手动模式,与 --speed 选项同时使用,设置固定的风扇调速比。

--speed

manual 模式下,设置风扇调速比(单位:%)。取值范围:20-100,默认值:20。

mx-smi config -b 1 fan --policy manual --speed 80

子命令 reboot

重启设备并加载固件,操作记录保存在 /var/log/moffett/sola/smi.log 文件中。

sudo mx-smi reboot [选项]

通用选项

-h,--help

显示帮助信息。

指定设备选项(二选一)

-i,--index

指定要重启的设备 ID,取值范围:0-31。如果指定多个值:

  • 空格分隔,例如:-i 0 1 2

  • 花括号中逗号分隔,例如:-i {0,1,2}

--all

指定重启所有设备。

sudo mx-smi reboot --all