DCSM 安装指南

概述

MOFFETT Data Center SPU Manager (简称 DCSM) 是一套用于监控、诊断墨芯 SPU 设备的软件工具,旨在简化用户在集群和数据中心场景中管理墨芯 SPU 设备的操作。

前提条件

已安装 SOLA,且 SOLA 版本不低于 SOLA 3.5.5。安装 SOLA 的步骤,请参见 SOLA Toolkit 安装指南

下载 DCSM 软件包

Ubuntu/Debian

$ wget http://moffett-oss-bucket01.oss-cn-shenzhen.aliyuncs.com/dcsm/dcsm_1.0.0_amd64.deb 

RHEL/CentOS

$ wget http://moffett-oss-bucket01.oss-cn-shenzhen.aliyuncs.com/dcsm/dcsm-1.0.0-1.x86_64.rpm

安装指南

DCSM 可以使用多种方式安装,请根据您实际环境的操作系统版本来选择相应的安装方式。下文将为您详细介绍几种主流的发行版的安装方式。

说明建议您安装 SOLA 时,尽量不要使用 Runfile 包的安装方式,从而避免安装 DCSM 时包管理工具提示动态库未安装的问题。

Ubuntu/Debian

命令格式

在命令行中执行以下命令:

#请将安装包名替换为您实际下载的安装包名
$ sudo dpkg -i dcsm_<version>_<architecture>.deb
$ dpkg -l | grep dcsm

命令示例

$ sudo dpkg -i dcsm_1.0.0_amd64.deb
$ dpkg -l | grep dcsm

RHEL 8/RHEL 9/CentOS 8/CentOS 9/AliOS

命令格式

在命令行中执行以下命令:

#请将安装包名替换为您实际下载的安装包名
$ sudo rpm -U dcsm-<version>.<architecture>.rpm
$ rpm -qi dcsm

命令示例

$ sudo rpm -U dcsm-1.0.0-1.x86_64.rpm
$ rpm -qi dcsm

启动 DCSM 服务 (启动 mx-hostengine)

  1. 执行以下命令,启动 DCSM 服务。

    $ sudo systemctl --now enable dcsm
    
  2. 查看服务是否启动成功,状态为 running 即代表启动成功。

    $ systemctl status dcsm
    ● dcsm.service - MOFFETT DCSM service
       Loaded: loaded (/usr/lib/systemd/system/dcsm.service; enabled; vendor preset: enabled)
       Active: active (running) since Mon 2024-09-23 10:35:53 CST; 10s ago
     Main PID: 81567 (mx-hostengine)
        Tasks: 5 (limit: 24575)
       CGroup: /system.slice/dcsm.service
               └─81567 /usr/bin/mx-hostengine -n
    
    9月 23 10:35:53 moffett-PowerEdge-R750xa systemd[1]: Started MOFFETT DCSM service.
    9月 23 10:35:53 moffett-PowerEdge-R750xa mx-hostengine[81567]: DCSM initialized
    9月 23 10:35:53 moffett-PowerEdge-R750xa mx-hostengine[81567]: Started host engine version 1.0.0 using port number: 9494
    

验证安装结果

执行以下命令,获取机器上的墨芯 SPU 设备信息,返回设备信息即代表 dcsm 安装成功。

$ dcsmi discovery -l
3 SPUs found.
Device 0
    Name: 00S30-00A
    PCI Bus ID: 0:19:00.0
    Device UUID: 0201000000-0000-0000-0000-00AKK6950980
Device 1
    Name: 00S30-00A
    PCI Bus ID: 0:1a:00.0
    Device UUID: 0302000000-0000-0000-0000-00AKK6950980
Device 2
    Name: 00S30-00A
    PCI Bus ID: 0:1b:00.0
    Device UUID: 0103000000-0000-0000-0000-00AKK6950980

卸载 DCSM

  1. 暂停并禁用 DCSM 服务。

      $ sudo systemctl --now disable dcsm
      Removed /etc/systemd/system/multi-user.target.wants/dcsm.service.
    
  2. 执行卸载命令。

    说明执行卸载操作会移除 DCSM 软件包提供的所有文件,包括二进制可执行文件和库文件。

    如果您是使用 RPM 软件包方式安装,可执行以下命令卸载 DCSM:

     $ sudo rpm -e dcsm
    

    如果您是使用 Deb 软件包方式安装,可执行以下命令卸载 DCSM:

     $ sudo dpkg -r dcsm
    

更多详情

如需了解 DCSM 的使用方式,请参见使用 DCSM 组件